RU2825341C1 - Automatic localization of audio devices - Google Patents

Automatic localization of audio devices Download PDF

Info

Publication number
RU2825341C1
RU2825341C1 RU2023117015A RU2023117015A RU2825341C1 RU 2825341 C1 RU2825341 C1 RU 2825341C1 RU 2023117015 A RU2023117015 A RU 2023117015A RU 2023117015 A RU2023117015 A RU 2023117015A RU 2825341 C1 RU2825341 C1 RU 2825341C1
Authority
RU
Russia
Prior art keywords
audio
environment
data
intelligent
doa
Prior art date
Application number
RU2023117015A
Other languages
Russian (ru)
Inventor
Даниэль АРТЕАГА
Давиде СКАИНИ
Марк Р. П. ТОМАС
Эвери БРУНИ
Олха Мишель ТАУНСЕНД
Original Assignee
Долби Лэборетериз Лайсенсинг Корпорейшн
Долби Интернэшнл Аб
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Долби Лэборетериз Лайсенсинг Корпорейшн, Долби Интернэшнл Аб filed Critical Долби Лэборетериз Лайсенсинг Корпорейшн
Application granted granted Critical
Publication of RU2825341C1 publication Critical patent/RU2825341C1/en

Links

Abstract

FIELD: physics.
SUBSTANCE: invention relates to systems and methods for automatic location of audio devices. Disclosed method may include receiving direction of arrival (DOA) data corresponding to sound emitted by a first intelligent audio device in an audio environment, which includes a first audio transmitter and a first audio receiver, wherein the DOA data correspond to sound received by a second intelligent audio device in an audio environment, which includes a second audio transmitter and a second audio receiver, wherein the DOA data correspond to sound emitted by the second intelligent audio device and received by the first intelligent audio device, receiving configuration parameters corresponding to an audio environment, audio devices or both, and minimizing a cost function based on the DOA data and configuration parameters for estimating the position and orientation of the first and second intelligent audio devices. Also disclosed are a device and a system for localizing audio devices in an audio environment and a persistent medium.
EFFECT: enabling localization of a set of intelligent audio devices based on direction of arrival (DOA) data between each pair of audio devices in an audio environment and minimizing the problem of nonlinear optimization without the need for synchronism between devices.
14 cl, 15 dwg

Description

Перекрестные ссылки на родственные заявкиCross-references to related applications

По настоящей заявке испрашивается приоритет на основании заявки на патент Испании № P202031212, поданной 03 декабря 2020 г., и № P202130458, поданной 20 мая 2021 г., и предварительной заявки на патент США №63/155,369, поданной 02 марта 2021 г., №63/203,403, поданной 21 июля 2021 г., и №63/224,778, поданной 22 июля 2021 г., все из которых в полном объеме включены в данный документ путем ссылки.This application claims priority based on Spanish Patent Application Nos. P202031212, filed December 3, 2020, and P202130458, filed May 20, 2021, and U.S. Provisional Patent Application Nos. 63/155,369, filed March 2, 2021, 63/203,403, filed July 21, 2021, and 63/224,778, filed July 22, 2021, all of which are incorporated herein by reference in their entirety.

Область техники, к которой относится изобретениеField of technology to which the invention relates

Данное изобретение относится к системам и способам автоматического определения местоположения аудиоустройств.This invention relates to systems and methods for automatically determining the location of audio devices.

Уровень техникиState of the art

Аудиоустройства, в том числе, не ограничиваясь, интеллектуальные аудиоустройства, широко применяются и становятся общими элементами многих домов. Хотя существующие системы и способы определения местоположения аудиоустройств обеспечивают преимущества, необходимы усовершенствованные системы и способы.Audio devices, including but not limited to smart audio devices, are widely used and are becoming common elements in many homes. While existing systems and methods for locating audio devices provide benefits, improved systems and methods are needed.

Обозначения и терминыDesignations and terms

На протяжении настоящего описания, в том числе и в формуле изобретения, термины «динамик», «громкоговоритель» и «преобразователь для воспроизведения аудиоданных» используются синонимично для обозначения любого излучающего звук преобразователя (или набора преобразователей). Обычная пара наушников включает в себя два динамика. Динамик может быть реализован таким образом, что он включает в себя множество преобразователей (например, низкочастотную головку и высокочастотную головку), которые могут возбуждаться посредством одной общей подачи звука в динамики либо множества подач звука в динамики. В некоторых примерах, подача(и) звука в динамики может подвергаться различной обработке в различных ветвях схемы, соединенных с различными преобразователями.Throughout the present description, including in the claims, the terms "speaker", "loudspeaker" and "transducer for reproducing audio data" are used synonymously to refer to any sound-emitting transducer (or set of transducers). A typical pair of headphones includes two speakers. A speaker may be implemented in such a way that it includes a plurality of transducers (for example, a low-frequency driver and a high-frequency driver), which may be excited by one common sound feed to the speakers or by a plurality of sound feeds to the speakers. In some examples, the sound feed(s) to the speakers may be subject to different processing in different branches of the circuit, connected to different transducers.

На протяжении настоящего описания, в том числе и в формуле изобретения, выражение «выполнение операции «для» сигнала или данных» (например, фильтрации, масштабирования, преобразования или применения усиления к сигналу или данным) используется в широком смысле для обозначения выполнения операции непосредственно для сигнала или данных либо для обработанной версии сигнала или данных (например, для версии сигнала, который подвергнут предварительной фильтрации или предварительной обработке до выполнения операции).Throughout this description, including in the claims, the expression "performing an operation "on" a signal or data" (e.g., filtering, scaling, transforming, or applying gain to a signal or data) is used in a broad sense to mean performing the operation directly on the signal or data or on a processed version of the signal or data (e.g., on a version of the signal that has been pre-filtered or pre-processed prior to performing the operation).

На протяжении настоящего описания, в том числе и в формуле изобретения, выражение «система» используется в широком смысле для обозначения устройства, системы или подсистемы. Например, подсистема, которая реализует декодер, может называться «системой декодера», и система, включающая в себя такую подсистему (например, система, которая формирует X выходных сигналов в ответ на множество вводов, причем подсистема формирует M вводов, и другие X-M вводов принимаются из внешнего источника), также может называться «системой декодера».Throughout the present description, including in the claims, the expression "system" is used in a broad sense to refer to a device, system, or subsystem. For example, a subsystem that implements a decoder may be called a "decoder system," and a system that includes such a subsystem (e.g., a system that generates X output signals in response to a plurality of inputs, where the subsystem generates M inputs, and the other X-M inputs are received from an external source) may also be called a "decoder system."

На протяжении настоящего описания, в том числе и в формуле изобретения, термин «процессор» используется в широком смысле для обозначения системы или устройства, программируемого или иным способом конфигурируемого (например, с помощью программного обеспечения или микропрограммного обеспечения) с возможностью выполнения операций для данных (например, аудио- или видео- или других данных изображений). Примеры процессоров включают в себя программируемую пользователем вентильную матрицу (либо другую конфигурируемую интегральную схему или набор микросхем), процессор цифровых сигналов, запрограммированный и/или иным способом выполненный с возможностью осуществления конвейерной обработки для аудиоданных или других звуковых данных, программируемый процессор общего назначения или компьютер и программируемую микропроцессорную интегральную схему или набор микросхем.Throughout the present description, including in the claims, the term "processor" is used in a broad sense to refer to a system or device that is programmable or otherwise configurable (e.g., by software or firmware) to perform operations on data (e.g., audio or video or other image data). Examples of processors include a field-programmable gate array (or other configurable integrated circuit or chipset), a digital signal processor programmed and/or otherwise configured to perform pipeline processing on audio data or other sound data, a programmable general-purpose processor or computer, and a programmable microprocessor integrated circuit or chipset.

На протяжении настоящего описания, в том числе и в формуле изобретения, термин «соединен» или «соединенный» используется для обозначения прямого или опосредованного соединения. Таким образом, если первое устройство соединено со вторым устройством, то соединение может осуществляться через прямое соединение или через опосредованное соединение через другие устройства и соединения.Throughout the present description, including in the claims, the term "connected" or "connected" is used to denote a direct or indirect connection. Thus, if a first device is connected to a second device, the connection may be via a direct connection or via an indirect connection through other devices and connections.

При использовании в данном документе «интеллектуальное устройство» представляет собой электронное устройство, в общем выполненное с возможностью связи с одним или более другими устройствами (или сетями) через различные беспроводные протоколы, такие как Bluetooth, ZigBee, связь ближнего радиуса действия, Wi-Fi, стандарт высококачественной связи в диапазоне видимого света (Li-Fi), 3G, 4G, 5G и т.д., которые могут работать в некоторой степени интерактивно и/или автономно. Несколько известных типов интеллектуальных устройств представляют собой смартфоны, интеллектуальные автомобили, интеллектуальные термостаты, интеллектуальные дверные звонки, интеллектуальные замки, интеллектуальные холодильники, телефоны-планшеты и планшетные компьютеры, интеллектуальные часы, интеллектуальные браслеты, интеллектуальные цепочки для ключей и интеллектуальные аудиоустройства. Термин «интеллектуальное устройство» также может означать устройство, которое демонстрирует некоторые свойства широкого применения вычислений, такие как искусственный интеллект.As used herein, a "smart device" is an electronic device generally capable of communicating with one or more other devices (or networks) via various wireless protocols such as Bluetooth, ZigBee, near field communication, Wi-Fi, Li-Fi, 3G, 4G, 5G, etc., which may operate interactively and/or autonomously to some degree. Several well-known types of smart devices include smartphones, smart cars, smart thermostats, smart doorbells, smart locks, smart refrigerators, tablet phones and tablet computers, smart watches, smart bracelets, smart keychains, and smart audio devices. The term "smart device" may also refer to a device that exhibits some properties of widespread computing, such as artificial intelligence.

В данном документе, выражение «интеллектуальное аудиоустройство» используется для обозначения интеллектуального устройства, которое представляет собой однозадачное аудиоустройство или многоцелевое аудиоустройство (например, аудиоустройство, которое реализует по меньшей мере некоторые аспекты функциональности виртуального помощника). Однозадачное аудиоустройство представляет собой устройство (например, телевизионный приемник (телевизор)), включающее в себя или соединенное по меньшей мере с одним микрофоном (и при необходимости также включающее в себя по меньшей мере один динамик и/или по меньшей мере одну камеру или соединенное с ними), которое проектируется в основном или главным образом с возможностью решения одной задачи. Например, хотя телевизор обычно может воспроизводить (и рассматривается как способный воспроизводить) аудиоданные из программного материала, в большинстве случаев современный телевизор выполняет некоторую операционную систему, в которой локально выполняются приложения , в том числе и приложение для просмотра телевизора. В этом смысле, однозадачное аудиоустройство, имеющее динамик(и) и микрофон(ы), зачастую выполнено с возможностью выполнения локального приложения и/или службы для непосредственного использования динамика(ов) и микрофона(ов). Некоторые однозадачные аудиоустройства могут быть выполнены с возможностью группировки для обеспечения воспроизведения аудиоданных в некоторой зоне либо в конфигурированной пользователем области.In this document, the expression "intelligent audio device" is used to refer to an intelligent device that is a single-task audio device or a multi-purpose audio device (e.g., an audio device that implements at least some aspects of the functionality of a virtual assistant). A single-task audio device is a device (e.g., a television receiver (TV)) that includes or is connected to at least one microphone (and optionally also includes or is connected to at least one speaker and/or at least one camera) that is designed primarily or mainly to perform a single task. For example, although a TV can typically play (and is considered to be capable of playing) audio data from program material, in most cases a modern TV runs some operating system in which applications, including a TV viewing application, are locally executed. In this sense, a single-task audio device having speaker(s) and microphone(s) is often configured to execute a local application and/or service for directly using the speaker(s) and microphone(s). Some single-task audio devices may be configured to be grouped to provide playback of audio data in a certain zone or in a user-configured area.

Один общий тип многоцелевого аудиоустройства представляет собой аудиоустройство, которое реализует по меньшей мере некоторые аспекты функциональности виртуального помощника, хотя другие аспекты функциональности виртуального помощника могут быть реализованы посредством одного или более других устройств, таких как один или более серверов, с возможностью связи с которыми выполнено многоцелевое аудиоустройство. Такой многоцелевое аудиоустройство может называться в данном документе «виртуальным помощником». Виртуальный помощник представляет собой устройство (например, интеллектуальный динамик или интегрированное устройство голосового помощника), включающее в себя или соединенное по меньшей мере с одним микрофоном (и при необходимости также включающее в себя или соединенное по меньшей мере с одним динамиком и/или по меньшей мере одной камерой). В некоторых примерах, виртуальный помощник может обеспечивать возможность использования множества устройств (отличных от виртуального помощника) для приложений, которые в некотором смысле поддерживают облачный режим либо иным образом не реализуются полностью непосредственно в/на виртуальном помощнике. Другими словами по меньшей мере некоторые аспекты функциональности виртуального помощника, например, функциональность распознавания речи, могут быть реализованы (по меньшей мере частично) посредством одного или более серверов или других устройств, с которыми виртуальный помощник может поддерживать связь через сеть, к примеру, через Интернет. Виртуальные помощники могут иногда совместно работать, например, дискретным и условно заданным способом. Например, два или более виртуальных помощника могут совместно работать в том смысле, что один из них, например, помощник, который больше всего уверен в том, что услышал слово активации, отвечает на слово активации. Соединенные виртуальные помощники могут, в некоторых реализациях, формировать вид созвездия, которое может управляться посредством одного главного приложения, которое может представлять собой (или реализовывать) виртуальный помощник.One general type of multi-purpose audio device is an audio device that implements at least some aspects of the functionality of a virtual assistant, although other aspects of the functionality of the virtual assistant may be implemented by one or more other devices, such as one or more servers, with which the multi-purpose audio device is configured to communicate. Such a multi-purpose audio device may be referred to herein as a "virtual assistant". The virtual assistant is a device (e.g., a smart speaker or an integrated voice assistant device) that includes or is coupled to at least one microphone (and optionally also includes or is coupled to at least one speaker and/or at least one camera). In some examples, the virtual assistant may enable the use of multiple devices (other than the virtual assistant) for applications that are in some sense cloud-enabled or otherwise not implemented entirely directly in/on the virtual assistant. In other words, at least some aspects of the functionality of the virtual assistant, such as the speech recognition functionality, may be implemented (at least in part) by one or more servers or other devices with which the virtual assistant may communicate via a network, such as the Internet. The virtual assistants may sometimes work together, such as in a discrete and conditionally defined manner. For example, two or more virtual assistants may work together in the sense that one of them, such as the assistant that is most confident that it has heard the activation word, responds to the activation word. The connected virtual assistants may, in some implementations, form a kind of constellation that may be controlled by a single main application, which may be (or implement) the virtual assistant.

В данном документе, «слово активации» используется в широком смысле для обозначения любого звука (например, слово, произнесенное человеком, или некоторый другой звук), причем интеллектуальное аудиоустройство выполнено с возможностью активации в ответ на обнаружение («прослушивание») звука (с использованием по меньшей мере одного микрофона, включенного или соединенного с интеллектуальным аудиоустройством либо по меньшей мере еще одним микрофоном). В этом контексте, «активация» означает, что устройство переходит в состояние, в котором оно ждет (другими словами, прослушивает) звуковую команду. В некоторых случаях, то, что может называться в данном документе «словом активации», может включать в себя более одного слова, например словосочетание.In this document, an "activation word" is used in a broad sense to refer to any sound (e.g., a word spoken by a person or some other sound), wherein the intelligent audio device is configured to activate in response to detecting ("listening") the sound (using at least one microphone enabled or connected to the intelligent audio device or at least one other microphone). In this context, "activation" means that the device enters a state in which it waits for (in other words, listens for) an audio command. In some cases, what may be referred to herein as an "activation word" may include more than one word, such as a phrase.

В данном документе, выражение «детектор слов активации» означает устройство (или программное обеспечение, которое включает в себя инструкции для конфигурирования устройства), выполненное с возможностью непрерывного выполнения поиска совмещения между звуковыми (например, речевыми) признаками в реальном времени и обученной моделью. Типично, событие произнесения слова активации инициируется каждый раз, когда посредством детектора слов активации определено, что вероятность того, что обнаружено слово активации, превышает предварительно заданное пороговое значение. Например, пороговое значение может составлять заданное пороговое значение, которое подстраивается таким образом, чтобы обеспечивать обоснованный компромисс между частотами ложных разрешений и ложных отклонений. После события произнесения слова активации устройство может переходить в состояние (которое может называться «активированным состоянием» или «состоянием внимания»), в котором оно прослушивает команду и пересылает принимаемую команду в более крупный модуль распознавания с большим объемом вычислений.In this document, the expression "activation word detector" means a device (or software that includes instructions for configuring the device) configured to continuously perform a search for a match between audio (e.g., speech) features in real time and a trained model. Typically, an activation word utterance event is initiated whenever the activation word detector determines that the probability that an activation word has been detected exceeds a predetermined threshold. For example, the threshold may be a predetermined threshold that is adjusted to provide a reasonable compromise between false acceptance and false rejection rates. After the activation word utterance event, the device may enter a state (which may be referred to as an "activated state" or an "attentional state") in which it listens for a command and forwards the received command to a larger, more computationally intensive recognition module.

При использовании в данном документе, термины «программный поток» и «поток содержимого» означают совокупность одного или более аудиосигналов и в некоторых случаях видеосигналов по меньшей мере части которых предположительно должны прослушиваться вместе. Примеры включают в себя выбор музыки, звуковой дорожки к фильму, фильма, телевизионной программы, аудиочасти телевизионной программы, подкаста, живого голосового вызова, синтезированного голосового ответа из интеллектуального помощника и т.д. В некоторых случаях, поток содержимого может включать в себя множество версий по меньшей мере части аудиосигналов, например, идентичный диалог более чем на одном языке. В таких случаях, только одна версия аудиоданных либо ее часть (например, версия, соответствующая одному языку) предназначена для воспроизведения в любой момент.As used herein, the terms "program stream" and "content stream" mean a collection of one or more audio signals and, in some cases, video signals, at least portions of which are intended to be heard together. Examples include a selection of music, a movie soundtrack, a movie, a television program, the audio portion of a television program, a podcast, a live voice call, a synthesized voice response from an intelligent assistant, etc. In some cases, a content stream may include multiple versions of at least a portion of the audio signals, such as identical dialogue in more than one language. In such cases, only one version of the audio data, or a portion thereof (e.g., a version corresponding to one language), is intended to be played at any one time.

Раскрытие изобретенияDisclosure of invention

По меньшей мере некоторые аспекты настоящего изобретения могут быть реализованы через способы. Некоторые такие способы могут включать в себя местоположение аудиоустройства. Например, некоторые способы могут включать в себя локализацию аудиоустройств в аудиосреде. Некоторые такие способы могут включать в себя получение, посредством системы управления, данных направления поступления сигналов (DOA), соответствующих звуку, излучаемому посредством по меньшей мере первого интеллектуального аудиоустройства в аудиосреде. В некоторых реализациях, первое интеллектуальное аудиоустройство может включать в себя первое передающее аудиоустройство и первое приемное аудиоустройство. В некоторых примерах, данные DOA могут соответствовать звуку, принимаемому посредством по меньшей мере второго интеллектуального аудиоустройства в аудиосреде. В некоторых случаях, второе интеллектуальное аудиоустройство может включать в себя второе передающее аудиоустройство и второе приемное аудиоустройство. В некоторых примерах, данные DOA также могут соответствовать звуку, излучаемому посредством по меньшей мере второго интеллектуального аудиоустройства и принимаемому посредством по меньшей мере первого интеллектуального аудиоустройства.At least some aspects of the present invention may be implemented via methods. Some such methods may include audio device location. For example, some methods may include localizing audio devices in an audio environment. Some such methods may include obtaining, by a control system, direction of arrival (DOA) data corresponding to sound emitted by at least a first intelligent audio device in the audio environment. In some implementations, the first intelligent audio device may include a first audio transmitter and a first audio receiver. In some examples, the DOA data may correspond to sound received by at least a second intelligent audio device in the audio environment. In some cases, the second intelligent audio device may include a second audio transmitter and a second audio receiver. In some examples, the DOA data may also correspond to sound emitted by at least a second intelligent audio device and received by at least the first intelligent audio device.

Некоторые такие способы могут включать в себя прием, посредством системы управления, конфигурационных параметров. В некоторых примерах, конфигурационные параметры могут соответствовать аудиосреде и/или могут соответствовать одному или более аудиоустройств аудиосреды. Некоторые такие способы могут включать в себя минимизацию, посредством системы управления, функции стоимости по меньшей мере частично на основе данных DOA и конфигурационных параметров для оценки положения и/или ориентации по меньшей мере первого интеллектуального аудиоустройства и второго интеллектуального аудиоустройства.Some such methods may include receiving, by a control system, configuration parameters. In some examples, the configuration parameters may correspond to an audio environment and/or may correspond to one or more audio devices of the audio environment. Some such methods may include minimizing, by a control system, a cost function based at least in part on DOA data and the configuration parameters for estimating the position and/or orientation of at least a first intelligent audio device and a second intelligent audio device.

Согласно некоторым примерам, данные DOA также могут соответствовать звуку, принимаемому посредством одного или более пассивных приемных аудиоустройств в аудиосреде. В некоторых примерах, каждое из одного или более пассивных приемных аудиоустройств может включать в себя массив микрофонов, но, в некоторых случаях, в нем может отсутствовать излучатель аудиосигнала. В некоторых таких примерах, минимизация функции стоимости также может обеспечивать оцененное местоположение и ориентацию каждого из одного или более пассивных приемных аудиоустройств.According to some examples, the DOA data may also correspond to sound received by one or more passive audio receivers in an audio environment. In some examples, each of the one or more passive audio receivers may include a microphone array, but in some cases, it may lack an audio signal emitter. In some such examples, minimizing the cost function may also provide an estimated location and orientation of each of the one or more passive audio receivers.

В некоторых примерах, данные DOA также могут соответствовать звуку, излучаемому посредством одного или более излучателей аудиосигнала в аудиосреде. В некоторых случаях, каждый из одного или более излучателей аудиосигнала может включать в себя по меньшей мере один звукоизлучающий преобразователь, но, в некоторых случаях, в нем может отсутствовать массив микрофонов. В некоторых таких примерах, минимизация функции стоимости также может обеспечивать оцененное местоположение каждого из одного или более излучателей аудиосигнала.In some examples, the DOA data may also correspond to sound emitted by one or more audio signal emitters in an audio environment. In some cases, each of the one or more audio signal emitters may include at least one sound-emitting transducer, but in some cases, it may lack a microphone array. In some such examples, minimizing the cost function may also provide an estimated location of each of the one or more audio signal emitters.

В некоторых реализациях, данные DOA также могут соответствовать звуку, излучаемому посредством третьего-N-ого интеллектуальных аудиоустройств в аудиосреде, причем N соответствует общему числу интеллектуальных аудиоустройств в аудиосреде. В некоторых примерах, данные DOA также могут соответствовать звуку, принимаемому посредством каждого из первого-N-ого интеллектуальных аудиоустройств из всех других интеллектуальных аудиоустройств в аудиосреде. В некоторых таких примерах, минимизация функции стоимости может включать в себя оценку положения и/или ориентации третьего-N-ого интеллектуальных аудиоустройств.In some implementations, the DOA data may also correspond to sound emitted by a third-Nth intelligent audio device in the audio environment, where N corresponds to the total number of intelligent audio devices in the audio environment. In some examples, the DOA data may also correspond to sound received by each of the first-Nth intelligent audio devices from all other intelligent audio devices in the audio environment. In some such examples, minimizing the cost function may include estimating the position and/or orientation of the third-Nth intelligent audio devices.

Согласно некоторым примерам, конфигурационные параметры могут включать в себя число аудиоустройств в аудиосреде, один или более размеров аудиосреды и/или одно или более ограничений на местоположение и/или ориентацию аудиоустройства. В некоторых случаях, конфигурационные параметры могут включать в себя данные разрешения неоднозначности для вращения, перемещения в пространстве и/или масштабирования.According to some examples, the configuration parameters may include a number of audio devices in the audio environment, one or more dimensions of the audio environment, and/or one or more constraints on the location and/or orientation of the audio device. In some cases, the configuration parameters may include ambiguity resolution data for rotation, spatial translation, and/or scaling.

Некоторые способы могут включать в себя прием, посредством системы управления, конфигурации посевных точек для функции стоимости. В некоторых примерах конфигурация посевных точек может указывать корректное число передающих и приемных аудиоустройств в аудиосреде и произвольное местоположение и ориентацию для каждого из передающих и приемных аудиоустройств в аудиосреде.Some methods may include receiving, via a control system, a configuration of seed points for a cost function. In some examples, the configuration of seed points may specify the correct number of audio transmitters and receivers in the audio environment and an arbitrary location and orientation for each of the audio transmitters and receivers in the audio environment.

Некоторые способы могут включать в себя прием, посредством системы управления, весового коэффициента, ассоциированного с одним или более элементов данных DOA. Весовой коэффициент, например, может указывать доступность и/или надежность одного или более элементов данных DOA.Some methods may include receiving, by the control system, a weighting factor associated with one or more DOA data elements. The weighting factor, for example, may indicate the availability and/or reliability of one or more DOA data elements.

Некоторые способы могут включать в себя получение, посредством системы управления, одного или более элементов данных DOA с использованием способа на основе формирования диаграммы направленности, способа на основе направленного отклика по мощности, способа на основе разности времен поступления сигналов, способа на основе структурированных сигналов либо комбинаций вышеозначенного.Some methods may include obtaining, by the control system, one or more DOA data elements using a beamforming-based method, a directional power response-based method, a time-difference-based method, a structured signal-based method, or combinations thereof.

Некоторые способы могут включать в себя прием, посредством системы управления, данных времени поступления сигналов (TOA), соответствующих звуку, излучаемому посредством по меньшей мере одного аудиоустройства аудиосреды и принимаемому посредством по меньшей мере еще одного аудиоустройства в аудиосреде. В некоторых таких примерах, функция стоимости может быть основана по меньшей мере частично на данных TOA. Некоторые такие способы могут включать в себя оценку по меньшей мере одного времени задержки при воспроизведении и/или оценку по меньшей мере одного времени задержки при записи. В некоторых примерах, функция стоимости может работать с повторно масштабированным положением, повторно масштабированным временем задержки и/или повторно масштабированным временем поступления сигналов.Some methods may include receiving, by a control system, time of arrival (TOA) data corresponding to sound emitted by at least one audio device of an audio environment and received by at least one other audio device in the audio environment. In some such examples, a cost function may be based at least in part on the TOA data. Some such methods may include estimating at least one playback delay time and/or estimating at least one recording delay time. In some examples, the cost function may operate with a rescaled position, a rescaled delay time, and/or a rescaled signal arrival time.

Согласно некоторым примерам, функция стоимости может включать в себя первый член в зависимости только от данных DOA. В некоторых таких примерах, функция стоимости может включать в себя второй член в зависимости только от данных TOA. В некоторых таких примерах, первый член может включать в себя первый весовой коэффициент, и второй член может включать в себя второй весовой коэффициент. В некоторых случаях, один или более элементов TOA второго члена могут иметь весовой коэффициент элемента TOA, указывающий доступность и/или надежность каждого из одного или более элементов TOA.According to some examples, the cost function may include a first term depending only on the DOA data. In some such examples, the cost function may include a second term depending only on the TOA data. In some such examples, the first term may include a first weighting factor, and the second term may include a second weighting factor. In some cases, one or more TOA elements of the second term may have a TOA element weighting factor indicating the availability and/or reliability of each of the one or more TOA elements.

В некоторых примерах, конфигурационные параметры могут включать в себя данные времени задержки при воспроизведении, данные времени задержки при записи, данные для разрешения неоднозначности симметрии времени задержки, данные разрешения неоднозначности для вращения, данные разрешения неоднозначности для перемещения в пространстве, данные разрешения неоднозначности для масштабирования и/или одну или более комбинаций вышеозначенного.In some examples, the configuration parameters may include playback delay time data, recording delay time data, delay time symmetry ambiguity resolution data, rotation ambiguity resolution data, spatial translation ambiguity resolution data, scaling ambiguity resolution data, and/or one or more combinations of the foregoing.

Некоторые другие аспекты настоящего изобретения могут быть реализованы через способы. Некоторые такие способы могут включать в себя местоположение устройства. Например, некоторые способы могут включать в себя локализацию устройств в аудиосреде. Некоторые такие способы могут включать в себя получение, посредством системы управления, данных направления поступления сигналов (DOA), соответствующих передачам по меньшей мере первого приемо-передающего устройства первого устройства в среде. Первое приемо-передающее устройство, в некоторых примерах, может включать в себя первое передающее устройство и первое приемное устройство. В некоторых случаях, данные DOA могут соответствовать передачам, принимаемым посредством по меньшей мере второго приемо-передающего устройства второго устройства в среде. В некоторых примерах, второе приемо-передающее устройство может включать в себя второе передающее устройство и второе приемное устройство. В некоторых случаях, данные DOA могут соответствовать передачам по меньшей мере из второго приемо-передающего устройства, принимаемым посредством по меньшей мере первого приемо-передающего устройства.Some other aspects of the present invention may be implemented through methods. Some such methods may include device location. For example, some methods may include localizing devices in an audio environment. Some such methods may include obtaining, by a control system, direction of arrival (DOA) data corresponding to transmissions of at least a first transceiver of a first device in the environment. The first transceiver, in some examples, may include a first transmitter and a first receiver. In some cases, the DOA data may correspond to transmissions received by at least a second transceiver of a second device in the environment. In some examples, the second transceiver may include a second transmitter and a second receiver. In some cases, the DOA data may correspond to transmissions from at least the second transceiver received by at least the first transceiver.

В некоторых примерах, первое устройство и второе устройство могут представлять собой аудиоустройства, и среда может представлять собой аудиосреду. Согласно некоторым таким примерам, первое передающее устройство и второе передающее устройство могут представлять собой передающие аудиоустройства. В некоторых таких примерах, первое приемное устройство и второе приемное устройство могут представлять собой приемные аудиоустройства. В некоторых реализациях, первое приемо-передающее устройство и второе приемо-передающее устройство могут быть выполнены с возможностью передачи и приема электромагнитных волн.In some examples, the first device and the second device may be audio devices, and the environment may be an audio environment. According to some such examples, the first transmitter and the second transmitter may be audio transmitters. In some such examples, the first receiver and the second receiver may be audio receivers. In some implementations, the first transmitter and receiver and the second transmitter and receiver may be configured to transmit and receive electromagnetic waves.

Некоторые такие способы могут включать в себя прием, посредством системы управления, конфигурационных параметров. В некоторых случаях, конфигурационные параметры могут соответствовать среде и/или могут соответствовать одному или более устройствам в среде. Некоторые такие способы могут включать в себя минимизацию, посредством системы управления, функции стоимости по меньшей мере частично на основе данных DOA и конфигурационных параметров для оценки положения и/или ориентации по меньшей мере первого устройства и второго устройства.Some such methods may include receiving, by a control system, configuration parameters. In some cases, the configuration parameters may correspond to an environment and/or may correspond to one or more devices in the environment. Some such methods may include minimizing, by a control system, a cost function based at least in part on DOA data and the configuration parameters for estimating the position and/or orientation of at least a first device and a second device.

В некоторых примерах, данные DOA также могут соответствовать передачам, принимаемым посредством одного или более пассивных приемных устройств в среде. Каждое из одного или более пассивных приемных устройств, например, может включать в себя массив приемных устройств, но в нем может отсутствовать передающее устройство. В некоторых таких примерах, минимизация функции стоимости также может обеспечивать оцененное местоположение и/или ориентацию каждого из одного или более пассивных приемных устройств.In some examples, the DOA data may also correspond to transmissions received by one or more passive receivers in the environment. Each of the one or more passive receivers, for example, may include an array of receivers, but may lack a transmitter. In some such examples, minimizing the cost function may also provide an estimated location and/or orientation of each of the one or more passive receivers.

Согласно некоторым примерам, данные DOA также могут соответствовать передачам из одного или более передающих устройств в среде. В некоторых случаях, в каждом из одного или более передающих устройств может отсутствовать массив приемных устройств. В некоторых таких примерах, минимизация функции стоимости также может обеспечивать оцененное местоположение каждого из одного или более передающих устройств.According to some examples, DOA data may also correspond to transmissions from one or more transmitters in the environment. In some cases, each of the one or more transmitters may lack an array of receivers. In some such examples, minimizing the cost function may also provide an estimated location for each of the one or more transmitters.

В некоторых примерах, данные DOA также могут соответствовать передачам, излучаемым посредством третьего-N-ого приемо-передающих устройств третьего-N-ого устройств в среде, причем N соответствует общему числу приемо-передающих устройств в среде. В некоторых таких примерах данные DOA также могут соответствовать передачам, принимаемым посредством каждого из первого-N-ого приемо-передающих устройств из всех других приемо-передающих устройств в среде. В некоторых таких примерах, минимизация функции стоимости может включать в себя оценку положения и/или ориентации третьего-N-ого приемо-передающих устройств.In some examples, the DOA data may also correspond to transmissions emitted by a third-Nth transceiver of a third-Nth device in the environment, where N corresponds to the total number of transceivers in the environment. In some such examples, the DOA data may also correspond to transmissions received by each of the first-Nth transceiver of all other transceivers in the environment. In some such examples, minimizing the cost function may include estimating the position and/or orientation of the third-Nth transceiver.

Некоторые или все операции, функции и/или способы, описанные в данном документе, могут осуществляться посредством одного или более устройств согласно инструкциям (например, программному обеспечению), сохраненным на одном или более постоянных носителях. Такие постоянные носители могут включать в себя запоминающие устройства, такие как запоминающие устройства, описанные в данном документе, в том числе, не ограничиваясь, оперативные запоминающие устройства (RAM), постоянные запоминающие устройства (ROM) и т.д. Соответственно, некоторые инновационные аспекты предмета изобретения, описанного в настоящем описании, могут быть реализованы на постоянном носителе, имеющем сохраненное программное обеспечение.Some or all of the operations, functions, and/or methods described herein may be performed by one or more devices according to instructions (e.g., software) stored on one or more persistent media. Such persistent media may include memory devices such as the memory devices described herein, including, but not limited to, random access memory (RAM), read-only memory (ROM), etc. Accordingly, some innovative aspects of the subject matter described herein may be implemented on a persistent medium having software stored thereon.

По меньшей мере некоторые аспекты настоящего изобретения могут быть реализованы через устройство. Например, одно или более устройств могут допускать осуществление по меньшей мере частично способов, раскрытых в данном документе. В некоторых реализациях, устройство может включать в себя интерфейсную систему и систему управления. Система управления может включать в себя один или более одно- или многомикросхемных процессоров общего назначения, процессоров цифровых сигналов (DSP), специализированных интегральных схем (ASIC), программируемых пользователем вентильных матриц (FPGA) или других программируемых логических устройств, дискретных вентилей или транзисторную логику, дискретные аппаратные компоненты либо комбинации вышеозначенного. В некоторых примерах, устройство может представлять собой одно из вышеуказанных аудиоустройств. Тем не менее, в некоторых реализациях устройство может представлять собой другой тип устройства, такое как мобильное устройство, переносной компьютер, сервер и т.д.At least some aspects of the present invention may be implemented through a device. For example, one or more devices may be capable of implementing at least part of the methods disclosed herein. In some implementations, the device may include an interface system and a control system. The control system may include one or more single- or multi-chip general-purpose processors, digital signal processors (DSP), application-specific integrated circuits (ASICs), field-programmable gate arrays (FPGAs) or other programmable logic devices, discrete gates or transistor logic, discrete hardware components, or combinations thereof. In some examples, the device may be one of the above audio devices. However, in some implementations, the device may be another type of device, such as a mobile device, a laptop, a server, etc.

Подробности одной или более реализаций объекта изобретения, описанного в данном подробном описании, изложены на прилагаемых чертежах и в нижеприведенном описании. Другие признаки, аспекты и преимущества должны стать очевидными из описания, чертежей и формулы изобретения. Следует отметить, что относительные размеры нижеследующих чертежей могут не быть показаны в масштабе.The details of one or more embodiments of the subject matter of the invention described in this detailed description are set forth in the accompanying drawings and in the description below. Other features, aspects and advantages will be apparent from the description, drawings and claims. It should be noted that the relative sizes of the following drawings may not be shown to scale.

Краткое описание чертежейBrief description of the drawings

Фиг. 1 показывает пример геометрических взаимосвязей между четырьмя аудиоустройствами в среде.Fig. 1 shows an example of geometric relationships between four audio devices in an environment.

Фиг. 2 показывает излучатель аудиосигнала, расположенный в аудиосреде по фиг. 1.Fig. 2 shows an audio signal emitter located in the audio environment of Fig. 1.

Фиг. 3 показывает приемное аудиоустройство, расположенное в аудиосреде по фиг. 1.Fig. 3 shows an audio receiving device located in the audio environment of Fig. 1.

Фиг. 4 является блок-схемой, которая приводит один пример способа, который может осуществляться системой управления устройства, такого как устройство, показанное на фиг. 10.Fig. 4 is a block diagram that provides one example of a method that may be performed by a control system of a device such as the device shown in Fig. 10.

Фиг. 5 является блок-схемой, которая приводит другой пример способа автоматической оценки местоположений и ориентаций устройства на основе данных DOA.Fig. 5 is a block diagram that provides another example of a method for automatically estimating device locations and orientations based on DOA data.

Фиг. 6 является блок-схемой, которая приводит один пример способа автоматической оценки местоположений и ориентаций устройства на основе данных DOA и данных TOA.Fig. 6 is a block diagram that provides one example of a method for automatically estimating device locations and orientations based on DOA data and TOA data.

Фиг. 7 является блок-схемой, которая приводит другой пример способа автоматической оценки местоположений и ориентаций устройства на основе данных DOA и данных TOA.Fig. 7 is a block diagram that provides another example of a method for automatically estimating device locations and orientations based on DOA data and TOA data.

Фиг. 8A показывает пример аудиосреды.Fig. 8A shows an example of an audio environment.

Фиг. 8B показывает дополнительный пример определения данных угловой ориентации слушателя.Fig. 8B shows a further example of determining listener angular orientation data.

Фиг. 8C показывает дополнительный пример определения данных угловой ориентации слушателя.Fig. 8C shows an additional example of determining listener angular orientation data.

Фиг. 8D показывает один пример определения соответствующего вращения для координат аудиоустройства в соответствии со способом, описанным с обращением к фиг. 8C.Fig. 8D shows one example of determining an appropriate rotation for the coordinates of an audio device in accordance with the method described with reference to Fig. 8C.

Фиг. 9A является блок-схемой, которая приводит один пример способа локализации.Fig. 9A is a block diagram that shows one example of a localization method.

Фиг. 9B является блок-схемой, которая приводит другой пример способа локализации.Fig. 9B is a block diagram that shows another example of a localization method.

Фиг. 10 является блок-схемой, которая показывает примеры компонентов устройства, допускающего реализацию различных аспектов данного изобретения.Fig. 10 is a block diagram showing examples of components of a device capable of implementing various aspects of the present invention.

Фиг. 11 показывает пример плана помещения для аудиосреды, которая в этом примере представляет собой жилое пространство.Fig. 11 shows an example of a room plan for an audio environment, which in this example is a living space.

Аналогичные ссылочные позиции и условные обозначения на различных чертежах указывают на аналогичные элементы.Like reference numerals and symbols in different drawings indicate like elements.

Осуществление изобретенияImplementation of the invention

Появление интеллектуальных динамиков, включающих в себя множество возбуждающих блоков и массивов микрофонов, в дополнение к существующим аудиоустройствам, включающим в себя телевизионные приемники и звуковые панели, и новых оснащенных микрофонами и громкоговорителями соединенных устройств, таких как лампочки и микроволновые печи, создает проблему того, что десятки микрофонов и громкоговорителей требуют определения местоположения относительно друг друга для обеспечения оркестровки. Аудиоустройства не могут предположительно находиться в канонических схемах размещения (к примеру, в дискретной схеме размещения громкоговорителей Dolby 5.1). В некоторых случаях, аудиоустройства в среде могут быть расположены случайно или по меньшей мере могут распределяться в среде нерегулярным и/или асимметричным образом.The advent of intelligent speakers that include multiple excitation units and microphone arrays, in addition to existing audio devices that include television receivers and sound bars, and new microphone- and speaker-equipped connected devices such as light bulbs and microwave ovens, creates the problem that dozens of microphones and speakers must be located relative to one another to provide orchestration. Audio devices cannot be assumed to be in canonical placement patterns (e.g., a discrete Dolby 5.1 speaker layout). In some cases, audio devices may be randomly located in an environment, or at least may be distributed in an irregular and/or asymmetric manner in the environment.

Кроме того, аудиоустройства могут не предполагаться однородными или синхронными. При использовании в данном документе, аудиоустройства могут называться «синхронными» или «синхронизированными», если звуки обнаруживаются или излучаются посредством аудиоустройств согласно идентичному дискретизированному тактовому сигналу или синхронизированным дискретизированным тактовым сигналам. Например, первый синхронизированный микрофон первого аудиоустройства в среде может выполнять цифровую дискретизацию аудиоданных согласно первому дискретизированному тактовому сигналу, и второй микрофон второго синхронизированного аудиоустройства в среде может выполнять цифровую дискретизацию аудиоданных согласно первому дискретизированному тактовому сигналу. В качестве альтернативы или дополнения, первый синхронизированный динамик первого аудиоустройства в среде может излучать звук согласно тактовому сигналу компоновки динамиков, и второй синхронизированный динамик второго аудиоустройства в среде может излучать звук согласно тактовому сигналу компоновки динамиков.In addition, audio devices may not be assumed to be homogeneous or synchronous. As used herein, audio devices may be referred to as "synchronous" or "synchronized" if sounds are detected or emitted by the audio devices according to the same sampled clock signal or synchronized sampled clock signals. For example, a first synchronized microphone of a first audio device in the environment may digitally sample audio data according to a first sampled clock signal, and a second microphone of a second synchronized audio device in the environment may digitally sample audio data according to the first sampled clock signal. Alternatively or in addition, a first synchronized speaker of the first audio device in the environment may emit sound according to a clock signal of a speaker arrangement, and a second synchronized speaker of the second audio device in the environment may emit sound according to a clock signal of a speaker arrangement.

Некоторые ранее раскрытые способы автоматического определения местоположения динамиков требуют синхронизированных микрофонов и/или динамиков. Например, некоторые ранее существующие инструментальные средства для локализации устройств основываются на синхронности выборок между всеми микрофонами в системе, требуя известных тестовых управляющих воздействий и пересылки полнополосных аудиоданных между датчиками.Some previously disclosed methods for automatic speaker location require synchronized microphones and/or speakers. For example, some previously existing device localization tools rely on sample synchrony between all microphones in the system, requiring known test drives and full-bandwidth audio data transfer between sensors.

Правообладатель настоящего изобретения создал несколько технологий локализации динамиков для кинотеатров и домашних условий, которые представляют собой отличные решения в вариантах использования, для которых они разработаны. Некоторые такие способы основаны на времени пролета сигналов, извлекаемом из импульсных откликов между источником звука и микрофоном(ами), которые размещены приблизительно совместно с каждым громкоговорителем. Хотя системные времена задержки в цепочках записи и воспроизведения также могут оцениваться, синхронность выборок между тактовыми сигналами требуется наряду с потребностью в известном тестовом управляющем воздействии, из которого можно оценивать импульсные отклики.The assignee of the present invention has created several speaker localization technologies for cinema and home environments that are excellent solutions for the applications for which they are designed. Some such methods are based on the time of flight of signals extracted from impulse responses between a sound source and microphone(s) that are placed approximately co-located with each loudspeaker. Although system delay times in the recording and playback chains can also be estimated, synchronicity of samples between clock signals is required along with the need for a known test control action from which impulse responses can be estimated.

Недавние примеры локализации источников в этом контексте имеют ослабленные ограничения за счет необходимости синхронности микрофонов внутри устройства, но без необходимости синхронности между устройствами. Кроме того, некоторые такие способы снимают потребность в пересылке аудиоданных между датчиками посредством узкополосной пересылки сообщений, к примеру, через обнаружение времени поступления сигналов (TOA, также называемого «временем пролета сигналов») прямого (неотраженного) звука либо через обнаружение доминирующего направления поступления сигналов (DOA) прямого звука. Каждый подход имеет некоторые потенциальные преимущества и потенциальные недостатки. Например, некоторые ранее применявшиеся способы TOA могут определять геометрию устройства вплоть до неизвестного перемещения в пространстве, вращения и отражения вокруг одной из трех осей. Вращения отдельных устройств также неизвестны, если имеется всего один микрофон в расчете на устройство. Некоторые ранее развернутые способы DOA могут определять геометрию устройства вплоть до неизвестного перемещения в пространстве, вращения и масштаба. Хотя некоторые такие способы могут формировать удовлетворительные результаты при идеальных условиях, надежность таких способов относительно ошибки измерения не демонстрируется.Recent examples of source localization in this context relax the constraints of requiring microphone synchrony within a device, but do not require synchrony between devices. In addition, some such methods remove the need to send audio data between sensors using narrowband messaging, such as by detecting the time of arrival (TOA, also called time of flight) of direct (non-reflected) sound or by detecting the dominant direction of arrival (DOA) of direct sound. Each approach has some potential advantages and potential disadvantages. For example, some previously deployed TOA methods can determine the geometry of a device down to unknown spatial translation, rotation, and reflection about one of three axes. The rotations of individual devices are also unknown if there is only one microphone per device. Some previously deployed DOA methods can determine the geometry of a device down to unknown spatial translation, rotation, and scale. Although some such methods can produce satisfactory results under ideal conditions, the robustness of such methods with respect to measurement error has not been demonstrated.

Некоторые варианты осуществления, раскрытые в этой заявке, обеспечивают возможность локализации совокупности интеллектуальных аудиоустройств на основе 1) DOA между каждой парой аудиоустройств в аудиосреде и 2) минимизации проблемы нелинейной оптимизации, спроектированной с возможностью ввода типа 1) данных. Другие варианты осуществления, раскрытые в заявке, обеспечивают возможность локализации совокупности интеллектуальных аудиоустройств на основе 1) DOA между каждой парой аудиоустройств в системе, 2) TOA между каждой парой устройств и 3) минимизации проблемы нелинейной оптимизации, спроектированной с возможностью ввода типов 1) и 2) данных.Some embodiments disclosed in this application provide the ability to localize a plurality of intelligent audio devices based on 1) the DOA between each pair of audio devices in an audio environment and 2) minimizing a nonlinear optimization problem designed to accept input of type 1) of data. Other embodiments disclosed in the application provide the ability to localize a plurality of intelligent audio devices based on 1) the DOA between each pair of audio devices in a system, 2) the TOA between each pair of devices, and 3) minimizing a nonlinear optimization problem designed to accept input of types 1) and 2) of data.

Фиг. 1 показывает пример геометрических взаимосвязей между четырьмя аудиоустройствами в среде. В этом примере, аудиосреда 100 представляет собой помещение, которое включает в себя телевизионный приемник 101 и аудиоустройства 105a, 105b, 105c и 105d. Согласно этому примеру, аудиоустройства 105a-105d находятся в местоположениях 1-4, соответственно, аудиосреды 100. Аналогично другим примерам, раскрытым в данном документе, типы, числа, местоположения и ориентации элементов, показанных на фиг. 1, задаются только в качестве примера. Другие реализации могут иметь различные типы, числа и компоновки элементов, например, большее или меньшее число аудиоустройств, аудиоустройства в различных местоположениях, аудиоустройства, имеющие различные характеристики, и т.д.Fig. 1 shows an example of geometric relationships between four audio devices in an environment. In this example, audio environment 100 is a room that includes a television receiver 101 and audio devices 105a, 105b, 105c and 105d. According to this example, audio devices 105a-105d are located at locations 1-4, respectively, of audio environment 100. Like other examples disclosed in this document, the types, numbers, locations and orientations of the elements shown in Fig. 1 are given only as an example. Other implementations may have different types, numbers and arrangements of elements, such as a greater or lesser number of audio devices, audio devices in different locations, audio devices having different characteristics, etc.

В этой реализации, каждое из аудиоустройств 105a-105d представляет собой интеллектуальный динамик, который включает в себя систему микрофонов и систему динамиков, которая включает в себя по меньшей мере один динамик. В некоторых реализациях, каждая система микрофонов включает в себя массив по меньшей мере из трех микрофонов. Согласно некоторым реализациям, телевизионный приемник 101 может включать в себя систему динамиков и/или систему микрофонов. В некоторых таких реализациях, способ автоматической локализации может использоваться для автоматической локализации телевизионного приемника 101 или части телевизионного приемника 101 (например, телевизионного громкоговорителя, телевизионного приемо-передающего устройства и т.д.), например, как описано ниже с обращением к аудиоустройствам 105a-105d.In this implementation, each of the audio devices 105a-105d is an intelligent speaker that includes a microphone system and a speaker system that includes at least one speaker. In some implementations, each microphone system includes an array of at least three microphones. According to some implementations, the television receiver 101 may include a speaker system and/or a microphone system. In some such implementations, the automatic localization method may be used to automatically localize the television receiver 101 or a part of the television receiver 101 (e.g., a television speaker, a television transceiver, etc.), for example, as described below with reference to the audio devices 105a-105d.

Некоторые варианты осуществления, описанные в настоящем описании, обеспечивают возможность автоматической локализации набора аудиоустройств, таких как аудиоустройства 105a-105d, показанные на фиг. 1, на основе направления поступления сигналов (DOA) между каждой парой аудиоустройств, на основе времени поступления сигналов (TOA) аудиосигналов между каждой парой устройств либо на основе как DOA, так и TOA аудиосигналов между каждой парой устройств. В некоторых случаях, аналогично примеру, показанному на фиг. 1, каждое из аудиоустройств оснащено по меньшей мере с одним задающим блоком и одним массивом микрофонов, причем массив микрофонов допускает предоставление направления поступления сигналов входящего звука. Согласно этому примеру, двуглавая стрелка 110ab представляет звук, передаваемый посредством аудиоустройства 105a и принимаемый посредством аудиоустройства 105b, а также звук, передаваемый посредством аудиоустройства 105b и принимаемого посредством аудиоустройства 105a. Аналогично, двуглавые стрелки 110ac, 110ad, 110bc, 110bd и 110cd представляют звуки, передаваемые и принимаемые посредством аудиоустройств 105a и аудиоустройства 105c, звуки, передаваемые и принимаемые посредством аудиоустройств 105a и аудиоустройства 105d, звуки, передаваемые и принимаемые посредством аудиоустройств 105b и аудиоустройства 105c, звуки, передаваемые и принимаемые посредством аудиоустройств 105b и аудиоустройства 105d, и звуки, передаваемые и принимаемые посредством аудиоустройств 105c и аудиоустройства 105d, соответственно.Some embodiments described in the present specification provide the ability to automatically localize a set of audio devices, such as audio devices 105a-105d shown in Fig. 1, based on the direction of arrival (DOA) of the signals between each pair of audio devices, based on the time of arrival (TOA) of the audio signals between each pair of devices, or based on both the DOA and the TOA of the audio signals between each pair of devices. In some cases, similar to the example shown in Fig. 1, each of the audio devices is equipped with at least one driver unit and one microphone array, wherein the microphone array is capable of providing a direction of arrival of incoming audio signals. According to this example, double-headed arrow 110ab represents sound transmitted by audio device 105a and received by audio device 105b, as well as sound transmitted by audio device 105b and received by audio device 105a. Similarly, the double-headed arrows 110ac, 110ad, 110bc, 110bd and 110cd represent sounds transmitted and received by the audio devices 105a and the audio device 105c, sounds transmitted and received by the audio devices 105a and the audio device 105d, sounds transmitted and received by the audio devices 105b and the audio device 105c, sounds transmitted and received by the audio devices 105b and the audio device 105d, and sounds transmitted and received by the audio devices 105c and the audio device 105d, respectively.

В этом примере, каждое из аудиоустройств 105a-105d имеет ориентацию, представленную посредством стрелок 115a-115d, которая может задаваться различными способами. Например, ориентация аудиоустройства, имеющего один громкоговоритель, может соответствовать направлению, в котором обращен один громкоговоритель. В некоторых примерах, ориентация аудиоустройства, имеющего множество громкоговорителей, обращенных в различных направлениях, может указываться посредством направления, в котором обращен один из громкоговорителей. В других примерах, ориентация аудиоустройства, имеющего множество громкоговорителей, обращенных в различных направлениях, может указываться посредством направления вектора, соответствующего сумме аудиовывода в различных направлениях, в которых обращен каждый из множества громкоговорителей. В примере, показанном на фиг. 1, ориентации стрелок 115a-115d определены с обращением к декартовой системе координат. В других примерах ориентации стрелок 115a-115d могут быть определены с обращением к другому типу системы координат, например к сферической или цилиндрической системе координат.In this example, each of the audio devices 105a-105d has an orientation represented by arrows 115a-115d, which can be specified in various ways. For example, the orientation of an audio device having one speaker can correspond to the direction in which one speaker faces. In some examples, the orientation of an audio device having a plurality of speakers facing in different directions can be indicated by the direction in which one of the speakers faces. In other examples, the orientation of an audio device having a plurality of speakers facing in different directions can be indicated by the direction of a vector corresponding to the sum of the audio output in the different directions in which each of the plurality of speakers faces. In the example shown in Fig. 1, the orientations of the arrows 115a-115d are determined with reference to a Cartesian coordinate system. In other examples, the orientations of the arrows 115a-115d may be determined by reference to another type of coordinate system, such as a spherical or cylindrical coordinate system.

В этом примере, телевизионный приемник 101 включает в себя электромагнитный интерфейс 103, который выполнен с возможностью приема электромагнитных волн. В некоторых примерах электромагнитный интерфейс 103 может быть выполнен с возможностью передачи и приема электромагнитных волн. Согласно некоторым реализациям по меньшей мере два из аудиоустройств 105a-105d могут включать в себя антенную систему, сконфигурированную в качестве приемо-передающего устройства. Антенная система может быть выполнена с возможностью передачи и приема электромагнитных волн. В некоторых примерах, антенная система включает в себя антенную решетку, имеющую по меньшей мере три антенны. Некоторые варианты осуществления, описанные в настоящем описании, обеспечивают возможность автоматической локализации набора устройств, таких как аудиоустройства 105a-105d и/или телевизионный приемник 101, показанный на фиг. 1 по меньшей мере частично на основе DOA электромагнитных волн, передаваемых между устройствами. Соответственно, двуглавые стрелки 110ab, 110ac, 110ad, 110bc, 110bd и 110cd также могут представлять электромагнитные волны, передаваемые между аудиоустройствами 105a-105d.In this example, the television receiver 101 includes an electromagnetic interface 103 that is configured to receive electromagnetic waves. In some examples, the electromagnetic interface 103 may be configured to transmit and receive electromagnetic waves. According to some implementations, at least two of the audio devices 105a-105d may include an antenna system configured as a transceiver. The antenna system may be configured to transmit and receive electromagnetic waves. In some examples, the antenna system includes an antenna array having at least three antennas. Some embodiments described in this specification provide the ability to automatically localize a set of devices, such as the audio devices 105a-105d and/or the television receiver 101 shown in Fig. 1 at least in part based on the DOA of the electromagnetic waves transmitted between the devices. Accordingly, the double-headed arrows 110ab, 110ac, 110ad, 110bc, 110bd, and 110cd may also represent electromagnetic waves transmitted between the audio devices 105a-105d.

Согласно некоторым примерам, антенная система устройства (к примеру, аудиоустройства) может совместно размещаться с громкоговорителем устройства, например, рядом с громкоговорителем. В некоторых таких примерах, ориентация антенной системы может соответствовать ориентации громкоговорителей. В качестве альтернативы или дополнения, антенная система устройства может иметь известную или заданную ориентацию относительно одного или более громкоговорителей устройства.According to some examples, the antenna system of the device (e.g., the audio device) may be co-located with the loudspeaker of the device, such as near the loudspeaker. In some such examples, the orientation of the antenna system may correspond to the orientation of the loudspeakers. Alternatively or additionally, the antenna system of the device may have a known or specified orientation relative to one or more loudspeakers of the device.

В этом примере, аудиоустройства 105a-105d выполнены с возможностью беспроводной связи друг с другом и с другими устройствами. В некоторых примерах, аудиоустройства 105a-105d могут включать в себя сетевые интерфейсы, которые выполнены с возможностью связи между аудиоустройствами 105a-105d и другими устройствами через Интернет. В некоторых реализациях, процессы автоматической локализации, раскрытые в данном документе, могут выполняться посредством системы управления одного из аудиоустройств 105a-105d. В других примерах, процессы автоматической локализации могут выполняться посредством другого устройства аудиосреды 100, к примеру, которое может иногда называться «концентратором интеллектуального дома», который выполнен с возможностью беспроводной связи с аудиоустройствами 105a-105d. В других примерах, процессы автоматической локализации могут выполняться по меньшей мере частично, посредством устройства за пределами аудиосреды 100, к примеру, сервера, например, на основе информации, принимаемой из одного или более аудиоустройств 105a-105d и/или концентратора интеллектуального дома.In this example, the audio devices 105a-105d are configured to wirelessly communicate with each other and with other devices. In some examples, the audio devices 105a-105d may include network interfaces that are configured to communicate between the audio devices 105a-105d and other devices via the Internet. In some implementations, the automatic localization processes disclosed in this document may be performed by a control system of one of the audio devices 105a-105d. In other examples, the automatic localization processes may be performed by another device of the audio environment 100, for example, which may sometimes be referred to as a "smart home hub", which is configured to wirelessly communicate with the audio devices 105a-105d. In other examples, the automatic localization processes may be performed at least in part by a device outside of the audio environment 100, such as a server, such as based on information received from one or more audio devices 105a-105d and/or a smart home hub.

Фиг. 2 показывает излучатель аудиосигнала, расположенный в аудиосреде по фиг. 1. Некоторые реализации обеспечивают автоматическую локализацию одного или более излучателей аудиосигнала, к примеру, человека 205 по фиг. 2. В этом примере, человек 205 находится в местоположении 5. Здесь, звук, издаваемый человеком 205 и принимаемый посредством аудиоустройства 105a, представляется посредством одноглавой стрелки 210a. Аналогично, звуки, издаваемые человеком 205 и принимаемые посредством аудиоустройств 105b, 105c и 105d, представляются посредством одноглавых стрелок 210b, 210c и 210d. Излучатели аудиосигнала могут локализоваться либо на основе DOA звука излучателя аудиосигнала, захваченного посредством аудиоустройств 105a-105d и/или телевизионного приемника 101, либо на основе разностей в TOA звука излучателя аудиосигнала, измеренных посредством аудиоустройств 105a-105d и/или телевизионного приемника 101, либо на основе как основе DOA, так и разностей в TOA.Fig. 2 shows an audio signal emitter located in the audio environment of Fig. 1. Some implementations provide for automatic localization of one or more audio signal emitters, such as the person 205 of Fig. 2. In this example, the person 205 is located at location 5. Here, the sound emitted by the person 205 and received by the audio device 105a is represented by a single-headed arrow 210a. Similarly, the sounds emitted by the person 205 and received by the audio devices 105b, 105c and 105d are represented by single-headed arrows 210b, 210c and 210d. The audio signal emitters can be localized either based on the DOA of the audio signal emitter's sound captured by the audio devices 105a-105d and/or the television receiver 101, or based on the differences in TOA of the audio signal emitter's sound measured by the audio devices 105a-105d and/or the television receiver 101, or based on both the DOA and the differences in TOA.

В качестве альтернативы или дополнения, некоторые реализации могут предоставлять автоматическую локализацию одного или более излучателей электромагнитных волн. Некоторые варианты осуществления, описанные в настоящем описании, обеспечивают возможность автоматической локализации одного или более излучателей электромагнитных волн по меньшей мере частично на основе DOA электромагнитных волн, передаваемых посредством одного или более излучателей электромагнитных волн. Если излучатель электромагнитных волн находится в местоположении 5, электромагнитные волны, излучаемые посредством излучателя электромагнитных волн и принимаемые посредством аудиоустройств 105a, 105b, 105c и 105d, также могут представляться посредством одноглавых стрелок 210a, 210b, 210c и 210c.Alternatively or additionally, some implementations may provide automatic localization of one or more electromagnetic wave emitters. Some embodiments described in the present specification provide the ability to automatically localize one or more electromagnetic wave emitters at least in part based on the DOA of the electromagnetic waves transmitted by the one or more electromagnetic wave emitters. If the electromagnetic wave emitter is located at location 5, the electromagnetic waves emitted by the electromagnetic wave emitter and received by the audio devices 105a, 105b, 105c and 105d may also be represented by single-headed arrows 210a, 210b, 210c and 210c.

Фиг. 3 показывает приемное аудиоустройство, расположенное в аудиосреде по фиг. 1. В этом примере, микрофоны смартфона 305 активируются, но динамики смартфона 305 в данный момент не излучают звук. Некоторые варианты осуществления обеспечивают автоматическую локализацию одного или более пассивных приемных аудиоустройств, таких как смартфон 305 по фиг. 3, когда смартфон 305 не излучает звук. Здесь, звук, излучаемый посредством аудиоустройства 105a и принимаемый посредством смартфона 305, представляется посредством одноглавой стрелки 310a. Аналогично, звуки, излучаемые посредством аудиоустройств 105b, 105c и 105d и принимаемые посредством смартфона 305, представляются посредством одноглавых стрелок 310b, 310c и 310d.Fig. 3 shows an audio receiver located in the audio environment of Fig. 1. In this example, the microphones of the smartphone 305 are activated, but the speakers of the smartphone 305 are not currently emitting sound. Some embodiments provide for automatic localization of one or more passive audio receiver devices, such as the smartphone 305 of Fig. 3, when the smartphone 305 is not emitting sound. Here, the sound emitted by the audio device 105a and received by the smartphone 305 is represented by a single-headed arrow 310a. Similarly, the sounds emitted by the audio devices 105b, 105c and 105d and received by the smartphone 305 are represented by single-headed arrows 310b, 310c and 310d.

Если приемное аудиоустройство оснащается массивом микрофонов и выполнено с возможностью определения DOA принимаемого звука, приемное аудиоустройство может локализоваться по меньшей мере частично на основе DOA звуков, излучаемых посредством аудиоустройств 105a-105d и захваченных посредством приемного аудиоустройства. В некоторых примерах, приемное аудиоустройство может локализоваться по меньшей мере частично на основе разности в TOA интеллектуальных аудиоустройств, захваченной посредством приемного аудиоустройства, независимо от того, оснащается или нет приемное аудиоустройство массивом микрофонов. Еще один другой вариант осуществления может предоставлять возможность автоматической локализации набора интеллектуальных аудиоустройств, одного или более излучателей аудиосигнала и одного или более приемных устройств, только на основе DOA либо на основе DOA и TOA, посредством комбинирования способов, описанных выше.If the audio receiver is equipped with a microphone array and is configured to determine the DOA of the received sound, the audio receiver can be localized at least in part based on the DOA of the sounds emitted by the audio devices 105a-105d and captured by the audio receiver. In some examples, the audio receiver can be localized at least in part based on the difference in TOA of the intelligent audio devices captured by the audio receiver, regardless of whether the audio receiver is equipped with a microphone array. Yet another embodiment can provide the ability to automatically localize a set of intelligent audio devices, one or more audio signal emitters and one or more receivers, based only on the DOA or based on the DOA and TOA, by combining the methods described above.

Локализация на основе направления поступления сигналовLocalization based on the direction of signal arrival

Фиг. 4 является блок-схемой, которая приводит один пример способа, который может осуществляться посредством системы управления устройства, такого как устройство, показанное на фиг. 10. Блоки способа 400, как и других способов, описанных в данном документе, не обязательно выполняются в указанном порядке. Кроме того, такие способы могут включать в себя большее или меньшее число блоков, чем показано и/или описано.Fig. 4 is a block diagram that provides one example of a method that can be performed by a control system of a device such as the device shown in Fig. 10. The blocks of the method 400, like other methods described herein, are not necessarily performed in the order shown. In addition, such methods may include more or fewer blocks than shown and/or described.

Способ 400 представляет собой пример процесса локализации аудиоустройств. В этом примере, способ 400 включает в себя определение местоположения и ориентации двух или более интеллектуальных аудиоустройств, каждое из которых включает в себя систему громкоговорителей и массив микрофонов. Согласно этому примеру, способ 400 включает в себя определение местоположения и ориентации интеллектуальных аудиоустройств по меньшей мере частично на основе аудиосигнала, излучаемого каждым интеллектуальным аудиоустройством и захваченного каждым другим интеллектуальным аудиоустройством, согласно оценке DOA. В этом примере, начальные блоки способа 400 базируются на системе управления каждого интеллектуального аудиоустройства, чтобы иметь возможность извлекать DOA из входных аудиоданных, принятых посредством массива микрофонов этого интеллектуального аудиоустройства, например, посредством использования разностей времени поступления сигналов между отдельными микрофонными капсюлями массива микрофонов.Method 400 is an example of a process for localizing audio devices. In this example, method 400 includes determining the location and orientation of two or more intelligent audio devices, each of which includes a speaker system and a microphone array. According to this example, method 400 includes determining the location and orientation of the intelligent audio devices at least in part based on an audio signal emitted by each intelligent audio device and captured by each other intelligent audio device, according to a DOA estimate. In this example, initial blocks of method 400 are based on a control system of each intelligent audio device to be able to extract DOA from input audio data received by means of an array of microphones of this intelligent audio device, for example, by using differences in the arrival times of signals between individual microphone capsules of the microphone array.

В этом примере, блок 405 включает в себя получение аудиосигнала, излучаемого посредством каждого интеллектуального аудиоустройства аудиосреды и захваченного посредством каждого другого интеллектуального аудиоустройства аудиосреды. В некоторых таких примерах, блок 405 может включать в себя предписание каждому интеллектуальному аудиоустройству излучать звук, который в некоторых случаях может представлять собой звук, имеющий заданную длительность, частотный спектр и т.д. Этот заданный тип звука может называться в данном документе «структурированным сигналом источника». В некоторых реализациях, интеллектуальные аудиоустройства могут представлять собой или могут включать в себя аудиоустройства 105a-105d по фиг. 1.In this example, block 405 includes receiving an audio signal emitted by each intelligent audio device of the audio environment and captured by each other intelligent audio device of the audio environment. In some such examples, block 405 may include causing each intelligent audio device to emit a sound, which in some cases may be a sound having a specified duration, frequency spectrum, etc. This specified type of sound may be referred to herein as a "structured source signal". In some implementations, the intelligent audio devices may be or may include audio devices 105a-105d of FIG. 1.

В некоторых таких примерах, блок 405 может включать в себя последовательный процесс предписания одному интеллектуальному аудиоустройству излучать звук в то время, когда другие интеллектуальные аудиоустройства «прослушивают» на предмет звука. Например, обращаясь к фиг. 1, блок 405 может включать в себя: (a) предписание аудиоустройству 105a излучать звук и прием данных микрофонов, соответствующих излучаемому звуку, из массивов микрофонов аудиоустройств 105b 105d; затем (b) предписание аудиоустройству 105b излучать звук и прием данных микрофонов, соответствующих излучаемому звуку, из массивов микрофонов аудиоустройств 105a, 105c и 105d; затем (c) предписание аудиоустройству 105c излучать звук и прием данных микрофонов, соответствующих излучаемому звуку, из массивов микрофонов аудиоустройств 105a, 105b и 105d; затем (d) предписание аудиоустройству 105d излучать звук и прием данных микрофонов, соответствующих излучаемому звуку, из массивов микрофонов аудиоустройств 105a, 105b и 105c. Излучаемые звуки могут быть идентичными или могут не быть идентичными, в зависимости от конкретной реализации.In some such examples, block 405 may include a sequential process of causing one intelligent audio device to emit a sound while other intelligent audio devices are "listening" for the sound. For example, referring to Fig. 1, block 405 may include: (a) causing audio device 105a to emit a sound and receiving microphone data corresponding to the emitted sound from microphone arrays of audio devices 105b 105d; then (b) causing audio device 105b to emit a sound and receiving microphone data corresponding to the emitted sound from microphone arrays of audio devices 105a, 105c and 105d; then (c) causing audio device 105c to emit a sound and receiving microphone data corresponding to the emitted sound from microphone arrays of audio devices 105a, 105b and 105d; then (d) causing the audio device 105d to emit sound and receiving microphone data corresponding to the emitted sound from the microphone arrays of the audio devices 105a, 105b and 105c. The emitted sounds may or may not be identical, depending on the particular implementation.

В других примерах, блок 405 может включать в себя одновременный процесс предписание всем интеллектуальным аудиоустройствам излучать звук в то время, когда другие интеллектуальные аудиоустройства «прослушивают» на предмет звука. Например, блок 405 может включать в себя выполнение следующих этапов одновременно: (1) предписание аудиоустройству 105a излучать первый звук и прием данных микрофонов, соответствующих излучаемому первому звуку, из массивов микрофонов аудиоустройств 105b 105d; (2) предписание аудиоустройству 105b излучать второй звук, отличающийся от первого звука, и прием данных микрофонов, соответствующих излучаемому второму звуку, из массивов микрофонов аудиоустройств 105a, 105c и 105d; (3) предписание аудиоустройству 105c излучать третий звук, отличающийся от первого звука и второго звука, и прием данных микрофонов, соответствующих излучаемому третьему звуку, из массивов микрофонов аудиоустройств 105a, 105b и 105d; (4) предписание аудиоустройству 105d излучать четвертый звук, отличающийся от первого звука, второго звука и третьего звука, и прием данных микрофонов, соответствующих излучаемому четвертому звуку, из массивов микрофонов аудиоустройств 105a, 105b и 105c.In other examples, block 405 may include a simultaneous process of causing all intelligent audio devices to emit a sound while other intelligent audio devices are "listening" for the sound. For example, block 405 may include performing the following steps simultaneously: (1) causing audio device 105a to emit a first sound and receiving microphone data corresponding to the emitted first sound from microphone arrays of audio devices 105b 105d; (2) causing audio device 105b to emit a second sound different from the first sound and receiving microphone data corresponding to the emitted second sound from microphone arrays of audio devices 105a, 105c and 105d; (3) causing the audio device 105c to emit a third sound different from the first sound and the second sound, and receiving microphone data corresponding to the emitted third sound from the microphone arrays of the audio devices 105a, 105b and 105d; (4) causing the audio device 105d to emit a fourth sound different from the first sound, the second sound and the third sound, and receiving microphone data corresponding to the emitted fourth sound from the microphone arrays of the audio devices 105a, 105b and 105c.

В этом примере, блок 410 включает в себя процесс предварительной обработки аудиосигналов, полученных через микрофоны. Блок 410, например, может включать в себя применение одного или более фильтров, процесса шумо- или эхоподавления и т.д. Ниже описаны некоторые дополнительные примеры предварительной обработки.In this example, block 410 includes a process for pre-processing audio signals received via microphones. Block 410, for example, may include applying one or more filters, a noise or echo cancellation process, etc. Some additional examples of pre-processing are described below.

Согласно этому примеру, блок 415 включает в себя определение возможных вариантов DOA из предварительно обработанных аудиосигналов, получающихся в результате блока 410. Например, если блок 405 включает в себя излучение и прием структурированных сигналов источников, блок 415 может включать в себя один или более способов обращенной свертки, получая в итоге импульсные отклики и/или «псевдодиапазоны», из которых разность времен поступления сигналов доминирующих пиков может использоваться, в сочетании с известной геометрией массива микрофонов интеллектуальных аудиоустройств, для оценки возможных вариантов DOA.According to this example, block 415 includes determining possible DOA variants from the pre-processed audio signals resulting from block 410. For example, if block 405 includes emission and reception of structured source signals, block 415 may include one or more deconvolution methods, resulting in impulse responses and/or "pseudo-ranges" from which the difference in arrival times of dominant peaks can be used, in combination with the known geometry of the microphone array of intelligent audio devices, to estimate possible DOA variants.

Тем не менее, не все реализации способа 400 включают в себя получение сигналов микрофонов на основе излучения заданных звуков. Соответственно, некоторые примеры блока 415 включают в себя «слепые» способы, которые применяются к произвольным аудиосигналам, такие как мощность направленного отклика, формирование диаграммы направленности на стороне приемного устройства или другие аналогичные способы, из которых одно или более DOA могут извлекаться посредством подбора пиков. Ниже описаны некоторые примеры. Следует принимать во внимание, что хотя данные DOA могут определяться через слепые способы или с использованием структурированных сигналов источников, в большинстве случаев данные TOA могут определяться только с использованием структурированных сигналов источников. Кроме того, более точная информация DOA, в общем, может получаться с использованием структурированных сигналов источников.However, not all implementations of the method 400 include obtaining microphone signals based on the emission of specified sounds. Accordingly, some examples of block 415 include "blind" methods that are applied to arbitrary audio signals, such as directional response power, beamforming on the receiver side, or other similar methods, from which one or more DOAs can be extracted by peak matching. Some examples are described below. It should be taken into account that although DOA data can be determined via blind methods or using structured source signals, in most cases, TOA data can only be determined using structured source signals. In addition, more accurate DOA information can generally be obtained using structured source signals.

Согласно этому примеру, блок 420 включает в себя выбор одного DOA, соответствующего звуку, излучаемому посредством каждого из других интеллектуальных аудиоустройств. Во многих случаях, массив микрофонов может обнаруживать прямые поступления и отраженный звук, который передан посредством идентичного аудиоустройства. Блок 420 может включать в себя выбор аудиосигналов, которые с наибольшей вероятностью должны соответствовать непосредственно передаваемому звуку. Ниже описаны некоторые дополнительные примеры определения возможных -вариантов DOA и выбора DOA из двух или более возможных вариантов DOA.According to this example, block 420 includes selecting one DOA corresponding to the sound emitted by each of the other intelligent audio devices. In many cases, the microphone array can detect direct inputs and reflected sound that is transmitted by an identical audio device. Block 420 can include selecting audio signals that are most likely to correspond to the directly transmitted sound. Some additional examples of determining possible DOA options and selecting a DOA from two or more possible DOA options are described below.

В этом примере, блок 425 включает в себя прием информации DOA, получающейся в результате реализации каждого интеллектуального аудиоустройства блока 420 (другими словами, прием набора DOA, соответствующих звуку, передаваемому из каждого интеллектуального аудиоустройства в каждое другое интеллектуальное аудиоустройство в аудиосреде), и выполнение способа локализации (например, реализацию алгоритма локализации через систему управления) на основе информации DOA. В некоторых раскрытых реализациях, блок 425 включает в себя минимизацию функции стоимости, возможно, подчиняющейся некоторым ограничениям и/или весовым коэффициентам, например, как описано ниже с обращением к фиг. 5. В некоторых таких примерах, функция стоимости принимает в качестве входных данных значения DOA из каждого интеллектуального аудиоустройства в каждое другое интеллектуальное устройство и возвращает в качестве выводов оцененное местоположение и оцененную ориентацию каждого из интеллектуальных аудиоустройств. В примере, показанном на фиг. 4, блок 430 представляет оцененные местоположения интеллектуального аудиоустройства и оцененные ориентации интеллектуального аудиоустройства, сформированные в блоке 425.In this example, block 425 includes receiving DOA information resulting from the implementation of each intelligent audio device of block 420 (in other words, receiving a set of DOAs corresponding to sound transmitted from each intelligent audio device to each other intelligent audio device in the audio environment), and performing a localization method (for example, implementing a localization algorithm via a control system) based on the DOA information. In some disclosed implementations, block 425 includes minimizing a cost function, possibly subject to some constraints and/or weighting factors, for example, as described below with reference to Fig. 5. In some such examples, the cost function receives as input DOA values from each intelligent audio device to each other intelligent device and returns as outputs an estimated location and an estimated orientation of each of the intelligent audio devices. In the example shown in Fig. 4, block 430 represents the estimated locations of the intelligent audio device and the estimated orientations of the intelligent audio device generated in block 425.

Фиг. 5 является блок-схемой, которая приводит другой пример способа автоматической оценки местоположений и ориентаций устройства на основе данных DOA. Способ 500, например, может осуществляться посредством реализации алгоритма локализации через систему управления устройства, такого как устройство, показанное на фиг. 10. Блоки способа 500, как и других способов, описанных в данном документе, не обязательно выполняются в указанном порядке. Кроме того, такие способы могут включать в себя большее или меньшее число блоков, чем показано и/или описано.Fig. 5 is a block diagram that provides another example of a method for automatically estimating locations and orientations of a device based on DOA data. The method 500, for example, can be implemented by implementing a localization algorithm through a control system of a device, such as the device shown in Fig. 10. The blocks of the method 500, like other methods described herein, are not necessarily performed in the order shown. In addition, such methods can include more or fewer blocks than shown and/or described.

Согласно этому примеру, данные DOA получаются в блоке 505. Согласно некоторым реализациям, блок 505 может включать в себя получение акустических данных DOA, например, как описано выше с обращением к блоки 405-420 по фиг. 4. В качестве альтернативы или дополнения, блок 505 может включать в себя получение данных DOA, соответствующих электромагнитным волнам, которые передаются и принимаются посредством каждого из множества устройств в среде.According to this example, DOA data is obtained in block 505. According to some implementations, block 505 may include obtaining acoustic DOA data, such as described above with reference to blocks 405-420 of Fig. 4. Alternatively or additionally, block 505 may include obtaining DOA data corresponding to electromagnetic waves that are transmitted and received by each of the plurality of devices in the environment.

В этом примере, алгоритм локализации принимает в качестве ввода данные DOA, полученные в блоке 505, из каждого интеллектуального устройства в каждое другое интеллектуальное устройство в аудиосреде, наряду с любыми конфигурационными параметрами 510, указываемыми для аудиосреды. В некоторых примерах, факультативные ограничения 525 могут применяться к данным DOA. Конфигурационные параметры 510, весовые коэффициенты 515 минимизации, факультативные ограничения 525 и начальная конфигурация 530, например, могут получаться из запоминающего устройства посредством системы управления, которая выполняет программное обеспечение для реализации функции 520 стоимости и алгоритма 535 нелинейного поиска. Конфигурационные параметры 510, например, могут включать в себя данные, соответствующие максимальным размерам помещения, ограничениям схемы размещения громкоговорителей, внешнему вводу для определения глобального перемещения в пространстве (например, 2 параметра), глобального вращения (1 параметр) и глобального масштаба (1 параметр), и т.д.In this example, the localization algorithm receives as input the DOA data obtained in block 505 from each intelligent device to each other intelligent device in the audio environment, along with any configuration parameters 510 specified for the audio environment. In some examples, optional constraints 525 may be applied to the DOA data. The configuration parameters 510, the minimization weights 515, the optional constraints 525 and the initial configuration 530, for example, may be obtained from a memory device by a control system that executes software for implementing the cost function 520 and the nonlinear search algorithm 535. The configuration parameters 510, for example, may include data corresponding to maximum room dimensions, speaker layout constraints, external input for determining a global translation in space (for example, 2 parameters), a global rotation (1 parameter) and a global scale (1 parameter), etc.

Согласно этому примеру, конфигурационные параметры 510 вводятся в функцию 520 стоимости и в алгоритм 535 нелинейного поиска. В некоторых примерах, конфигурационные параметры 510 подвергаются факультативным ограничениям 525. В этом примере, функция 520 стоимости принимает во внимание разности между измеренными DOA и DOA, оцененные посредством решения по локализации оптимизатора.According to this example, the configuration parameters 510 are input into the cost function 520 and into the nonlinear search algorithm 535. In some examples, the configuration parameters 510 are subject to optional constraints 525. In this example, the cost function 520 takes into account the differences between the measured DOA and the DOA estimated by the optimizer's localization solution.

В некоторых вариантах осуществления, факультативные ограничения 525 налагают ограничения для возможного местоположения и/или ориентации аудиоустройства, к примеру, наложение такого условия, что аудиоустройства находятся на минимальном расстоянии друг от друга. В качестве альтернативы или дополнения, факультативные ограничения 525 могут налагать ограничения для фиктивных переменных минимизации, введенных в силу удобства, например, как описано ниже.In some embodiments, optional constraints 525 impose constraints on the possible location and/or orientation of the audio device, such as imposing a condition that the audio devices are at a minimum distance from each other. Alternatively or in addition, optional constraints 525 may impose constraints on dummy minimization variables introduced for convenience, such as described below.

В этом примере, весовые коэффициенты 515 минимизации также вводятся в алгоритм 535 нелинейного поиска. Ниже описаны некоторые примеры.In this example, the minimization weights 515 are also fed into the nonlinear search algorithm 535. Some examples are described below.

Согласно некоторым реализациям, алгоритм 535 нелинейного поиска представляет собой алгоритм, который может находить локальные решения проблемы непрерывной оптимизации формы:According to some implementations, the nonlinear search algorithm 535 is an algorithm that can find local solutions to the continuous shape optimization problem:

min C(x)min C(x)

, ,

так что: gL≤g(x)≤gU,so that: g L ≤g(x)≤g U ,

и xL≤x≤xU and x L ≤x≤x U

В вышеприведенных выражениях, представляют функцию 520 стоимости, и представляют функции ограничения, соответствующие факультативным ограничениям 525. В этих примерах, векторы gL и gU представляют нижние и верхние границы для ограничений, и векторы xL и xU представляют границы для переменных x.In the above expressions, represent the cost function 520, and represent the constraint functions corresponding to the optional constraints 525. In these examples, the vectors g L and g U represent the lower and upper bounds for the constraints, and the vectors x L and x U represent the bounds for the variables x.

Алгоритм 535 нелинейного поиска может варьироваться согласно конкретной реализации. Примеры алгоритма 535 нелинейного поиска включают в себя способы градиентного спуска, способ Бройдена-Флетчера-Голдфарба-Шэнно (BFGS), способ оптимизации по внутренним точкам (IPOPT) и т.д. Хотя некоторые алгоритмы нелинейного поиска требуют только значений функций стоимости и ограничений, некоторые другие способы также могут требовать первых производных (градиентов, якобиан) функции стоимости и ограничений, и некоторые другие способы также могут требовать вторых производных (гессиан) идентичных функций. Если требуются производные, они могут обеспечиваться в явном виде, или они могут автоматически вычисляться с использованием автоматических или числовых технологий дифференцирования.The nonlinear search algorithm 535 may vary according to the specific implementation. Examples of the nonlinear search algorithm 535 include gradient descent methods, the Broyden-Fletcher-Goldfarb-Shanno (BFGS) method, the interior point optimization method (IPOPT), etc. Although some nonlinear search algorithms require only the values of the cost and constraint functions, some other methods may also require the first derivatives (gradients, Jacobian) of the cost and constraint functions, and some other methods may also require the second derivatives (Hessian) of the identical functions. If derivatives are required, they may be provided explicitly, or they may be automatically calculated using automatic or numerical differentiation techniques.

Некоторые алгоритмы нелинейного поиска требуют информации начальных точек для начала минимизации, как предполагает начальная конфигурация 530, которая вводится в алгоритм 535 нелинейного поиска на фиг. 5. В некоторых примерах, информация начальных точек может обеспечиваться в виде конфигурации, состоящей из равного числа интеллектуальных аудиоустройств (другими словами, из числа, равного фактическому числу интеллектуальных аудиоустройств, для которых получены данные DOA) с соответствующими местоположениями и ориентациями. Местоположения и ориентации могут быть произвольными и не должны обязательно представлять собой фактические или аппроксимированные местоположения и ориентации интеллектуальных аудиоустройств. В некоторых примерах, информация начальных точек может указывать местоположения интеллектуального аудиоустройства, которые проходят вдоль оси или другой произвольной линии аудиосреды, местоположения интеллектуального аудиоустройства, которые проходят вдоль окружности, прямоугольника или другой геометрической формы в аудиосреде и т.д. В некоторых примерах, информация начальных точек может указывать произвольные ориентации интеллектуального аудиоустройства, которые могут представлять собой заданные ориентации интеллектуального аудиоустройства или случайные ориентации интеллектуального аудиоустройства.Some nonlinear search algorithms require starting point information to begin minimization, as suggested by the starting configuration 530 that is input to the nonlinear search algorithm 535 in Fig. 5. In some examples, the starting point information may be provided in the form of a configuration consisting of an equal number of intelligent audio devices (in other words, a number equal to the actual number of intelligent audio devices for which DOA data is obtained) with corresponding locations and orientations. The locations and orientations may be arbitrary and do not necessarily represent the actual or approximated locations and orientations of the intelligent audio devices. In some examples, the starting point information may indicate intelligent audio device locations that extend along an axis or other arbitrary line of the audio environment, intelligent audio device locations that extend along a circle, rectangle or other geometric shape in the audio environment, etc. In some examples, the starting point information may indicate arbitrary orientations of the intelligent audio device, which may be specified orientations of the intelligent audio device or random orientations of the intelligent audio device.

В некоторых вариантах осуществления, функция 520 стоимости может формулироваться с точки зрения переменных комплексной плоскости следующим образом:In some embodiments, the cost function 520 may be formulated in terms of complex plane variables as follows:

, ,

при этом звезда указывает комплексное сопряжение, полоса указывает абсолютное значение, и при этом:where the star indicates the complex conjugation, the bar indicates the absolute value, and:

znm=exp(iDOAnm) представляет значение комплексной плоскости, задающее направление поступления сигналов интеллектуального устройства m, измеренное из устройства n, при этом i представляет мнимую единицу;z nm = exp(iDOA nm ) represents the complex plane value that specifies the direction of arrival of signals from smart device m measured from device n, where i represents the imaginary unit;

xn=xnx+ixny представляет значение комплексной плоскости, кодирующее положения x и y интеллектуального устройства n;x n =x nx +ix ny represents the complex plane value encoding the x and y positions of smart device n;

zn=exp(iαn) представляет комплексное значение, кодирующее угол αn ориентации интеллектуального устройства n;z n = exp(iα n ) represents a complex value encoding the orientation angle α n of the smart device n;

представляет весовой коэффициент, заданный для измерения DOAnm; represents the weighting factor specified for the DOA nm measurement;

N представляет число интеллектуальных аудиоустройств, для которых получаются данные DOA; и N represents the number of intelligent audio devices for which DOA data is obtained; and

x=(x1, …, xN), и z=(z1, ..., zN) представляют векторы комплексных положений и комплексных ориентаций, соответственно, всех N интеллектуальных аудиоустройств.x=(x 1 , …, x N ), and z=(z 1 , ..., z N ) represent the complex position and complex orientation vectors, respectively, of all N smart audio devices.

Согласно этому примеру, результаты минимизации представляют собой данные 540 местоположения устройства, указывающие двумерное положение интеллектуальных устройств, xk (представляющий 2 действительных неизвестных в расчете на устройство), и данные 545 ориентации устройства, указывающие вектор zk ориентации интеллектуальных устройств (представляющий 2 дополнительные действительные переменные в расчете на устройство). Из вектора ориентации, только угол αk ориентации интеллектуального устройства является релевантным для проблемы (1 действительное неизвестное в расчете на устройство). Следовательно, в этом примере имеется 3 релевантных неизвестных в расчете на интеллектуальное устройство.According to this example, the results of the minimization are device location data 540 indicating the two-dimensional position of the smart devices, x k (representing 2 real unknowns per device), and device orientation data 545 indicating the orientation vector z k of the smart devices (representing 2 additional real variables per device). Of the orientation vector, only the orientation angle α k of the smart device is relevant to the problem (1 real unknown per device). Therefore, in this example, there are 3 relevant unknowns per smart device.

В некоторых примерах, блок 550 оценки результатов включает в себя вычисление остатка функции стоимости при результирующих положениях и ориентациях. Относительно более низкий остаток указывает относительно более точные значения локализации устройств. Согласно некоторым реализациям, блок 550 оценки результатов может включать в себя процесс обратной связи. Например, некоторые такие примеры могут реализовывать процесс обратной связи, который включает в себя сравнение остатка данной комбинации возможных вариантов DOA с другой комбинацией возможных вариантов DOA, например, как описано в нижеприведенном пояснении показателей надежности DOA.In some examples, the result evaluation unit 550 includes calculating the residual of the cost function at the resulting positions and orientations. A relatively lower residual indicates relatively more accurate device localization values. According to some implementations, the result evaluation unit 550 may include a feedback process. For example, some such examples may implement a feedback process that includes comparing the residual of a given combination of possible DOA options with another combination of possible DOA options, such as described in the explanation of DOA reliability metrics below.

Как отмечено выше, в некоторых реализациях блок 505 может включать в себя получение акустических данных DOA, как описано выше с обращением к блокам 405-420 по фиг. 4, которые включают в себя определение возможных вариантов DOA и выбор возможных вариантов DOA. Соответственно, фиг. 5 включает в себя пунктирную линию из блока 550 оценки результатов в блок 505 для представления одной процедуры факультативного процесса обратной связи. Кроме того, фиг. 4 включает в себя пунктирную линию из блока 430 (который может включать в себя оценку результатов в некоторых примерах) в блок 420 выбора возможных вариантов DOA для представления процедуры другого факультативного процесса обратной связи.As noted above, in some implementations, block 505 may include obtaining acoustic DOA data as described above with reference to blocks 405-420 of Fig. 4, which include determining possible DOA variants and selecting possible DOA variants. Accordingly, Fig. 5 includes a dashed line from the result evaluation block 550 to block 505 to represent one procedure of the optional feedback process. Furthermore, Fig. 4 includes a dashed line from block 430 (which may include evaluating results in some examples) to the DOA candidate selection block 420 to represent a procedure of another optional feedback process.

В некоторых вариантах осуществления, алгоритм 535 нелинейного поиска может не разрешать комплекснозначные переменные. В таких случаях, каждая комплекснозначная переменная может заменяться посредством пары действительных переменных.In some embodiments, the nonlinear search algorithm 535 may not resolve complex-valued variables. In such cases, each complex-valued variable may be replaced by a pair of real variables.

В некоторых реализациях, может быть предусмотрена дополнительная предшествующая информация относительно доступности или надежности каждого измерения DOA. В некоторых таких примерах, громкоговорители могут локализоваться с использованием только поднабора всех возможных элементов DOA. Пропущенные элементы DOA, например, могут маскироваться с соответствующим нулевым весовым коэффициентом в функции стоимости. В некоторых таких примерах, весовые коэффициенты wnm могут быть равны нулю или единице, например, нулю для этих измерений, которые либо пропущены, либо считаются недостаточно надежными, и единице для надежных измерений. В некоторых других вариантах осуществления, весовые коэффициенты wnm могут иметь непрерывное значение от нуля до единицы, в качестве функции надежности измерения DOA. В тех вариантах осуществления, в которых предшествующая информация не доступна, весовые коэффициенты wnm могут просто задаваться равными единице.In some implementations, additional prior information regarding the availability or reliability of each DOA measurement may be provided. In some such examples, loudspeakers may be localized using only a subset of all possible DOA elements. Missing DOA elements, for example, may be masked with a corresponding zero weight in the cost function. In some such examples, the weights w nm may be equal to zero or one, for example, zero for those measurements that are either missed or considered insufficiently reliable, and one for reliable measurements. In some other embodiments, the weights w nm may have a continuous value from zero to one, as a function of the reliability of the DOA measurement. In those embodiments in which prior information is not available, the weights w nm may simply be set equal to one.

В некоторых реализациях условия (одно условие для каждого интеллектуального аудиоустройства) могут добавляться в качестве ограничений, чтобы обеспечивать нормализацию вектора, указывающего ориентацию интеллектуального аудиоустройства. В других примерах, эти дополнительные ограничения могут не требоваться, и вектор, указывающий ориентацию интеллектуального аудиоустройства, может оставляться ненормализованным. Другие реализации могут добавлять в качестве ограничений условия относительно близости интеллектуальных аудиоустройств, например, указывающие то, что , где D является минимальным расстоянием между интеллектуальными аудиоустройствами.In some implementations the conditions (one condition for each smart audio device) may be added as constraints to ensure that the vector indicating the orientation of the smart audio device is normalized. In other examples, these additional constraints may not be required, and the vector indicating the orientation of the smart audio device may be left unnormalized. Other implementations may add conditions regarding the proximity of smart audio devices as constraints, such as specifying that , where D is the minimum distance between smart audio devices.

Вышеприведенная минимизация функции стоимости не определяет полностью абсолютное положение и ориентацию интеллектуальных аудиоустройств. Согласно этому примеру, функция стоимости остается инвариантной при глобальном вращении (1 независимый параметр), глобальном перемещении в пространстве (2 независимых параметра) и глобальном повторном масштабировании (1 независимый параметр), затрагивая одновременно все местоположения и ориентации интеллектуальных устройств. Это глобальное вращение, перемещение в пространстве и повторное масштабирование не могут определяться из минимизации функции стоимости. Различные схемы размещения, связанные посредством преобразований симметрии, являются полностью неразличимыми в этой инфраструктуре, и, считается, что они принадлежат идентичному классу эквивалентности. Следовательно, конфигурационные параметры должны предусматривать критерии для обеспечения возможности уникального задания схемы размещения интеллектуальных аудиоустройств, представляющей весь класс эквивалентности. В некоторых вариантах осуществления, может быть преимущественным выбирать критерии таким образом, что эта схема размещения интеллектуальных аудиоустройств задает опорный кадр, который находится близко к опорному кадру слушателя около опорного положения прослушивания. Ниже приведены примеры таких критериев. В некоторых других примерах, критерии могут быть чисто математическими и отдельными от реалистичного опорного кадра.The above cost function minimization does not completely determine the absolute position and orientation of the smart audio devices. According to this example, the cost function remains invariant under global rotation (1 independent parameter), global translation in space (2 independent parameters) and global rescaling (1 independent parameter), affecting all locations and orientations of the smart devices simultaneously. This global rotation, translation in space and rescaling cannot be determined from the cost function minimization. Different layout schemes related by symmetry transformations are completely indistinguishable in this framework and are considered to belong to an identical equivalence class. Therefore, the configuration parameters must provide criteria for ensuring the possibility of uniquely defining a layout scheme of the smart audio devices that represents the entire equivalence class. In some embodiments, it may be advantageous to select the criteria such that this layout scheme of the smart audio devices defines a reference frame that is close to the reference frame of the listener near the reference listening position. Examples of such criteria are given below. In some other examples, the criteria may be purely mathematical and separate from the realistic reference frame.

Критерии разрешения неоднозначности симметрии могут включать в себя опорное положение, фиксирующее симметрию глобального перемещения в пространстве (например, интеллектуальное аудиоустройство 1 должно находиться в начале системы координат); опорную ориентацию, фиксирующую двумерную вращательную симметрию (например, интеллектуальное устройство 1 должно ориентироваться к зоне аудиосреды, обозначенной в качестве передней стороны, к примеру, в которой телевизионный приемник 101 расположен на фиг. 1-3); и опорное расстояние, фиксирующее симметрию глобального масштабирования (например, интеллектуальное устройство 2 должно находиться на единичном расстоянии от интеллектуального устройства 1). Всего, имеется 4 параметра, которые не могут определяться из проблемы минимизации в этом примере, и которые должны быть обеспечены в качестве внешнего ввода. Следовательно, в этом примере имеется 3N-4 неизвестных, которые могут определяться из проблемы минимизации.The symmetry ambiguity resolution criteria may include a reference position that fixes a global translation symmetry in space (e.g., intelligent audio device 1 should be located at the origin of the coordinate system); a reference orientation that fixes a two-dimensional rotational symmetry (e.g., intelligent device 1 should be oriented toward a region of the audio environment designated as the front side, for example, in which the television receiver 101 is located in Fig. 1-3); and a reference distance that fixes a global scaling symmetry (e.g., intelligent device 2 should be at a unit distance from intelligent device 1). In total, there are 4 parameters that cannot be determined from the minimization problem in this example and that must be provided as external input. Therefore, in this example, there are 3N-4 unknowns that can be determined from the minimization problem.

Как описано выше, в некоторых примерах, в дополнение к набору интеллектуальных аудиоустройств, может быть предусмотрено одно или более пассивных приемных аудиоустройств, оснащенных массивом микрофонов и/или одним или более излучателей аудиосигнала. В таких случаях, процесс локализации может использовать технологию для определения местоположения и ориентации интеллектуального аудиоустройства, местоположения излучателя и местоположения и ориентации пассивного приемного устройства, из аудиоданных, излучаемых посредством каждого интеллектуального аудиоустройства и каждого излучателя и захваченных посредством каждого другого интеллектуального аудиоустройства и каждого пассивного приемного устройства, на основании оценки DOA.As described above, in some examples, in addition to the set of intelligent audio devices, one or more passive audio receivers may be provided, equipped with an array of microphones and/or one or more audio signal emitters. In such cases, the localization process may use technology for determining the location and orientation of the intelligent audio device, the location of the emitter, and the location and orientation of the passive receiver, from audio data emitted by each intelligent audio device and each emitter and captured by each other intelligent audio device and each passive receiver, based on the DOA estimate.

В некоторых таких примерах, процесс локализации может продолжаться аналогично вышеописанному. В некоторых случаях, процесс локализации может быть основан на идентичной функции стоимости, описанной выше, который показывается ниже для удобства читателя:In some such examples, the localization process may proceed similarly to the one described above. In some cases, the localization process may be based on an identical cost function as described above, which is shown below for the convenience of the reader:

Тем не менее, если процесс локализации включает в себя пассивные приемные аудиоустройства и/или излучатели аудиосигнала, которые не представляют собой приемные аудиоустройства, переменные вышеприведенного уравнения должны интерпретироваться немного отличающимся способом. Теперь N представляет общее число устройств, включающих в себя Nsmart интеллектуальных аудиоустройств, Nrec пассивных приемных аудиоустройств и Nemit излучателей, так что N=Nsmart+Nrec+Nemit. В некоторых примерах, весовые коэффициенты могут иметь разреженную структуру, чтобы маскировать отсутствующие данные вследствие пассивных приемных устройств или устройств только с излучателем (либо других аудиоисточников без приемных устройств, таких как людей), так что для всех m, если устройство n представляет собой излучатель аудиосигнала без приемного устройства, и для всех n, если устройство m представляет собой приемное аудиоустройство. Как для интеллектуальных аудиоустройств, так и для пассивных приемных устройств могут определяться положение и угол, тогда как для излучателей аудиосигнала может получаться только положение. Общее число неизвестных составляет 3Nsmart+3Nrec+2Nemit-4.However, if the localization process includes passive audio receivers and/or audio emitters that are not audio receivers, the variables in the above equation must be interpreted in a slightly different way. Now N represents the total number of devices, which includes N smart smart audio devices, N rec passive audio receivers, and N emit emitters, so that N=N smart +N rec +N emit . In some examples, the weighting factors may have a sparse structure to mask missing data due to passive or emitter-only receivers (or other audio sources without receivers, such as humans), so that for all m if device n is an audio signal emitter without a receiver, and for all n if device m is an audio receiver. For both smart audio devices and passive receivers, position and angle can be determined, while for audio emitters, only position can be obtained. The total number of unknowns is 3N smart +3N rec +2N emit -4.

Комбинированная локализация на основе времени поступления сигналов и направления поступления сигналовCombined localization based on signal arrival time and signal arrival direction

В нижеприведенном пояснении, подчеркиваются отличия между вышеописанными процессами локализации на основе DOA и комбинированной локализацией DOA и TOA этого раздела. Эти подробности, которые не приводятся в явном виде, предположительно могут быть идентичными подробностям в вышеописанных процессах локализации на основе DOA.In the explanation below, the differences between the above-described DOA-based localization processes and the combined DOA and TOA localization of this section are emphasized. These details, which are not explicitly given, are presumably identical to the details in the above-described DOA-based localization processes.

Фиг. 6 является блок-схемой, которая приводит один пример способа автоматической оценки местоположений и ориентаций устройства на основе данных DOA и данных TOA. Способ 600, например, может осуществляться посредством реализации алгоритма локализации через систему управления устройства, такого как устройство, показанное на фиг. 10. Блоки способа 600, как и других способов, описанных в данном документе, не обязательно выполняются в указанном порядке. Кроме того, такие способы могут включать в себя большее или меньшее число блоков, чем показано и/или описано.Fig. 6 is a block diagram that provides one example of a method for automatically estimating locations and orientations of a device based on DOA data and TOA data. The method 600, for example, can be implemented by implementing a localization algorithm through a control system of a device, such as the device shown in Fig. 10. The blocks of the method 600, like other methods described herein, are not necessarily performed in the order shown. In addition, such methods can include more or fewer blocks than shown and/or described.

Согласно этому примеру, данные DOA получаются в блоках 605-620. Согласно некоторым реализациям, блоки 605-620 могут включать в себя получение акустических данных DOA из множества интеллектуальных аудиоустройств, например, как описано выше с обращением к блокам 405-420 по фиг. 4. В некоторых альтернативных реализациях, блоки 605-620 могут включать в себя получение данных DOA, соответствующих электромагнитным волнам, которые передаются и принимаются посредством каждого из множества устройств в среде.According to this example, the DOA data is obtained in blocks 605-620. According to some implementations, blocks 605-620 may include obtaining acoustic DOA data from a plurality of intelligent audio devices, for example, as described above with reference to blocks 405-420 of Fig. 4. In some alternative implementations, blocks 605-620 may include obtaining DOA data corresponding to electromagnetic waves that are transmitted and received by each of the plurality of devices in the environment.

Тем не менее, в этом примере, блок 605 также включает в себя получение данных TOA. Согласно этому примеру, данные TOA включают в себя измеренное TOA аудиоданных, излучаемых и принимаемого каждым интеллектуальным аудиоустройством в аудиосреде (например, каждой парой интеллектуальных аудиоустройств в аудиосреде). В некоторых вариантах осуществления, которые включают в себя излучение структурированных сигналов источников, аудиоданные, используемые для извлечения данных TOA, могут быть теми же, что и аудиоданные, используемые для извлечения данных DOA. В других вариантах осуществления, аудиоданные, используемые для извлечения данных TOA, могут быть отличными от аудиоданных, используемых для извлечения данных DOA.However, in this example, block 605 also includes obtaining TOA data. According to this example, the TOA data includes a measured TOA of audio data emitted and received by each intelligent audio device in the audio environment (for example, each pair of intelligent audio devices in the audio environment). In some embodiments that include emitting structured source signals, the audio data used to extract the TOA data may be the same as the audio data used to extract the DOA data. In other embodiments, the audio data used to extract the TOA data may be different from the audio data used to extract the DOA data.

Согласно этому примеру, блок 616 включает в себя обнаружение возможных вариантов TOA в аудиоданных, и блок 618 включает в себя выбор одного TOA для каждой пары интеллектуальных аудиоустройств из числа возможных вариантов TOA. Ниже описаны некоторые примеры.According to this example, block 616 includes detecting possible TOA variants in the audio data, and block 618 includes selecting one TOA for each pair of intelligent audio devices from among the possible TOA variants. Some examples are described below.

Для получения данных TOA могут использоваться различные технологии. Один способ заключается в использовании аудиопоследовательности для калибровки помещения, к примеру, развертки (например, логарифмического синусоидального тона) или последовательности максимальной длины (MLS). При необходимости, может использоваться любая вышеуказанная последовательность с ограничением полосы частот близким диапазоном ультразвуковых аудиочастот (например, от 18 кГц до 24 кГц). В этом диапазоне аудиочастот, наиболее стандартное аудиоустройство имеет возможность излучать и записывать звук, но такой сигнал не может восприниматься людьми, поскольку он лежит за пределами нормальных возможностей человеческого слуха. Некоторые альтернативные реализации могут включать в себя восстановление элементов TOA из скрытого сигнала в первичном аудиосигнале, к примеру, сигнала расширения спектра методом прямой последовательности.Various techniques can be used to obtain TOA data. One method is to use a room calibration audio sequence, such as a sweep (e.g., a logarithmic sine tone) or a maximum length sequence (MLS). If desired, any of the above sequences can be used with the bandwidth limited to a near ultrasonic audio frequency range (e.g., 18 kHz to 24 kHz). In this audio frequency range, most standard audio devices are able to emit and record sound, but such a signal is not audible to humans because it is beyond the normal capabilities of human hearing. Some alternative implementations may involve reconstructing TOA elements from a hidden signal in the primary audio signal, such as a direct sequence spread spectrum signal.

С учетом набора данных DOA из каждого интеллектуального аудиоустройства в каждое другое интеллектуальное аудиоустройство и набора данных TOA из каждой пары интеллектуальных аудиоустройств, способ 625 локализации по фиг. 6 может быть основан на минимизации определенной функции стоимости, возможно подчиняющейся некоторым ограничениям. В этом примере, способ 625 локализации по фиг. 6 принимает в качестве входных данных вышеописанные значения DOA и TOA и выводит оцененные данные 630 местоположения и ориентации, соответствующие интеллектуальным аудиоустройствам. В некоторых примерах, способ 625 локализации также может выводить времена задержки при воспроизведении и записи интеллектуальных аудиоустройств, например, вплоть до некоторых глобальных симметрий, которые не могут определяться из проблемы минимизации. Ниже описаны некоторые примеры.Given a set of DOA data from each intelligent audio device to each other intelligent audio device and a set of TOA data from each pair of intelligent audio devices, the localization method 625 of Fig. 6 may be based on minimizing a certain cost function, possibly subject to certain constraints. In this example, the localization method 625 of Fig. 6 takes as input the above-described DOA and TOA values and outputs estimated location and orientation data 630 corresponding to the intelligent audio devices. In some examples, the localization method 625 may also output playback and recording delay times of the intelligent audio devices, for example, up to certain global symmetries that cannot be determined from the minimization problem. Some examples are described below.

Фиг. 7 является блок-схемой, которая приводит другой пример способа автоматической оценки местоположений и ориентаций устройства на основе данных DOA и данных TOA. Способ 700, например, может осуществляться посредством реализации алгоритма локализации через систему управления устройства, такого как устройство, показанное на фиг. 10. Блоки способа 700, как и других способов, описанных в данном документе, не обязательно выполняются в указанном порядке. Кроме того, такие способы могут включать в себя большее или меньшее число блоков, чем показано и/или описано.Fig. 7 is a block diagram that provides another example of a method for automatically estimating locations and orientations of a device based on DOA data and TOA data. The method 700, for example, can be implemented by implementing a localization algorithm through a control system of a device, such as the device shown in Fig. 10. The blocks of the method 700, like other methods described herein, are not necessarily performed in the order shown. In addition, such methods can include more or fewer blocks than shown and/or described.

За исключением нижеописанного, в некоторых примерах блоки 705, 710, 715, 720, 725, 730, 735, 740, 745 и 750 могут быть такими, как описано выше с обращением к блокам 505, 510, 515, 520, 525, 530, 535, 540, 545 и 550 по фиг. 5. Тем не менее, в этом примере, функция 720 стоимости и способ 735 нелинейной оптимизации модифицируются относительно функции 520 стоимости и способа 535 нелинейной оптимизации по фиг. 5 таким образом, что они работают как с данными DOA, так и с данными TOA. Данные TOA блока 708, в некоторых примерах, могут получаться таким образом, как описано выше с обращением к фиг. 6. Другое отличие, по сравнению с процессом по фиг. 5, заключается в том, что в этом примере, способ 735 нелинейной оптимизации также выводит данные 747 времени задержки при записи и воспроизведении, соответствующие интеллектуальным аудиоустройствам, например, как описано ниже. Соответственно, в некоторых реализациях, блок 750 оценки результатов может включать в себя оценку как данных DOA, так и данных TOA. В некоторых таких примерах, операции блока 750 могут включать в себя процесс обратной связи, заключающий в себе данные DOA и/или данные TOA. Например, некоторые такие примеры могут реализовывать процесс обратной связи, который включает в себя сравнение остатка данной комбинации возможных вариантов TOA/DOA с другой комбинацией возможных вариантов TOA/DOA, например, как описано в нижеприведенном пояснении показателей надежности TOA/DOA.Except as described below, in some examples, blocks 705, 710, 715, 720, 725, 730, 735, 740, 745, and 750 may be as described above with reference to blocks 505, 510, 515, 520, 525, 530, 535, 540, 545, and 550 of Fig. 5. However, in this example, cost function 720 and nonlinear optimization method 735 are modified relative to cost function 520 and nonlinear optimization method 535 of Fig. 5 such that they operate on both DOA data and TOA data. The TOA data of block 708, in some examples, may be obtained in the manner described above with reference to Fig. 6. Another difference, compared to the process of Fig. 5, is that in this example, the nonlinear optimization method 735 also outputs recording and playback delay time data 747 corresponding to intelligent audio devices, for example, as described below. Accordingly, in some implementations, the results evaluation block 750 may include evaluating both the DOA data and the TOA data. In some such examples, the operations of block 750 may include a feedback process that includes the DOA data and/or the TOA data. For example, some such examples may implement a feedback process that includes comparing the remainder of a given combination of possible TOA/DOA options with another combination of possible TOA/DOA options, for example, as described in the explanation of TOA/DOA reliability indicators below.

В некоторых примерах, блок 750 оценки результатов включает в себя вычисление остатка функции стоимости при итоговых положениях и ориентациях. Относительно более низкий остаток нормально указывает относительно более точные значения локализации устройств. Согласно некоторым реализациям, блок 750 оценки результатов может включать в себя процесс обратной связи. Например, некоторые такие примеры могут реализовывать процесс обратной связи, который включает в себя сравнение остатка данной комбинации возможных вариантов TOA/DOA с другой комбинацией возможных вариантов TOA/DOA, например, как описано в нижеприведенном пояснении показателей надежности TOA и DOA.In some examples, the results evaluation unit 750 includes calculating the residual of the cost function at the final positions and orientations. A relatively lower residual normally indicates relatively more accurate device localization values. According to some implementations, the results evaluation unit 750 may include a feedback process. For example, some such examples may implement a feedback process that includes comparing the residual of a given combination of possible TOA/DOA options with another combination of possible TOA/DOA options, such as described in the explanation of TOA and DOA reliability metrics below.

Соответственно, фиг. 6 включает в себя пунктирные линии из блока 630 (который может включать в себя оценку результатов в некоторых примерах) в блок 620 выбора возможных вариантов DOA и в блок 618 выбора возможных вариантов TOA для представления процедуры факультативного процесса обратной связи. В некоторых реализациях, блок 705 может включать в себя получение акустических данных DOA, как описано выше с обращением к блокам 605-620 по фиг. 6, которые включают в себя определение возможных вариантов DOA и выбор возможных вариантов DOA. В некоторых примерах, блок 708 может включать в себя получение акустических данных TOA, как описано выше с обращением к блокам 605-618 по фиг. 6, которые включают в себя определение возможных вариантов TOA и выбор возможных вариантов TOA. Хотя не показано на фиг. 7, некоторые факультативные процессы обратной связи могут включать в себя возвращение из блока 750 оценки результатов в блок 705 и/или в блок 708.Accordingly, Fig. 6 includes dashed lines from block 630 (which may include evaluating results in some examples) to block 620 for selecting possible DOA options and to block 618 for selecting possible TOA options to represent an optional feedback process procedure. In some implementations, block 705 may include obtaining DOA acoustic data as described above with reference to blocks 605-620 of Fig. 6, which include determining DOA options and selecting DOA options. In some examples, block 708 may include obtaining TOA acoustic data as described above with reference to blocks 605-618 of Fig. 6, which include determining TOA options and selecting TOA options. Although not shown in Fig. 7, some optional feedback processes may include returning from block 750 for evaluating results to block 705 and/or block 708.

Согласно этому примеру, алгоритм локализации продолжается посредством минимизации функции стоимости, возможно подчиняющейся некоторым ограничениям, и может быть описан следующим образом. В этом примере, алгоритм локализации принимает в качестве ввода данные 705 DOA и данные 708 TOA, наряду с конфигурационными параметрами 710, указываемыми для среды прослушивания, и возможно некоторыми факультативными ограничениями 725. В этом примере, функция стоимости принимает во внимание разности между измеренным DOA и оцененным DOA и разности между измеренным TOA и оцененным TOA. В некоторых вариантах осуществления, ограничения 725 налагают ограничения для возможного местоположения, ориентации и/или времен задержки устройства, к примеру, наложение такого условия, что аудиоустройства находятся на минимальном расстоянии друг от друга, и/или наложение такого условия, что некоторые времена задержки устройства должны быть равны нулю.According to this example, the localization algorithm proceeds by minimizing a cost function, possibly subject to some constraints, and can be described as follows. In this example, the localization algorithm receives as input DOA data 705 and TOA data 708, along with configuration parameters 710 specified for the listening environment, and possibly some optional constraints 725. In this example, the cost function takes into account differences between the measured DOA and the estimated DOA and differences between the measured TOA and the estimated TOA. In some embodiments, the constraints 725 impose constraints on the possible location, orientation and/or delay times of the device, for example, imposing a condition that the audio devices are at a minimum distance from each other, and/or imposing a condition that some delay times of the device must be zero.

В некоторых реализациях, функция стоимости может формулироваться следующим образом:In some implementations, the cost function may be formulated as follows:

В вышеприведенном уравнении, представляют векторы воспроизводящих и записывающих устройств для каждого устройства, соответственно, и при этом WDOA и WTOA представляют глобальные весовые коэффициенты (также известные как предварительные коэффициенты) частей минимизации DOA и TOA, соответственно, отражающих относительную важность каждого из двух членов. В некоторых таких примерах, функция стоимости TOA может формулироваться следующим образом:In the above equation, represent the playback and recording vectors for each device, respectively, and where W DOA and W TOA represent the global weighting factors (also known as pre-weighting factors) of the DOA and TOA minimization parts, respectively, reflecting the relative importance of each of the two terms. In some such examples, the TOA cost function may be formulated as follows:

, ,

где:Where:

TOAnm представляет измеренное время поступления сигнала, перемещающегося из интеллектуального устройства m в интеллектуальное устройство n;TOA nm represents the measured arrival time of a signal traveling from smart device m to smart device n;

представляет весовой коэффициент, заданный для измерения TOAnm; и represents the weighting factor specified for the TOA nm measurement; and

c представляет скорость звука.c represents the speed of sound.

Имеется вплоть до 5 действительных неизвестных в расчете на каждое интеллектуальное аудиоустройство: положения xn устройства (2 действительных неизвестных в расчете на устройство), ориентации αn устройства (1 действительное неизвестное в расчете на устройство) и времена l n и k n задержки при записи и воспроизведении (2 дополнительных неизвестных в расчете на устройство). Из них, только положения и время задержки устройства являются релевантными для части TOA функции стоимости. Число эффективных неизвестных может уменьшаться в некоторых реализациях, если имеются априорные известные ограничения или связи между временами задержки.There are up to 5 real unknowns per smart audio device: the device positions x n (2 real unknowns per device), the device orientations α n (1 real unknown per device), and the recording and playback delay times l n and k n (2 additional unknowns per device). Of these, only the device positions and delay times are relevant to the TOA part of the cost function. The number of effective unknowns may be reduced in some implementations if there are a priori known constraints or relationships between delay times.

В некоторых примерах, может быть предусмотрена дополнительная предшествующая информация, например, относительно доступности или надежности каждого измерения TOA. В некоторых из этих примеров, весовые коэффициенты могут быть равны нулю или единице, например, нулю для этих измерений, которые не доступны (либо являются недостаточно надежными), и единице для надежных измерений. Таким образом, локализация устройств может оцениваться только с поднабором всех возможных элементов DOA и/или TOA. В некоторых других реализациях, весовые коэффициенты могут иметь непрерывное значение от нуля до единицы, например, в качестве функции надежности измерения TOA. В некоторых примерах, в которых предшествующая информация надежности не доступна, весовые коэффициенты могут просто задаваться равными единице.In some examples, additional prior information may be provided, such as regarding the availability or reliability of each TOA measurement. In some of these examples, the weighting factors may be equal to zero or one, for example, zero for those measurements that are not available (or are not reliable enough), and one for reliable measurements. Thus, the localization of devices can be estimated only with a subset of all possible DOA and/or TOA elements. In some other implementations, the weighting factors may have a continuous value from zero to one, for example, as a function of the reliability of the TOA measurement. In some examples, in which prior reliability information is not available, the weighting factors may simply be set equal to one.

Согласно некоторым реализациям, одно или более дополнительных ограничений могут накладываться на возможные значения времен задержки и/или на взаимосвязь различных времен задержки между собой.According to some implementations, one or more additional constraints may be imposed on the possible values of delay times and/or on the relationship of different delay times to each other.

В некоторых примерах, положение аудиоустройств может измеряться в стандартных единицах длины, таких как метры, и времена задержки и времена поступления могут указываться в стандартных единицах времени, таких как секунды. Тем не менее, зачастую имеет место то, что способы нелинейной оптимизации работают лучше, когда масштаб варьирования различных переменных, используемых в процессе минимизации, имеет идентичный порядок. Следовательно, некоторые реализации могут включать в себя повторное масштабирование измерений положения таким образом, что диапазон варьирования положений интеллектуального устройства располагается в диапазоне между -1 и 1, и повторное масштабирование времен задержки и времен поступления таким образом, что эти значения также располагаются в диапазоне между -1 и 1.In some examples, the position of the audio devices may be measured in standard units of length, such as meters, and the delay times and arrival times may be specified in standard units of time, such as seconds. However, it is often the case that nonlinear optimization methods work better when the scale of variation of the various variables used in the minimization process is of the same order of magnitude. Therefore, some implementations may include rescaling the position measurements such that the range of variation of the positions of the smart device is between -1 and 1, and rescaling the delay times and arrival times such that these values also range between -1 and 1.

Вышеприведенная минимизация функции стоимости не определяет полностью абсолютное положение и ориентацию интеллектуальных аудиоустройств или время задержки. Информация TOA обеспечивает абсолютный масштаб расстояний, что означает, что функция стоимости более не является инвариантной при масштабном преобразовании, но по-прежнему остается инвариантной при глобальном вращении и глобальном перемещении в пространстве. Кроме того, времена задержки подчиняются дополнительной глобальной симметрии: функция стоимости остается инвариантной, если идентичная глобальная величина добавляется одновременно во все времена задержки при воспроизведении и записи. Эти глобальные преобразования не могут определяться из минимизации функции стоимости. Аналогичным образом, конфигурационные параметры должны предусматривать критерий для обеспечения возможности уникального определения схемы размещения устройств, представляющей весь класс эквивалентности.The above cost function minimization does not completely determine the absolute position and orientation of the smart audio devices or the delay times. The TOA information provides an absolute distance scale, which means that the cost function is no longer invariant under a scale transformation, but still remains invariant under a global rotation and global translation in space. In addition, the delay times obey an additional global symmetry: the cost function remains invariant if the same global quantity is added simultaneously to all playback and recording delay times. These global transformations cannot be determined from the cost function minimization. Similarly, the configuration parameters must provide a criterion to ensure that a device layout representing the entire equivalence class can be uniquely determined.

В некоторых примерах, критерии разрешения неоднозначности симметрии могут включать в себя следующее: опорное положение, фиксирующее симметрию глобального перемещения в пространстве (например, интеллектуальное устройство 1 должно находиться в начале системы координат); опорную ориентацию, фиксирующую двумерную вращательную симметрию (например, интеллектуальное устройство 1 должно ориентироваться к передней стороне); и опорное время задержки (например, время задержки при записи для устройства 1 должно быть равно нулю). Всего, в этом примере имеется 4 параметра, которые не могут определяться из проблемы минимизации, и которые должны быть обеспечены в качестве внешнего ввода. Следовательно, имеется 5N-4 неизвестных, которые могут определяться из проблемы минимизации.In some examples, the symmetry ambiguity resolution criteria may include the following: a reference position that fixes the global translation symmetry in space (e.g., smart device 1 must be at the origin of the coordinate system); a reference orientation that fixes the two-dimensional rotation symmetry (e.g., smart device 1 must be oriented toward the front); and a reference delay time (e.g., the write delay time for device 1 must be zero). In total, in this example, there are 4 parameters that cannot be determined from the minimization problem and that must be provided as external input. Therefore, there are 5N - 4 unknowns that can be determined from the minimization problem.

В некоторых реализациях, помимо набора интеллектуальных аудиоустройств, может быть предусмотрено одно или более пассивных приемных аудиоустройств, которые могут не оснащаться функционирующим массивом микрофонов и/или одним или более излучателями аудиосигнала. Включение времен задержки в качестве переменных минимизации обеспечивает возможность некоторым раскрытым способам локализовать приемные устройства и излучатели, для которых времена излучения и приема не известны точно. В некоторых таких реализациях может быть реализована функция стоимости TOA, описанная выше. Для удобства читателя эта функция стоимости вновь показана ниже:In some implementations, in addition to the set of intelligent audio devices, one or more passive audio receivers may be provided, which may not be equipped with a functioning microphone array and/or one or more audio emitters. Including delay times as minimization variables allows some disclosed methods to localize receivers and emitters for which emission and reception times are not precisely known. In some such implementations, the TOA cost function described above may be implemented. For the convenience of the reader, this cost function is shown again below:

Как описано выше с обращением к функции стоимости DOA, переменные функции стоимости должны интерпретироваться немного отличающимся способом, если функция стоимости используется для оценок локализации, предусматривающих пассивные приемные устройства и/или излучатели. Теперь N представляет общее число устройств, включающих в себя Nsmart интеллектуальных аудиоустройств, Nrec пассивных приемных аудиоустройств и Nemit излучателей, так что N=Nsmart+Nrec+Nemit. Весовые коэффициенты могут иметь разреженную структуру, чтобы маскировать отсутствующие данные вследствие пассивных приемных устройств или только излучателей, например, так что для всех m, если устройство n представляет собой излучатель аудиоданных, и для всех n, если устройство m представляет собой приемное аудиоустройство. Согласно некоторым реализациям, для интеллектуальных аудиоустройств должны определяться положения, ориентации и время задержки при записи и воспроизведении; для пассивных приемных устройств должны определяться положения, ориентации и время задержки при записи; и для излучателей аудиосигнала должны определяться положения и время задержки при воспроизведении. Согласно некоторым таким примерам, общее число неизвестных в силу этого составляет 5Nsmart+4Nrec+3Nemit-4.As described above with the treatment of the DOA cost function, the cost function variables must be interpreted in a slightly different way if the cost function is used for localization estimates involving passive receivers and/or emitters. Now N represents the total number of devices, including N smart smart audio devices, N rec passive audio receivers, and N emit emitters, so that N=N smart +N rec +N emit . The weighting factors may have a sparse structure to mask missing data due to passive receivers or only emitters, for example, so that for all m if device n is an audio emitter, and for all n, if device m is an audio receiver. According to some implementations, for smart audio devices, the positions, orientations, and recording and playback delays must be determined; for passive receivers, the positions, orientations, and recording delays must be determined; and for audio emitters, the positions and playback delays must be determined. According to some such examples, the total number of unknowns is therefore 5N smart +4N rec +3N emit -4.

Разрешение неоднозначности глобального перемещения в пространстве и вращенияResolution of ambiguity of global spatial translation and rotation

Решения только для проблем DOA и для комбинированных проблем TOA и DOA подчиняются неоднозначности глобального перемещения в пространстве и вращения. В некоторых примерах, неоднозначность перемещения в пространстве может разрешаться посредством трактовки источника только с излучателем в качестве слушателя и перемещения в пространстве всех устройств таким образом, что слушатель находится в начале координат.Solutions to DOA-only and combined TOA and DOA problems are subject to global spatial translation and rotation ambiguities. In some examples, the spatial translation ambiguity can be resolved by treating the source with only the emitter as the listener and spatially translating all devices such that the listener is at the origin.

Неоднозначности вращения могут разрешаться посредством наложения дополнительных ограничений на решение. Например, некоторые среды с множеством громкоговорителей могут включать в себя громкоговорители телевизионного приемника (телевизора) и диван, размещенный для просмотра телевизора. После определения местоположения громкоговорителей в среде, некоторые способы могут включать в себя нахождение вектора, соединяющего слушателя с направлением просмотра телевизора. Некоторые такие способы затем могут включать в себя предписание телевизору излучать звук из своих громкоговорителей и/или указание пользователю подойти к телевизору и определение местоположения речи пользователя. Некоторые реализации могут включать в себя рендеринг аудиообъекта, который панорамируется вокруг среды. Пользователь может обеспечивать пользовательский ввод (например, фразу «Стоп»), указывающий, когда аудиообъект находится в одном или более заданных положениях в среде, к примеру, в передней стороне среды, в местоположении телевизора в среде и т.д. Некоторые реализации включают в себя приложение для сотового телефона, оснащенное блоком инерциальных измерений, который предлагает пользователю указывать сотовым телефоном в двух заданных направлениях: сначала в направлении конкретного устройства, например, устройства с подсвечиваемыми светодиодами, затем в требуемом направлении просмотра пользователя, таком как передняя сторона среды, в местоположении телевизора в среде и т.д. Ниже описаны некоторые подробные примеры разрешения неоднозначности с обращением к фиг. 8A-8D.Rotational ambiguities may be resolved by imposing additional constraints on the solution. For example, some environments with multiple speakers may include speakers of a television receiver (TV) and a sofa positioned for viewing the TV. Once the location of the speakers in the environment is determined, some methods may include finding a vector connecting the listener to the viewing direction of the TV. Some such methods may then include instructing the TV to emit sound from its speakers and/or instructing the user to approach the TV and determining the location of the user's speech. Some implementations may include rendering an audio object that is panned around the environment. The user may provide user input (e.g., the phrase "Stop") indicating when the audio object is at one or more specified locations in the environment, such as at the front of the environment, at the location of the TV in the environment, etc. Some implementations include a cell phone application equipped with an inertial measurement unit that prompts a user to point the cell phone in two specified directions: first in the direction of a specific device, such as a device with illuminated LEDs, then in the user's desired viewing direction, such as the front of the environment, the location of a television in the environment, etc. Some detailed examples of ambiguity resolution are described below with reference to Figs. 8A-8D.

Фиг. 8A показывает пример аудиосреды. Согласно некоторым примерам, данные местоположения аудиоустройства, выводимые посредством одного из раскрытых способов локализации, могут включать в себя оценку местоположения аудиоустройства для каждого из аудиоустройств 1-5, с обращением к системе 807 координат аудиоустройства. В этой реализации, система 807 координат аудиоустройства представляет собой декартову систему координат, имеющую местоположение микрофона аудиоустройства 2 в качестве своего начала координат. Здесь, ось X системы 807 координат аудиоустройства соответствует линии 803 между местоположением микрофона аудиоустройства 2 и местоположением микрофона аудиоустройства 1.Fig. 8A shows an example of an audio environment. According to some examples, the audio device location data output by one of the disclosed localization methods may include an estimate of the audio device location for each of the audio devices 1-5, with reference to the audio device coordinate system 807. In this implementation, the audio device coordinate system 807 is a Cartesian coordinate system having the location of the microphone of the audio device 2 as its origin. Here, the X-axis of the audio device coordinate system 807 corresponds to the line 803 between the location of the microphone of the audio device 2 and the location of the microphone of the audio device 1.

В этом примере местоположение слушателя определяется посредством указания слушателю 805, который показан сидящим на диване 103 (например, через аудиоуказание из одного или более громкоговорителей в среде 800a), определить один или более речевых фрагментов 827 и оценки местоположения слушателя согласно данным времени поступления сигналов (TOA). Данные TOA соответствуют данным микрофонов, полученным посредством множества микрофонов в среде. В этом примере, данные микрофонов соответствуют обнаружениям одного или более речевых фрагментов 827 посредством микрофонов по меньшей мере некоторых (например, 3, 4 или всех 5) аудиоустройств 1-5.In this example, the location of the listener is determined by indicating to the listener 805, who is shown sitting on the sofa 103 (e.g., via an audio indication from one or more speakers in the environment 800a), to determine one or more speech fragments 827 and estimating the location of the listener according to time of arrival (TOA) data. The TOA data corresponds to microphone data obtained by a plurality of microphones in the environment. In this example, the microphone data corresponds to detections of one or more speech fragments 827 by microphones of at least some (e.g., 3, 4, or all 5) of the audio devices 1-5.

В качестве альтернативы или дополнения, местоположение слушателя может оцениваться согласно данным DOA, обеспеченным микрофонами по меньшей мере некоторых (например, 2, 3, 4 или всех 5) аудиоустройств 1-5. Согласно некоторым таким примерам, местоположение слушателя может определяться согласно пересечению линий 809a, 809b и т.д., соответствующих данным DOA.Alternatively or additionally, the listener's location may be estimated according to DOA data provided by microphones of at least some (e.g., 2, 3, 4, or all 5) of the audio devices 1-5. According to some such examples, the listener's location may be determined according to the intersection of lines 809a, 809b, etc., corresponding to the DOA data.

Согласно этому примеру, местоположение слушателя соответствует началу системы 820 координат слушателя. В этом примере, данные угловой ориентации слушателя указываются посредством оси y' системы 820 координат слушателя, которая соответствует линии 813a между головой слушателя 810 (и/или носом 825 слушателя) и звуковой панелью 830 телевизионного приемника 101. В примере, показанном на фиг. 8A, линия 813a является параллельной с осью y'. Следовательно, угол Θ представляет угол между осью y и осью y'. В этом примере, блок 1225 по фиг. 12 может включать в себя вращение на угол Θ координат аудиоустройства вокруг начала системы 820 координат слушателя. Соответственно, хотя начало системы 807 координат аудиоустройства показывается как соответствующее аудиоустройству 2 на фиг. 8A, некоторые реализации включают в себя совместное размещение начала системы 807 координат аудиоустройства с началом системы 820 координат слушателя до вращения на угол Θ координат аудиоустройства вокруг начала системы 820 координат слушателя. Это совместное размещение может выполняться посредством преобразования координат из системы 807 координат аудиоустройства в систему 820 координат слушателя.According to this example, the location of the listener corresponds to the origin of the listener coordinate system 820. In this example, the angular orientation data of the listener is indicated by the y' axis of the listener coordinate system 820, which corresponds to the line 813a between the head of the listener 810 (and/or the nose 825 of the listener) and the sound panel 830 of the television receiver 101. In the example shown in Fig. 8A, the line 813a is parallel to the y' axis. Therefore, the angle Θ represents the angle between the y-axis and the y' axis. In this example, the block 1225 of Fig. 12 may include a rotation by the angle Θ of the coordinates of the audio device about the origin of the listener coordinate system 820. Accordingly, although the origin of the coordinate system 807 of the audio device is shown as corresponding to the audio device 2 in Fig. 8A, some implementations include co-locating the origin of the audio device coordinate system 807 with the origin of the listener coordinate system 820 before rotating the audio device coordinates by an angle Θ about the origin of the listener coordinate system 820. This co-location may be accomplished by transforming coordinates from the audio device coordinate system 807 to the listener coordinate system 820.

Местоположение звуковой панели 830 и/или телевизионного приемника 101, в некоторых примерах, может определяться посредством предписания звуковой панели излучать звук и оценки местоположения звуковой панели согласно данным DOA и/или TOA, которые могут соответствовать обнаружениям звука посредством микрофонов по меньшей мере некоторых (например, 3, 4 или всех 5) аудиоустройств 1-5. В качестве альтернативы или дополнения, местоположение звуковой панели 830 и/или телевизионного приемника 101 может определяться посредством указания пользователю подойти к телевизору и определения местоположения речи пользователя посредством данных DOA и/или TOA, которые могут соответствовать обнаружениям звука посредством микрофонов по меньшей мере некоторых (например, 3, 4 или всех 5) аудиоустройств 1-5. Некоторые такие способы могут включать в себя применение функции стоимости, например, как описано выше. Некоторые такие способы могут включать в себя триангуляцию. Такие примеры могут быть преимущественными в ситуациях, когда звуковая панель 830 и/или телевизионный приемник 101 не имеют ассоциированного микрофона.The location of the sound bar 830 and/or the television receiver 101, in some examples, may be determined by directing the sound bar to emit a sound and estimating the location of the sound bar according to DOA and/or TOA data, which may correspond to sound detections by microphones of at least some (e.g., 3, 4, or all 5) of the audio devices 1-5. Alternatively or additionally, the location of the sound bar 830 and/or the television receiver 101 may be determined by directing the user to approach the television and estimating the location of the user's speech using DOA and/or TOA data, which may correspond to sound detections by microphones of at least some (e.g., 3, 4, or all 5) of the audio devices 1-5. Some such methods may include applying a cost function, such as described above. Some such methods may include triangulation. Such examples may be advantageous in situations where the sound bar 830 and/or the television receiver 101 does not have an associated microphone.

В некоторых других примерах, в которых звуковая панель 830 и/или телевизионный приемник 101 имеют ассоциированный микрофон, местоположение звуковой панели 830 и/или телевизионного приемника 101 может определяться согласно способам TOA и/или DOA, таким как способы, раскрытые в данном документе. Согласно некоторым таким способам, микрофон может совместно размещаться со звуковой панелью 830.In some other examples, in which the sound bar 830 and/or the television receiver 101 have an associated microphone, the location of the sound bar 830 and/or the television receiver 101 may be determined according to TOA and/or DOA methods, such as the methods disclosed in this document. According to some such methods, the microphone may be co-located with the sound bar 830.

Согласно некоторым реализациям, звуковая панель 830 и/или телевизионный приемник 101 могут иметь ассоциированную камеру 811. Система управления может быть выполнена с возможностью захвата изображения головы слушателя 810 (и/или носа 825 слушателя). В некоторых таких примерах, система управления может быть выполнена с возможностью определения линии 813a между головой слушателя 810 (и/или носом 825 слушателя) и камерой 811. Данные угловой ориентации слушателя могут соответствовать линии 813a. В качестве альтернативы или дополнения, система управления может быть выполнена с возможностью определения угла Θ между линией 813a и осью y системы координат аудиоустройства.According to some implementations, the sound bar 830 and/or the television receiver 101 may have an associated camera 811. The control system may be configured to capture an image of the head of the listener 810 (and/or the nose 825 of the listener). In some such examples, the control system may be configured to determine a line 813a between the head of the listener 810 (and/or the nose 825 of the listener) and the camera 811. The angular orientation data of the listener may correspond to the line 813a. Alternatively or additionally, the control system may be configured to determine an angle Θ between the line 813a and the y-axis of the coordinate system of the audio device.

Фиг. 8B показывает дополнительный пример определения данных угловой ориентации слушателя. Согласно этому примеру, местоположение слушателя уже определено в блоке 1215 по фиг. 12. Здесь, система управления управляет громкоговорителями в среде 800b для рендеринга аудиообъекта 835 во множество местоположений в среде 800b. В некоторых таких примерах, система управления может предписывать громкоговорителям рендерировать аудиообъект 835 таким образом, что кажется, что аудиообъект 835 вращается вокруг слушателя 805, например, посредством рендеринга аудиообъекта 835 таким образом, что кажется, что аудиообъект 835 вращается вокруг начала системы 820 координат слушателя. В этом примере, изогнутая стрелка 840 показывает часть траектории аудиообъекта 835 по мере того, как он вращается вокруг слушателя 805.Fig. 8B shows a further example of determining the angular orientation data of a listener. According to this example, the location of the listener has already been determined in block 1215 of Fig. 12. Here, the control system controls the speakers in the environment 800b to render the audio object 835 to a plurality of locations in the environment 800b. In some such examples, the control system may cause the speakers to render the audio object 835 in such a way that the audio object 835 appears to rotate around the listener 805, for example, by rendering the audio object 835 in such a way that the audio object 835 appears to rotate around the origin of the listener's coordinate system 820. In this example, the curved arrow 840 shows a portion of the trajectory of the audio object 835 as it rotates around the listener 805.

Согласно некоторым таким примерам, слушатель 805 может обеспечивать пользовательский ввод (например, фразу «Стоп»), указывающий, когда аудиообъект 835 находится в направлении, в котором обращен слушатель 805. В некоторых таких примерах, система управления может быть выполнена с возможностью определения линии 813b между местоположением слушателя и местоположением аудиообъекта 835. В этом примере, линия 813b соответствует оси y' системы координат слушателя, которая указывает направление, в котором обращен слушатель 805. В альтернативных реализациях, слушатель 805 может обеспечивать пользовательский ввод, указывающий, когда аудиообъект 835 находится в передней стороне среды, в местоположении телевизора в среде, в местоположении аудиоустройства и т.д.According to some such examples, the listener 805 may provide user input (e.g., the phrase "Stop") indicating when the audio object 835 is in the direction in which the listener 805 is facing. In some such examples, the control system may be configured to determine a line 813b between the location of the listener and the location of the audio object 835. In this example, the line 813b corresponds to the y' axis of the listener's coordinate system, which indicates the direction in which the listener 805 is facing. In alternative implementations, the listener 805 may provide user input indicating when the audio object 835 is in the front of the environment, at the location of a television in the environment, at the location of an audio device, etc.

Фиг. 8C показывает дополнительный пример определения данных угловой ориентации слушателя. Согласно этому примеру, местоположение слушателя уже определено в блоке 1215 по фиг. 12. Здесь слушатель 805 использует ручное устройство 845 для обеспечения ввода в отношении направления просмотра слушателя 805 посредством указания ручным устройством 845 к телевизионному приемнику 101 или звуковой панели 830. Пунктирный контур ручного устройства 845 и руки слушателя указывает то, что во время до времени, в которое слушатель 805 указывает ручным устройством 845 к телевизионному приемнику 101 или звуковой панели 830, слушатель 805 указывает ручным устройством 845 к аудиоустройству 2 в этом примере. В других примерах, слушатель 805 может указывать ручным устройством 845 к другому аудиоустройству, к примеру, к аудиоустройству 1. Согласно этому примеру, ручное устройство 845 выполнено с возможностью определения угла α между аудиоустройством 2 и телевизионным приемником 101 или звуковой панелью 830, который аппроксимирует угол между аудиоустройством 2 и направлением просмотра слушателя 805.Fig. 8C shows a further example of determining the angular orientation data of the listener. According to this example, the location of the listener has already been determined in block 1215 of Fig. 12. Here, the listener 805 uses the hand-held device 845 to provide input regarding the viewing direction of the listener 805 by pointing the hand-held device 845 toward the television receiver 101 or the sound bar 830. The dotted outline of the hand-held device 845 and the listener's hand indicates that at the time before the time at which the listener 805 points the hand-held device 845 toward the television receiver 101 or the sound bar 830, the listener 805 points the hand-held device 845 toward the audio device 2 in this example. In other examples, the listener 805 may point the hand-held device 845 toward another audio device, such as the audio device 1. According to this example, the hand-held device 845 is configured to determine an angle α between the audio device 2 and the television receiver 101 or the sound bar 830, which approximates the angle between the audio device 2 and the viewing direction of the listener 805.

Ручное устройство 845, в некоторых примерах, может представлять собой сотовый телефон, который включает в себя систему инерциальных датчиков и беспроводной интерфейс, сконфигурированный с возможностью обмена данными с системой управления, которая управляет аудиоустройствами в среде 800c. В некоторых примерах, ручное устройство 845 может выполнять приложение или «приложение», которое выполнено с возможностью управления ручным устройством 845 таким образом, чтобы выполнять необходимую функциональность, например, посредством обеспечения пользовательских указаний (например, через графический пользовательский интерфейс), посредством приема ввода, указывающего то, что ручное устройство 845 указывает в требуемом направлении, посредством сохранения соответствующих данных инерциальных датчиков и/или передачи соответствующих данных инерциальных датчиков в систему управления, которая управляет аудиоустройствами в среде 800c, и т.д.The hand-held device 845, in some examples, may be a cellular telephone that includes an inertial sensor system and a wireless interface configured to communicate with a control system that controls audio devices in the environment 800c. In some examples, the hand-held device 845 may execute an application or "application" that is configured to control the hand-held device 845 in such a way as to perform the necessary functionality, such as by providing user instructions (for example, via a graphical user interface), by receiving an input indicating that the hand-held device 845 points in a desired direction, by storing the corresponding inertial sensor data and/or transmitting the corresponding inertial sensor data to the control system that controls the audio devices in the environment 800c, etc.

Согласно этому примеру, система управления (которая может представлять собой систему управления ручного устройства 845, систему управления интеллектуального аудиоустройства в среде 800c или систему управления, которая управляет аудиоустройствами в среде 800c) выполнена с возможностью определения ориентации линий 813c и 850 согласно данным инерциальных датчиков, например, согласно данным гироскопа. В этом примере линия 813c является параллельной с осью y' и может использоваться для определения угловой ориентации слушателя. Согласно некоторым примерам, система управления может определять соответствующее вращение для координат аудиоустройства вокруг начала системы 820 координат слушателя согласно углу α между аудиоустройством 2 и направлением просмотра слушателя 805.According to this example, the control system (which may be the control system of the hand-held device 845, the control system of the intelligent audio device in the environment 800c, or the control system that controls the audio devices in the environment 800c) is configured to determine the orientation of the lines 813c and 850 according to the data of the inertial sensors, for example, according to the data of the gyroscope. In this example, the line 813c is parallel to the y' axis and can be used to determine the angular orientation of the listener. According to some examples, the control system can determine the appropriate rotation for the coordinates of the audio device around the origin of the coordinate system 820 of the listener according to the angle α between the audio device 2 and the viewing direction of the listener 805.

Фиг. 8D показывает один пример определения соответствующего вращения для координат аудиоустройства в соответствии со способом, описанным с обращением к фиг. 8C. В этом примере, начало системы 807 координат аудиоустройства совместно размещается с началом системы 820 координат слушателя. Совместное размещение начал системы 807 координат аудиоустройства и системы 820 координат слушателя становится возможным после того, как местоположение слушателя определяется. Совместное размещение начал системы 807 координат аудиоустройства и системы 820 координат слушателя может включать в себя преобразование местоположений аудиоустройства из системы 807 координат аудиоустройства в систему 820 координат слушателя. Угол α определен так, как описано выше с обращением к фиг. 8C. Соответственно, угол α соответствует требуемой ориентации аудиоустройства 2 в системе 820 координат слушателя. В этом примере, угол β соответствует ориентации аудиоустройства 2 в системе 807 координат аудиоустройства. Угол Θ, который составляет β-α в этом примере, указывает необходимое вращение, чтобы совмещать ось y системы 807 координат аудиоустройства с осью y' системы 820 координат слушателя.Fig. 8D shows one example of determining a corresponding rotation for the coordinates of the audio device in accordance with the method described with reference to Fig. 8C. In this example, the origin of the audio device coordinate system 807 is co-located with the origin of the listener coordinate system 820. The co-location of the origins of the audio device coordinate system 807 and the listener coordinate system 820 becomes possible after the location of the listener is determined. The co-location of the origins of the audio device coordinate system 807 and the listener coordinate system 820 may include transforming the locations of the audio device from the audio device coordinate system 807 to the listener coordinate system 820. The angle α is determined as described above with reference to Fig. 8C. Accordingly, the angle α corresponds to the desired orientation of the audio device 2 in the listener coordinate system 820. In this example, the angle β corresponds to the orientation of the audio device 2 in the audio device coordinate system 807. The angle Θ, which is β-α in this example, specifies the rotation required to align the y-axis of the audio device coordinate system 807 with the y'-axis of the listener coordinate system 820.

Показатели надежности DOADOA Reliability Indicators

Как отмечено выше с обращением к фиг. 4, в некоторых примерах с использованием «слепых» способов, которые применяются к произвольным сигналам, включающих в себя мощность направленного отклика, формирование диаграммы направленности или другие аналогичные способы, для повышения точности и стабильности могут быть добавлены показатели надежности. Некоторые реализации включают в себя интегрирование во времени направленного отклика модуля формирования диаграммы направленности, чтобы отфильтровывать переходные части и обнаруживать только постоянные пики, а также усреднять случайные ошибки и флуктуации в этих постоянных DOA. Другие примеры могут использовать только ограниченные полосы частот в качестве ввода, которые могут подстраиваться под типы помещений или сигналов для лучшей производительности.As noted above with reference to Fig. 4, in some examples using "blind" methods that are applied to arbitrary signals, including directional response power, beamforming, or other similar methods, reliability metrics may be added to improve accuracy and stability. Some implementations include integrating the directional response of the beamforming module over time to filter out transients and detect only constant peaks, and averaging random errors and fluctuations in these constant DOAs. Other examples may use only limited frequency bands as input, which may be adjusted to room or signal types for better performance.

Для примеров с использованием «контролируемых» способов, которые включают в себя использование структурированных сигналов источников, и способов обращенной свертки, чтобы давать в результате импульсные отклики, может быть реализована предварительная обработка показателя для повышения точности и выраженности пиков DOA. В некоторых примерах, такая предварительная обработка может включать в себя усечение с амплитудной функцией кодирования со взвешиванием некоторой временной ширины, начинающейся в начале импульсного отклика в каждом канале микрофона. Такие примеры могут включать детектор начал импульсных откликов таким образом, что каждое начало канала может обнаруживаться независимо.For examples using "supervised" methods, which include the use of structured source signals and deconvolution methods to produce impulse responses, preprocessing of the metric may be implemented to improve the accuracy and prominence of DOA peaks. In some examples, such preprocessing may include truncation with an amplitude encoding function with a weighting of some time width starting at the beginning of the impulse response in each microphone channel. Such examples may include an impulse response onset detector such that each channel onset can be detected independently.

В некоторых примерах на основе «слепых» или «контролируемых» способов, как описано выше, для повышения точности DOA может быть добавлена еще одна дополнительная обработка. Важно отметить, что выбор DOA на основе обнаружения пиков (например, в ходе анализа мощности направленного отклика (SRP) или импульсного отклика) является чувствительным к акустике окружающей среды, которая может обуславливать захват сигналов непервичного тракта вследствие отражений и загораживаний устройства, которые ослабляют энергию приема и передачи. Эти случаи могут ухудшать точность DOA пар устройств и вводить ошибки в решение по локализации оптимизатора. В силу этого обоснованно рассмотрение всех пиков в пределах заданных пороговых значений в качестве возможных вариантов для DOA на основе экспериментально полученных проверочных данных. Один пример заданного порогового значения заключается в таком требовании, что пик должен больше средней мощности направленного отклика (SRP). Для всех обнаруженных пиков, пороговая обработка выраженности и удаление возможных вариантов ниже среднего уровня сигнала оказались простыми, но при этом эффективными технологиями начальной фильтрации. При использовании в данном документе, «выраженность» представляет собой показатель того, насколько большим является локальный пик по сравнению со своими смежными локальными минимумами, что отличается от пороговой обработки только на основе мощности. Один пример порогового значения выраженности заключается в таком требовании, что разность в мощности между пиком и его смежными локальными минимумами должна быть равна или выше порогового значения. Сохранение приемлемых возможных вариантов повышает шансы на то, что пара устройств должна содержать применимое DOA в своем наборе (в пределах разрешенного допуска по ошибкам из экспериментально полученных проверочных данных), хотя имеется шанс того, что она не должна содержать применимое DOA в случаях, если сигнал повреждается посредством сильных отражений/загораживаний. В некоторых примерах может быть реализован алгоритм выбора для выполнения одного из следующих действий: 1) выбор наилучшего применимого возможного варианта DOA в расчете на пару устройств; 2) выполнение определения того, что ни один из возможных вариантов не является применимым и в силу этого обнуление вклада оптимизации этой пары с матрицей весовых коэффициентов функции стоимости; или 3) выбор наилучшего логически выведенного возможного варианта, но применение недвоичного взвешивания к доле DOA в случаях, если затруднительно разрешать неоднозначность величины ошибки, которую переносит наилучший возможный вариант.In some examples based on “blind” or “supervised” methods as described above, additional processing may be added to improve the DOA accuracy. It is important to note that DOA selection based on peak detection (e.g., during SRP or impulse response analysis) is sensitive to environmental acoustics, which may cause non-primary path signals to be captured due to device reflections and occlusions that attenuate the receive and transmit energy. These cases may degrade the DOA accuracy of device pairs and introduce errors into the optimizer’s localization solution. Therefore, it is reasonable to consider all peaks within given thresholds as DOA candidates based on experimentally obtained validation data. One example of a given threshold is the requirement that a peak must be greater than the average SRP. For all detected peaks, saliency thresholding and removal of candidates below the average signal level have proven to be simple yet effective initial filtering techniques. As used in this document, "salience" is a measure of how large a local peak is relative to its adjacent local minima, which differs from thresholding based on power alone. One example of a salience threshold is to require that the difference in power between a peak and its adjacent local minima be equal to or greater than a threshold. Keeping the acceptable candidates increases the chance that a device pair will contain a usable DOA in its set (within the allowed error tolerance of the experimentally obtained test data), although there is a chance that it will not contain a usable DOA in cases where the signal is corrupted by strong reflections/occlusions. In some examples, a selection algorithm may be implemented to do one of the following: 1) select the best usable DOA candidate per device pair; 2) determine that none of the candidates is usable and thus set the optimization contribution of that pair to the cost function weight matrix to zero; or 3) choosing the best logically inferred option, but applying non-binary weighting to the DOA fraction in cases where it is difficult to resolve ambiguity in the amount of error that the best option tolerates.

После начальной оптимизации с наилучшими логически выведенными возможными вариантами, в некоторых примерах решение по локализации может использоваться для вычисления вклада остаточной стоимости каждого DOA. Анализ выбросовых значений остаточной стоимости может представлять свидетельства пар DOA, которые оказывают наибольшее влияние на решение по локализации, при этом экстремальные выбросовые значения помечают эти DOA как потенциально некорректные или субоптимальные. Рекурсивная серия оптимизаций для выбросовых пар DOA на основе вкладов остаточной стоимости с оставшимися возможными вариантами и со взвешиванием, применяемым к вкладу этой пары устройств, затем может использоваться для обработки возможных вариантов согласно одному из вышеуказанных трех вариантов. Это представляет собой один пример процесса обратной связи, к примеру, как описано выше с обращением к фиг. 4-7. Согласно некоторым реализациям, повторные оптимизации и решения по обработке могут выполняться до тех пор, пока не будут оценены все обнаруженные возможные варианты, и не будут сбалансированы вклады остаточной стоимости выбранных DOA.After an initial optimization with the best inferred candidate options, in some examples the localization decision may be used to calculate the residual cost contribution of each DOA. An analysis of residual cost outliers may provide evidence of the DOA pairs that have the greatest impact on the localization decision, with extreme outliers marking those DOAs as potentially incorrect or suboptimal. A recursive series of optimizations for the outlier DOA pairs based on the residual cost contributions with the remaining candidate options and with a weighting applied to the contribution of that pair of devices may then be used to process the candidate options according to one of the above three options. This is one example of a feedback process, such as described above with reference to FIGS. 4-7. According to some implementations, repeated optimizations and processing decisions may be performed until all discovered candidate options have been evaluated and the residual cost contributions of the selected DOAs are balanced.

Недостаток выбора возможных вариантов на основе оценок оптимизатора заключается в том, что он требует большого объема вычислений и является чувствительным к порядку прохождения возможных вариантов. Альтернативная технология с меньшим вычислительным весовым коэффициентом включает в себя определение всех перестановок возможных вариантов в наборе и выполнение способа треугольного совмещения для локализации устройств для этих возможных вариантах. Релевантные способы треугольного совмещения раскрыты в предварительной заявке на патент США №62/992,068, поданной 19 марта 2020 г. и озаглавленной "Audio Device Auto-Location", которая настоящим включена в данный документ путем ссылки для всех целей. Результаты локализации затем могут оцениваться посредством вычисления совокупных и остаточных стоимости, которые обеспечивают результаты относительно возможных вариантов DOA, используемых в триангуляции. Логика решения для синтаксического анализа этих показателей может использоваться для определения наилучших возможных вариантов и их соответствующего взвешивания, что должно быть введено в проблему нелинейной оптимизации. В случаях, если список возможных вариантов является большим, что приводит в результате к высоким количествам перестановок, может применяться фильтрация и интеллектуальное прохождение по списку перестановок.A disadvantage of selecting candidate variants based on optimizer scores is that it is computationally intensive and sensitive to the order in which the candidate variants are traversed. An alternative technique with a lower computational weight involves determining all permutations of candidate variants in a set and performing a triangular alignment method to localize devices for these candidate variants. Relevant triangular alignment methods are disclosed in U.S. Provisional Patent Application Ser. No. 62/992,068, filed March 19, 2020, entitled "Audio Device Auto-Location", which is hereby incorporated by reference herein for all purposes. The localization results can then be evaluated by computing cumulative and residual costs that provide results relative to the DOA candidate variants used in the triangulation. Decision logic for parsing these metrics can be used to determine the best candidate variants and weight them accordingly, which should be fed into the nonlinear optimization problem. In cases where the list of possible options is large, resulting in high numbers of permutations, filtering and intelligent traversal of the permutation list can be used.

Показатели надежности TOATOA Reliability Indicators

Как описано выше с обращением к фиг. 6, использование решений на основе множества возможных вариантов TOA добавляет надежность по сравнению с системами, которые используют одиночные или минимальные значения TOA, и обеспечивает то, что ошибки оказывают минимальное влияние на нахождение оптимальной схемы размещения динамиков. После получения импульсного отклика системы, в некоторых примерах каждый из элементов TOA может восстанавливаться посредством поиска пика, соответствующего прямому звуку. В идеальных условиях (например, без шума, без преград в прямом тракте между источником и приемным устройством и динамики, указывающие непосредственно на микрофоны), этот пик может легко идентифицироваться в качестве наибольшего пика в импульсном отклике. Тем не менее, при присутствии шума, преград или неправильном совмещении динамиков и микрофонов, пик, соответствующий прямому звуку, не обязательно соответствует наибольшему значению. Кроме того, в таких условиях пик, соответствующий прямому звуку, может быть затруднительно изолировать от других отражений и/или шума. Идентификация прямого звука, в некоторых случаях, может представлять собой непростой процесс. Некорректная идентификация прямого звука должна ухудшать (и в некоторых случаях может полностью портить) процесс автоматической локализации. Таким образом, в случаях, когда имеется потенциал для ошибки в процессе идентификации прямого звука, может быть эффективным рассмотрение множества возможных вариантов для прямого звука. В некоторых таких случаях процесс выбора пиков может включать в себя две части: (1) алгоритм поиска прямого звука, который ищет подходящие возможные варианты пика, и (2) процесс оценки возможных вариантов пика для повышения вероятности подбора корректных элементов матрицы TOA.As described above with reference to Fig. 6, the use of solutions based on multiple possible TOA options adds robustness over systems that use single or minimum TOA values and ensures that errors have a minimal impact on finding the optimal speaker placement scheme. Once the system impulse response is obtained, in some examples, each of the TOA elements can be reconstructed by searching for a peak corresponding to the direct sound. Under ideal conditions (e.g., no noise, no obstructions in the direct path between the source and receiver, and speakers pointing directly at the microphones), this peak can be easily identified as the largest peak in the impulse response. However, in the presence of noise, obstructions, or improper alignment of the speakers and microphones, the peak corresponding to the direct sound does not necessarily correspond to the largest value. Furthermore, under such conditions, the peak corresponding to the direct sound may be difficult to isolate from other reflections and/or noise. Identifying the direct sound, in some cases, may be a difficult process. Incorrect identification of the direct sound should degrade (and in some cases may completely ruin) the automatic localization process. Thus, in cases where there is potential for error in the direct sound identification process, it may be effective to consider multiple candidate candidates for the direct sound. In some such cases, the peak selection process may involve two parts: (1) a direct sound search algorithm that searches for suitable candidate peak candidates, and (2) a process for evaluating candidate peak candidates to increase the probability of selecting the correct TOA matrix entries.

В некоторых реализациях, процесс поиска возможных вариантов пиков прямого звука может включать в себя способ идентификации релевантных возможных вариантов для прямого звука. Некоторые такие способы могут быть основаны на следующих этапах: (1) идентификация одного первого опорного пика (например, максимума абсолютного значения импульсного отклика (IR)), «первого пика»; (2) оценка уровня шума вокруг (до и после) этого первого пика; (3) поиск альтернативных пиков до (и в некоторых случаях после) первого пика, которые составляют выше уровня шума; (4) ранжирование найденных пиков согласно их вероятности соответствия корректному TOA; и при необходимости (5) группировка близких пиков (для сокращения числа возможных вариантов).In some implementations, the process of searching for direct sound peak candidates may include a method for identifying relevant candidates for the direct sound. Some such methods may be based on the following steps: (1) identifying one first reference peak (e.g., the maximum of the absolute value of the impulse response (IR)), the "first peak"; (2) estimating the noise level around (before and after) this first peak; (3) searching for alternative peaks before (and in some cases after) the first peak that are above the noise level; (4) ranking the found peaks according to their probability of matching the correct TOA; and, if necessary, (5) grouping close peaks (to reduce the number of possible candidates).

После того, как идентифицированы возможные варианты пиков прямого звука, некоторые реализации могут включать в себя этап оценки множества пиков. В качестве результата поиска возможных вариантов пиков прямого звука, в некоторых примерах имеется одно или более значений возможных вариантов для каждого элемента матрицы TOA, ранжированных согласно их оцененной вероятности. Множество матриц TOA может формироваться посредством выбора между различными значениями возможных вариантов. Для оценки правдоподобия определенной матрицы TOA может быть реализован процесс минимизации (к примеру, процесс минимизации, описанный выше). Этот процесс может формировать остатки минимизации, которые являются хорошими оценками внутренней когерентности матриц TOA и DOA. Идеальная бесшумная матрица TOA должна приводить к нулевым остаткам, тогда как матрица TOA с некорректными матричными элементами должна приводить к большим остаткам. В некоторых реализациях, способ должен искать набор возможных вариантов элементов матрицы TOA, который создает матрицу TOA с наименьшими остатками. Это представляет собой один пример процесса оценки, описанного выше с обращением к фиг. 6 и 7, который может включать в себя блок 750 оценки результатов. В одном примере, процесс оценки может включать в себя выполнение следующих этапов: (1) выбор начальной матрицы TOA; (2) оценка начальной матрицы с остатками процесса минимизации; (3) изменение одного матричного элемента матрицы TOA из списка возможных вариантов TOA; (4) оценка заново матрицы с остатками процесса минимизации; (5) если остатки меньше, разрешение изменения, в противном случае его неразрешение; и (6) итеративное выполнение этапов 3-5. В некоторых примерах, процесс оценки может прекращаться, когда все возможные варианты TOA оценены, либо когда предварительно заданное максимальное число итераций достигнуто.After the direct sound peak candidates have been identified, some implementations may include a peak set evaluation step. As a result of the direct sound peak candidate search, in some examples there are one or more candidate values for each TOA matrix element, ranked according to their estimated probability. The set of TOA matrices may be formed by choosing between different candidate values. A minimization process (e.g., the minimization process described above) may be implemented to estimate the likelihood of a particular TOA matrix. This process may produce minimization residuals that are good estimates of the internal coherence of the TOA and DOA matrices. An ideal noise-free TOA matrix should result in zero residuals, while a TOA matrix with incorrect matrix elements should result in large residuals. In some implementations, the method should search for a set of candidate TOA matrix elements that produces a TOA matrix with the smallest residuals. This is one example of the evaluation process described above with reference to FIG. 6 and 7, which may include a results evaluation unit 750. In one example, the evaluation process may include performing the following steps: (1) selecting an initial TOA matrix; (2) evaluating the initial matrix with the residuals of the minimization process; (3) changing one matrix element of the TOA matrix from a list of possible TOA options; (4) re-evaluating the matrix with the residuals of the minimization process; (5) if the residuals are smaller, allowing the change, otherwise not allowing it; and (6) iteratively performing steps 3-5. In some examples, the evaluation process may terminate when all possible TOA options have been evaluated, or when a predetermined maximum number of iterations has been reached.

Пример способа локализацииExample of localization method

Фиг. 9A является блок-схемой, которая показывает один пример способа локализации. Блоки способа 900, как и других способов, описанных в данном документе, не обязательно выполняются в указанном порядке. Кроме того, такие способы могут включать в себя большее или меньшее число блоков, чем показано и/или описано. В этой реализации, способ 900 включает в себя оценку местоположений и ориентаций аудиоустройств в среде. Блоки способа 900 могут выполняться посредством одного или более устройств, которые могут представлять собой (или могут включать в себя) устройство 1000, показанное на фиг. 10.Fig. 9A is a block diagram that shows one example of a localization method. The blocks of the method 900, like other methods described herein, are not necessarily performed in the order shown. In addition, such methods may include more or fewer blocks than shown and/or described. In this implementation, the method 900 includes estimating locations and orientations of audio devices in an environment. The blocks of the method 900 may be performed by one or more devices, which may be (or may include) the device 1000 shown in Fig. 10.

В этом примере, в блоке 905, получение, посредством системы управления, данных направления поступления сигналов (DOA), соответствующих звуку, излучаемому посредством по меньшей мере первого интеллектуального аудиоустройства в аудиосреде. Система управления, например, может представлять собой систему 1010 управления, которая описана ниже с обращением к фиг. 10. Согласно этому примеру, первое интеллектуальное аудиоустройство включает в себя первое передающее аудиоустройство и первое приемное аудиоустройство, и данные DOA соответствуют звуку, принимаемому посредством по меньшей мере второго интеллектуального аудиоустройства в аудиосреде. Здесь, второе интеллектуальное аудиоустройство включает в себя второе передающее аудиоустройство и второе приемное аудиоустройство. В этом примере, данные DOA также соответствуют звуку, излучаемому посредством по меньшей мере второго интеллектуального аудиоустройства и принимаемому посредством по меньшей мере первого интеллектуального аудиоустройства. В некоторых примерах, первое и второе интеллектуальные аудиоустройства могут представлять собой два из аудиоустройств 105a-105d, показанных на фиг. 1.In this example, in block 905, obtaining, by means of a control system, direction of arrival (DOA) data corresponding to a sound emitted by at least a first intelligent audio device in an audio environment. The control system, for example, may be a control system 1010, which is described below with reference to Fig. 10. According to this example, the first intelligent audio device includes a first audio transmitter and a first audio receiver, and the DOA data corresponds to a sound received by at least a second intelligent audio device in the audio environment. Here, the second intelligent audio device includes a second audio transmitter and a second audio receiver. In this example, the DOA data also corresponds to a sound emitted by at least the second intelligent audio device and received by at least the first intelligent audio device. In some examples, the first and second intelligent audio devices may be two of the audio devices 105a-105d shown in Fig. 1.

Данные DOA могут получаться различными способами, в зависимости от конкретной реализации. В некоторых случаях, определение данных DOA может включать в себя один или более связанных с DOA способов, которые описаны выше с обращением к фиг. 4 и/или в разделе «Показатели надежности DOA». Некоторые реализации могут включать в себя получение, посредством системы управления, одного или более элементов данных DOA с использованием способа на основе формирования диаграммы направленности, способа на основе направленного отклика по мощности, способа на основе разности времен поступления сигналов и/или способа на основе структурированных сигналов.The DOA data may be obtained in various ways, depending on the particular implementation. In some cases, determining the DOA data may include one or more DOA-related methods that are described above with reference to Fig. 4 and/or in the DOA Reliability Metrics section. Some implementations may include obtaining, by the control system, one or more DOA data elements using a beamforming-based method, a directional power response-based method, a signal time difference-based method, and/or a structured signal-based method.

Согласно этому примеру, блок 910 включает в себя прием, посредством системы управления, конфигурационных параметров. В этой реализации, конфигурационные параметры соответствуют самой аудиосреде, одному или более аудиоустройствам в аудиосреде либо как аудиосреде, так и одному или более аудиоустройствам в аудиосреде. Согласно некоторым примерам, конфигурационные параметры могут указывать число аудиоустройств в аудиосреде, один или более размеров аудиосреды, одно или более ограничений на местоположение или ориентацию аудиоустройства и/или данные разрешения неоднозначности по меньшей мере для одного из вращения, перемещения в пространстве или масштабирования. В некоторых примерах, конфигурационные параметры могут включать в себя данные времени задержки при воспроизведении, данные времени задержки при записи и/или данные для разрешения неоднозначности симметрии времени задержки.According to this example, block 910 includes receiving, by means of the control system, configuration parameters. In this implementation, the configuration parameters correspond to the audio environment itself, one or more audio devices in the audio environment, or both the audio environment and one or more audio devices in the audio environment. According to some examples, the configuration parameters may indicate a number of audio devices in the audio environment, one or more dimensions of the audio environment, one or more restrictions on the location or orientation of the audio device, and/or ambiguity resolution data for at least one of rotation, spatial translation, or scaling. In some examples, the configuration parameters may include playback delay time data, recording delay time data, and/or data for resolving delay time symmetry ambiguity.

В этом примере, блок 915 включает в себя минимизацию, посредством системы управления, функции стоимости по меньшей мере частично на основе данных DOA и конфигурационных параметров для оценки положения и ориентации по меньшей мере первого интеллектуального аудиоустройства и второго интеллектуального аудиоустройства.In this example, block 915 includes minimizing, by a control system, a cost function based at least in part on the DOA data and configuration parameters for estimating the position and orientation of at least the first intelligent audio device and the second intelligent audio device.

Согласно некоторым примерам, данные DOA также могут соответствовать звуку, излучаемому посредством третьего-N-ого интеллектуальных аудиоустройств в аудиосреде, где N соответствует общему числу интеллектуальных аудиоустройств в аудиосреде. В таких примерах, данные DOA также могут соответствовать звуку, принимаемому посредством каждого из первого-N-ого интеллектуальных аудиоустройств из всех других интеллектуальных аудиоустройств в аудиосреде. В таких случаях, минимизация функции стоимости может включать в себя оценку положения и ориентации третьего-N-ого интеллектуальных аудиоустройств.According to some examples, the DOA data may also correspond to the sound emitted by the third-Nth intelligent audio devices in the audio environment, where N corresponds to the total number of intelligent audio devices in the audio environment. In such examples, the DOA data may also correspond to the sound received by each of the first-Nth intelligent audio devices from all other intelligent audio devices in the audio environment. In such cases, minimizing the cost function may include estimating the position and orientation of the third-Nth intelligent audio devices.

В некоторых примерах, данные DOA также могут соответствовать звуку, принимаемому посредством одного или более пассивных приемных аудиоустройств в аудиосреде. Каждое из одного или более пассивных приемных аудиоустройств может включать в себя массив микрофонов, но в нем может отсутствовать излучатель аудиосигналов. Минимизация функции стоимости также может обеспечивать оцененное местоположение и ориентацию каждого из одного или более пассивных приемных аудиоустройств. Согласно некоторым примерам, данные DOA также могут соответствовать звуку, излучаемому посредством одного или более излучателей аудиосигнала в аудиосреде. Каждый из одного или более излучателей аудиосигнала может включать в себя по меньшей мере один звукоизлучающий преобразователь, но в нем может отсутствовать массив микрофонов. Минимизация функции стоимости также может обеспечивать оцененное местоположение каждого из одного или более излучателей аудиосигнала.In some examples, the DOA data may also correspond to sound received by one or more passive audio receivers in an audio environment. Each of the one or more passive audio receivers may include a microphone array, but may lack an audio signal emitter. Minimizing the cost function may also provide an estimated location and orientation of each of the one or more passive audio receivers. According to some examples, the DOA data may also correspond to sound emitted by one or more audio signal emitters in an audio environment. Each of the one or more audio signal emitters may include at least one sound emitting transducer, but may lack an array of microphones. Minimizing the cost function may also provide an estimated location of each of the one or more audio signal emitters.

В некоторых примерах, способ 900 может включать в себя прием системой управления начальной конфигурации для функции стоимости. Начальная конфигурация, например, может указывать корректное число передающих и приемных аудиоустройств в аудиосреде и произвольное местоположение и ориентацию для каждого из передающих и приемных аудиоустройств в аудиосреде.In some examples, the method 900 may include receiving by the control system an initial configuration for the cost function. The initial configuration, for example, may indicate the correct number of transmitting and receiving audio devices in the audio environment and an arbitrary location and orientation for each of the transmitting and receiving audio devices in the audio environment.

Согласно некоторым примерам, способ 900 может включать в себя прием, посредством системы управления, весового коэффициента, ассоциированного с одним или более элементов данных DOA. Весовой коэффициент, например, может указывать доступность и/или надежность одного или более элементов данных DOA.According to some examples, the method 900 may include receiving, by the control system, a weighting factor associated with one or more DOA data elements. The weighting factor, for example, may indicate the availability and/or reliability of one or more DOA data elements.

В некоторых примерах, способ 900 может включать в себя прием, посредством системы управления, данных времени поступления сигналов (TOA), соответствующих звуку, излучаемому посредством по меньшей мере одного аудиоустройства в аудиосреде и принимаемому посредством по меньшей мере еще одного аудиоустройства в аудиосреде. В некоторых таких примерах, функция стоимости может быть основана по меньшей мере частично на данных TOA. Некоторые такие реализации могут включать в себя оценку по меньшей мере одного времени задержки при воспроизведении и/или по меньшей мере одного времени задержки при записи. Согласно некоторым таким примерам, функция стоимости может работать с повторно масштабированным положением, повторно масштабированным временем задержки и/или повторно масштабированным временем поступления сигналов.In some examples, the method 900 may include receiving, by the control system, time of arrival (TOA) data corresponding to sound emitted by at least one audio device in the audio environment and received by at least one other audio device in the audio environment. In some such examples, the cost function may be based at least in part on the TOA data. Some such implementations may include estimating at least one playback delay time and/or at least one recording delay time. According to some such examples, the cost function may operate with a rescaled position, a rescaled delay time, and/or a rescaled signal arrival time.

В некоторых примерах, функция стоимости может включать в себя первый член в зависимости только от данных DOA и второй член в зависимости только от данных TOA. В некоторых таких примерах, первый член может включать в себя первый весовой коэффициент, и второй член может включать в себя второй весовой коэффициент. Согласно некоторым таким примерам, один или более элементов TOA второго члена могут иметь весовой коэффициент элемента TOA, указывающий доступность или надежность каждого из одного или более элементов TOA.In some examples, the cost function may include a first term depending only on the DOA data and a second term depending only on the TOA data. In some such examples, the first term may include a first weighting factor, and the second term may include a second weighting factor. According to some such examples, one or more TOA elements of the second term may have a TOA element weighting factor indicating the availability or reliability of each of the one or more TOA elements.

Фиг. 9B является блок-схемой, которая приводит другой пример способа локализации. Блоки способа 950, как и других способов, описанных в данном документе, не обязательно выполняются в указанном порядке. Кроме того, такие способы могут включать в себя большее или меньшее число блоков, чем показано и/или описано. В этой реализации, способ 950 включает в себя оценку местоположений и ориентаций устройств в среде. Блоки способа 950 могут выполняться посредством одного или более устройств, которые могут представлять собой (или могут включать в себя) устройство 1000, показанное на фиг. 10.Fig. 9B is a flow chart that provides another example of a localization method. The blocks of the method 950, like other methods described herein, are not necessarily performed in the order shown. In addition, such methods may include more or fewer blocks than shown and/or described. In this implementation, the method 950 includes estimating locations and orientations of devices in an environment. The blocks of the method 950 may be performed by one or more devices, which may be (or may include) the device 1000 shown in Fig. 10.

В этом примере, на блоке 955, получение, посредством системы управления, данных направления поступления сигналов (DOA), соответствующих передачам по меньшей мере первого приемо-передающего устройства первого устройства в среде. Система управления, например, может представлять собой систему 1010 управления, которая описана ниже с обращением к фиг. 10. Согласно этому примеру, первое приемо-передающее устройство включает в себя первое передающее устройство и первое приемное устройство, и данные DOA соответствуют передачам, принимаемым посредством по меньшей мере второго приемо-передающего устройства второго устройства в среде, причем второе приемо-передающее устройство также включает в себя второе передающее устройство и второе приемное устройство. В этом примере, данные DOA также соответствуют передачам по меньшей мере из второго приемо-передающего устройства, принимаемым посредством по меньшей мере первого приемо-передающего устройства. Согласно некоторым примерам, первое приемо-передающее устройство и второе приемо-передающее устройство могут быть выполнены с возможностью передачи и приема электромагнитных волн. В некоторых примерах, первое и второе интеллектуальные аудиоустройства могут представлять собой два из аудиоустройств 105a-105d, показанных на фиг. 1.In this example, at block 955, obtaining, by means of the control system, direction of arrival (DOA) data corresponding to transmissions of at least a first transceiver of the first device in the environment. The control system, for example, can be the control system 1010, which is described below with reference to Fig. 10. According to this example, the first transceiver includes a first transmitter and a first receiver, and the DOA data correspond to transmissions received by means of at least a second transceiver of the second device in the environment, wherein the second transceiver also includes a second transmitter and a second receiver. In this example, the DOA data also correspond to transmissions from at least the second transceiver received by means of at least the first transceiver. According to some examples, the first transceiver and the second transceiver can be configured to transmit and receive electromagnetic waves. In some examples, the first and second intelligent audio devices may be two of the audio devices 105a-105d shown in Fig. 1.

Данные DOA могут получаться различными способами, в зависимости от конкретной реализации. В некоторых случаях, определение данных DOA может включать в себя один или более связанных с DOA способов, которые описаны выше с обращением к фиг. 4 и/или в разделе «Показатели надежности DOA». Некоторые реализации могут включать в себя получение, посредством системы управления, одного или более элементов данных DOA с использованием способа на основе формирования диаграммы направленности, способа на основе направленного отклика по мощности, способа на основе разности времен поступления сигналов и/или способа на основе структурированных сигналов.The DOA data may be obtained in various ways, depending on the particular implementation. In some cases, determining the DOA data may include one or more DOA-related methods that are described above with reference to Fig. 4 and/or in the DOA Reliability Metrics section. Some implementations may include obtaining, by the control system, one or more DOA data elements using a beamforming-based method, a directional power response-based method, a signal time difference-based method, and/or a structured signal-based method.

Согласно этому примеру, блок 960 включает в себя прием, посредством системы управления, конфигурационных параметров. В этой реализации конфигурационные параметры соответствуют самой среде, одному или более устройствам в аудиосреде либо как среде, так и одному или более устройствам в аудиосреде. Согласно некоторым примерам, конфигурационные параметры могут указывать число аудиоустройств в среде, одно или более измерений среды, одно или более ограничений на местоположение или ориентацию устройства и/или данные разрешения неоднозначности по меньшей мере для одного из вращения, перемещения в пространстве или масштабирования. В некоторых примерах, конфигурационные параметры могут включать в себя данные времени задержки при воспроизведении, данные времени задержки при записи и/или данные для разрешения неоднозначности симметрии времени задержки.According to this example, block 960 includes receiving, by means of the control system, configuration parameters. In this implementation, the configuration parameters correspond to the environment itself, to one or more devices in the audio environment, or to both the environment and to one or more devices in the audio environment. According to some examples, the configuration parameters may indicate a number of audio devices in the environment, one or more dimensions of the environment, one or more restrictions on the location or orientation of the device, and/or ambiguity resolution data for at least one of rotation, translation in space, or scaling. In some examples, the configuration parameters may include playback delay time data, recording delay time data, and/or data for resolving delay time symmetry ambiguity.

В этом примере, блок 965 включает в себя минимизацию функции стоимости посредством системы управления по меньшей мере частично на основе данных DOA и конфигурационных параметров для оценки положения и ориентации по меньшей мере первого устройства и второго устройства.In this example, block 965 includes minimizing a cost function by the control system based at least in part on the DOA data and configuration parameters for estimating the position and orientation of at least the first device and the second device.

Согласно некоторым реализациям, данные DOA также могут соответствовать передачам, излучаемым посредством третьего-N-ого приемо-передающих устройств третьего-N-ого устройств в среде, где N соответствует общему числу приемо-передающих устройств в среде, и при этом данные DOA также соответствуют передачам, принимаемым посредством каждого из первого-N-ого приемо-передающих устройств из всех других приемо-передающих устройств в среде. В некоторых таких реализациях, минимизация функции стоимости также может включать в себя оценку положения и ориентации третьего-N-ого приемо-передающих устройств.According to some implementations, the DOA data may also correspond to transmissions emitted by a third-Nth transceiver of a third-Nth device in the environment, where N corresponds to the total number of transceivers in the environment, and wherein the DOA data also corresponds to transmissions received by each of the first-Nth transceivers of all other transceivers in the environment. In some such implementations, minimizing the cost function may also include estimating the position and orientation of the third-Nth transceiver.

В некоторых примерах, первое устройство и второе устройство могут представлять собой интеллектуальные аудиоустройства, и среда может представлять собой аудиосреду. В некоторых таких примерах, первое передающее устройство и второе передающее устройство могут представлять собой передающие аудиоустройства. В некоторых таких примерах, первое приемное устройство и второе приемное устройство могут представлять собой приемные аудиоустройства. Согласно некоторым таким примерам, данные DOA также могут соответствовать звуку, излучаемому посредством третьего-N-ого интеллектуальных аудиоустройств в аудиосреде, где N соответствует общему числу интеллектуальных аудиоустройств в аудиосреде. В таких примерах, данные DOA также могут соответствовать звуку, принимаемому посредством каждого из первого-N-ого интеллектуальных аудиоустройств из всех других интеллектуальных аудиоустройств в аудиосреде. В таких случаях, минимизация функции стоимости может включать в себя оценку положения и ориентации третьего-N-ого интеллектуальных аудиоустройств. В качестве альтернативы или дополнения, в некоторых примерах данные DOA могут соответствовать электромагнитным волнам, излучаемым и принимаемым посредством устройств в среде.In some examples, the first device and the second device may be intelligent audio devices, and the environment may be an audio environment. In some such examples, the first transmitter and the second transmitter may be audio transmitters. In some such examples, the first receiver and the second receiver may be audio receivers. According to some such examples, the DOA data may also correspond to sound emitted by a third to Nth intelligent audio devices in the audio environment, where N corresponds to the total number of intelligent audio devices in the audio environment. In such examples, the DOA data may also correspond to sound received by each of the first to Nth intelligent audio devices from all other intelligent audio devices in the audio environment. In such cases, minimizing the cost function may include estimating the position and orientation of the third to Nth intelligent audio devices. Alternatively or additionally, in some examples, the DOA data may correspond to electromagnetic waves emitted and received by devices in the environment.

В некоторых примерах, данные DOA также могут соответствовать звуку, принимаемому посредством одного или более пассивных приемных устройств в среде. Каждое из одного или более пассивных приемных устройств может включать в себя массив приемных устройств, но в нем может отсутствовать передающее устройство. Минимизация функции стоимости также может обеспечивать оцененное местоположение и ориентацию каждого из одного или более пассивных приемных устройств. Согласно некоторым примерам, данные DOA также могут соответствовать передачам из одного или более передающих устройств в среде. В некоторых таких примерах, в каждом из одного или более передающих устройств может отсутствовать массив приемных устройств. Минимизация функции стоимости также может обеспечивать оцененное местоположение каждого из одного или более передающих устройств.In some examples, the DOA data may also correspond to sound received by one or more passive receivers in the environment. Each of the one or more passive receivers may include an array of receivers, but may lack a transmitter. Minimizing the cost function may also provide an estimated location and orientation of each of the one or more passive receivers. According to some examples, the DOA data may also correspond to transmissions from one or more transmitters in the environment. In some such examples, each of the one or more transmitters may lack an array of receivers. Minimizing the cost function may also provide an estimated location of each of the one or more transmitters.

В некоторых примерах, способ 950 может включать в себя прием посредством системы управления начальной конфигурации для функции стоимости. Начальная конфигурация, например, может указывать корректное число передающих устройств и приемных устройств в аудиосреде и произвольное местоположение и ориентацию для каждого из передающих устройств и приемных устройств в аудиосреде.In some examples, the method 950 may include receiving, by means of the control system, an initial configuration for the cost function. The initial configuration, for example, may indicate the correct number of transmitters and receivers in the audio environment and an arbitrary location and orientation for each of the transmitters and receivers in the audio environment.

Согласно некоторым примерам, способ 950 может включать в себя прием, посредством системы управления, весового коэффициента, ассоциированного с одним или более элементов данных DOA. Весовой коэффициент, например, может указывать доступность и/или надежность одного или более элементов данных DOA.According to some examples, the method 950 may include receiving, by the control system, a weighting factor associated with one or more DOA data elements. The weighting factor, for example, may indicate the availability and/or reliability of one or more DOA data elements.

В некоторых примерах, способ 950 может включать в себя прием, посредством системы управления, данных времени поступления сигналов (TOA), соответствующих звуку, излучаемому посредством по меньшей мере одного аудиоустройства в аудиосреде и принимаемому посредством по меньшей мере еще одного аудиоустройства в аудиосреде. В некоторых таких примерах, функция стоимости может быть основана по меньшей мере частично на данных TOA. Некоторые такие реализации могут включать в себя оценку по меньшей мере одного времени задержки при воспроизведении и/или по меньшей мере одного времени задержки при записи. Согласно некоторым таким примерам, функция стоимости может работать с повторно масштабированным положением, повторно масштабированным временем задержки и/или повторно масштабированным временем поступления сигналов.In some examples, the method 950 may include receiving, by the control system, time of arrival (TOA) data corresponding to sound emitted by at least one audio device in the audio environment and received by at least one other audio device in the audio environment. In some such examples, the cost function may be based at least in part on the TOA data. Some such implementations may include estimating at least one playback delay time and/or at least one recording delay time. According to some such examples, the cost function may operate with a rescaled position, a rescaled delay time, and/or a rescaled signal arrival time.

В некоторых примерах, функция стоимости может включать в себя первый член в зависимости только от данных DOA и второй член в зависимости только от данных TOA. В некоторых таких примерах, первый член может включать в себя первый весовой коэффициент, и второй член может включать в себя второй весовой коэффициент. Согласно некоторым таким примерам, один или более элементов TOA второго члена могут иметь весовой коэффициент элемента TOA, указывающий доступность или надежность каждого из одного или более элементов TOA.In some examples, the cost function may include a first term depending only on the DOA data and a second term depending only on the TOA data. In some such examples, the first term may include a first weighting factor, and the second term may include a second weighting factor. According to some such examples, one or more TOA elements of the second term may have a TOA element weighting factor indicating the availability or reliability of each of the one or more TOA elements.

Фиг. 10 является блок-схемой, которая показывает примеры компонентов устройства, способного реализовать различные аспекты данного изобретения. Устройство 1000, например, может быть выполнено с возможностью осуществления способов, описанных выше с обращением к фиг. 9A и/или 9B. Согласно некоторым примерам, устройство 1000 может представлять собой или может включать в себя интеллектуальное аудиоустройство (к примеру, интеллектуальный динамик), которое выполнено с возможностью осуществления по меньшей мере некоторых способов, раскрытых в данном документе. В других реализациях, устройство 1000 может представлять собой или может включать в себя другое устройство, которое выполнено с возможностью осуществления по меньшей мере некоторых способов, раскрытых в данном документе. В некоторых таких реализациях, устройство 1000 может представлять собой или может включать в себя концентратор интеллектуального дома или сервер.Fig. 10 is a block diagram that shows examples of components of a device capable of implementing various aspects of the present invention. Device 1000, for example, may be configured to implement the methods described above with reference to Fig. 9A and/or 9B. According to some examples, device 1000 may be or may include a smart audio device (e.g., a smart speaker) that is configured to implement at least some of the methods disclosed herein. In other implementations, device 1000 may be or may include another device that is configured to implement at least some of the methods disclosed herein. In some such implementations, device 1000 may be or may include a smart home hub or a server.

В этом примере, устройство 1000 включает в себя интерфейсную систему 1005 и систему 1010 управления. Интерфейсная система 1005, в некоторых реализациях, может быть выполнена с возможностью приема ввода из каждого из множества микрофонов в среде. Интерфейсная система 1005 может включать в себя один или более сетевых интерфейсов и/или один или более интерфейсов внешних устройств (к примеру, один или более интерфейсов универсальной последовательной шины (USB)). Согласно некоторым реализациям, интерфейсная система 1005 может включать в себя один или более беспроводных интерфейсов. Интерфейсная система 1005 может включать в себя одно или более устройств для реализации пользовательского интерфейса, к примеру, один или более микрофонов, один или более громкоговорителей, систему отображения, систему датчиков касания и/или систему датчиков жестов. В некоторых примерах, интерфейсная система 1005 может включать в себя один или более интерфейсов между системой 1010 управления и системой памяти, такой как факультативная система 1015 памяти, показанная на фиг. 10. Тем не менее, система 1010 управления может включать в себя систему памяти.In this example, device 1000 includes an interface system 1005 and a control system 1010. Interface system 1005, in some implementations, may be configured to receive input from each of a plurality of microphones in the environment. Interface system 1005 may include one or more network interfaces and/or one or more external device interfaces (e.g., one or more universal serial bus (USB) interfaces). According to some implementations, interface system 1005 may include one or more wireless interfaces. Interface system 1005 may include one or more devices for implementing a user interface, such as one or more microphones, one or more speakers, a display system, a touch sensor system, and/or a gesture sensor system. In some examples, interface system 1005 may include one or more interfaces between control system 1010 and a memory system, such as optional memory system 1015 shown in FIG. 10. However, the control system 1010 may include a memory system.

Система 1010 управления, например, может включать в себя одно- или многомикросхемный процессор общего назначения, процессор цифровых сигналов (DSP), специализированную интегральную схему (ASIC), программируемую пользователем вентильную матрицу (FPGA) или другое программируемое логическое устройство, дискретный логический элемент или транзисторную логику и/или дискретные аппаратные компоненты. В некоторых реализациях, система 1010 управления может постоянно размещаться более чем в одном устройстве. Например, часть системы 1010 управления может постоянно размещаться в устройстве в аудиосреде 100, которое проиллюстрировано на фиг. 1 (к примеру, в одном из аудиоустройств 105a-105d или в концентраторе интеллектуального дома), и другая часть системы 1010 управления может постоянно размещаться в устройстве, которое находится за пределами аудиосреды 100, к примеру, на сервере, в мобильном устройстве (например, смартфоне или планшетном компьютере) и т.д. Интерфейсная система 1005, в некоторых таких примерах, также может постоянно размещаться более чем в одном устройстве.The control system 1010, for example, may include a single- or multi-chip general-purpose processor, a digital signal processor (DSP), an application-specific integrated circuit (ASIC), a field-programmable gate array (FPGA) or other programmable logic device, a discrete logic element or transistor logic and/or discrete hardware components. In some implementations, the control system 1010 may reside in more than one device. For example, a portion of the control system 1010 may reside in a device in the audio environment 100 illustrated in Fig. 1 (e.g., in one of the audio devices 105a-105d or in a smart home hub), and another portion of the control system 1010 may reside in a device that is outside the audio environment 100, for example, on a server, in a mobile device (e.g., a smartphone or a tablet computer), etc. The interface system 1005, in some such examples, may also reside in more than one device.

В некоторых реализациях, система 1010 управления может быть выполнена с возможностью осуществления по меньшей мере частично способов, раскрытых в данном документе. Согласно некоторым примерам, система 1010 управления может быть выполнена с возможностью реализации способов, описанных выше, например, с обращением к фиг. 4-9B. In some implementations, the control system 1010 may be configured to implement at least some of the methods disclosed herein. According to some examples, the control system 1010 may be configured to implement the methods described above, for example, with reference to Fig. 4-9B .

В некоторых примерах, устройство 1000 может включать в себя факультативную систему 1020 микрофонов, которая проиллюстрирована на фиг. 10. Система 1020 микрофонов может включать в себя один или более микрофонов. В некоторых примерах, система 1020 микрофонов может включать в себя массив микрофонов. В некоторых примерах устройство 1000 может включать в себя факультативную систему 1025 громкоговорителей, которая проиллюстрирована на фиг. 10. Система 1025 громкоговорителей может включать в себя один или более громкоговорителей. В некоторых примерах, система 1020 микрофонов может включать в себя массив громкоговорителей. В некоторых таких примерах устройство 1000 может представлять собой или может включать в себя аудиоустройство. Например, устройство 1000 может представлять собой или может включать в себя одно из аудиоустройств 105a-105d, показанных на фиг. 1.In some examples, device 1000 may include an optional microphone system 1020, which is illustrated in Fig. 10. Microphone system 1020 may include one or more microphones. In some examples, microphone system 1020 may include an array of microphones. In some examples, device 1000 may include an optional speaker system 1025, which is illustrated in Fig. 10. Speaker system 1025 may include one or more speakers. In some examples, microphone system 1020 may include an array of speakers. In some such examples, device 1000 may be or may include an audio device. For example, device 1000 may be or may include one of audio devices 105a-105d shown in Fig. 1.

В некоторых примерах, устройство 1000 может включать в себя факультативную антенную систему 1030, которая показана на фиг 10. Согласно некоторым примерам, антенная система 1030 может включать в себя массив антенн. В некоторых примерах, антенная система 1030 может быть выполнена с возможностью передачи и/или приема электромагнитных волн. Согласно некоторым реализациям, система 1010 управления может быть выполнена с возможностью оценки расстояния между двумя аудиоустройствами в среде на основе данных антенн из антенной системы 1030. Например, система 1010 управления может быть выполнена с возможностью оценки расстояния между двумя аудиоустройствами в среде согласно направлению поступления сигналов данных антенн и/или интенсивности принимаемых сигналов данных антенн.In some examples, the device 1000 may include an optional antenna system 1030, which is shown in Fig. 10. According to some examples, the antenna system 1030 may include an array of antennas. In some examples, the antenna system 1030 may be configured to transmit and/or receive electromagnetic waves. According to some implementations, the control system 1010 may be configured to estimate the distance between two audio devices in the environment based on antenna data from the antenna system 1030. For example, the control system 1010 may be configured to estimate the distance between two audio devices in the environment according to the direction of arrival of signals from these antennas and/or the strength of received signals from these antennas.

Некоторые или все из способов, описанных в данном документе, могут осуществляться посредством одного или более устройств согласно инструкциям (например, программному обеспечению), сохраненным на одном или более постоянных носителях. Например, некоторые или все из способов, описанных в данном документе, могут осуществляться посредством системы 1010 управления согласно инструкциям, сохраненным на одном или более постоянных носителях. Такие постоянные носители могут включать в себя запоминающие устройства, такие как запоминающие устройства, описанные в данном документе, в том числе, не ограничиваясь, оперативные запоминающие устройства (RAM), постоянные запоминающие устройства (ROM) и т.д. Один или более постоянных носителей, например, могут постоянно размещаться в факультативной системе 1015 памяти, показанной на фиг. 10, и/или в системе 1010 управления. Соответственно, различные инновационные аспекты объекта изобретения, описанного в настоящем описании, могут быть реализованы в одном или более постоянных носителях, имеющих сохраненное программное обеспечение. Программное обеспечение, например, может включать в себя инструкции для управления по меньшей мере одним устройством таким образом, чтобы обрабатывать аудиоданные. Программное обеспечение, например, может выполняться посредством одного или более компонентов системы управления, к примеру, системы 1010 управления по фиг. 10.Some or all of the methods described herein may be performed by one or more devices according to instructions (e.g., software) stored on one or more persistent media. For example, some or all of the methods described herein may be performed by a control system 1010 according to instructions stored on one or more persistent media. Such persistent media may include memory devices, such as the memory devices described herein, including, but not limited to, random access memory (RAM), read-only memory (ROM), etc. The one or more persistent media, for example, may reside in the optional memory system 1015 shown in Fig. 10 and/or in the control system 1010. Accordingly, various innovative aspects of the subject matter described herein may be implemented in one or more persistent media having stored software. The software, for example, may include instructions for controlling at least one device to process audio data. The software may, for example, be executed by one or more components of a control system, such as control system 1010 of Fig. 10.

Фиг. 11 показывает пример плана помещения для аудиосреды, которое в этом примере представляет собой жилое пространство. Аналогично другим чертежам, приведенным в данном документе, типы и числа элементов, показанные на фиг. 11, приведены лишь в качестве примера. Другие реализации могут включать в себя большее количество, меньшее количество и/или другие типы и числа элементов.Fig. 11 shows an example of a room plan for an audio environment, which in this example is a living space. Like other drawings provided herein, the types and numbers of elements shown in Fig. 11 are provided as an example only. Other implementations may include more, fewer, and/or different types and numbers of elements.

Согласно этому примеру, среда 1100 включает в себя гостиную 1110 в верхнем левом углу, кухню 1115 внизу по центру и спальню 1122 в нижнем правом углу. Прямоугольники и окружности, распределенные по жилому пространству, представляют набор громкоговорителей 1105a-1105h по меньшей мере некоторые из которых могут представлять собой интеллектуальные динамики в некоторых реализациях, размещенные в местоположениях, удобных для пространства, но без соблюдения предписанной схемы размещения стандарта (размещенные произвольно). В некоторых примерах, телевизионный приемник 1130 может быть выполнен с возможностью по меньшей мере частичной реализации одного или более раскрытых вариантов осуществления. В этом примере, среда 1100 включает в себя камеры 1111a-1111e, которые распределены по всей среде. В некоторых реализациях одно или более интеллектуальных аудиоустройств в среде 1100 также могут включать в себя одну или более камер. Одно или более интеллектуальных аудиоустройств могут представлять собой однозадачные аудиоустройства или виртуальные помощники. В некоторых таких примерах, одна или более камер факультативной системы 130 датчиков могут постоянно размещаться в/на телевизионном приемнике 1130, в мобильном телефоне или в интеллектуальном динамике, к примеру, в одном или более громкоговорителей 1105b, 1105d, 1105e или 1105h. Хотя камеры 1111a-1111e не показаны на каждой иллюстрации среды 1100, представленного в настоящем описании, тем не менее, в некоторых реализациях каждая из сред 1100 может включать в себя одну или более камер.According to this example, environment 1100 includes a living room 1110 in the upper left corner, a kitchen 1115 in the lower center and a bedroom 1122 in the lower right corner. Rectangles and circles distributed throughout the living space represent a set of speakers 1105a-1105h, at least some of which may be intelligent speakers in some implementations, placed in locations convenient for the space, but without adhering to a prescribed placement scheme of the standard (arbitrarily placed). In some examples, television receiver 1130 may be configured to at least partially implement one or more disclosed embodiments. In this example, environment 1100 includes cameras 1111a-1111e, which are distributed throughout the environment. In some implementations, one or more intelligent audio devices in environment 1100 may also include one or more cameras. One or more intelligent audio devices may be single-task audio devices or virtual assistants. In some such examples, one or more cameras of the optional sensor system 130 may be permanently located in/on the television receiver 1130, in the mobile phone or in the intelligent speaker, for example, in one or more speakers 1105b, 1105d, 1105e or 1105h. Although the cameras 1111a-1111e are not shown in each illustration of the environment 1100 presented in this description, nevertheless, in some implementations, each of the environments 1100 may include one or more cameras.

Некоторые аспекты настоящего изобретения включают в себя систему или устройство, сконфигурированное (например, программируемое) с возможностью выполнения одного или более примеров раскрытых способов, и материальный машиночитаемый носитель (например, диск), который сохраняет код для реализации одного или более примеров раскрытых способов либо их этапов. Например, некоторые раскрытые системы могут представлять собой или включать в себя программируемый процессор общего назначения, процессор цифровых сигналов или микропроцессор, программируемый с помощью программного обеспечения или микропрограммного обеспечения и/или иным способом сконфигурированный с возможностью выполнения любых из множества операций для данных, в том числе и вариант осуществления раскрытых способов или их этапов. Такой процессор общего назначения может представлять собой или включать в себя компьютерную систему, включающую в себя устройство ввода, запоминающее устройство и подсистему обработки, которая запрограммирована (и/или иным способом выполнена) с возможностью выполнения одного или более примеров раскрытых способов (либо их этапов) в ответ на данные, вводимые в нее.Some aspects of the present invention include a system or device configured (e.g., programmable) to perform one or more examples of the disclosed methods, and a tangible computer-readable medium (e.g., a disk) that stores code for implementing one or more examples of the disclosed methods or steps thereof. For example, some disclosed systems may be or include a programmable general-purpose processor, a digital signal processor, or a microprocessor that is programmable with software or firmware and/or otherwise configured to perform any of a variety of operations on data, including an embodiment of the disclosed methods or steps thereof. Such a general-purpose processor may be or include a computer system that includes an input device, a memory device, and a processing subsystem that is programmed (and/or otherwise configured) to perform one or more examples of the disclosed methods (or steps thereof) in response to data input thereto.

Некоторые варианты осуществления могут быть реализованы в виде конфигурируемого (например, программируемого) процессора цифровых сигналов (DSP), который конфигурирован (например, запрограммирован и иным образом выполнен) с возможностью выполнения требуемой обработки для аудиосигнала(ов), что включает в себя и выполнение одного или более примеров раскрытых способов. В качестве альтернативы, варианты осуществления раскрытых систем (либо их элементов) могут быть реализованы в виде процессора общего назначения (например, в виде персонального компьютера (PC) или другой компьютерной системы или микропроцессора, который может включать в себя устройство ввода и запоминающее устройство), который программируется с помощью программного обеспечения или микропрограммного обеспечения и/или иным способом конфигурируется с возможностью выполнения любых из множества операций, в том числе и одного или более примеров раскрытых способов. В качестве альтернативы, элементы некоторых вариантов осуществления системы согласно изобретению реализованы в виде процессора общего назначения или DSP, выполненного (например, программируемого) с возможностью выполнения одного или более примеров раскрытых способов, и система также включает в себя другие элементы (например, один или более громкоговорителей и/или один или более микрофонов). Процессор общего назначения, выполненный с возможностью выполнения одного или более примеров раскрытых способов, может соединяться с устройством ввода (например, мышью и/или клавиатурой), запоминающим устройством и устройством отображения.Some embodiments may be implemented as a configurable (e.g., programmable) digital signal processor (DSP) that is configured (e.g., programmed and otherwise configured) to perform the desired processing on the audio signal(s), which includes performing one or more examples of the disclosed methods. Alternatively, embodiments of the disclosed systems (or elements thereof) may be implemented as a general-purpose processor (e.g., a personal computer (PC) or other computer system or a microprocessor that may include an input device and a memory device) that is programmed with software or firmware and/or otherwise configured to perform any of a variety of operations, including one or more examples of the disclosed methods. Alternatively, elements of some embodiments of a system according to the invention are implemented as a general-purpose processor or DSP configured (e.g., programmable) to perform one or more examples of the disclosed methods, and the system also includes other elements (e.g., one or more speakers and/or one or more microphones). A general-purpose processor configured to perform one or more examples of the disclosed methods may be coupled to an input device (e.g., a mouse and/or keyboard), a storage device, and a display device.

Другой аспект настоящего изобретения представляет собой машиночитаемый носитель (например, диск или другой материальный носитель хранения данных), который сохраняет код для выполнения (например, код, исполняемый с возможностью выполнения) одного или более примеров раскрытых способов или их этапов.Another aspect of the present invention is a computer-readable medium (e.g., a disk or other tangible storage medium) that stores code for performing (e.g., code executable with the ability to execute) one or more examples of the disclosed methods or steps thereof.

При том, что в данном документе описаны конкретные варианты осуществления и применения изобретения, специалистам в данной области техники должно быть очевидно, что возможно множество других вариантов осуществления и применения, описанных в данном документе, не выходящих за рамки объема данного изобретения.While specific embodiments and applications of the invention have been described herein, it will be apparent to those skilled in the art that many other embodiments and applications described herein are possible without departing from the scope of the invention.

Claims (35)

1. Способ локализации аудиоустройств в аудиосреде, при этом способ содержит этапы, на которых:1. A method for localizing audio devices in an audio environment, wherein the method comprises the steps of: - получают посредством системы управления данные направления поступления сигналов (DOA), соответствующие звуку, излучаемому посредством по меньшей мере первого интеллектуального аудиоустройства в аудиосреде, причем первое интеллектуальное аудиоустройство включает в себя первое передающее аудиоустройство и первое приемное аудиоустройство, причем данные DOA соответствуют звуку, принимаемому посредством по меньшей мере второго интеллектуального аудиоустройства в аудиосреде, причем второе интеллектуальное аудиоустройство включает в себя второе передающее аудиоустройство и второе приемное аудиоустройство, причем данные DOA также соответствуют звуку, излучаемому посредством по меньшей мере второго интеллектуального аудиоустройства и принимаемому посредством по меньшей мере первого интеллектуального аудиоустройства;- receiving, by means of a control system, data of the direction of arrival (DOA) corresponding to a sound emitted by at least a first intelligent audio device in an audio environment, wherein the first intelligent audio device includes a first transmitting audio device and a first receiving audio device, wherein the DOA data corresponds to a sound received by at least a second intelligent audio device in the audio environment, wherein the second intelligent audio device includes a second transmitting audio device and a second receiving audio device, wherein the DOA data also corresponds to a sound emitted by at least the second intelligent audio device and received by at least the first intelligent audio device; - принимают посредством системы управления конфигурационные параметры, причем конфигурационные параметры соответствуют аудиосреде, соответствуют одному или более аудиоустройствам в аудиосреде или соответствуют как аудиосреде, так и одному или более аудиоустройствам в аудиосреде; и- receiving, via the control system, configuration parameters, wherein the configuration parameters correspond to an audio environment, correspond to one or more audio devices in the audio environment, or correspond to both an audio environment and one or more audio devices in the audio environment; and - минимизируют посредством системы управления функцию стоимости по меньшей мере частично на основе данных DOA и конфигурационных параметров для оценки положения и ориентации по меньшей мере первого интеллектуального аудиоустройства и второго интеллектуального аудиоустройства,- minimizing by means of a control system a cost function at least partially based on DOA data and configuration parameters for estimating the position and orientation of at least the first intelligent audio device and the second intelligent audio device, причём данные DOA также соответствуют звуку, принимаемому посредством одного или более пассивных приемных аудиоустройств в аудиосреде, причем каждое из одного или более пассивных приемных аудиоустройств включает в себя массив микрофонов, но в нем отсутствует излучатель аудиосигнала, и при этом минимизация функции стоимости также обеспечивает оцененное местоположение и ориентацию каждого из одного или более пассивных приемных аудиоустройств,wherein the DOA data also corresponds to sound received by one or more passive audio receivers in an audio environment, wherein each of the one or more passive audio receivers includes a microphone array but lacks an audio signal emitter, and wherein the minimization of the cost function also provides an estimated location and orientation of each of the one or more passive audio receivers, причём данные DOA также соответствуют звуку, излучаемому посредством одного или более излучателей аудиосигнала в аудиосреде, причем каждый из одного или более излучателей аудиосигнала включает в себя по меньшей мере один звукоизлучающий преобразователь, но в нем отсутствует массив микрофонов, и при этом минимизация функции стоимости также обеспечивает оцененное местоположение каждого из одного или более излучателей аудиосигнала,wherein the DOA data also corresponds to sound emitted by one or more audio signal emitters in an audio environment, wherein each of the one or more audio signal emitters includes at least one sound-emitting transducer, but lacks a microphone array, and wherein the minimization of the cost function also provides an estimated location of each of the one or more audio signal emitters, причём данные DOA также соответствуют звуку, излучаемому посредством третьего-N-ого интеллектуальных аудиоустройств в аудиосреде, причем N соответствует общему числу интеллектуальных аудиоустройств в аудиосреде, при этом данные DOA также соответствуют звуку, принимаемому посредством каждого из первого-N-ого интеллектуальных аудиоустройств из всех других интеллектуальных аудиоустройств в аудиосреде, и при этом минимизация функции стоимости включает в себя этап, на котором оценивают положение и ориентацию третьего-N-ого интеллектуальных аудиоустройств,wherein the DOA data also corresponds to a sound emitted by a third-Nth intelligent audio device in the audio environment, wherein N corresponds to the total number of intelligent audio devices in the audio environment, wherein the DOA data also corresponds to a sound received by each of the first-Nth intelligent audio devices from all other intelligent audio devices in the audio environment, and wherein minimizing the cost function includes a step in which the position and orientation of the third-Nth intelligent audio devices are estimated, при этом конфигурационные параметры включают в себя по меньшей мере одно из числа аудиоустройств в аудиосреде, одного или более измерений аудиосреды, одного или более ограничений на местоположение или ориентацию аудиоустройства или данных разрешения неоднозначности по меньшей мере для одного из вращения, перемещения в пространстве или масштабирования.wherein the configuration parameters include at least one of a number of audio devices in the audio environment, one or more dimensions of the audio environment, one or more constraints on the location or orientation of the audio device, or ambiguity resolution data for at least one of rotation, translation in space, or scaling. 2. Способ по п. 1, дополнительно содержащий этап, на котором принимают посредством системы управления начальную конфигурацию для функции стоимости, причем начальная конфигурация указывает корректное число передающих и приемных аудиоустройств в аудиосреде и произвольное местоположение и ориентацию для каждого из передающих и приемных аудиоустройств в аудиосреде.2. The method of claim 1, further comprising the step of receiving, by means of the control system, an initial configuration for the cost function, wherein the initial configuration specifies the correct number of transmitting and receiving audio devices in the audio environment and an arbitrary location and orientation for each of the transmitting and receiving audio devices in the audio environment. 3. Способ по любому из пп. 1, 2, дополнительно содержащий этап, на котором принимают посредством системы управления весовой коэффициент, ассоциированный с одним или более элементами данных DOA, причем весовой коэффициент указывает по меньшей мере одно из доступности или надежности одного или более элементов.3. The method according to any one of claims 1, 2, further comprising the step of receiving by the control system a weighting factor associated with one or more DOA data elements, wherein the weighting factor indicates at least one of availability or reliability of the one or more elements. 4. Способ по любому из пп. 1-3, дополнительно содержащий этап, на котором получают посредством системы управления один или более элементов данных DOA с использованием по меньшей мере одного из способа на основе формирования диаграммы направленности, способа на основе направленного отклика по мощности, способа на основе разности времени поступления сигналов или способа на основе структурированных сигналов.4. The method according to any one of claims 1-3, further comprising the step of obtaining by the control system one or more DOA data elements using at least one of a beamforming-based method, a power response-based method, a time-of-arrival-difference method, or a structured signal-based method. 5. Способ по любому из пп. 1-4, дополнительно содержащий этап, на котором принимают посредством системы управления данные времени поступления сигналов (ТОА), соответствующие звуку, излучаемому посредством по меньшей мере одного аудиоустройства в аудиосреде и принимаемому посредством по меньшей мере еще одного аудиоустройства в аудиосреде, и при этом функция стоимости основана по меньшей мере частично на данных ТОА.5. The method according to any one of claims 1 to 4, further comprising the step of receiving, by means of the control system, time of arrival (TOA) data corresponding to sound emitted by means of at least one audio device in the audio environment and received by means of at least one more audio device in the audio environment, and wherein the cost function is based at least in part on the TOA data. 6. Способ по п. 5, дополнительно содержащий этап, на котором оценивают по меньшей мере одно время задержки при воспроизведении, оценивают по меньшей мере одно время задержки при записи или оценивают по меньшей мере одно время задержки при воспроизведении и по меньшей мере одно время задержки при записи.6. The method according to claim 5, further comprising the step of estimating at least one playback delay time, estimating at least one recording delay time, or estimating at least one playback delay time and at least one recording delay time. 7. Способ по п. 6, в котором функция стоимости работает по меньшей мере с одним из повторно масштабированного положения, повторно масштабированного времени задержки или повторно масштабированного времени поступления сигналов.7. The method of claim 6, wherein the cost function operates on at least one of a rescaled position, a rescaled delay time, or a rescaled signal arrival time. 8. Способ по любому из пп. 5-7, в котором функция стоимости включает в себя первый член, зависящий только от данных DOA, и второй член, зависящий только от данных ТОА.8. The method according to any one of paragraphs. 5-7, in which the cost function includes a first term depending only on the DOA data and a second term depending only on the TOA data. 9. Способ по п. 8, в котором первый член включает в себя первый весовой коэффициент, и при этом второй член включает в себя второй весовой коэффициент.9. The method of claim 8, wherein the first term includes a first weighting factor, and wherein the second term includes a second weighting factor. 10. Способ по п. 8, в котором один или более элементов ТОА второго члена имеют весовой коэффициент элемента ТОА, указывающий доступность или надежность каждого из одного или более элементов ТОА.10. The method of claim 8, wherein one or more TOA elements of the second member have a TOA element weighting factor indicating the availability or reliability of each of the one or more TOA elements. 11. Способ по любому из пп. 1-10, в котором конфигурационные параметры включают в себя по меньшей мере одно из: данных времени задержки при воспроизведении; данных времени задержки при записи; данных для разрешения неоднозначности симметрии времени задержки; данные разрешения неоднозначности для вращения; данные разрешения неоднозначности для перемещения в пространстве; или данные разрешения неоднозначности для масштабирования.11. The method according to any one of claims 1 to 10, wherein the configuration parameters include at least one of: playback delay time data; recording delay time data; delay time symmetry ambiguity resolution data; rotation ambiguity resolution data; spatial translation ambiguity resolution data; or scaling ambiguity resolution data. 12. Устройство для локализации аудиоустройств в аудиосреде, причём устройство включает в себя интерфейсную систему и систему управления, причём система управления выполнена с возможностью:12. A device for localizing audio devices in an audio environment, wherein the device includes an interface system and a control system, wherein the control system is designed with the ability to: - получения данных направления поступления сигналов (DOA), соответствующих звуку, излучаемому посредством по меньшей мере первого интеллектуального аудиоустройства в аудиосреде, причем первое интеллектуальное аудиоустройство включает в себя первое передающее аудиоустройство и первое приемное аудиоустройство, причем данные DOA соответствуют звуку, принимаемому посредством по меньшей мере второго интеллектуального аудиоустройства в аудиосреде, причем второе интеллектуальное аудиоустройство включает в себя второе передающее аудиоустройство и второе приемное аудиоустройство, причем данные DOA также соответствуют звуку, излучаемому посредством по меньшей мере второго интеллектуального аудиоустройства и принимаемому посредством по меньшей мере первого интеллектуального аудиоустройства;- obtaining direction of arrival (DOA) data corresponding to sound emitted by at least a first intelligent audio device in an audio environment, wherein the first intelligent audio device includes a first audio transmitter and a first audio receiver, wherein the DOA data corresponds to sound received by at least a second intelligent audio device in the audio environment, wherein the second intelligent audio device includes a second audio transmitter and a second audio receiver, wherein the DOA data also corresponds to sound emitted by at least the second intelligent audio device and received by at least the first intelligent audio device; - приёма конфигурационных параметров, причем конфигурационные параметры соответствуют аудиосреде, соответствуют одному или более аудиоустройствам в аудиосреде или соответствуют как аудиосреде, так и одному или более аудиоустройствам в аудиосреде; и- receiving configuration parameters, wherein the configuration parameters correspond to an audio environment, correspond to one or more audio devices in the audio environment, or correspond to both an audio environment and one or more audio devices in the audio environment; and - минимизации функции стоимости по меньшей мере частично на основе данных DOA и конфигурационных параметров для оценки положения и ориентации по меньшей мере первого интеллектуального аудиоустройства и второго интеллектуального аудиоустройства,- minimizing a cost function at least in part based on DOA data and configuration parameters for estimating the position and orientation of at least the first intelligent audio device and the second intelligent audio device, причём данные DOA также соответствуют звуку, принимаемому посредством одного или более пассивных приемных аудиоустройств в аудиосреде, причем каждое из одного или более пассивных приемных аудиоустройств включает в себя массив микрофонов, но в нем отсутствует излучатель аудиосигнала, и при этом минимизация функции стоимости также обеспечивает оцененное местоположение и ориентацию каждого из одного или более пассивных приемных аудиоустройств,wherein the DOA data also corresponds to sound received by one or more passive audio receivers in an audio environment, wherein each of the one or more passive audio receivers includes a microphone array but lacks an audio signal emitter, and wherein the minimization of the cost function also provides an estimated location and orientation of each of the one or more passive audio receivers, причём данные DOA также соответствуют звуку, излучаемому посредством одного или более излучателей аудиосигнала в аудиосреде, причем каждый из одного или более излучателей аудиосигнала включает в себя по меньшей мере один звукоизлучающий преобразователь, но в нем отсутствует массив микрофонов, и при этом минимизация функции стоимости также обеспечивает оцененное местоположение каждого из одного или более излучателей аудиосигнала,wherein the DOA data also corresponds to sound emitted by one or more audio signal emitters in an audio environment, wherein each of the one or more audio signal emitters includes at least one sound-emitting transducer, but lacks a microphone array, and wherein the minimization of the cost function also provides an estimated location of each of the one or more audio signal emitters, причём данные DOA также соответствуют звуку, излучаемому посредством третьего-N-ого интеллектуальных аудиоустройств в аудиосреде, причем N соответствует общему числу интеллектуальных аудиоустройств в аудиосреде, при этом данные DOA также соответствуют звуку, принимаемому посредством каждого из первого-N-ого интеллектуальных аудиоустройств из всех других интеллектуальных аудиоустройств в аудиосреде, и при этом минимизация функции стоимости включает в себя этап, на котором оценивают положение и ориентацию третьего-N-ого интеллектуальных аудиоустройств,wherein the DOA data also corresponds to a sound emitted by a third-Nth intelligent audio device in the audio environment, wherein N corresponds to the total number of intelligent audio devices in the audio environment, wherein the DOA data also corresponds to a sound received by each of the first-Nth intelligent audio devices from all other intelligent audio devices in the audio environment, and wherein minimizing the cost function includes a step in which the position and orientation of the third-Nth intelligent audio devices are estimated, при этом конфигурационные параметры включают в себя по меньшей мере одно из числа аудиоустройств в аудиосреде, одного или более измерений аудиосреды, одного или более ограничений на местоположение или ориентацию аудиоустройства или данных разрешения неоднозначности по меньшей мере для одного из вращения, перемещения в пространстве или масштабирования.wherein the configuration parameters include at least one of a number of audio devices in the audio environment, one or more dimensions of the audio environment, one or more constraints on the location or orientation of the audio device, or ambiguity resolution data for at least one of rotation, translation in space, or scaling. 13. Система локализации аудиоустройств в аудиосреде, причём система включает в себя интерфейсную систему и систему управления, причём система управления выполнена с возможностью:13. A system for localizing audio devices in an audio environment, wherein the system includes an interface system and a control system, wherein the control system is designed with the ability to: - получения данных направления поступления сигналов (DOA), соответствующих звуку, излучаемому посредством по меньшей мере первого интеллектуального аудиоустройства в аудиосреде, причем первое интеллектуальное аудиоустройство включает в себя первое передающее аудиоустройство и первое приемное аудиоустройство, причем данные DOA соответствуют звуку, принимаемому посредством по меньшей мере второго интеллектуального аудиоустройства в аудиосреде, причем второе интеллектуальное аудиоустройство включает в себя второе передающее аудиоустройство и второе приемное аудиоустройство, причем данные DOA также соответствуют звуку, излучаемому посредством по меньшей мере второго интеллектуального аудиоустройства и принимаемому посредством по меньшей мере первого интеллектуального аудиоустройства;- obtaining direction of arrival (DOA) data corresponding to sound emitted by at least a first intelligent audio device in an audio environment, wherein the first intelligent audio device includes a first audio transmitter and a first audio receiver, wherein the DOA data corresponds to sound received by at least a second intelligent audio device in the audio environment, wherein the second intelligent audio device includes a second audio transmitter and a second audio receiver, wherein the DOA data also corresponds to sound emitted by at least the second intelligent audio device and received by at least the first intelligent audio device; - приёма конфигурационных параметров, причем конфигурационные параметры соответствуют аудиосреде, соответствуют одному или более аудиоустройствам в аудиосреде или соответствуют как аудиосреде, так и одному или более аудиоустройствам в аудиосреде; и- receiving configuration parameters, wherein the configuration parameters correspond to an audio environment, correspond to one or more audio devices in the audio environment, or correspond to both an audio environment and one or more audio devices in the audio environment; and - минимизации функции стоимости по меньшей мере частично на основе данных DOA и конфигурационных параметров для оценки положения и ориентации по меньшей мере первого интеллектуального аудиоустройства и второго интеллектуального аудиоустройства,- minimizing a cost function at least in part based on DOA data and configuration parameters for estimating the position and orientation of at least the first intelligent audio device and the second intelligent audio device, причём данные DOA также соответствуют звуку, принимаемому посредством одного или более пассивных приемных аудиоустройств в аудиосреде, причем каждое из одного или более пассивных приемных аудиоустройств включает в себя массив микрофонов, но в нем отсутствует излучатель аудиосигнала, и при этом минимизация функции стоимости также обеспечивает оцененное местоположение и ориентацию каждого из одного или более пассивных приемных аудиоустройств,wherein the DOA data also corresponds to sound received by one or more passive audio receivers in an audio environment, wherein each of the one or more passive audio receivers includes a microphone array but lacks an audio signal emitter, and wherein the minimization of the cost function also provides an estimated location and orientation of each of the one or more passive audio receivers, причём данные DOA также соответствуют звуку, излучаемому посредством одного или более излучателей аудиосигнала в аудиосреде, причем каждый из одного или более излучателей аудиосигнала включает в себя по меньшей мере один звукоизлучающий преобразователь, но в нем отсутствует массив микрофонов, и при этом минимизация функции стоимости также обеспечивает оцененное местоположение каждого из одного или более излучателей аудиосигнала,wherein the DOA data also corresponds to sound emitted by one or more audio signal emitters in an audio environment, wherein each of the one or more audio signal emitters includes at least one sound-emitting transducer, but lacks a microphone array, and wherein the minimization of the cost function also provides an estimated location of each of the one or more audio signal emitters, причём данные DOA также соответствуют звуку, излучаемому посредством третьего-N-ого интеллектуальных аудиоустройств в аудиосреде, причем N соответствует общему числу интеллектуальных аудиоустройств в аудиосреде, при этом данные DOA также соответствуют звуку, принимаемому посредством каждого из первого-N-ого интеллектуальных аудиоустройств из всех других интеллектуальных аудиоустройств в аудиосреде, и при этом минимизация функции стоимости включает в себя этап, на котором оценивают положение и ориентацию третьего-N-ого интеллектуальных аудиоустройств,wherein the DOA data also corresponds to a sound emitted by a third-Nth intelligent audio device in the audio environment, wherein N corresponds to the total number of intelligent audio devices in the audio environment, wherein the DOA data also corresponds to a sound received by each of the first-Nth intelligent audio devices from all other intelligent audio devices in the audio environment, and wherein minimizing the cost function includes a step in which the position and orientation of the third-Nth intelligent audio devices are estimated, при этом конфигурационные параметры включают в себя по меньшей мере одно из числа аудиоустройств в аудиосреде, одного или более измерений аудиосреды, одного или более ограничений на местоположение или ориентацию аудиоустройства или данных разрешения неоднозначности по меньшей мере для одного из вращения, перемещения в пространстве или масштабирования.wherein the configuration parameters include at least one of a number of audio devices in the audio environment, one or more dimensions of the audio environment, one or more constraints on the location or orientation of the audio device, or ambiguity resolution data for at least one of rotation, translation in space, or scaling. 14. Постоянный носитель, сохраняющий программное обеспечение, причем программное обеспечение включает в себя инструкции для управления одним или более устройствами для осуществления способа по любому из пп. 1-11.14. A non-transitory medium storing software, wherein the software includes instructions for controlling one or more devices to implement the method according to any one of paragraphs 1-11.
RU2023117015A 2020-12-03 2021-12-02 Automatic localization of audio devices RU2825341C1 (en)

Applications Claiming Priority (5)

Application Number Priority Date Filing Date Title
ESP202031212 2020-12-03
US63/155,369 2021-03-02
ESP202130458 2021-05-20
US63/203,403 2021-07-21
US63/224,778 2021-07-22

Publications (1)

Publication Number Publication Date
RU2825341C1 true RU2825341C1 (en) 2024-08-26

Family

ID=

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
RU2546717C2 (en) * 2009-06-02 2015-04-10 Конинклейке Филипс Электроникс Н.В. Multichannel acoustic echo cancellation
US9497544B2 (en) * 2012-07-02 2016-11-15 Qualcomm Incorporated Systems and methods for surround sound echo reduction
RU2734231C1 (en) * 2017-05-03 2020-10-13 Фраунхофер-Гезелльшафт Цур Фердерунг Дер Ангевандтен Форшунг Е.Ф. Audio processor, system, method and data medium for audio playback
WO2020210084A1 (en) * 2019-04-09 2020-10-15 Facebook Technologies, Llc Acoustic transfer function personalization using sound scene analysis and beamforming

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
RU2546717C2 (en) * 2009-06-02 2015-04-10 Конинклейке Филипс Электроникс Н.В. Multichannel acoustic echo cancellation
US9497544B2 (en) * 2012-07-02 2016-11-15 Qualcomm Incorporated Systems and methods for surround sound echo reduction
RU2734231C1 (en) * 2017-05-03 2020-10-13 Фраунхофер-Гезелльшафт Цур Фердерунг Дер Ангевандтен Форшунг Е.Ф. Audio processor, system, method and data medium for audio playback
WO2020210084A1 (en) * 2019-04-09 2020-10-15 Facebook Technologies, Llc Acoustic transfer function personalization using sound scene analysis and beamforming

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
KOZINTSEV I., LIENHART R., RAYKAR V.C. Position calibration of microphones and loudspeakers in distributed computing platforms // IEEE transactions on speech and audio processing, 2005, Vol. 13, N. 1, P. 70-83. *

Similar Documents

Publication Publication Date Title
US11937054B2 (en) Multiple-source tracking and voice activity detections for planar microphone arrays
US9465107B2 (en) Sonic-assisted localization of wireless devices
US10957338B2 (en) 360-degree multi-source location detection, tracking and enhancement
KR20220117282A (en) Audio device auto-location
WO2019217135A1 (en) Multi-modal speech localization
KR20060003897A (en) Object position estimation system, apparatus and method
RU2529441C1 (en) Method of processing sonar information
US20230021829A1 (en) Location determination using acoustic models
CN112859000A (en) Sound source positioning method and device
EP3182734B1 (en) Method for using a mobile device equipped with at least two microphones for determining the direction of loudspeakers in a setup of a surround sound system
RU2825341C1 (en) Automatic localization of audio devices
WO2021013346A1 (en) Apparatus for determining spatial positions of multiple audio sources
Sun et al. Indoor multiple sound source localization using a novel data selection scheme
US20240022869A1 (en) Automatic localization of audio devices
Nguyen et al. Selection of the closest sound source for robot auditory attention in multi-source scenarios
KR20200036203A (en) Apparatus and Method for Sound Source Separation based on Rada
CN116547991A (en) Automatic positioning of audio devices
Sledevič et al. An evaluation of hardware-software design for sound source localization based on SoC
Zhu et al. Fine-grained multi-user device-free gesture tracking on today’s smart speakers
US20240114308A1 (en) Frequency domain multiplexing of spatial audio for multiple listener sweet spots
KR20200036820A (en) Apparatus and Method for Sound Source Separation based on Rada
US20240107255A1 (en) Frequency domain multiplexing of spatial audio for multiple listener sweet spots
Ishi et al. Integration of multiple microphone arrays and use of sound reflections for 3D localization of sound sources
Lu et al. Separating voices from multiple sound sources using 2D microphone array
WO2023086304A1 (en) Estimation of audio device and sound source locations