RU2022105152A - ACOUSTIC ECHO CANCELLATION CONTROL FOR DISTRIBUTED AUDIO DEVICES - Google Patents

ACOUSTIC ECHO CANCELLATION CONTROL FOR DISTRIBUTED AUDIO DEVICES Download PDF

Info

Publication number
RU2022105152A
RU2022105152A RU2022105152A RU2022105152A RU2022105152A RU 2022105152 A RU2022105152 A RU 2022105152A RU 2022105152 A RU2022105152 A RU 2022105152A RU 2022105152 A RU2022105152 A RU 2022105152A RU 2022105152 A RU2022105152 A RU 2022105152A
Authority
RU
Russia
Prior art keywords
audio
person
microphone
paragraphs
devices
Prior art date
Application number
RU2022105152A
Other languages
Russian (ru)
Other versions
RU2818982C2 (en
Inventor
Гленн Н. ДИКИНС
Кристофер Грэхэм ХАЙНЕС
Дэвид ГУНАВАН
Ричард Дж. КАРТРАЙТ
Алан Дж. СИФЕЛДТ
Даниэль АРТЕАГА
Марк Р. П. ТОМАС
Джошуа Б. ЛАНДО
Original Assignee
Долби Лабораторис Лайсэнзин Корпорейшн
Долби Интернешнл Аб
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Долби Лабораторис Лайсэнзин Корпорейшн, Долби Интернешнл Аб filed Critical Долби Лабораторис Лайсэнзин Корпорейшн
Publication of RU2022105152A publication Critical patent/RU2022105152A/en
Application granted granted Critical
Publication of RU2818982C2 publication Critical patent/RU2818982C2/en

Links

Claims (41)

1. Способ управления аудиосеансом, включающий:1. A method for managing an audio session, comprising: прием выходных сигналов от каждого микрофона из множества микрофонов в аудиосреде, причем каждый микрофон из множества микрофонов находится в местоположении микрофона в аудиосреде, причем выходные сигналы включают сигналы, соответствующие текущему фрагменту речи человека; receiving output signals from each microphone of the plurality of microphones in the audio environment, each microphone of the plurality of microphones being located at a microphone location in the audio environment, the output signals including signals corresponding to a current portion of the person's speech; определение на основе выходных сигналов одного или более аспектов контекстной информации, относящейся к человеку, причем контекстная информация содержит по меньшей мере одно из оценочного текущего местоположения человека или оценочной текущей близости человека к одному или более местоположениям микрофонов;determining, based on the outputs, one or more aspects of contextual information related to the person, the context information comprising at least one of an estimated current location of the person or an estimated current proximity of the person to one or more microphone locations; определение ближайшего оснащенного громкоговорителем аудиоустройства, которое является ближайшим к местоположению микрофона, ближайшему к оценочному текущему местоположению человека;determining the nearest speaker-equipped audio device that is closest to the microphone location closest to the estimated current location of the person; выбор двух или более аудиоустройств аудиосреды по меньшей мере частично на основе одного или более аспектов контекстной информации, причем каждое из двух или более аудиоустройств содержит по меньшей мере один громкоговоритель, и при этом два или более аудиоустройств включают в себя ближайшее оснащенное громкоговорителем аудиоустройство;selecting two or more audio media devices based at least in part on one or more aspects of context information, wherein each of the two or more audio devices includes at least one speaker, and wherein the two or more audio devices include the nearest speaker-equipped audio device; определение одного или более типов изменений аудиообработки для применения к аудиоданным, подвергаемым рендерингу в сигналы, подаваемые на громкоговорители, для двух или более аудиоустройств, причем результатом изменений аудиообработки является увеличение отношения речь-эхо на микрофоне, ближайшем к оценочному текущему местоположению человека, при этом эхо содержит по меньшей мере некоторую часть аудиоданных, выводимых двумя или более аудиоустройствами, и при этом по меньшей мере одно из изменений аудиообработки для ближайшего аудиоустройства отличается от изменения аудиообработки для второго аудиоустройства из указанных по меньшей мере двух аудиоустройств, и при этом один или более типов изменений аудиообработки обеспечивают снижение уровня воспроизведения громкоговорителя для ближайшего аудиоустройства; иdetermining one or more types of audio processing changes to be applied to audio data rendered into speaker signals for two or more audio devices, wherein the audio processing changes result in an increase in the speech-to-echo ratio at the microphone closest to the person's estimated current location, wherein the echo contains at least some portion of audio data output by two or more audio devices, and wherein at least one of the audio processing changes for the nearest audio device is different from the audio processing change for the second audio device of the at least two audio devices, and wherein one or more types of changes audio processing ensures that the loudspeaker output level is reduced for a nearby audio device; And обеспечение применения одного или более типов изменений аудиообработки.causing one or more types of audio processing changes to be applied. 2. Способ по п. 1, отличающийся тем, что один или более типов изменений аудиообработки включают спектральную модификацию.2. The method of claim 1, wherein one or more types of audio processing changes include spectral modification. 3. Способ управления аудиосеансом, включающий:3. A method for managing an audio session, comprising: прием выходных сигналов от каждого микрофона из множества микрофонов в аудиосреде, причем каждый микрофон из множества микрофонов находится в местоположении микрофона в аудиосреде, причем выходные сигналы включают сигналы, соответствующие текущему фрагменту речи человека;receiving output signals from each microphone of the plurality of microphones in the audio environment, each microphone of the plurality of microphones being located at a microphone location in the audio environment, the output signals including signals corresponding to a current portion of the person's speech; определение на основе выходных сигналов одного или более аспектов контекстной информации, относящейся к человеку, причем контекстная информация содержит по меньшей мере одно из оценочного текущего местоположения человека или оценочной текущей близости человека к одному или более местоположениям микрофонов;determining, based on the outputs, one or more aspects of contextual information related to the person, the context information comprising at least one of an estimated current location of the person or an estimated current proximity of the person to one or more microphone locations; выбор двух или более аудиоустройств аудиосреды по меньшей мере частично на основе одного или более аспектов контекстной информации, причем каждое из двух или более аудиоустройств содержит по меньшей мере один громкоговоритель;selecting two or more audio media devices based at least in part on one or more aspects of context information, wherein each of the two or more audio devices includes at least one speaker; определение одного или более типов изменений аудиообработки для применения к аудиоданным, подвергаемым рендерингу в сигналы, подаваемые на громкоговорители, для двух или более аудиоустройств, причем результатом изменений аудиообработки является увеличение отношения речь-эхо на одном или более микрофонах из множества микрофонов, при этом один или более типов изменений аудиообработки включают спектральную модификацию; иdetermining one or more types of audio processing changes to be applied to audio data rendered into speaker signals for two or more audio devices, wherein the audio processing changes result in an increase in the speech-to-echo ratio at one or more microphones of the plurality of microphones, wherein one or more More types of audio processing changes include spectral modification; And обеспечение применения одного или более типов изменений аудиообработки.causing one or more types of audio processing changes to be applied. 4. Способ по п. 3, отличающийся тем, что по меньшей мере одно из изменений аудиообработки для первого аудиоустройства отличается от изменения аудиообработки для второго аудиоустройства.4. The method of claim 3, wherein at least one of the audio processing changes for the first audio device is different from the audio processing change for the second audio device. 5. Способ по любому из предыдущих пунктов, отличающийся тем, что один или более типов изменений аудиообработки вызывают снижение уровня воспроизведения громкоговорителя для громкоговорителей двух или более аудиоустройств.5. A method as claimed in any one of the preceding claims, wherein one or more types of audio processing changes cause a reduction in speaker reproduction level for the speakers of two or more audio devices. 6. Способ по любому из пп. 1-5, отличающийся тем, что выбор двух или более аудиоустройств аудиосреды включает выбор N оснащенных громкоговорителями аудиоустройств аудиосреды, где N - целое число, превышающее 2.6. Method according to any one of paragraphs. 1-5, wherein the selection of two or more audio media devices includes the selection of N speaker-equipped audio media devices, where N is an integer greater than 2. 7. Способ по любому из пп. 1-6, отличающийся тем, что выбор двух или более аудиоустройств аудиосреды по меньшей мере частично основан на оценочном текущем местоположении человека относительно по меньшей мере одного из местоположения микрофона или местоположения оснащенного громкоговорителем аудиоустройства.7. Method according to any one of paragraphs. 1-6, wherein the selection of two or more audio media devices is based at least in part on an estimated current location of the person relative to at least one of a microphone location or a speaker-equipped audio device location. 8. Способ по п. 7 в той части, которая зависима от п. 3, отличающийся тем, что дополнительно включает определение ближайшего оснащенного громкоговорителем аудиоустройства, которое является ближайшим к оценочному текущему местоположению человека или к местоположению микрофона, ближайшему к оценочному текущему местоположению человека, при этом два или более аудиоустройств включают в себя ближайшее оснащенное громкоговорителем аудиоустройство.8. The method according to claim 7 in the part that is dependent on claim 3, characterized in that it further includes determining the nearest speaker-equipped audio device that is closest to the estimated current location of the person or to the microphone location closest to the estimated current location of the person, wherein the two or more audio devices include the nearest speaker-equipped audio device. 9. Способ по любому из пп. 1-8, отличающийся тем, что один или более типов изменений аудиообработки включают изменение процесса рендеринга с целью деформации рендеринга аудиосигналов в сторону от оценочного текущего местоположения человека.9. Method according to any one of paragraphs. 1-8, wherein one or more types of audio processing changes include changing the rendering process to warp the rendering of the audio signals away from the estimated current location of the person. 10. Способ по любому из пп. 2-9, отличающийся тем, что спектральная модификация включает снижение уровня аудиоданных в полосе частот от 500 Гц до 3 кГц.10. Method according to any one of paragraphs. 2-9, characterized in that the spectral modification includes reducing the level of audio data in the frequency band from 500 Hz to 3 kHz. 11. Способ по любому из пп. 1-10, отличающийся тем, что один или более типов изменений аудиообработки включают вставку по меньшей мере одного промежутка в по меньшей мере одну выбранную полосу частот сигнала аудиопроигрывания.11. Method according to any one of paragraphs. 1-10, wherein one or more types of audio processing changes include inserting at least one gap into at least one selected frequency band of the audio playback signal. 12. Способ по любому из пп. 1-11, отличающийся тем, что один или более типов изменений аудиообработки включают сжатие динамического диапазона.12. Method according to any one of paragraphs. 1-11, wherein one or more types of audio processing changes include dynamic range compression. 13. Способ по любому из пп. 1-12, отличающийся тем, что выбор двух или более аудиоустройств по меньшей мере частично основан на оценке отношения сигнал-эхо для одного или более местоположений микрофонов.13. Method according to any one of paragraphs. 1-12, wherein the selection of two or more audio devices is based at least in part on an assessment of the signal-to-echo ratio for one or more microphone locations. 14. Способ по п. 13, отличающийся тем, что выбор двух или более аудиоустройств по меньшей мере частично основан на определении того, является ли оценка отношения сигнал-эхо меньшей, чем порог отношения сигнал-эхо, или равной ему.14. The method of claim 13, wherein the selection of the two or more audio devices is at least in part based on determining whether the signal-to-echo ratio estimate is less than or equal to the signal-to-echo ratio threshold. 15. Способ по п. 13, отличающийся тем, что определение одного или более типов изменений аудиообработки основано на оптимизации функции стоимости, которая по меньшей мере частично основана на оценке отношения сигнал-эхо.15. The method of claim 13, wherein the determination of one or more types of audio processing changes is based on optimization of a cost function that is at least in part based on an estimate of the signal-to-echo ratio. 16. Способ по п. 15, отличающийся тем, что функция стоимости по меньшей мере частично основана на выполнении рендеринга.16. The method of claim 15, wherein the cost function is at least partially based on the rendering performance. 17. Способ по любому из пп. 1-16, отличающийся тем, что выбор двух или более аудиоустройств по меньшей мере частично основан на оценке близости.17. Method according to any one of paragraphs. 1-16, wherein the selection of two or more audio devices is based at least in part on a proximity assessment. 18. Способ по любому из пп. 1-17, отличающийся тем, что дополнительно включает:18. Method according to any one of paragraphs. 1-17, characterized in that it additionally includes: определение ряда текущих акустических признаков из выходных сигналов каждого микрофона;determining a number of current acoustic signatures from the output signals of each microphone; применение классификатора к ряду текущих акустических признаков, при этом применение классификатора включает применение модели, обученной на ранее определенных акустических признаках, полученных из множества предыдущих фрагментов речи, произнесенных человеком во множестве пользовательских зон в среде; иapplying a classifier to a number of current acoustic features, wherein applying the classifier includes applying a model trained on previously determined acoustic features derived from a plurality of previous speech fragments spoken by a person in a plurality of user zones in the environment; And при этом определение одного или более аспектов контекстной информации, относящейся к человеку, включает определение, по меньшей мере частично на основе выходных данных из классификатора, оценки пользовательской зоны, в которой человек расположен в настоящий момент.wherein determining one or more aspects of contextual information related to the person includes determining, at least in part based on output from the classifier, an estimate of the user zone in which the person is currently located. 19. Способ по п. 18, отличающийся тем, что оценку пользовательской зоны определяют без отсылки к геометрическим местоположениям множества микрофонов.19. The method according to claim 18, characterized in that the user area estimate is determined without reference to the geometric locations of the plurality of microphones. 20. Способ по п. 18 или 19, отличающийся тем, что текущий фрагмент речи и предыдущие фрагменты речи включают фрагменты речи, содержащие пробуждающее слово.20. The method according to claim 18 or 19, characterized in that the current fragment of speech and previous fragments of speech include fragments of speech containing a wake-up word. 21. Способ по любому из пп. 1-20, отличающийся тем, что дополнительно включает выбор по меньшей мере одного микрофона согласно одному или более аспектам контекстной информации.21. Method according to any one of paragraphs. 1-20, further comprising selecting at least one microphone according to one or more aspects of contextual information. 22. Способ по любому из пп. 1-21, отличающийся тем, что один или более микрофонов находятся в ряде аудиоустройств аудиосреды.22. Method according to any one of paragraphs. 1-21, characterized in that one or more microphones are located in a number of audio devices in the audio environment. 23. Способ по любому из пп. 1-22, отличающийся тем, что один или более микрофонов находятся в одном аудиоустройстве аудиосреды.23. Method according to any one of paragraphs. 1-22, characterized in that one or more microphones are located in one audio device of the audio environment. 24. Способ по любому из пп. 1-23, отличающийся тем, что по меньшей мере одно из одного или более местоположений микрофонов соответствует ряду микрофонов одного аудиоустройства.24. Method according to any one of paragraphs. 1-23, characterized in that at least one of the one or more microphone locations corresponds to a row of microphones of one audio device. 25. Оборудование, выполненное с возможностью выполнения способа по любому из пп. 1-24.25. Equipment configured to perform the method according to any one of paragraphs. 1-24. 26. Система, выполненная с возможностью выполнения способа по любому из пп. 1-24.26. A system configured to perform the method according to any one of claims. 1-24. 27. Один или более постоянных носителей данных, содержащих хранящееся на них программное обеспечение, причем программное обеспечение содержит инструкции для управления одним или более устройствами с целью выполнения способа по любому из пп. 1-24.27. One or more non-transitory storage media containing software stored thereon, wherein the software contains instructions for controlling one or more devices to perform the method of any one of claims. 1-24.
RU2022105152A 2019-07-30 2020-07-29 Acoustic echo cancellation control for distributed audio devices RU2818982C2 (en)

Applications Claiming Priority (8)

Application Number Priority Date Filing Date Title
ESP201930702 2019-07-30
US62/880,113 2019-07-30
US62/880,122 2019-07-30
EP19212391.7 2019-11-29
US62/950,004 2019-12-18
US62/971,421 2020-02-07
US62/705,410 2020-06-25
US62/705,897 2020-07-21

Publications (2)

Publication Number Publication Date
RU2022105152A true RU2022105152A (en) 2023-08-28
RU2818982C2 RU2818982C2 (en) 2024-05-08

Family

ID=

Similar Documents

Publication Publication Date Title
US20230179160A1 (en) Compensation for ambient sound signals to facilitate adjustment of an audio volume
TWI463817B (en) System and method for adaptive intelligent noise suppression
JP6374529B2 (en) Coordinated audio processing between headset and sound source
US8143620B1 (en) System and method for adaptive classification of audio sources
CN103152668B (en) Adjusting method of output audio and system thereof
JP5957446B2 (en) Sound processing system and method
CN112424863B (en) Voice perception audio system and method
US9280986B2 (en) Acoustic signal processing device and acoustic signal processing method
US10553236B1 (en) Multichannel noise cancellation using frequency domain spectrum masking
JP2017518522A (en) Active noise reduction earphone, noise reduction control method and system applied to the earphone
CN107124149A (en) A kind of method for regulation of sound volume, device and equipment
CN103177727B (en) Audio frequency band processing method and system
US9408010B2 (en) Audio system and method therefor
JP2002078100A (en) Method and system for processing stereophonic signal, and recording medium with recorded stereophonic signal processing program
AU2017405291B2 (en) Method and apparatus for processing speech signal adaptive to noise environment
US10755728B1 (en) Multichannel noise cancellation using frequency domain spectrum masking
KR20130124573A (en) Systems, methods, apparatus, and computer-readable media for spatially selective audio augmentation
US10510361B2 (en) Audio processing apparatus that outputs, among sounds surrounding user, sound to be provided to user
JP2023159381A (en) Sound recognition audio system and method thereof
US20140244245A1 (en) Method for soundproofing an audio signal by an algorithm with a variable spectral gain and a dynamically modulatable hardness
US11854576B2 (en) Voice activity detection
JP2007288713A (en) Sound reproduction unit
CN113949955B (en) Noise reduction processing method and device, electronic equipment, earphone and storage medium
US10978040B2 (en) Spectrum matching in noise masking systems
US11894006B2 (en) Compressor target curve to avoid boosting noise