Claims (41)
1. Способ управления аудиосеансом, включающий:1. A method for managing an audio session, comprising:
прием выходных сигналов от каждого микрофона из множества микрофонов в аудиосреде, причем каждый микрофон из множества микрофонов находится в местоположении микрофона в аудиосреде, причем выходные сигналы включают сигналы, соответствующие текущему фрагменту речи человека; receiving output signals from each microphone of the plurality of microphones in the audio environment, each microphone of the plurality of microphones being located at a microphone location in the audio environment, the output signals including signals corresponding to a current portion of the person's speech;
определение на основе выходных сигналов одного или более аспектов контекстной информации, относящейся к человеку, причем контекстная информация содержит по меньшей мере одно из оценочного текущего местоположения человека или оценочной текущей близости человека к одному или более местоположениям микрофонов;determining, based on the outputs, one or more aspects of contextual information related to the person, the context information comprising at least one of an estimated current location of the person or an estimated current proximity of the person to one or more microphone locations;
определение ближайшего оснащенного громкоговорителем аудиоустройства, которое является ближайшим к местоположению микрофона, ближайшему к оценочному текущему местоположению человека;determining the nearest speaker-equipped audio device that is closest to the microphone location closest to the estimated current location of the person;
выбор двух или более аудиоустройств аудиосреды по меньшей мере частично на основе одного или более аспектов контекстной информации, причем каждое из двух или более аудиоустройств содержит по меньшей мере один громкоговоритель, и при этом два или более аудиоустройств включают в себя ближайшее оснащенное громкоговорителем аудиоустройство;selecting two or more audio media devices based at least in part on one or more aspects of context information, wherein each of the two or more audio devices includes at least one speaker, and wherein the two or more audio devices include the nearest speaker-equipped audio device;
определение одного или более типов изменений аудиообработки для применения к аудиоданным, подвергаемым рендерингу в сигналы, подаваемые на громкоговорители, для двух или более аудиоустройств, причем результатом изменений аудиообработки является увеличение отношения речь-эхо на микрофоне, ближайшем к оценочному текущему местоположению человека, при этом эхо содержит по меньшей мере некоторую часть аудиоданных, выводимых двумя или более аудиоустройствами, и при этом по меньшей мере одно из изменений аудиообработки для ближайшего аудиоустройства отличается от изменения аудиообработки для второго аудиоустройства из указанных по меньшей мере двух аудиоустройств, и при этом один или более типов изменений аудиообработки обеспечивают снижение уровня воспроизведения громкоговорителя для ближайшего аудиоустройства; иdetermining one or more types of audio processing changes to be applied to audio data rendered into speaker signals for two or more audio devices, wherein the audio processing changes result in an increase in the speech-to-echo ratio at the microphone closest to the person's estimated current location, wherein the echo contains at least some portion of audio data output by two or more audio devices, and wherein at least one of the audio processing changes for the nearest audio device is different from the audio processing change for the second audio device of the at least two audio devices, and wherein one or more types of changes audio processing ensures that the loudspeaker output level is reduced for a nearby audio device; And
обеспечение применения одного или более типов изменений аудиообработки.causing one or more types of audio processing changes to be applied.
2. Способ по п. 1, отличающийся тем, что один или более типов изменений аудиообработки включают спектральную модификацию.2. The method of claim 1, wherein one or more types of audio processing changes include spectral modification.
3. Способ управления аудиосеансом, включающий:3. A method for managing an audio session, comprising:
прием выходных сигналов от каждого микрофона из множества микрофонов в аудиосреде, причем каждый микрофон из множества микрофонов находится в местоположении микрофона в аудиосреде, причем выходные сигналы включают сигналы, соответствующие текущему фрагменту речи человека;receiving output signals from each microphone of the plurality of microphones in the audio environment, each microphone of the plurality of microphones being located at a microphone location in the audio environment, the output signals including signals corresponding to a current portion of the person's speech;
определение на основе выходных сигналов одного или более аспектов контекстной информации, относящейся к человеку, причем контекстная информация содержит по меньшей мере одно из оценочного текущего местоположения человека или оценочной текущей близости человека к одному или более местоположениям микрофонов;determining, based on the outputs, one or more aspects of contextual information related to the person, the context information comprising at least one of an estimated current location of the person or an estimated current proximity of the person to one or more microphone locations;
выбор двух или более аудиоустройств аудиосреды по меньшей мере частично на основе одного или более аспектов контекстной информации, причем каждое из двух или более аудиоустройств содержит по меньшей мере один громкоговоритель;selecting two or more audio media devices based at least in part on one or more aspects of context information, wherein each of the two or more audio devices includes at least one speaker;
определение одного или более типов изменений аудиообработки для применения к аудиоданным, подвергаемым рендерингу в сигналы, подаваемые на громкоговорители, для двух или более аудиоустройств, причем результатом изменений аудиообработки является увеличение отношения речь-эхо на одном или более микрофонах из множества микрофонов, при этом один или более типов изменений аудиообработки включают спектральную модификацию; иdetermining one or more types of audio processing changes to be applied to audio data rendered into speaker signals for two or more audio devices, wherein the audio processing changes result in an increase in the speech-to-echo ratio at one or more microphones of the plurality of microphones, wherein one or more More types of audio processing changes include spectral modification; And
обеспечение применения одного или более типов изменений аудиообработки.causing one or more types of audio processing changes to be applied.
4. Способ по п. 3, отличающийся тем, что по меньшей мере одно из изменений аудиообработки для первого аудиоустройства отличается от изменения аудиообработки для второго аудиоустройства.4. The method of claim 3, wherein at least one of the audio processing changes for the first audio device is different from the audio processing change for the second audio device.
5. Способ по любому из предыдущих пунктов, отличающийся тем, что один или более типов изменений аудиообработки вызывают снижение уровня воспроизведения громкоговорителя для громкоговорителей двух или более аудиоустройств.5. A method as claimed in any one of the preceding claims, wherein one or more types of audio processing changes cause a reduction in speaker reproduction level for the speakers of two or more audio devices.
6. Способ по любому из пп. 1-5, отличающийся тем, что выбор двух или более аудиоустройств аудиосреды включает выбор N оснащенных громкоговорителями аудиоустройств аудиосреды, где N - целое число, превышающее 2.6. Method according to any one of paragraphs. 1-5, wherein the selection of two or more audio media devices includes the selection of N speaker-equipped audio media devices, where N is an integer greater than 2.
7. Способ по любому из пп. 1-6, отличающийся тем, что выбор двух или более аудиоустройств аудиосреды по меньшей мере частично основан на оценочном текущем местоположении человека относительно по меньшей мере одного из местоположения микрофона или местоположения оснащенного громкоговорителем аудиоустройства.7. Method according to any one of paragraphs. 1-6, wherein the selection of two or more audio media devices is based at least in part on an estimated current location of the person relative to at least one of a microphone location or a speaker-equipped audio device location.
8. Способ по п. 7 в той части, которая зависима от п. 3, отличающийся тем, что дополнительно включает определение ближайшего оснащенного громкоговорителем аудиоустройства, которое является ближайшим к оценочному текущему местоположению человека или к местоположению микрофона, ближайшему к оценочному текущему местоположению человека, при этом два или более аудиоустройств включают в себя ближайшее оснащенное громкоговорителем аудиоустройство.8. The method according to claim 7 in the part that is dependent on claim 3, characterized in that it further includes determining the nearest speaker-equipped audio device that is closest to the estimated current location of the person or to the microphone location closest to the estimated current location of the person, wherein the two or more audio devices include the nearest speaker-equipped audio device.
9. Способ по любому из пп. 1-8, отличающийся тем, что один или более типов изменений аудиообработки включают изменение процесса рендеринга с целью деформации рендеринга аудиосигналов в сторону от оценочного текущего местоположения человека.9. Method according to any one of paragraphs. 1-8, wherein one or more types of audio processing changes include changing the rendering process to warp the rendering of the audio signals away from the estimated current location of the person.
10. Способ по любому из пп. 2-9, отличающийся тем, что спектральная модификация включает снижение уровня аудиоданных в полосе частот от 500 Гц до 3 кГц.10. Method according to any one of paragraphs. 2-9, characterized in that the spectral modification includes reducing the level of audio data in the frequency band from 500 Hz to 3 kHz.
11. Способ по любому из пп. 1-10, отличающийся тем, что один или более типов изменений аудиообработки включают вставку по меньшей мере одного промежутка в по меньшей мере одну выбранную полосу частот сигнала аудиопроигрывания.11. Method according to any one of paragraphs. 1-10, wherein one or more types of audio processing changes include inserting at least one gap into at least one selected frequency band of the audio playback signal.
12. Способ по любому из пп. 1-11, отличающийся тем, что один или более типов изменений аудиообработки включают сжатие динамического диапазона.12. Method according to any one of paragraphs. 1-11, wherein one or more types of audio processing changes include dynamic range compression.
13. Способ по любому из пп. 1-12, отличающийся тем, что выбор двух или более аудиоустройств по меньшей мере частично основан на оценке отношения сигнал-эхо для одного или более местоположений микрофонов.13. Method according to any one of paragraphs. 1-12, wherein the selection of two or more audio devices is based at least in part on an assessment of the signal-to-echo ratio for one or more microphone locations.
14. Способ по п. 13, отличающийся тем, что выбор двух или более аудиоустройств по меньшей мере частично основан на определении того, является ли оценка отношения сигнал-эхо меньшей, чем порог отношения сигнал-эхо, или равной ему.14. The method of claim 13, wherein the selection of the two or more audio devices is at least in part based on determining whether the signal-to-echo ratio estimate is less than or equal to the signal-to-echo ratio threshold.
15. Способ по п. 13, отличающийся тем, что определение одного или более типов изменений аудиообработки основано на оптимизации функции стоимости, которая по меньшей мере частично основана на оценке отношения сигнал-эхо.15. The method of claim 13, wherein the determination of one or more types of audio processing changes is based on optimization of a cost function that is at least in part based on an estimate of the signal-to-echo ratio.
16. Способ по п. 15, отличающийся тем, что функция стоимости по меньшей мере частично основана на выполнении рендеринга.16. The method of claim 15, wherein the cost function is at least partially based on the rendering performance.
17. Способ по любому из пп. 1-16, отличающийся тем, что выбор двух или более аудиоустройств по меньшей мере частично основан на оценке близости.17. Method according to any one of paragraphs. 1-16, wherein the selection of two or more audio devices is based at least in part on a proximity assessment.
18. Способ по любому из пп. 1-17, отличающийся тем, что дополнительно включает:18. Method according to any one of paragraphs. 1-17, characterized in that it additionally includes:
определение ряда текущих акустических признаков из выходных сигналов каждого микрофона;determining a number of current acoustic signatures from the output signals of each microphone;
применение классификатора к ряду текущих акустических признаков, при этом применение классификатора включает применение модели, обученной на ранее определенных акустических признаках, полученных из множества предыдущих фрагментов речи, произнесенных человеком во множестве пользовательских зон в среде; иapplying a classifier to a number of current acoustic features, wherein applying the classifier includes applying a model trained on previously determined acoustic features derived from a plurality of previous speech fragments spoken by a person in a plurality of user zones in the environment; And
при этом определение одного или более аспектов контекстной информации, относящейся к человеку, включает определение, по меньшей мере частично на основе выходных данных из классификатора, оценки пользовательской зоны, в которой человек расположен в настоящий момент.wherein determining one or more aspects of contextual information related to the person includes determining, at least in part based on output from the classifier, an estimate of the user zone in which the person is currently located.
19. Способ по п. 18, отличающийся тем, что оценку пользовательской зоны определяют без отсылки к геометрическим местоположениям множества микрофонов.19. The method according to claim 18, characterized in that the user area estimate is determined without reference to the geometric locations of the plurality of microphones.
20. Способ по п. 18 или 19, отличающийся тем, что текущий фрагмент речи и предыдущие фрагменты речи включают фрагменты речи, содержащие пробуждающее слово.20. The method according to claim 18 or 19, characterized in that the current fragment of speech and previous fragments of speech include fragments of speech containing a wake-up word.
21. Способ по любому из пп. 1-20, отличающийся тем, что дополнительно включает выбор по меньшей мере одного микрофона согласно одному или более аспектам контекстной информации.21. Method according to any one of paragraphs. 1-20, further comprising selecting at least one microphone according to one or more aspects of contextual information.
22. Способ по любому из пп. 1-21, отличающийся тем, что один или более микрофонов находятся в ряде аудиоустройств аудиосреды.22. Method according to any one of paragraphs. 1-21, characterized in that one or more microphones are located in a number of audio devices in the audio environment.
23. Способ по любому из пп. 1-22, отличающийся тем, что один или более микрофонов находятся в одном аудиоустройстве аудиосреды.23. Method according to any one of paragraphs. 1-22, characterized in that one or more microphones are located in one audio device of the audio environment.
24. Способ по любому из пп. 1-23, отличающийся тем, что по меньшей мере одно из одного или более местоположений микрофонов соответствует ряду микрофонов одного аудиоустройства.24. Method according to any one of paragraphs. 1-23, characterized in that at least one of the one or more microphone locations corresponds to a row of microphones of one audio device.
25. Оборудование, выполненное с возможностью выполнения способа по любому из пп. 1-24.25. Equipment configured to perform the method according to any one of paragraphs. 1-24.
26. Система, выполненная с возможностью выполнения способа по любому из пп. 1-24.26. A system configured to perform the method according to any one of claims. 1-24.
27. Один или более постоянных носителей данных, содержащих хранящееся на них программное обеспечение, причем программное обеспечение содержит инструкции для управления одним или более устройствами с целью выполнения способа по любому из пп. 1-24.27. One or more non-transitory storage media containing software stored thereon, wherein the software contains instructions for controlling one or more devices to perform the method of any one of claims. 1-24.