RU2015112126A

RU2015112126A - Устройство и способ для обеспечения информированной оценки вероятности и присутствия многоканальной речи

Info

Publication number: RU2015112126A
Application number: RU2015112126A
Authority: RU
Inventors: Эманюэль ХАБЕТС; Мая ТАЗЕСКА
Original assignee: Фраунхофер-Гезелльшафт Цур Фердерунг Дер Ангевандтен Форшунг Е.Ф.
Priority date: 2012-09-03
Filing date: 2012-09-03
Publication date: 2016-10-20
Also published as: US20150310857A1; CN104781880B; RU2642353C2; JP6129316B2; CN104781880A; EP2893532B1; BR112015004625A2; JP2015526767A; BR112015004625B1; EP2893532A1; US9633651B2; WO2014032738A1

Abstract

1. Устройство для обеспечения оценки вероятности речи, содержащее:первое средство (110; 210; 310) оценки вероятности речи для оценки информации вероятности речи, показывающей первую вероятность в отношении того, содержит ли звуковое поле сцены речь, или в отношении того, не содержит ли звуковое поле сцены речь, ивыходной интерфейс (120; 220) для вывода оценки вероятности речи в зависимости от информации вероятности речи,при этом первое средство (110; 210; 310) оценки вероятности речи сконфигурировано с возможностью оценивать информацию первой вероятности речи на основе, по меньшей мере, пространственной информации о звуковом поле или пространственной информации о сцене.2. Устройство по п. 1,в котором устройство дополнительно содержит второе средство (215; 315) оценки вероятности речи для оценивания оценки вероятности речи, показывающей вторую вероятность в отношении того, содержит ли звуковое поле речь, или в отношении того, не содержит ли звуковое поле речь,при этом второе средство (215; 315) оценки вероятности речи сконфигурировано с возможностью оценивать оценку вероятности речи на основе информации вероятности речи, оцененной посредством первого средства (110; 210; 310) оценки вероятности речи, и на основе одного или более сигналов акустического датчика, которые зависят от звукового поля.3. Устройство по п. 1,в котором первое средство (110; 210; 310) оценки вероятности речи сконфигурировано с возможностью оценивать информацию вероятности речи на основе информации направленности, при этом информация направленности показывает то, насколько направленным является звук звукового поля,при этом первое средство (110; 210; 310) оценки вероятности речи сконфигурировано с возможностью оценивать информацию

Claims

1. Устройство для обеспечения оценки вероятности речи, содержащее:

первое средство (110; 210; 310) оценки вероятности речи для оценки информации вероятности речи, показывающей первую вероятность в отношении того, содержит ли звуковое поле сцены речь, или в отношении того, не содержит ли звуковое поле сцены речь, и

выходной интерфейс (120; 220) для вывода оценки вероятности речи в зависимости от информации вероятности речи,

при этом первое средство (110; 210; 310) оценки вероятности речи сконфигурировано с возможностью оценивать информацию первой вероятности речи на основе, по меньшей мере, пространственной информации о звуковом поле или пространственной информации о сцене.

2. Устройство по п. 1,

в котором устройство дополнительно содержит второе средство (215; 315) оценки вероятности речи для оценивания оценки вероятности речи, показывающей вторую вероятность в отношении того, содержит ли звуковое поле речь, или в отношении того, не содержит ли звуковое поле речь,

при этом второе средство (215; 315) оценки вероятности речи сконфигурировано с возможностью оценивать оценку вероятности речи на основе информации вероятности речи, оцененной посредством первого средства (110; 210; 310) оценки вероятности речи, и на основе одного или более сигналов акустического датчика, которые зависят от звукового поля.

3. Устройство по п. 1,

в котором первое средство (110; 210; 310) оценки вероятности речи сконфигурировано с возможностью оценивать информацию вероятности речи на основе информации направленности, при этом информация направленности показывает то, насколько направленным является звук звукового поля,

при этом первое средство (110; 210; 310) оценки вероятности речи сконфигурировано с возможностью оценивать информацию вероятности речи на основе информации местоположения, при этом информация местоположения показывает, по меньшей мере, одно местоположение источника звука сцены, или

при этом первое средство (110; 210; 310) оценки вероятности речи сконфигурировано с возможностью оценивать информацию вероятности речи на основе информации близости, при этом информация близости показывает, по меньшей мере, одну близость, по меньшей мере, одного возможного звукового объекта к, по меньшей мере, одному датчику близости.

4. Устройство по п. 1, в котором первое средство (110; 210; 310) оценки вероятности речи сконфигурировано с возможностью оценивать оценку вероятности речи посредством определения оценки отношения прямого к диффузному для отношения прямого к диффузному в качестве пространственной информации, при этом отношение прямого к диффузному показывает отношение прямого звука, содержащегося в сигналах акустического датчика, к диффузному звуку, содержащемуся в сигналах акустического датчика.

5. Устройство по п. 4,

в котором первое средство (110; 210; 310) оценки вероятности речи сконфигурировано с возможностью определять оценку отношения прямого к диффузному посредством определения оценки когерентности для комплексной когерентности между первым акустическим сигналом из сигналов акустического датчика, при этом первый акустический сигнал записывается посредством первого акустического датчика p, и вторым акустическим сигналом из сигналов акустического датчика, при этом второй акустический сигнал записывается посредством второго акустического датчика q, и

при этом первое средство (110; 210; 310) оценки вероятности речи дополнительно сконфигурировано с возможностью определять отношение прямого к диффузному на основе оценки фазового сдвига для фазового сдвига прямого звука между первым акустическим сигналом и вторым акустическим сигналом.

6. Устройство по п. 5,

в котором первое средство (110; 210; 310) оценки вероятности речи сконфигурировано с возможностью определять оценку отношения прямого к диффузному

между первым акустическим сигналом и вторым акустическим сигналом посредством применения формулы:

,

где

является оценкой когерентности комплексной когерентности между первым акустическим сигналом и вторым акустическим сигналом по отношению к время-частотному интервалу (k, n), где n обозначает время и где k обозначает частоту,

где

является оценкой фазового сдвига для фазового сдвига прямого звука между первым акустическим сигналом и вторым акустическим сигналом по отношению к время-частотному интервалу (k, n), и

где

соответствует пространственной когерентности между акустическим датчиком p и акустическим датчиком q в чистом поле диффузного звука.

7. Устройство по п. 4, в котором первое средство (110; 210; 310) оценки вероятности речи сконфигурировано с возможностью оценивать информацию вероятности речи посредством определения

,

где

является оценкой отношения прямого к диффузному, и

где

является функцией преобразования, представляющей преобразование оценки отношения прямого к диффузному в значение между 0 и 1.

8. Устройство по п. 7, в котором функция преобразования

определяется посредством формулы:

,

где

является минимальным значением функции преобразования, где

является максимальным значением функции преобразования, где c является значением для управления смещением вдоль оси

, и где

определяет крутизну перехода между

и

.

9. Устройство по п. 1, в котором первое средство (110; 210; 310) оценки вероятности речи сконфигурировано с возможностью определять параметр местоположения

на основе распределения вероятностей оцененного местоположения источника звука и на основе области интереса, чтобы получать информацию вероятности речи.

10. Устройство по п. 9, в котором первое средство (110; 210; 310) оценки вероятности речи сконфигурировано с возможностью определять параметр местоположения

посредством использования формулы

где

является конкретным местоположением, где

является оцененным местоположением,

где

является функцией плотности условной вероятности, и

где

является функцией плотности априорной вероятности для

, и

где

является функцией плотности вероятности для

, и

где

обозначает неопределенность, ассоциированную с оценками для

, и

где

является многомерной функцией, которая описывает область интереса, при этом

.

11. Устройство по п. 4,

в котором первое средство (110; 210; 310) оценки вероятности речи сконфигурировано с возможностью определять априорную вероятность присутствия речи q(k, n) в качестве информации вероятности речи посредством применения формулы:

где

является конкретным направлением прибытия, и где

является оцененным направлением прибытия,

где

, и

где

, и

где

и

где

представляет преобразование оценки отношения прямого к диффузному

в значение между 0 и 1, и

где

.

12. Устройство по п. 1, в котором первое средство (110; 210; 310) оценки вероятности речи сконфигурировано с возможностью определять параметр близости в качестве пространственной информации,

при этом параметр близости имеет первое значение параметра, когда первое средство (110; 210; 310) оценки вероятности речи обнаруживает один или более возможных источников звука в пределах предварительно определенного расстояния от датчика близости, и при этом параметр близости имеет второе значение параметра, которое является меньшим, чем первое значение параметра, когда первое средство (110; 210; 310) оценки вероятности речи не обнаруживает возможные источники звука в прямой близости к датчику близости, и

при этом первое средство (110; 210; 310) оценки вероятности речи сконфигурировано с возможностью определять первое значение вероятности речи в качестве информации вероятности речи, когда параметр близости имеет первое значение параметра, и при этом первое средство (110; 210; 310) оценки вероятности речи сконфигурировано с возможностью определять второе значение вероятности речи в качестве информации вероятности речи, когда параметр близости имеет второе значение параметра, при этом первое значение вероятности речи показывает первую вероятность того, что звуковое поле содержит речь, при этом первая вероятность больше, чем вторая вероятность того, что звуковое поле содержит речь, при этом вторая вероятность показывается посредством второго значения вероятности речи.

13. Устройство для определения оценки спектральной плотности мощности шума, содержащее:

устройство (910) по п. 1, и

блок (920) оценки спектральной плотности мощности шума,

при этом устройство (910) по п. 1 сконфигурировано с возможностью обеспечивать оценку вероятности речи в блок (920) оценки спектральной плотности мощности шума, и

при этом блок (920) оценки спектральной плотности мощности шума сконфигурирован с возможностью определять оценку спектральной плотности мощности шума на основе оценки вероятности речи и множества входных аудиоканалов.

14. Устройство по п. 13,

в котором устройство (910) по п. 1 сконфигурировано с возможностью вычислять один или более пространственных параметров, при этом упомянутые один или более пространственных параметров показывают пространственную информацию о звуковом поле,

при этом устройство (910) по п. 1 сконфигурировано с возможностью вычислять оценку вероятности речи посредством использования упомянутых одного или более пространственных параметров, и

при этом блок (920) оценки спектральной плотности мощности шума сконфигурирован с возможностью определять оценку спектральной плотности мощности шума посредством обновления предыдущей матрицы спектральной плотности мощности шума в зависимости от оценки вероятности речи, чтобы получать обновленную матрицу спектральной плотности мощности шума в качестве оценки спектральной плотности мощности шума.

15. Устройство для оценки вектора управления, содержащее:

устройство (1010) по п. 1, и

блок (1020) оценки вектора управления,

при этом устройство (1010) по п. 1 сконфигурировано с возможностью обеспечивать оценку вероятности речи в блок (1020) оценки вектора управления, и

при этом блок (1020) оценки вектора управления сконфигурирован с возможностью оценивать вектор управления на основе оценки вероятности речи и множества входных аудиоканалов.

16. Устройство для уменьшения многоканального шума, содержащее:

устройство (1110) по п. 1, и

блок (1120) фильтра,

при этом блок (1120) фильтра сконфигурирован с возможностью принимать множество входных каналов аудио,

при этом устройство (1110) по п. 1 сконфигурировано с возможностью обеспечивать информацию вероятности речи в блок (1120) фильтра, и

при этом блок (1120) фильтра сконфигурирован с возможностью фильтровать множество входных каналов аудио, чтобы получать фильтрованные аудиоканалы на основе информации вероятности речи.

17. Устройство по п. 16, в котором первое средство (110; 210; 310) оценки вероятности речи устройства (1110) по п. 1 сконфигурировано с возможностью генерировать параметр компромиссного соотношения, при этом параметр компромиссного соотношения зависит от, по меньшей мере, одного пространственного параметра, показывающего пространственную информацию о звуковом поле или пространственную информацию о сцене.

18. Устройство по п. 17, в котором блок (1120) фильтра сконфигурирован с возможностью фильтровать множество входных каналов аудио в зависимости от параметра компромиссного соотношения.

19. Способ для обеспечения оценки вероятности речи, содержащий:

оценку информации вероятности речи, показывающей первую вероятность в отношении того, содержит ли звуковое поле речь, или в отношении того, не содержит ли звуковое поле речь, и

вывод оценки вероятности речи в зависимости от информации вероятности речи,

при этом оценка информации первой вероятности речи основывается на, по меньшей мере, пространственной информации о звуковом поле или пространственной информации о сцене.

20. Компьютерная программа для осуществления способа по п. 19, когда исполняется на компьютере или сигнальном процессоре.