RU174044U1 - Аудиовизуальный многоканальный детектор наличия голоса - Google Patents

Аудиовизуальный многоканальный детектор наличия голоса Download PDF

Info

Publication number
RU174044U1
RU174044U1 RU2017118510U RU2017118510U RU174044U1 RU 174044 U1 RU174044 U1 RU 174044U1 RU 2017118510 U RU2017118510 U RU 2017118510U RU 2017118510 U RU2017118510 U RU 2017118510U RU 174044 U1 RU174044 U1 RU 174044U1
Authority
RU
Russia
Prior art keywords
audio signal
microphones
array
lips
camera
Prior art date
Application number
RU2017118510U
Other languages
English (en)
Inventor
Дмитрий Олегович Тетерюков
Роман Алексеевич Жуков
Дмитрий Андреевич Суворов
Original Assignee
Общество с ограниченной ответственностью ЛЕКСИ (ООО ЛЕКСИ)
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Общество с ограниченной ответственностью ЛЕКСИ (ООО ЛЕКСИ) filed Critical Общество с ограниченной ответственностью ЛЕКСИ (ООО ЛЕКСИ)
Priority to RU2017118510U priority Critical patent/RU174044U1/ru
Application granted granted Critical
Publication of RU174044U1 publication Critical patent/RU174044U1/ru

Links

Images

Landscapes

  • Studio Devices (AREA)
  • Circuit For Audible Band Transducer (AREA)

Abstract

Полезная модель относится к измерительной технике, в частности к области определения наличия голоса в записываемом звуковом сигнале. Решение может быть использовано в комплексе с системой распознавания речи для выделения участков звукового сигнала, которые необходимо передать системе распознавания речи для анализа. Техническим результатом заявленного решения является повышение точности определения источников человеческой речи. Для обеспечения указанного технического результата было разработано устройство обработки по меньшей мере одного аудиосигнала, содержащее: видеокамеру; массив микрофонов, причем геометрический центр массива микрофонов совмещен с центром матрицы видеокамеры; блок обработки аудиосигнала, выполненный с возможностью: синхронного получения данных от микрофонов массива микрофонов для определения по меньшей мере одного направления на активные источники звука; получения изображения от видеокамеры для определения по меньшей мере одного направления на губы в системе координат камеры; определения наличия по меньшей мере одного источника голоса в полученном по меньшей мере одном аудиосигнале на основе по меньшей мере одного направления на активные источники звука и по меньшей мере одного направления на губы в системе координат камеры.

Description

Область техники.
Полезная модель относится к измерительной технике, в частности к области определения наличия голоса в записываемом звуковом сигнале. Решение может быть использовано в комплексе с системой распознавания речи для выделения участков звукового сигнала, которые необходимо передать системе распознавания речи для анализа.
Уровень техники.
Из уровня техники известны различные технические решения, обеспечивающие запись и обработке звуковых сигналов.
Например, известен многоканальный детектор голосовой активности, описанный в заявке № US 20110106533 (A1), опубл. 2008-06-30, состоящий из двух микрофонов и выполненный с возможностью оценивать уровень сигнала и уровень шума на каждом микрофоне с целью обнаружения присутствия посторонних звуков. Недостатками данного устройства является то, что для определения наличия голоса используется только массив микрофонов, что не позволяет отличить реальный голос человека от воспроизводимого через колонки, например, в ТВ передаче.
Известна система определения активного источника голоса для отображения в системе видеоконференцсвязи, описанная в заявке № US 20110093273 (A1), опубл. 2009-10-16. В данном решении для определения наличия активного голоса используется комбинация видеокамеры и звукозаписывающего устройства без возможности определения направления на источник звука, вследствие чего возникают ложные срабатывания системы в случае шевеления губами человека в кадре и наличия дополнительного источника речи, например, телевизора или радио.
Известна система для отслеживания и выбора акустических источников, описанная в заявке № US 20160071526 (A1), опубл. 2014-09-09. В данном решении для определения направления на источники речи может использоваться комбинация видеокамеры и массива микрофонов. Однако вследствие того, что видеокамера и массив микрофонов разнесены в пространстве, данная система не позволяет аналитически точно соотносить направления, определённые камерой и массивом микрофонов, вследствие чего существенно снижается точность работы системы в выборе акустических источников. Данное решение является наиболее близким аналогом.
Сущность полезной модели.
Заявленное техническое решение решает задачу по определению временных участков в звуковом сигнале, когда присутствует активный источник речи, которые необходимо передать системе распознавания речи для анализа.
Техническим результатом заявленного решения является повышение точности определения источников человеческой речи.
Данный результат достигается за счет того, что для определения активного источника человеческой речи используется комбинация массива микрофонов и видеокамеры с совмещёнными геометрическими центрами, а также за счет применения технологии поиска губ на изображении.
Для обеспечения указанного технического результата было разработано устройство обработки по меньшей мере одного аудиосигнала, содержащее:
видеокамеру;
массив микрофонов, причем геометрический центр массива микрофонов совмещен с центром матрицы видеокамеры;
блок обработки аудиосигнала, выполненный с возможностью:
синхронного получения данных от микрофонов массива микрофонов для определения по меньшей мере одного направления на активные источники звука;
получения изображения от видеокамеры для определения по меньшей мере одного направления на губы в системе координат камеры;
определения наличия по меньшей мере одного источника голоса в полученном по меньшей мере одном аудиосигнале на основе по меньшей мере одного направления на активные источники звука и по меньшей мере одного направления на губы в системе координат камеры.
Краткое описание чертежей.
Для лучшего понимания сущности полезной модели, и чтобы более ясно показать, каким образом она может быть осуществлена, далее будет сделана ссылка, лишь в качестве примера, на прилагаемые чертежи, на которых:
фиг. 1 – схема расположения видеокамеры и микрофонов в известном аналоге;
фиг. 2 - схема расположения видеокамеры и микрофонов в заявленной полезной модели;
фиг. 3 – пример технической схемы устройства обработки по меньшей мере одного аудиосигнала;
фиг. 4 - пример технической схемы блока обработки аудиосигнала.
Осуществление полезной модели.
На фиг. 1 изображена схема расположения видеокамеры и микрофонов в известном аналоге, на которой: 1 – микрофоны массива микрофонов 10; 2- видеокамера; 3 – источник речи; а – направление на активные источники звука; b - направление на объекты, например, лица, в системе координат камеры. На данной схеме изображен частный случай размещения микрофонов 1 и видеокамеры 2, когда геометрические центры данных устройств не совмещены, однако в общем случае видеокамера 2 может находиться где угодно.
В известном решении, выбранном в качестве наиболее близкого аналога, источники звуков фиксируются микрофонами 1 массива микрофонов 10, выполненного в виде микрофонной решетки, причем для выбора предпочтительного источника звуков, например, источника человеческой речи, может использоваться система обнаружения лица на полученных изображениях с видеокамеры.
Разнесённые массив микрофонов 10 и видеокамера 2 в пространстве (см. фиг. 1) не позволяют аналитически точно соотносить направления, определённые камерой и массивом микрофонов, вследствие чего возникают ошибки при определении источники голоса. При этом в данном решении используется технология обнаружения лиц, что также отрицательно сказывается на точности определения источника голоса.
В заявленном решении для более точного определения источников человеческой речи используется технология поиска губ на изображении, а геометрический центр массива микрофонов 10 совмещен с центром матрицы видеокамеры 2 (см. фиг. 2). При таком размещении упомянутых устройств центры систем координат массива микрофонов 10 и видеокамеры 2 совпадают, что позволяет однозначно выполнять преобразование вычисленных направлений на губы и источник звука между двумя этими системами координат.
На фиг. 3 изображен пример технической схемы устройства обработки по меньшей мере одного аудиосигнала, содержащее: видеокамеру 2, массив микрофонов 10, блок обработки аудиосигнала 11.
Все составные элементы заявленного устройства выполнены в виде единой конструкции, например, посредством их размещения на единой печатной плате или другим образом.
В качестве микрофонов 1 могут использоваться любые виды микрофонов, известные в уровне техники, в том числе, MEMS микрофоны, обладающие высоким соотношением сигнал/шум и максимальной дальностью локализации источников звука.
Блок обработки аудиосигнала 11 может быть реализован в виде платы на базе промышленного контроллера или микропроцессора, модифицированной в программно-аппаратной части таким образом, чтобы обеспечить:
синхронный сбор данных от микрофонов 1 массива микрофонов 10 для определения по меньшей мере одного направления на активные источники звука;
получения изображения от видеокамеры 2 для определения по меньшей мере одного направления на губы в системе координат камеры;
определения наличия по меньшей мере одного источника голоса в полученном по меньшей мере одном аудиосигнале на основе по меньшей мере одного направления на активные источники звука и по меньшей мере одного направления на губы в системе координат камеры.
В альтернативном варианте реализации блока обработки аудиосигнала 11 для обеспечения указанных выше функций он может быть оснащен вычислительным модулем 12 и графическим вычислительным модулем 13, реализованными на базе контроллера или микропроцессора. Для обеспечения хранения полученной и обработанной информации блока обработки аудиосигнала 11 может быть оснащен запоминающим устройство.
Для обеспечения возможности передачи данных, например, в системы распознавания речи, заявленное устройство может быть дополнительно оснащено модулем передачи данных 14. Передача данных может осуществляться посредством проводной или беспроводной связи,
Работа устройства осуществляется следующим образом.
С помощью массива микрофонов 10, который может быть реализован в виде микрофонной решётки, осуществляется захват звуковых источников, размещенных по направлению микрофонов. Поступающий многоканальный звук может быть аппаратно-синхронизирован кадрами фиксированной длины, включающими в себе непрерывную последовательность измерений с каждого микрофона 1 массива микрофонов 10. Длинна упомянутого кадра может подбираться так, чтобы статистические параметры сигнала можно было считать постоянными в рамках одного кадра. Обычно длина кадра составляет от одного до нескольких десятков миллисекунд, но может лежать и в другом диапазоне. Далее блок обработки аудиосигнала 11, используя метод на основе корреляции (например, посредством алгоритма general cross-correlation with phase transform (GCC-PHAT), его модификации или другого метода), оценивает по меньшей мере одно направление на активные источники звука (например, определяет азимут и опционально угол места) в системе координат массива микрофонов 10. По меньшей мере одно направление на активные источники звука могут уточнятся с помощью Калмановской фильтрации или фильтра частиц.
Параллельно c захватом звука захватывается изображение с видеокамеры, причем блок обработки аудиосигнала 11 определяет губы человека на полученном изображении. Для более точного определения губ человека на изображении блоком обработки аудиосигнала 11 могут использоваться свёрточные глубокие нейронные сети. Далее блок обработки аудиосигнала 11, используя заранее известные оптические параметры камеры (фокусное расстояние, координата пересечения главной оптической оси с матрицей видеокамеры, соотношение сторон одного пикселя матрицы видеокамеры) и коэффициенты радиального и тангенциального искажений, определяет по меньшей мере одно направление на обнаруженные губы в системе координат видеокамеры (например, азимут и опционально угол места). Параметры камеры предварительно определены с помощью процедуры калибровки или предоставлены производителем. Для повышения точности локализации губ может использоваться Калмановская фильтрация или фильтр частиц.
Благодаря тому, что геометрический центр массива микрофонов 10 совмещен с центром матрицы видеокамеры 2 и центры системы координат камеры и массива микрофонов совпадают, направления на губы в системе координат камеры, вычисленные на основе данных от видеокамеры, пересчитываются вычислительным модулем в систему координат массива микрофонов.
Далее путем сопоставления по меньшей мере одного направления на губы в системе координат массива микрофонов и по меньшей мере одного направления на активные источники звука, блок обработки аудиосигнала 11 принимает решение о наличие в полученном по меньшей мере одном аудиосигнале голоса. Например, наличие голоса в аудиосигнале может быть определено только в случае, если обнаруженное направление на губы отличается от обнаруженного направления на активный источник звука не более чем на заранее заданное пороговое значение.
Таким образом, обеспечивается более точное определение источников человеческой речи по сравнению с известными аналогами.
Дополнительно блок обработки аудиосигнала 11 может быть выполнен с возможностью временной разметки участков по меньшей мере одного аудиосигнала, в которых определено наличие по меньшей мере одного источника голоса, известными в уровне технике способами. В альтернативном варианте реализации заявленного решения, все сигналы микрофонов могут быть известными методами объединены в единый сигнал, а разметка в данном случае будет осуществляться полученного единого сигнала. Участки по меньшей мере одного аудиосигнала, в которых определено наличие по меньшей мере одного источника голоса, могут быть переданы в систему распознавания речи посредством модуля передачи данных 14.
Далее более подробно будет описана работа блока обработки аудиосигнала в соответствии со схемой, приведенной на фиг. 4.
Как указывалось ранее, блок обработки аудиосигнала 11 для обеспечения указанных выше функций может быть, в частном случае его реализации, оснащен вычислительным модулем 12 и графическим вычислительным модулем 13.
Вычислительный модуль 12, в частном случае его выполнения, может содержать:
20 – модуль захвата видеоданных;
21 – модуль захвата звука;
22 – модуль определения направления на активные источники звука;
23 – модуль сопоставления направлений;
25 – модуль пересчета пиксельных координат губ;
26 – модуль пересчета направлений на губы.
Графический вычислительный модуль 13, в частном случае его выполнения, содержит модуль 24 определения пиксельных координат губ. Упомянутые модули могут быть выполнены на программно-аппаратной базе контроллера или микропроцессора для реализации ими приписанных функций.
Данные видеокамеры 2 и массива микрофонов 10 поступают на модуль захвата видеоданных 20 и модуль захвата звука 21 соответственно. Синхронно полученные данные от микрофонов 1 массива микрофонов 10 далее поступают, например, в виде многоканального звука, в модуль 22 определения направления на активные источники звука, который в соответствии с известными в уровне техники алгоритмами определяет по меньшей мере одно направление на активные источники звука и передает полученное направление в модуль 23 сопоставления направлений.
Данные видеокамеры 2 передаются в графический вычислительный модуль 13 и обрабатываются модулем 24 определения пиксельных координат губ. Для более точного определения пиксельных координат губ могут использоваться сверточные нейронные сети. Пиксельные координаты губ далее передаются в вычислительный модуль 12, где модуль 25 пересчета пиксельных координат губ определяет по меньшей мере одно направление на губы в системе координат камеры. Далее модуль 26 пересчета направлений на губы пересчитывает направления на губы в системе координат камеры в направления на губы в системе координат массива микрофонов и передает полученное направление в модуль 23 сопоставления направлений.
Модуль 23 сопоставления направлений путем сопоставления по меньшей мере одного направления на губы в системе координат массива микрофонов и по меньшей мере одного направления на активные источники звука, принимает решение о наличие в полученном по меньшей мере одном аудиосигнале голоса. В данном примере модуль 23 сопоставления направлений может также выполнять функции для временной разметки участков по меньшей мере одного аудиосигнала, в которых определено наличие по меньшей мере одного источника голоса. Участки по меньшей мере одного аудиосигнала, в которых определено наличие по меньшей мере одного источника голоса, могут быть переданы в систему распознавания речи посредством модуля 14 передачи данных.
Заявленное решение может найти применение в голосовых интерфейсах управления компьютером, бытовой и уличной техникой, а также автомобильной электроникой.

Claims (12)

1.  Устройство обработки по меньшей мере одного аудиосигнала, содержащее:
видеокамеру;
массив микрофонов, причем геометрический центр массива микрофонов совмещен с центром матрицы видеокамеры;
блок обработки аудиосигнала, выполненный с возможностью:
синхронного получения данных от микрофонов массива микрофонов для определения по меньшей мере одного направления на активные источники звука;
получения изображения от видеокамеры для определения по меньшей мере одного направления на губы в системе координат камеры;
определения наличия по меньшей мере одного источника голоса в полученном по меньшей мере одном аудиосигнале на основе по меньшей мере одного направления на активные источники звука и по меньшей мере одного направления на губы в системе координат камеры.
2. Устройство по п. 1, отличающееся тем, что блок обработки аудиосигнала дополнительно выполнен с возможность пересчета упомянутого по меньшей мере одного направления на губы в системе координат камеры в по меньшей мере одно направление на губы в системе координат массива микрофонов, причем определение наличия по меньшей мере одного источника голоса в полученном по меньшей мере одном аудиосигнале осуществляется путем сопоставления по меньшей мере одного направления на губы в системе координат массива микрофонов и по меньшей мере одного направления на активные источники звука.
3. Устройство по п. 1, отличающееся тем, что для определения по меньшей мере одного направления на губы в системе координат камеры блок обработки аудиосигнала выполнен с возможностью обеспечения поиска губ с помощью глубоких свёрточных нейронных сетей.
4. Устройство по п. 1, отличающееся тем, что массив микрофонов состоит из MEMS микрофонов.
5. Устройство по п. 1, отличающееся тем, что блок обработки аудиосигнала выполнен с возможностью временной разметки участков по меньшей мере одного аудиосигнала, в которых определено наличие по меньшей мере одного источника голоса.
6. Устройство по п. 5, отличающееся тем, что блок обработки аудиосигнала выполнен с возможностью передачи участков по меньшей мере одного аудиосигнала, в которых определено наличие по меньшей мере одного источника голоса, в систему распознавания речи.
RU2017118510U 2017-05-29 2017-05-29 Аудиовизуальный многоканальный детектор наличия голоса RU174044U1 (ru)

Priority Applications (1)

Application Number Priority Date Filing Date Title
RU2017118510U RU174044U1 (ru) 2017-05-29 2017-05-29 Аудиовизуальный многоканальный детектор наличия голоса

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
RU2017118510U RU174044U1 (ru) 2017-05-29 2017-05-29 Аудиовизуальный многоканальный детектор наличия голоса

Publications (1)

Publication Number Publication Date
RU174044U1 true RU174044U1 (ru) 2017-09-27

Family

ID=59931377

Family Applications (1)

Application Number Title Priority Date Filing Date
RU2017118510U RU174044U1 (ru) 2017-05-29 2017-05-29 Аудиовизуальный многоканальный детектор наличия голоса

Country Status (1)

Country Link
RU (1) RU174044U1 (ru)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111048113A (zh) * 2019-12-18 2020-04-21 腾讯科技(深圳)有限公司 声音方向定位处理方法、装置、系统、计算机设备及存储介质
CN112015364A (zh) * 2020-08-26 2020-12-01 广州视源电子科技股份有限公司 拾音灵敏度的调整方法、装置
RU2784689C1 (ru) * 2022-09-01 2022-11-29 Общество С Ограниченной Ответственностью "Рублефф Технолоджи" Децентрализованный цифровой детектор микронаушников
WO2024049321A1 (ru) * 2022-09-01 2024-03-07 Общество С Ограниченной Ответственностью "Рублефф Технолоджи" Децентрализованный цифровой детектор микронаушников

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5335011A (en) * 1993-01-12 1994-08-02 Bell Communications Research, Inc. Sound localization system for teleconferencing using self-steering microphone arrays
US20110093273A1 (en) * 2009-10-16 2011-04-21 Bowon Lee System And Method For Determining The Active Talkers In A Video Conference
US20110106533A1 (en) * 2008-06-30 2011-05-05 Dolby Laboratories Licensing Corporation Multi-Microphone Voice Activity Detector
US20160071526A1 (en) * 2014-09-09 2016-03-10 Analog Devices, Inc. Acoustic source tracking and selection
RU170249U1 (ru) * 2016-09-02 2017-04-18 Общество с ограниченной ответственностью ЛЕКСИ (ООО ЛЕКСИ) Устройство для температурно-инвариантной аудиовизуальной локализации источника голоса

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5335011A (en) * 1993-01-12 1994-08-02 Bell Communications Research, Inc. Sound localization system for teleconferencing using self-steering microphone arrays
US20110106533A1 (en) * 2008-06-30 2011-05-05 Dolby Laboratories Licensing Corporation Multi-Microphone Voice Activity Detector
US20110093273A1 (en) * 2009-10-16 2011-04-21 Bowon Lee System And Method For Determining The Active Talkers In A Video Conference
US20160071526A1 (en) * 2014-09-09 2016-03-10 Analog Devices, Inc. Acoustic source tracking and selection
RU170249U1 (ru) * 2016-09-02 2017-04-18 Общество с ограниченной ответственностью ЛЕКСИ (ООО ЛЕКСИ) Устройство для температурно-инвариантной аудиовизуальной локализации источника голоса

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111048113A (zh) * 2019-12-18 2020-04-21 腾讯科技(深圳)有限公司 声音方向定位处理方法、装置、系统、计算机设备及存储介质
CN112015364A (zh) * 2020-08-26 2020-12-01 广州视源电子科技股份有限公司 拾音灵敏度的调整方法、装置
RU2784689C1 (ru) * 2022-09-01 2022-11-29 Общество С Ограниченной Ответственностью "Рублефф Технолоджи" Децентрализованный цифровой детектор микронаушников
WO2024049321A1 (ru) * 2022-09-01 2024-03-07 Общество С Ограниченной Ответственностью "Рублефф Технолоджи" Децентрализованный цифровой детектор микронаушников

Similar Documents

Publication Publication Date Title
US11398235B2 (en) Methods, apparatuses, systems, devices, and computer-readable storage media for processing speech signals based on horizontal and pitch angles and distance of a sound source relative to a microphone array
US9749738B1 (en) Synthesizing audio corresponding to a virtual microphone location
US10045120B2 (en) Associating audio with three-dimensional objects in videos
CN106653041B (zh) 音频信号处理设备、方法和电子设备
US10182280B2 (en) Sound processing apparatus, sound processing system and sound processing method
CN102045618B (zh) 自动调整的麦克风阵列、方法和携带麦克风阵列的装置
US6185152B1 (en) Spatial sound steering system
CN105474666B (zh) 声音处理系统及声音处理方法
US9500739B2 (en) Estimating and tracking multiple attributes of multiple objects from multi-sensor data
RU174044U1 (ru) Аудиовизуальный многоканальный детектор наличия голоса
CN106872945B (zh) 声源定位方法、装置和电子设备
JP7194897B2 (ja) 信号処理装置及び信号処理方法
CN110875056B (zh) 语音转录设备、系统、方法、及电子设备
US9756421B2 (en) Audio refocusing methods and electronic devices utilizing the same
CN111681668A (zh) 声学成像方法及终端设备
CN112015364A (zh) 拾音灵敏度的调整方法、装置
JP2006304124A (ja) 音源方向確定装置および音源方向確定方法
WO2015151130A1 (ja) 音声処理装置、音声処理システム、及び音声処理方法
CN110572600A (zh) 一种录像处理方法及电子设备
KR101542647B1 (ko) 화자 검출을 이용한 오디오 신호 처리 방법 및 장치
Nakadai et al. Footstep detection and classification using distributed microphones
JP2019522187A (ja) 装置および関連する方法
Jahana et al. Direction Of Arrival Estimation using Microphone Array
JP2019103011A (ja) 変換装置、変換方法、およびプログラム
CN107948856A (zh) 一种录播主机、声源测向的方法及装置

Legal Events

Date Code Title Description
MM9K Utility model has become invalid (non-payment of fees)

Effective date: 20190530