RU174044U1

RU174044U1 - Аудиовизуальный многоканальный детектор наличия голоса

Info

Publication number: RU174044U1
Application number: RU2017118510U
Authority: RU
Inventors: Дмитрий Олегович Тетерюков; Роман Алексеевич Жуков; Дмитрий Андреевич Суворов
Original assignee: Общество с ограниченной ответственностью ЛЕКСИ (ООО ЛЕКСИ)
Priority date: 2017-05-29
Filing date: 2017-05-29
Publication date: 2017-09-27

Abstract

Полезная модель относится к измерительной технике, в частности к области определения наличия голоса в записываемом звуковом сигнале. Решение может быть использовано в комплексе с системой распознавания речи для выделения участков звукового сигнала, которые необходимо передать системе распознавания речи для анализа. Техническим результатом заявленного решения является повышение точности определения источников человеческой речи. Для обеспечения указанного технического результата было разработано устройство обработки по меньшей мере одного аудиосигнала, содержащее: видеокамеру; массив микрофонов, причем геометрический центр массива микрофонов совмещен с центром матрицы видеокамеры; блок обработки аудиосигнала, выполненный с возможностью: синхронного получения данных от микрофонов массива микрофонов для определения по меньшей мере одного направления на активные источники звука; получения изображения от видеокамеры для определения по меньшей мере одного направления на губы в системе координат камеры; определения наличия по меньшей мере одного источника голоса в полученном по меньшей мере одном аудиосигнале на основе по меньшей мере одного направления на активные источники звука и по меньшей мере одного направления на губы в системе координат камеры.

Description

Область техники.

Полезная модель относится к измерительной технике, в частности к области определения наличия голоса в записываемом звуковом сигнале. Решение может быть использовано в комплексе с системой распознавания речи для выделения участков звукового сигнала, которые необходимо передать системе распознавания речи для анализа.

Уровень техники.

Из уровня техники известны различные технические решения, обеспечивающие запись и обработке звуковых сигналов.

Например, известен многоканальный детектор голосовой активности, описанный в заявке № US 20110106533 (A1), опубл. 2008-06-30, состоящий из двух микрофонов и выполненный с возможностью оценивать уровень сигнала и уровень шума на каждом микрофоне с целью обнаружения присутствия посторонних звуков. Недостатками данного устройства является то, что для определения наличия голоса используется только массив микрофонов, что не позволяет отличить реальный голос человека от воспроизводимого через колонки, например, в ТВ передаче.

Известна система определения активного источника голоса для отображения в системе видеоконференцсвязи, описанная в заявке № US 20110093273 (A1), опубл. 2009-10-16. В данном решении для определения наличия активного голоса используется комбинация видеокамеры и звукозаписывающего устройства без возможности определения направления на источник звука, вследствие чего возникают ложные срабатывания системы в случае шевеления губами человека в кадре и наличия дополнительного источника речи, например, телевизора или радио.

Известна система для отслеживания и выбора акустических источников, описанная в заявке № US 20160071526 (A1), опубл. 2014-09-09. В данном решении для определения направления на источники речи может использоваться комбинация видеокамеры и массива микрофонов. Однако вследствие того, что видеокамера и массив микрофонов разнесены в пространстве, данная система не позволяет аналитически точно соотносить направления, определённые камерой и массивом микрофонов, вследствие чего существенно снижается точность работы системы в выборе акустических источников. Данное решение является наиболее близким аналогом.

Сущность полезной модели.

Заявленное техническое решение решает задачу по определению временных участков в звуковом сигнале, когда присутствует активный источник речи, которые необходимо передать системе распознавания речи для анализа.

Техническим результатом заявленного решения является повышение точности определения источников человеческой речи.

Данный результат достигается за счет того, что для определения активного источника человеческой речи используется комбинация массива микрофонов и видеокамеры с совмещёнными геометрическими центрами, а также за счет применения технологии поиска губ на изображении.

Для обеспечения указанного технического результата было разработано устройство обработки по меньшей мере одного аудиосигнала, содержащее:

видеокамеру;

массив микрофонов, причем геометрический центр массива микрофонов совмещен с центром матрицы видеокамеры;

блок обработки аудиосигнала, выполненный с возможностью:

синхронного получения данных от микрофонов массива микрофонов для определения по меньшей мере одного направления на активные источники звука;

получения изображения от видеокамеры для определения по меньшей мере одного направления на губы в системе координат камеры;

определения наличия по меньшей мере одного источника голоса в полученном по меньшей мере одном аудиосигнале на основе по меньшей мере одного направления на активные источники звука и по меньшей мере одного направления на губы в системе координат камеры.

Краткое описание чертежей.

Для лучшего понимания сущности полезной модели, и чтобы более ясно показать, каким образом она может быть осуществлена, далее будет сделана ссылка, лишь в качестве примера, на прилагаемые чертежи, на которых:

фиг. 1 – схема расположения видеокамеры и микрофонов в известном аналоге;

фиг. 2 - схема расположения видеокамеры и микрофонов в заявленной полезной модели;

фиг. 3 – пример технической схемы устройства обработки по меньшей мере одного аудиосигнала;

фиг. 4 - пример технической схемы блока обработки аудиосигнала.

Осуществление полезной модели.

На фиг. 1 изображена схема расположения видеокамеры и микрофонов в известном аналоге, на которой: 1 – микрофоны массива микрофонов 10; 2- видеокамера; 3 – источник речи; а – направление на активные источники звука; b - направление на объекты, например, лица, в системе координат камеры. На данной схеме изображен частный случай размещения микрофонов 1 и видеокамеры 2, когда геометрические центры данных устройств не совмещены, однако в общем случае видеокамера 2 может находиться где угодно.

В известном решении, выбранном в качестве наиболее близкого аналога, источники звуков фиксируются микрофонами 1 массива микрофонов 10, выполненного в виде микрофонной решетки, причем для выбора предпочтительного источника звуков, например, источника человеческой речи, может использоваться система обнаружения лица на полученных изображениях с видеокамеры.

Разнесённые массив микрофонов 10 и видеокамера 2 в пространстве (см. фиг. 1) не позволяют аналитически точно соотносить направления, определённые камерой и массивом микрофонов, вследствие чего возникают ошибки при определении источники голоса. При этом в данном решении используется технология обнаружения лиц, что также отрицательно сказывается на точности определения источника голоса.

В заявленном решении для более точного определения источников человеческой речи используется технология поиска губ на изображении, а геометрический центр массива микрофонов 10 совмещен с центром матрицы видеокамеры 2 (см. фиг. 2). При таком размещении упомянутых устройств центры систем координат массива микрофонов 10 и видеокамеры 2 совпадают, что позволяет однозначно выполнять преобразование вычисленных направлений на губы и источник звука между двумя этими системами координат.

На фиг. 3 изображен пример технической схемы устройства обработки по меньшей мере одного аудиосигнала, содержащее: видеокамеру 2, массив микрофонов 10, блок обработки аудиосигнала 11.

Все составные элементы заявленного устройства выполнены в виде единой конструкции, например, посредством их размещения на единой печатной плате или другим образом.

В качестве микрофонов 1 могут использоваться любые виды микрофонов, известные в уровне техники, в том числе, MEMS микрофоны, обладающие высоким соотношением сигнал/шум и максимальной дальностью локализации источников звука.

Блок обработки аудиосигнала 11 может быть реализован в виде платы на базе промышленного контроллера или микропроцессора, модифицированной в программно-аппаратной части таким образом, чтобы обеспечить:

синхронный сбор данных от микрофонов 1 массива микрофонов 10 для определения по меньшей мере одного направления на активные источники звука;

получения изображения от видеокамеры 2 для определения по меньшей мере одного направления на губы в системе координат камеры;

В альтернативном варианте реализации блока обработки аудиосигнала 11 для обеспечения указанных выше функций он может быть оснащен вычислительным модулем 12 и графическим вычислительным модулем 13, реализованными на базе контроллера или микропроцессора. Для обеспечения хранения полученной и обработанной информации блока обработки аудиосигнала 11 может быть оснащен запоминающим устройство.

Для обеспечения возможности передачи данных, например, в системы распознавания речи, заявленное устройство может быть дополнительно оснащено модулем передачи данных 14. Передача данных может осуществляться посредством проводной или беспроводной связи,

Работа устройства осуществляется следующим образом.

С помощью массива микрофонов 10, который может быть реализован в виде микрофонной решётки, осуществляется захват звуковых источников, размещенных по направлению микрофонов. Поступающий многоканальный звук может быть аппаратно-синхронизирован кадрами фиксированной длины, включающими в себе непрерывную последовательность измерений с каждого микрофона 1 массива микрофонов 10. Длинна упомянутого кадра может подбираться так, чтобы статистические параметры сигнала можно было считать постоянными в рамках одного кадра. Обычно длина кадра составляет от одного до нескольких десятков миллисекунд, но может лежать и в другом диапазоне. Далее блок обработки аудиосигнала 11, используя метод на основе корреляции (например, посредством алгоритма general cross-correlation with phase transform (GCC-PHAT), его модификации или другого метода), оценивает по меньшей мере одно направление на активные источники звука (например, определяет азимут и опционально угол места) в системе координат массива микрофонов 10. По меньшей мере одно направление на активные источники звука могут уточнятся с помощью Калмановской фильтрации или фильтра частиц.

Параллельно c захватом звука захватывается изображение с видеокамеры, причем блок обработки аудиосигнала 11 определяет губы человека на полученном изображении. Для более точного определения губ человека на изображении блоком обработки аудиосигнала 11 могут использоваться свёрточные глубокие нейронные сети. Далее блок обработки аудиосигнала 11, используя заранее известные оптические параметры камеры (фокусное расстояние, координата пересечения главной оптической оси с матрицей видеокамеры, соотношение сторон одного пикселя матрицы видеокамеры) и коэффициенты радиального и тангенциального искажений, определяет по меньшей мере одно направление на обнаруженные губы в системе координат видеокамеры (например, азимут и опционально угол места). Параметры камеры предварительно определены с помощью процедуры калибровки или предоставлены производителем. Для повышения точности локализации губ может использоваться Калмановская фильтрация или фильтр частиц.

Благодаря тому, что геометрический центр массива микрофонов 10 совмещен с центром матрицы видеокамеры 2 и центры системы координат камеры и массива микрофонов совпадают, направления на губы в системе координат камеры, вычисленные на основе данных от видеокамеры, пересчитываются вычислительным модулем в систему координат массива микрофонов.

Далее путем сопоставления по меньшей мере одного направления на губы в системе координат массива микрофонов и по меньшей мере одного направления на активные источники звука, блок обработки аудиосигнала 11 принимает решение о наличие в полученном по меньшей мере одном аудиосигнале голоса. Например, наличие голоса в аудиосигнале может быть определено только в случае, если обнаруженное направление на губы отличается от обнаруженного направления на активный источник звука не более чем на заранее заданное пороговое значение.

Таким образом, обеспечивается более точное определение источников человеческой речи по сравнению с известными аналогами.

Дополнительно блок обработки аудиосигнала 11 может быть выполнен с возможностью временной разметки участков по меньшей мере одного аудиосигнала, в которых определено наличие по меньшей мере одного источника голоса, известными в уровне технике способами. В альтернативном варианте реализации заявленного решения, все сигналы микрофонов могут быть известными методами объединены в единый сигнал, а разметка в данном случае будет осуществляться полученного единого сигнала. Участки по меньшей мере одного аудиосигнала, в которых определено наличие по меньшей мере одного источника голоса, могут быть переданы в систему распознавания речи посредством модуля передачи данных 14.

Далее более подробно будет описана работа блока обработки аудиосигнала в соответствии со схемой, приведенной на фиг. 4.

Как указывалось ранее, блок обработки аудиосигнала 11 для обеспечения указанных выше функций может быть, в частном случае его реализации, оснащен вычислительным модулем 12 и графическим вычислительным модулем 13.

Вычислительный модуль 12, в частном случае его выполнения, может содержать:

20 – модуль захвата видеоданных;

21 – модуль захвата звука;

22 – модуль определения направления на активные источники звука;

23 – модуль сопоставления направлений;

25 – модуль пересчета пиксельных координат губ;

26 – модуль пересчета направлений на губы.

Графический вычислительный модуль 13, в частном случае его выполнения, содержит модуль 24 определения пиксельных координат губ. Упомянутые модули могут быть выполнены на программно-аппаратной базе контроллера или микропроцессора для реализации ими приписанных функций.

Данные видеокамеры 2 и массива микрофонов 10 поступают на модуль захвата видеоданных 20 и модуль захвата звука 21 соответственно. Синхронно полученные данные от микрофонов 1 массива микрофонов 10 далее поступают, например, в виде многоканального звука, в модуль 22 определения направления на активные источники звука, который в соответствии с известными в уровне техники алгоритмами определяет по меньшей мере одно направление на активные источники звука и передает полученное направление в модуль 23 сопоставления направлений.

Данные видеокамеры 2 передаются в графический вычислительный модуль 13 и обрабатываются модулем 24 определения пиксельных координат губ. Для более точного определения пиксельных координат губ могут использоваться сверточные нейронные сети. Пиксельные координаты губ далее передаются в вычислительный модуль 12, где модуль 25 пересчета пиксельных координат губ определяет по меньшей мере одно направление на губы в системе координат камеры. Далее модуль 26 пересчета направлений на губы пересчитывает направления на губы в системе координат камеры в направления на губы в системе координат массива микрофонов и передает полученное направление в модуль 23 сопоставления направлений.

Модуль 23 сопоставления направлений путем сопоставления по меньшей мере одного направления на губы в системе координат массива микрофонов и по меньшей мере одного направления на активные источники звука, принимает решение о наличие в полученном по меньшей мере одном аудиосигнале голоса. В данном примере модуль 23 сопоставления направлений может также выполнять функции для временной разметки участков по меньшей мере одного аудиосигнала, в которых определено наличие по меньшей мере одного источника голоса. Участки по меньшей мере одного аудиосигнала, в которых определено наличие по меньшей мере одного источника голоса, могут быть переданы в систему распознавания речи посредством модуля 14 передачи данных.

Заявленное решение может найти применение в голосовых интерфейсах управления компьютером, бытовой и уличной техникой, а также автомобильной электроникой.

Claims

1. Устройство обработки по меньшей мере одного аудиосигнала, содержащее:

видеокамеру;

2. Устройство по п. 1, отличающееся тем, что блок обработки аудиосигнала дополнительно выполнен с возможность пересчета упомянутого по меньшей мере одного направления на губы в системе координат камеры в по меньшей мере одно направление на губы в системе координат массива микрофонов, причем определение наличия по меньшей мере одного источника голоса в полученном по меньшей мере одном аудиосигнале осуществляется путем сопоставления по меньшей мере одного направления на губы в системе координат массива микрофонов и по меньшей мере одного направления на активные источники звука.

3. Устройство по п. 1, отличающееся тем, что для определения по меньшей мере одного направления на губы в системе координат камеры блок обработки аудиосигнала выполнен с возможностью обеспечения поиска губ с помощью глубоких свёрточных нейронных сетей.

4. Устройство по п. 1, отличающееся тем, что массив микрофонов состоит из MEMS микрофонов.

5. Устройство по п. 1, отличающееся тем, что блок обработки аудиосигнала выполнен с возможностью временной разметки участков по меньшей мере одного аудиосигнала, в которых определено наличие по меньшей мере одного источника голоса.

6. Устройство по п. 5, отличающееся тем, что блок обработки аудиосигнала выполнен с возможностью передачи участков по меньшей мере одного аудиосигнала, в которых определено наличие по меньшей мере одного источника голоса, в систему распознавания речи.