RU2459281C1 - Устройство и способ формирования сигнатуры акустического сигнала, устройство идентификации акустического сигнала - Google Patents

Устройство и способ формирования сигнатуры акустического сигнала, устройство идентификации акустического сигнала Download PDF

Info

Publication number
RU2459281C1
RU2459281C1 RU2011137870/08A RU2011137870A RU2459281C1 RU 2459281 C1 RU2459281 C1 RU 2459281C1 RU 2011137870/08 A RU2011137870/08 A RU 2011137870/08A RU 2011137870 A RU2011137870 A RU 2011137870A RU 2459281 C1 RU2459281 C1 RU 2459281C1
Authority
RU
Russia
Prior art keywords
acoustic signal
signature
frame
block
input
Prior art date
Application number
RU2011137870/08A
Other languages
English (en)
Inventor
Сергей Викторович Жидков (RU)
Сергей Викторович Жидков
Original Assignee
Общество с ограниченной ответственностью "Цифрасофт"
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Общество с ограниченной ответственностью "Цифрасофт" filed Critical Общество с ограниченной ответственностью "Цифрасофт"
Priority to RU2011137870/08A priority Critical patent/RU2459281C1/ru
Application granted granted Critical
Publication of RU2459281C1 publication Critical patent/RU2459281C1/ru

Links

Images

Abstract

Изобретение относится к технике идентификации акустических сигналов и, в частности, к устройству и способу распознавания акустического сигнала. Способ формирования сигнатуры акустического сигнала из сигнатур фреймов, на которые разбит акустический сигнал, включает выполнение частотного преобразования оцифрованного акустического сигнала каждого n-го (1≤n≤N) фрейма. При этом для каждого фрейма преобразуют значения амплитуд всех отсчетов преобразованного сигнала в положительные, для каждого n-го фрейма, начиная с (1+t)-го (где 1≤t≤N), вычисляют разности между найденными положительными отсчетами и соответствующими положительными отсчетами предыдущего (n-t) фрейма, полученные дифференциальные отсчеты объединяют в подгруппы, находят сумму дифференциальных отсчетов каждой из подгрупп, объединяют подгруппы с одинаковым количеством дифференциальных отсчетов в группы, для каждой группы определяют номер подгруппы с максимальной либо с минимальной суммой дифференциальных отсчетов, из упомянутых номеров подгрупп формируют сигнатуру n-го (где (1+t)≤n≤N)) фрейма акустического сигнала. Приведены варианты реализации устройства формирования сигнатуры акустического сигнала и устройства идентификации акустического сигнала. Технический результат - обеспечение высокой вероятности обнаружения искаженных акустических сигналов при фиксированной вероятности ложного обнаружения. 3 н. и 8 з.п. ф-лы, 6 ил.

Description

Предлагаемые технические решения относятся к способам и устройствам для распознавания и сравнения принимаемой информации с эталонной, в частности - к технике идентификации акустических сигналов.
Задача сравнения акустических сигналов возникает в ряде приложений, например, для мониторинга и идентификации музыкальных композиций, транслируемых по каналам телевизионного и радиовещания, для задач измерения аудитории теле-/радиоканалов, а так же в некоторых других приложениях.
Известны различные способы сравнения акустических сигналов.
Например, сравнение может производиться в системах распознавания передаваемых сигналов с помощью методов корреляционного анализа (патенты США US 3919479 [1] и US 4450531 [2]), сущность которых заключается в том, что фрагмент принимаемого акустического сигнала разделяют на сегменты, которые оцифровывают, затем вычисляют корреляцию каждого из сегментов с сегментами оцифрованных оригинальных сигналов, которые хранят в устройстве сравнения. При полном совпадении сегментов либо частичном, удовлетворяющем установленному порогу, принимается решение об удовлетворительной идентификации (подлинности) принимаемого акустического сигнала.
Однако такой подход обладает рядом существенных недостатков:
Во-первых, вычисление корреляции двух оцифрованных сегментов акустических сигналов очень ресурсоемкая операция.
Во-вторых, два акустических сигнала, которые звучат практически идентично для человеческого уха в силу психоакустических особенностей слуха человека (нечувствительность к фазовым искажениям, эффект маскирования и т.д.), могут существенно отличаться по форме колебания, что ведет к невозможности применения корреляционного метода для их сравнения.
В-третьих, в некоторых приложениях, где требуется сравнение (идентификация) большого количества акустических фрагментов, хранение базы исходных оцифрованных акустических сигналов может потребовать чрезмерно большого объема памяти.
Для преодоления этих недостатков для сравнения акустических сигналов стали применять метод аудио-сигнатур (вычисленных компактных числовых значений выбранных фрагментов сигнала, которые отражают основные психоакустические характеристики этих фрагментов). В рамках данного подхода, для сравнения двух или более фрагментов акустических сигналов предварительно вычисляются аудио-сигнатуры оригинальных фрагментов, которые отражают основные психоакустические характеристики этих фрагментов сигнала, и затем проводится сравнение найденных аудио-сигнатур с соответствующими им аудио-сигнатурами проверяемого сигнала.
Следует отметить, что концепция сигнатур широко применяется не только для задач сравнения акустических сигналов, но и в криптографии, компьютерной безопасности (для обнаружения компьютерных вирусов), при поиске видеоизображений и т.д.
Таким образом, ключевой задачей является разработка методов генерации «хороших» сигнатур. «Хорошими» будем называть сигнатуры (в том числе аудио-сигнатуры), отличающиеся следующими свойствами:
(1) Малая чувствительность к небольшим искажениям и преобразованиям (например, компрессии, фильтрации и т.д.), возникающим при передаче исходного аудиосигнала, но сохраняющим его приемлемое качество;
(2) Компактность: сигнатура должна иметь минимальный размер для облегчения поиска и хранения больших массивов оригинальных сигнатур;
(3) Простота метода вычисления и корреляции сигнатур (важно для мобильных приложений, где вычислительные ресурсы процессора ограничены).
Часто для формирования аудио-сигнатур используется представление акустического сигнала в частотной области, так как такой метод позволяет получить сигнатуры, обладающие первым свойством «хороших» сигнатур. Например, в патенте США US 4843562 [3] предложен метод сравнения звуковых сигналов, в котором в качестве сигнатур (или паттернов, как их называют в [3]) используют образцы спектрограмм фрагментов звуковых сигналов. Однако вычисленные таким образом сигнатуры не обладают компактностью, а их поиск и сравнение достаточно ресурсоемки.
Один из популярных методов вычисления аудио-сигнатур был предложен в [4] (см. также патент США US 7549052 [5]). Предложенный метод вычисления сигнатуры включает в себя следующие этапы:
(1) Разбивают фрагмент сигнала на N≥1 перекрывающихся фреймов (отрезков предпочтительно равного размера);
(2) Для каждого из выделенных фреймов вычисляют преобразование Фурье;
(3) Затем для каждого преобразования Фурье фрейма вычисляют по известным формулам энергию сигнала в М≥1 полосах частот. Получают матрицу из найденных значений энергий E(n,m), где n - номер фрейма, a m - индекс частотной полосы.
(4) Аудио-сигнатура для данного фрагмента сигнала вычисляется согласно формуле:
Figure 00000001
В конечном итоге, аудио-сигнатура звукового фрагмента представляет собой набор бит H(n,m), где n=1,…,N, и m=1,…,М.
Структурная схема вычисления аудио-сигнатуры согласно описанному способу изображена на фиг.1.
Сигнатуры, полученные таким способом, будут меняться при модификациях (искажениях) исходного звукового сигнала при передаче (например, из-за компрессии или зашумленности канала связи). Однако, в целом, можно ожидать, что при сравнении аудио-сигнатур одинаковых на слух двух звуковых фрагментов (оригинального и принятого по каналу связи), совпадать будет большее количество бит, чем при сравнении аудио-сигнатур разных фрагментов. Таким образом, фиксация факта совпадения звуковых фрагментов может быть осуществлена путем сравнения количества совпадающих бит аудио-сигнатуры с заранее установленным порогом.
Данный метод сравнения звуковых сигналов хорошо зарекомендовал себя на практике. Однако у него все же есть ряд недостатков:
(1) Размер сигнатуры. Так, в соответствии с источником [4], для получения достоверных результатов сравнения, требуется использовать хотя бы 32-бита сигнатуры на каждый фрейм (М≥32). При стандартном шаге фрейма 12 мс, аудио-сигнатура секундного фрагмента (с 86-ю фреймами) будет содержать 344 байта;
(2) Ресурсоемкий поиск (сравнение сигнатур принятого записанного фрагмента с имеющимися эталонными - особенно, при реализации на мобильных устройствах). Так, в системе команд многих мобильных процессоров (например, семейства ARM) нет специализированной инструкции для определения количества ненулевых бит в слове. Таким образом, подсчет числа единиц в аудио-сигнатуре приходится реализовывать программно, что занимает существенную часть процессорного времени. Например, для архитектуры ARM оптимизированный код для подсчета числа ненулевых бит только в одном 32-битном слове занимает как минимум 10 машинных циклов. Таким образом, для сравнения текущего принимаемого сигнала с большой базой данных оригинальных, сигнатур (поиск сигнатуры для идентификации фрагмента) требуется недопустимо большое время.
Целью настоящей заявки является создание устройства и способа формирования сигнатуры акустического сигнала, а также устройства идентификации акустического сигнала, которые позволяют сократить размер сигнатуры и минимизировать количество ресурсоемких вычислительных операций при сравнении сигнатур. При этом вышеуказанные устройства и способ должны обеспечить высокую вероятность обнаружения зашумленных и искаженных акустических сигналов (их фрагментов) при фиксированной вероятности ложного обнаружения.
Цель достигается в Способе формирования сигнатуры акустического сигнала из сигнатур фреймов, на которые разбит акустический сигнал, включающем выполнение частотного преобразования оцифрованного акустического сигнала каждого n-го (1≤n≤N) упомянутого фрейма, тем, что
- для каждого фрейма преобразуют значения амплитуд всех отсчетов преобразованного сигнала в положительные,
- для каждого n-го фрейма, начиная с (1+t)-го (где 1≤t≤N), вычисляют разности между найденными положительными отсчетами и соответствующими положительными отсчетами предыдущего (n-t) фрейма,
- полученные дифференциальные отсчеты объединяют в подгруппы, определяют сумму найденных дифференциальных отсчетов каждой из подгрупп,
- объединяют подгруппы с одинаковым количеством дифференциальных отсчетов в группы, для каждой группы определяют номер подгруппы с максимальной либо с минимальной суммой дифференциальных отсчетов,
- из упомянутых номеров подгрупп формируют сигнатуру n-го (где (1+t)≤n≤N)) фрейма акустического сигнала.
Предпочтительно, чтобы в Способе формирования сигнатуры для выполнения частотного преобразования на оцифрованный акустический сигнал каждого n-го (1≤n≤N) фрейма накладывали оконную функцию.
Предпочтительно, чтобы в Способе формирования сигнатуры для положительных преобразований значений отсчетов использовали функцию возведения в квадрат (квадратичную) либо взятие модуля.
Предпочтительно, чтобы в Способе формирования сигнатуры для выполнения частотного преобразования использовали преобразование Фурье либо быстрое преобразование Фурье.
Предпочтительно, чтобы в Способе формирования сигнатуры акустический сигнал разбивали на перекрывающиеся фреймы.
Цель достигается также в Устройстве формирования сигнатуры акустического сигнала, содержащем последовательно соединенные посредством Портов вывода и портов ввода Блок разбиения на фреймы, вход которого является входом устройства. Блок частотного преобразования, Блок положительных преобразователей, Буфер задержки, Блок вычитателей, Блок разбиения на группы и подгруппы, Блок экстремальных значений и Блок накопления сигнатур, выход которого является выходом устройства, причем Порт вывода блока положительных преобразователей соединен с дополнительным Портом ввода Блока вычитателей.
Предпочтительно, чтобы в Устройстве формирования сигнатуры акустического сигнала Блок разбиения на фреймы был подключен к Блоку частотного преобразования через Блок наложения оконной функции.
Предпочтительно, чтобы в Устройстве формирования сигнатуры акустического сигнала Блок положительных преобразователей был реализован на функции возведения в квадрат либо взятии модуля.
Предпочтительно, чтобы в Устройстве формирования сигнатуры акустического сигнала Блок частотного преобразования был реализован на преобразовании Фурье либо Быстром преобразовании Фурье.
Предпочтительно, чтобы в Устройстве формирования сигнатуры акустического сигнала в Блоке разбиения на фреймы разбивают входной сигнал на перекрывающиеся фреймы.
Цель достигается также в Устройстве идентификации акустического сигнала тем, что Устройство формирования сигнатуры акустического сигнала выполнено, как описано выше. При этом Устройство идентификации содержит микрофон, являющийся входом устройства, к которому через аналого-цифровой преобразователь подключено Устройство формирования сигнатуры акустического сигнала, к выходу которого подключен хотя бы один Блок сходства сигнатур, выход которого подключен к Порту ввода блока сравнения с порогом для принятия решения, выход которого является выходом устройства, причем второй вход упомянутого блока сходства сигнатур и вход блока сравнения с порогом являются портом ввода устройства.
Устройство идентификации акустического сигнала, устройство формирования сигнатуры акустического сигнала могут быть реализованы, но без ограничения, на: пользовательском оборудовании (UE), мобильной станции, стационарной или подвижной абонентской установке, пейджере, мобильном телефоне, карманном компьютере (PDA), компьютере или пользовательском устройстве любого другого типа, способном воспринимать акустические сигналы с помощью микрофона.
Представленные устройство формирования сигнатуры акустического сигнала и заявленный способ или блок-схема последовательности операций способа могут быть реализованы в компьютерной программе, программном обеспечении или встроенном программном обеспечении, материально воплощенном в машиночитаемом носителе данных, для исполнения посредством компьютера общего назначения или процессора. Примеры машиночитаемых носителей данных включают в себя постоянное запоминающее устройство (ПЗУ; ROM), оперативное запоминающее устройство (ОЗУ; RAM), регистр, кэш-память, полупроводниковые устройства памяти, магнитные носители, такие как внутренние жесткие диски и сменные диски, магнитооптические носители и оптические носители, такие как компакт-диски, предназначенные только для чтения (CD-ROM), и цифровые универсальные диски (DVD).
Подходящие процессоры включают в себя, в качестве примера, процессор общего назначения, специализированный процессор, традиционный процессор, процессор цифровых сигналов (DSP), множество микропроцессоров, один или более микропроцессоров вместе с ядром процессора DSP, контроллер, микроконтроллер, специализированные интегральные схемы (ASIC), схемы с программируемыми вентильными матрицами (FPGA), интегральную схему (IC) любого другого типа и/или конечный автомат.
Процессор вместе с программным обеспечением может быть использован для реализации радиочастотного приемопередатчика для использования в блоке беспроводной передачи и приема (WTRU), пользовательском оборудовании (UE), терминале, базовой станции, контроллере беспроводной сети (RNC) или любом главном компьютере. WTRU может использоваться в соединении с модулями, реализованными в аппаратном оборудовании и/или программном обеспечении, такими как головной телефон, модуль Bluetooth®, блок радио в диапазоне частотной модуляции (FM), цифровой аудиоплейер, универсальный проигрыватель, модуль для видеоигр, программа обозреватель Интернета и/или любой модуль беспроводной локальной сети (WLAN).
Далее более детальное понимание и описание изобретений может быть получено из нижеследующих описаний работы предпочтительных вариантов их осуществления, данных в качестве примеров вместе с сопроводительными чертежами, на которых:
Фиг.1 показывает схему вычисления аудио-сигнатуры в ближайшем аналоге.
Фиг.2 - функциональная схема устройства формирования сигнатуры акустического сигнала в предпочтительном варианте.
Фиг.3 показывает пример разбиения дифференциальных отсчетов на группы при М=3, I=4.
Фиг.4 - последовательность выполнения способа формирования сигнатуры акустического сигнала в предпочтительном варианте.
Фиг.5 - функциональная схема устройства идентификации акустического сигнала.
Фиг.6 (а), (б) - графики, иллюстрирующие поведение вероятности битовой ошибки и количества совпадающих индексов при использовании ближайшего аналога (а) и предлагаемых изобретений (b).
На фиг.2 изображена функциональная схема предлагаемого в качестве изобретения устройства формирования сигнатуры акустического сигнала 1 (УФС), содержащего блок разбиения на фреймы 2 (РФ), вход которого является входом устройства, а Порт вывода соединен с Портом ввода блока наложения оконной функции 3 (ОФ), аналогично подключенного через последовательно соединенные блок частотного преобразования 4 (ЧП), блок положительных преобразователей 5 (ПП), буфер задержки 6 (БЗ) и блок вычитателей 7 (БВ) к блоку разбиения на группы и подгруппы 8 (РГП). При этом Порт вывода ПП5 соединен с дополнительным Портом ввода БВ 7.
К Порту вывода РГП 8 подключен блок экстремальных значений 9 (ЭкстрЗн). С Порта выхода ЭкстрЗн 9 в блок накопления сигнатур 10 (БИС) поступают индексы групп с экстремальными значениями для аудио-сигнатур каждого из фреймов, где из них составляют последовательность сигнатур отдельных фреймов, являющуюся аудио-сигнатурой звукового фрагмента (акустического сигнала). Выход БНС 10 является выходом устройства формирования сигнатуры акустического сигнала, с которого сформированную сигнатуру акустического сигнала передают для дальнейшего использования.
Далее способ формирования сигнатуры акустического сигнала описан на примере работы описанного устройства формирования сигнатуры акустического сигнала.
На вход устройства формирования аудио-сигнатуры поступает оцифрованный акустический сигнал, из которого далее получают аудио-сигнатуру следующим образом:
(1) Оцифрованный звуковой сигнал в блоке РФ 2 разбивают на N≥1 фреймов (перекрывающихся или не перекрывающихся), каждый из которых передают через Порт вывода РФ 2;
(2) Затем в блоке ОФ 3 опционально на каждый фрейм накладывают оконную функцию (например, окно Ханна) для уменьшения эффекта боковых лепестков на выходе блока частотного преобразования.
(3) Далее в блоке ЧП 4 выполняют частотное преобразование для каждого текущего фрейма, получая данные через Порт ввода ЧП 4. В настоящей реализации изобретений вычисляют преобразование Фурье. Возможно также использование любых других известных преобразований, например, быстрого преобразования Фурье, дискретного косинусного преобразования. Преобразованные сигналы передают через Порт вывода ЧП 4;
(4) В блоке ПП 5 последовательно берут квадраты амплитуд всех участков - отсчетов преобразованного сигнала каждого из фреймов (в соответствующем преобразователе), преобразуя все значения отсчетов (xk, 1≤k≤K, K - количество отсчетов фрейма) в положительные (далее - положительные отсчеты). В данной реализации используют функцию возведения в квадрат - получают набор
Figure 00000002
для каждого n-го фрейма. Возможно также использование других функций в преобразователях блока ПП 5 - например, взятие модуля (вычисление абсолютных значений отсчетов xk);
(5) БЗ 6 необходим для задержки найденных положительных отсчетов на выходе ПП 5 на N≥t≥1 фреймов (в данной реализации t=1);
(6) Через дополнительный Порт ввода и Порт ввода БВ 7 на каждый из вычитателей поступают соответствующие положительные отсчеты n-го и предыдущего (n-t) (в данном случае (n-1)-го) фрейма соответственно. Таким образом, в БВ 7 вычитателями вычисляют для каждого n-го фрейма разности между положительными отсчетами этого фрейма и соответствующими положительными отсчетами соседнего фрейма. То есть в каждом из К вычитателей из каждого выходного значения квадрата преобразования Фурье, вычисленного для текущего фрейма, вычитается соответствующее значение, вычисленное для предыдущего фрейма: D(n,k)=X(n,k)-X(n-1,k) при t=1 Причем в разных реализациях изобретений либо вычисляют D(1,k), имея предыдущие отсчеты X(0,k), либо вычисляют D(n,k), начиная с n=2. Далее D(n,k) будем называть дифференциальными значениями отсчетов;
(7) Далее в блоке РГП 8 все дифференциальные значения отсчетов D(n,k) текущего n-го фрейма (поступают в РГП через его Порт ввода) разбивают (объединяют) на М групп (m=1,2,…,М) по I≥1 подгрупп в каждой так, что внутри группы каждая подгруппа состоит из фиксированного числа Pm отсчетов D(n,k). Количество отсчетов в подгруппе внутри одной группы одинаковое. В другой группе количество отсчетов в подгруппе может быть иным. На фиг.3 приведен пример разбиения отсчетов для n-го фрейма для К=32: количество групп М=3, подгрупп в группе I=4, количество отсчетов в подгруппе - 2 или 3 (понятно, что схема имеет смысл, если К можно разбить на М групп по I подгруппе в каждой);
(8) Далее в блоке РГП 8 значения D(n,k), соответствующие каждой подгруппе, суммируют, так что для каждой группы получается набор суммарных значений S(n,m,i), которые с порта вывода РГП 8 поступают через Порт ввода ЭкстрЗн 9, а именно - на блок поиска максимального значения в этой группе (на Фиг.2 - МахЗн) в данной реализации изобретений;
(9) В соответствующих блоках МахЗн внутри каждой группы m=1,2,…,М находят подгруппу с максимальным значением суммы S(n,m,i), запоминают ее номер:
Figure 00000003
и передают в БНС 10 через его Порт ввода;
(10) Набор индексов
Figure 00000004
, m=1,2,…M представляет собой сигнатуру текущего n-го фрейма;
Так, находят сигнатуры каждого из 2≤n≤N фреймов выбранного акустического сигнала в данной реализации изобретений.
(11) Аудио-сигнатуру звукового фрагмента (или данного обработанного акустического сигнала) собирают (накапливают) в БИС 10. Сигнатура данного акустического сигнала представляет собой множество
Figure 00000005
, где 1+t≤n≤N.
В предпочтительном варианте, желательно, чтобы число подгрупп внутри одной группы равнялось I=2р, где р - целое число. В этом случае для представления одного индекса
Figure 00000004
потребуется целое число бит.
Для удобства последовательность выполнения описанного способа формирования сигнатуры n-го фрейма акустического сигнала дополнительно проиллюстрирована на фиг.4.
На фиг.5 изображена функциональная схема предлагаемого в качестве изобретения устройства идентификации акустического сигнала 29 (Устройство идентификации), позволяющего сравнивать и проводить поиск аудио-сигнатур принимаемых акустических сигналов с базой данных оригинальных аудио-сигнатур, вычисленных, как описано выше. Устройство идентификации содержит микрофон 30, являющийся входом устройства идентификации, сигнал с которого поступает на вход аналого-цифрового преобразователя 31 (АЦП), выход которого подключен к входу УФС 1, к выходу которого параллельно подключены первые входы S≥1 блоков сходства сигнатур 32 (БСС) - вычисленной сигнатуры поступающего акустического сигнала с оригинальной сигнатурой, подаваемой на второй вход каждого БСС из базы данных сигнатур. Выходы каждого из БСС 32 подключены к Порту ввода блока сравнения с порогом 34 (СП) для принятия решения, на вход которого подают значение порога совпадения сигнатур. На выход СП 34, являющийся выходом устройства идентификации, поступает решение о подлинности или неподлинности принимаемого сигнала. Вторые входы блоков БСС 32 и вход блока СП 34 являются портом ввода устройства идентификации.
Устройство идентификации работает следующим образом.
На вход устройства идентификации поступает акустический сигнал, который оцифровывают в АЦП 31. Формируют сигнатуру фрагмента этого сигнала в УФС 1, как описано выше. Затем передают ее в каждый из S блоков БСС. При этом на вторые входы блоков БСС поступают различные заранее рассчитанные оригинальные сигнатуры из имеющейся базы данных.
В каждом из БСС определяют степень сходства сигнатур - насколько совпадает найденная сигнатура с имеющейся оригинальной сигнатурой путем сравнения максимальных индексов
Figure 00000006
,
Figure 00000007
,
Figure 00000008
,… этих сигнатур. То есть при сравнении аудио-сигнатур в каждом из блоков БСС 32 фиксируют факт совпадения/несовпадения индексов
Figure 00000009
выделенного акустического сигнала и соответствующих индексов оригинальной аудио-сигнатуры, и подсчитывают число совпадающих индексов (степень сходства сигнатур). При идеальном совпадении аудиофрагментов, состоящих из N фреймов, число совпадающих индексов в аудио-сигнатуре будет равно (N-1)×M в данной реализации изобретений. При сравнении отличающихся (некоррелированных) фрагментов в среднем число совпадающих индексов будет приблизительно равно (N-1)×M/I. Поэтому оптимальный порог для принятия решения о совпадении аудиофрагментов Т устанавливают в диапазоне от (N-1)×M/I до (N-1)×M в зависимости от соотношений требуемой вероятности ложной тревоги и правильного обнаружения.
Степени сходства передают в СП 34, где среди них находят максимальное, сравнивают ее с выбранным значением порога Т, поступающим на вход СП 34, и принимают решение об идентификации (если максимальная степень сходства не меньше Т) либо ложности принимаемого сигнала (если максимальная степень сходства меньше Т).
Понятно, что в практической реализации при наличии больших баз оригинальных аудио-сигнатур используют большое количество БСС для увеличения скорости идентификации текущего акустического фрагмента сигнала, поступающего с микрофона. Причем для формирования новой аудио-сигнатуры текущего акустического сигнала может быть использован «скользящий метод» - из предыдущей сигнатуры удаляют сигнатуру первого фрейма и добавляют в конец предыдущей сигнатуры сигнатуру нового (следующего) фрейма принимаемого акустического сигнала.
Хотя отличительные признаки и элементы описаны в предпочтительных вариантах осуществления в конкретных комбинациях, надо понимать, что каждый отличительный признак или элемент может использоваться один без других отличительных признаков и элементов предпочтительных вариантов осуществления или в различных комбинациях с другими отличительными признаками и элементами настоящих изобретений или без них.
Например: - в блоке ЭкстрЗн 9 вместо максимальных могут определять минимальные значения;
- при наличии одного БСС 32 (S=1) нахождение максимума не требуется, поэтому в СП 34 сразу принимают решение о подлинности/ложности акустического сигнала по порогу Т;
- при наличии нескольких КСИ 32 для принятия решения среди найденных значений сходства сигнатур, поступающих на порт ввода СП 34, возможен поиск хотя бы одного, удовлетворяющего условию подлинности акустического сигнала,
и т.д.
Эффект от изобретения.
Экспериментально установлено, что при использовании рассматриваемой схемы вычисления и сравнения аудио-сигнатур с параметрами М=8 (число групп) и I=8 (число подгрупп в группе), характеристики обнаружения акустических фрагментов превосходят соответствующие характеристики способа, предложенного в ближайшем аналоге. Так, при одинаковой вероятности ложного срабатывания предложенные способ и устройства показывают более высокую вероятность обнаружения одинаковых (но возможно зашумленных или искаженных) акустических фрагментов. При этом в способе [4] сигнатура занимает N*32 бит, а в предложенных изобретениях аудио-сигнатура занимает N*8*log2(8)=N*24 бит, то есть на 25% компактнее.
Кроме того, предложенные изобретения имеют еще одно преимущество при реализации на процессорах, не имеющих аппаратной поддержки инструкций для вычисления количества ненулевых бит в слове (к таковым относятся, например, популярные микропроцессоры семейства ARM). Так, если в известных методах (например, [4], [5]) при сравнении сигнатур требуется одна операция вычисления веса (количества «1») 32-битного слова на каждый фрейм, то в предлагаемых изобретениях такую операцию можно использовать всего лишь один раз для четырех фреймов при соответствующем форматировании сигнатур. В результате поиск и сравнение сигнатур на типовых мобильных процессорах с использованием изобретений, предложенных в настоящей заявке, выполняется, от двух до четырех раз быстрее аналогов.
На фиг.6 приведен пример сравнения результатов работы предложенных изобретений с ближайшим аналогом [4]. В данном случае входной фрагмент разбивался на 415 фреймов и сравнивался с эталонным набором сигнатур, вычисленных по 9.5-минутному аудиотреку. Эталонный аудиотрек был разбит на 48300 перекрывающихся образцов сигнатур по 415 фреймов в каждом. На вход микрофона подавался сильно зашумленный акустический сигнал, соответствующий отрезку эталонного аудиотрека на 97-102 секундах звучания. В обоих случаях использовались одинаковые размеры фреймов и одинаковое перекрытие фреймов. В первом случае была вычислена вероятность битовой ошибки (BER) согласно ближайшему аналогу. Как видно из графика на фиг.6(а), BER колеблется возле значения 0.5, и даже там, где ожидается совпадение фрагмента с эталонным образцом, точка (с), BER не опускается ниже порога обнаружения. Для предложенных изобретений метрикой является количество совпадающих индексов (фиг.6(b)). Как видно из графика, это значение колеблется в диапазоне от 320 до 550, но в точке, где зашумленный аудиофрагмент совпадает с эталонным образцом (точка d), количество совпадающих индексов в аудио-сигнатуре резко возрастает - больше 720, что значительно превышает средний уровень и порог обнаружения (рассчитанный на вероятность ложной тревоги менее 10-6).
Литература
Figure 00000010

Claims (11)

1. Устройство формирования сигнатуры акустического сигнала, содержащее блок разбиения на фреймы, вход которого является входом устройства, а порт вывода подключен к порту ввода блока частотного преобразования, отличающееся тем, что содержит последовательно соединенные посредством их портов вывода и портов ввода подключенный к блоку частотного преобразования блок положительных преобразователей, буфер задержки, блок вычитателей, блок разбиения на группы и подгруппы, блок экстремальных значений и блок накопления сигнатур, выход которого является выходом устройства, причем порт вывода блока положительных преобразователей соединен с дополнительным портом ввода блока вычитателей.
2. Устройство формирования сигнатуры акустического сигнала по п.1, отличающееся тем, что блок разбиения на фреймы подключен к блоку частотного преобразования через блок наложения оконной функции.
3. Устройство формирования сигнатуры акустического сигнала по п.1, отличающееся тем, что блок положительных преобразователей реализован на квадратичной функции либо взятии модуля.
4. Устройство формирования сигнатуры акустического сигнала по п.1, отличающееся тем, что блок частотного преобразования реализован на преобразовании Фурье либо быстром преобразовании Фурье.
5. Устройство формирования сигнатуры акустического сигнала по п.1, отличающееся тем, что в блоке разбиения на фреймы разбивают входной сигнал на перекрывающиеся фреймы.
6. Способ формирования сигнатуры акустического сигнала из сигнатур фреймов, на которые разбит акустический сигнал, включающий выполнение частотного преобразования оцифрованного акустического сигнала каждого n-го (1≤n≤N) упомянутого фрейма, отличающийся тем, что
для каждого фрейма преобразуют значения амплитуд всех отсчетов преобразованного сигнала в положительные,
для каждого n-го фрейма, начиная с (1+t)-го (где 1≤t≤N), вычисляют разности между найденными положительными отсчетами и соответствующими положительными отсчетами предыдущего (n-t) фрейма,
полученные дифференциальные отсчеты объединяют в подгруппы, определяют сумму найденных дифференциальных отсчетов каждой из подгрупп,
объединяют подгруппы с одинаковым количеством дифференциальных отсчетов в группы, для каждой группы определяют номер подгруппы с максимальной либо с минимальной суммой дифференциальных отсчетов,
из упомянутых номеров подгрупп формируют сигнатуру n-го (где (1+t)≤n≤N) фрейма акустического сигнала.
7. Способ формирования сигнатуры акустического сигнала по п.6, отличающийся тем, что для выполнения частотного преобразования на оцифрованный акустический сигнал каждого n-го (1≤n≤N) фрейма накладывают оконную функцию.
8. Способ вычисления сигнатуры акустического сигнала по п.6, отличающийся тем, что для положительных преобразований значений отсчетов используют квадратичную функцию либо взятие модуля.
9. Способ вычисления сигнатуры акустического сигнала по п.6, отличающийся тем, что для выполнения частотного преобразования используют преобразование Фурье либо быстрое преобразование Фурье.
10. Способ вычисления сигнатуры акустического сигнала по п.6, отличающийся тем, что акустический сигнал разбивают на перекрывающиеся фреймы.
11. Устройство идентификации акустического сигнала, содержащее микрофон, являющийся входом устройства, к которому через аналого-цифровой преобразователь (АЦП) подключено устройство формирования сигнатуры акустического сигнала, к выходу которого подключен хотя бы один блок сходства сигнатур, выход которого подключен к порту ввода блока сравнения с порогом для принятия решения, выход которого является выходом устройства, причем второй вход упомянутого блока сходства сигнатур и вход блока сравнения с порогом являются портом ввода устройства, отличающееся тем, что устройство формирования сигнатуры акустического сигнала выполнено по п.1.
RU2011137870/08A 2011-09-15 2011-09-15 Устройство и способ формирования сигнатуры акустического сигнала, устройство идентификации акустического сигнала RU2459281C1 (ru)

Priority Applications (1)

Application Number Priority Date Filing Date Title
RU2011137870/08A RU2459281C1 (ru) 2011-09-15 2011-09-15 Устройство и способ формирования сигнатуры акустического сигнала, устройство идентификации акустического сигнала

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
RU2011137870/08A RU2459281C1 (ru) 2011-09-15 2011-09-15 Устройство и способ формирования сигнатуры акустического сигнала, устройство идентификации акустического сигнала

Publications (1)

Publication Number Publication Date
RU2459281C1 true RU2459281C1 (ru) 2012-08-20

Family

ID=46936802

Family Applications (1)

Application Number Title Priority Date Filing Date
RU2011137870/08A RU2459281C1 (ru) 2011-09-15 2011-09-15 Устройство и способ формирования сигнатуры акустического сигнала, устройство идентификации акустического сигнала

Country Status (1)

Country Link
RU (1) RU2459281C1 (ru)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
RU2606567C2 (ru) * 2015-02-16 2017-01-10 Общество С Ограниченной Ответственностью "Яндекс" Способ сравнения первого входящего аудиотрека с индексированным аудиотреком
US9558272B2 (en) 2014-08-14 2017-01-31 Yandex Europe Ag Method of and a system for matching audio tracks using chromaprints with a fast candidate selection routine
RU2628118C2 (ru) * 2015-02-16 2017-08-15 Общество С Ограниченной Ответственностью "Яндекс" Способ формирования и использования инвертированного индекса аудиозаписи и машиночитаемый носитель информации
US9881083B2 (en) 2014-08-14 2018-01-30 Yandex Europe Ag Method of and a system for indexing audio tracks using chromaprints
RU2647696C2 (ru) * 2013-10-21 2018-03-16 МАЙКРОСОФТ ТЕКНОЛОДЖИ ЛАЙСЕНСИНГ, ЭлЭлСи Мобильный видеопоиск
RU2669128C2 (ru) * 2013-10-11 2018-10-08 Сафран Эркрафт Энджинз Способ и система для акустического анализа машины

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
RU96116251A (ru) * 1996-08-08 1998-11-20 Н.В. Байчаров Способ идентификации личности по фонограммам произвольной устной речи
RU2184399C2 (ru) * 2000-09-22 2002-06-27 Государственное предприятие конструкторское бюро "СПЕЦВУЗАВТОМАТИКА" Способ выделения основного тона из речевого сигнала
US7549052B2 (en) * 2001-02-12 2009-06-16 Gracenote, Inc. Generating and matching hashes of multimedia content
RU2385272C1 (ru) * 2009-04-30 2010-03-27 Общество с ограниченной ответственностью "Стэл-Компьютерные Системы" Система голосовой идентификации диктора
RU2419890C1 (ru) * 2009-09-24 2011-05-27 Общество с ограниченной ответственностью "Центр речевых технологий" Способ идентификации говорящего по фонограммам произвольной устной речи на основе формантного выравнивания

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
RU2107950C1 (ru) * 1996-08-08 1998-03-27 Николай Владимирович Байчаров Способ идентификации личности по фонограммам произвольной устной речи

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
RU96116251A (ru) * 1996-08-08 1998-11-20 Н.В. Байчаров Способ идентификации личности по фонограммам произвольной устной речи
RU2184399C2 (ru) * 2000-09-22 2002-06-27 Государственное предприятие конструкторское бюро "СПЕЦВУЗАВТОМАТИКА" Способ выделения основного тона из речевого сигнала
US7549052B2 (en) * 2001-02-12 2009-06-16 Gracenote, Inc. Generating and matching hashes of multimedia content
RU2385272C1 (ru) * 2009-04-30 2010-03-27 Общество с ограниченной ответственностью "Стэл-Компьютерные Системы" Система голосовой идентификации диктора
RU2419890C1 (ru) * 2009-09-24 2011-05-27 Общество с ограниченной ответственностью "Центр речевых технологий" Способ идентификации говорящего по фонограммам произвольной устной речи на основе формантного выравнивания

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
RU2669128C2 (ru) * 2013-10-11 2018-10-08 Сафран Эркрафт Энджинз Способ и система для акустического анализа машины
RU2647696C2 (ru) * 2013-10-21 2018-03-16 МАЙКРОСОФТ ТЕКНОЛОДЖИ ЛАЙСЕНСИНГ, ЭлЭлСи Мобильный видеопоиск
US10452712B2 (en) 2013-10-21 2019-10-22 Microsoft Technology Licensing, Llc Mobile video search
US9558272B2 (en) 2014-08-14 2017-01-31 Yandex Europe Ag Method of and a system for matching audio tracks using chromaprints with a fast candidate selection routine
US9881083B2 (en) 2014-08-14 2018-01-30 Yandex Europe Ag Method of and a system for indexing audio tracks using chromaprints
RU2606567C2 (ru) * 2015-02-16 2017-01-10 Общество С Ограниченной Ответственностью "Яндекс" Способ сравнения первого входящего аудиотрека с индексированным аудиотреком
RU2628118C2 (ru) * 2015-02-16 2017-08-15 Общество С Ограниченной Ответственностью "Яндекс" Способ формирования и использования инвертированного индекса аудиозаписи и машиночитаемый носитель информации

Similar Documents

Publication Publication Date Title
RU2459281C1 (ru) Устройство и способ формирования сигнатуры акустического сигнала, устройство идентификации акустического сигнала
JP6535706B2 (ja) データセットの3値ビットマップを作成するための方法
US10019998B2 (en) Detecting distorted audio signals based on audio fingerprinting
US8492633B2 (en) Musical fingerprinting
TWI480855B (zh) 聲音訊號之特徵指紋擷取與匹配
US20140310006A1 (en) Method to generate audio fingerprints
JP2005535920A (ja) バックエンドの音声検出装置を有する配信音声認識および方法
JP6466334B2 (ja) リアルタイム交通検出
EP2149879B1 (en) Noise detecting device and noise detecting method
US20140074469A1 (en) Apparatus and Method for Generating Signatures of Acoustic Signal and Apparatus for Acoustic Signal Identification
US20100332238A1 (en) Method and System for Lossless Value-Location Encoding
CN102612711A (zh) 信号处理方法、信息处理装置和用于存储信号处理程序的存储介质
KR100735343B1 (ko) 음성신호의 피치 정보 추출장치 및 방법
AU2024200622A1 (en) Methods and apparatus to fingerprint an audio signal via exponential normalization
CN101042870A (zh) 用于评估声音间相似度的方法和设备
CN113674763A (zh) 利用线谱特性的鸣笛声识别方法及系统、设备与存储介质
CN111382302B (zh) 一种基于变速模板的音频样例检索方法
CN111081269B (zh) 通话过程中的噪声检测方法及系统
CN112581975A (zh) 基于信号混叠和双声道相关性的超声波语音指令防御方法
CN109558509B (zh) 一种广播音频中广告检索的方法和装置
KR20130104878A (ko) 에너지 및 통계적 필터링을 이용한 음악 검색 방법, 장치 및 시스템
CN110910899B (zh) 一种实时音频信号一致性对比检测方法
Shang et al. A preliminary study of factors affecting the performance of a playback attack detector
Sokol et al. Automatic Speaker Verification on Compressed Audio
CN111382303A (zh) 一种基于指纹权重的音频样例检索方法

Legal Events

Date Code Title Description
MM4A The patent is invalid due to non-payment of fees

Effective date: 20150916