RU2712652C1 - Устройство и способ для гармонического/перкуссионного/остаточного разделения звука с использованием структурного тензора на спектрограммах - Google Patents

Устройство и способ для гармонического/перкуссионного/остаточного разделения звука с использованием структурного тензора на спектрограммах Download PDF

Info

Publication number
RU2712652C1
RU2712652C1 RU2018136575A RU2018136575A RU2712652C1 RU 2712652 C1 RU2712652 C1 RU 2712652C1 RU 2018136575 A RU2018136575 A RU 2018136575A RU 2018136575 A RU2018136575 A RU 2018136575A RU 2712652 C1 RU2712652 C1 RU 2712652C1
Authority
RU
Russia
Prior art keywords
frequency
time
frequency bin
depending
bin
Prior art date
Application number
RU2018136575A
Other languages
English (en)
Inventor
Андреас НИДЕРМАЙЕР
Ричард ФЮГ
Саша ДИШ
Майнард МЮЛЛЕР
Йонатан ДРИДГЕР
Original Assignee
Фраунхофер-Гезелльшафт Цур Фердерунг Дер Ангевандтен Форшунг Е.Ф.
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Фраунхофер-Гезелльшафт Цур Фердерунг Дер Ангевандтен Форшунг Е.Ф. filed Critical Фраунхофер-Гезелльшафт Цур Фердерунг Дер Ангевандтен Форшунг Е.Ф.
Application granted granted Critical
Publication of RU2712652C1 publication Critical patent/RU2712652C1/ru

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10HELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
    • G10H1/00Details of electrophonic musical instruments
    • G10H1/36Accompaniment arrangements
    • G10H1/40Rhythm
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/60Information retrieval; Database structures therefor; File system structures therefor of audio data
    • G06F16/68Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/683Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F17/00Digital computing or data processing equipment or methods, specially adapted for specific functions
    • G06F17/10Complex mathematical operations
    • G06F17/16Matrix or vector computation, e.g. matrix-matrix or matrix-vector multiplication, matrix factorization
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10HELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
    • G10H2210/00Aspects or methods of musical processing having intrinsic musical character, i.e. involving musical theory or musical parameters or relying on musical knowledge, as applied in electrophonic musical tools or instruments
    • G10H2210/031Musical analysis, i.e. isolation, extraction or identification of musical elements or musical parameters from a raw acoustic signal or from an encoded audio signal
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10HELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
    • G10H2250/00Aspects of algorithms or signal processing methods without intrinsic musical character, yet specifically adapted for or used in electrophonic musical processing
    • G10H2250/025Envelope processing of music signals in, e.g. time domain, transform domain or cepstrum domain
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10HELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
    • G10H2250/00Aspects of algorithms or signal processing methods without intrinsic musical character, yet specifically adapted for or used in electrophonic musical processing
    • G10H2250/025Envelope processing of music signals in, e.g. time domain, transform domain or cepstrum domain
    • G10H2250/031Spectrum envelope processing
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10HELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
    • G10H2250/00Aspects of algorithms or signal processing methods without intrinsic musical character, yet specifically adapted for or used in electrophonic musical processing
    • G10H2250/131Mathematical functions for musical analysis, processing, synthesis or composition
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10HELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
    • G10H2250/00Aspects of algorithms or signal processing methods without intrinsic musical character, yet specifically adapted for or used in electrophonic musical processing
    • G10H2250/131Mathematical functions for musical analysis, processing, synthesis or composition
    • G10H2250/215Transforms, i.e. mathematical transforms into domains appropriate for musical signal processing, coding or compression
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10HELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
    • G10H2250/00Aspects of algorithms or signal processing methods without intrinsic musical character, yet specifically adapted for or used in electrophonic musical processing
    • G10H2250/131Mathematical functions for musical analysis, processing, synthesis or composition
    • G10H2250/215Transforms, i.e. mathematical transforms into domains appropriate for musical signal processing, coding or compression
    • G10H2250/221Cosine transform; DCT [discrete cosine transform], e.g. for use in lossy audio compression such as MP3
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10HELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
    • G10H2250/00Aspects of algorithms or signal processing methods without intrinsic musical character, yet specifically adapted for or used in electrophonic musical processing
    • G10H2250/131Mathematical functions for musical analysis, processing, synthesis or composition
    • G10H2250/215Transforms, i.e. mathematical transforms into domains appropriate for musical signal processing, coding or compression
    • G10H2250/235Fourier transform; Discrete Fourier Transform [DFT]; Fast Fourier Transform [FFT]
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10HELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
    • G10H2250/00Aspects of algorithms or signal processing methods without intrinsic musical character, yet specifically adapted for or used in electrophonic musical processing
    • G10H2250/131Mathematical functions for musical analysis, processing, synthesis or composition
    • G10H2250/261Window, i.e. apodization function or tapering function amounting to the selection and appropriate weighting of a group of samples in a digital signal within some chosen time interval, outside of which it is zero valued

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Data Mining & Analysis (AREA)
  • Mathematical Physics (AREA)
  • Acoustics & Sound (AREA)
  • Library & Information Science (AREA)
  • General Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Pure & Applied Mathematics (AREA)
  • Mathematical Optimization (AREA)
  • Mathematical Analysis (AREA)
  • Computational Mathematics (AREA)
  • Algebra (AREA)
  • Software Systems (AREA)
  • Computing Systems (AREA)
  • Measurement Of Mechanical Vibrations Or Ultrasonic Waves (AREA)
  • Auxiliary Devices For Music (AREA)

Abstract

Заявленное устройство относится к устройству для анализа спектрограммы уровня аудиосигнала. Устройство содержит модуль определения изменения частоты, выполненный с возможностью определять изменение частоты для каждого частотно-временного бина из множества частотно-временных бинов спектрограммы уровня аудиосигнала в зависимости от спектрограммы уровня аудиосигнала. Кроме того, устройство содержит классификатор, выполненный с возможностью назначать каждый частотно-временной бин из множества частотно-временных бинов группе компонентов сигнала из двух или более групп компонентов сигнала в зависимости от изменения частоты, определенного для упомянутого частотно-временного бина. Устройство обеспечивает усовершенствованные принципы обработки аудиосигнала. 3 н. и 14 з.п. ф-лы, 6 ил.

Description

Настоящее изобретение относится к обработке аудиосигналов и, в частности, к устройству и способу для гармонического/перкуссионного/остаточного разделения звука с использованием структурного тензора на спектрограммах.
Возможность разделять звук на его гармонический и перкуссионный компонент представляет собой эффективный этап предварительной обработки для многих вариантов применения.
Хотя "гармоническое/перкуссионное/(остаточное) разделение" является общим термином, оно вводит в заблуждение, поскольку оно подразумевает гармоническую структуру с синусоидами, имеющими частоту, равную целому кратному от основной частоты. Даже несмотря на то, что правильный термин должен быть "тональное/перкуссионное/(остаточное) разделение", термин "гармоническое" вместо "тонального" используется далее для более простого понимания.
Использование разделенного перкуссионного компонента звукозаписи, например, может приводить к повышению качества для отслеживания биения (см. [1]), анализа ритма и переложения ритм-инструментов. Разделенный гармонический компонент является подходящим для переложения инструментов с несколькими основными тонами и обнаружения хорды (см. [3]). Кроме того, гармоническое/перкуссионное разделение может использоваться для целей повторного микширования, таких как изменение отношения уровня между обоими компонентами сигнала (см. [4]), что приводит к "более плавному" или "более штампованному" общему восприятию звука.
Некоторые способы для гармонического/перкуссионного разделения звука базируются на таком допущении, что гармонические звуки имеют горизонтальную структуру на спектрограмме уровня входного сигнала (в направлении времени), в то время как перкуссионные звуки появляются в качестве вертикальных структур (в направлении частоты). В работе авторов Ono и др. представлен способ, который сначала создает гармонически/перкуссионно улучшенные спектрограммы посредством диффузии в частотно-временном направлении (см. [5]). Посредством сравнения этих улучшенных представлений впоследствии, может извлекаться решение, если звук является гармоническим или перкуссионным.
Аналогичный способ опубликован в работе автора Fitzgerald, в которой улучшенные спектрограммы вычислены посредством использования медианной фильтрации в перпендикулярных направлениях вместо диффузии (см. [6]), что приводит к аналогичным результатам при одновременном снижении вычислительной сложности.
Под влиянием модели прохождения сигналов "синусоды+переходные части+шум" (S+T+N) (см. [7], [8], [9]), эта инфраструктура стремится описывать соответствующие компоненты сигнала посредством небольшого набора параметров. Способ Fitzgerald затем расширен на гармоническое/перкуссионное/остаточное (HPR) разделение в [10]. Поскольку аудиосигналы зачастую состоят из звуков, которые не являются ни четко гармоническими, ни перкуссионными, эта процедура захватывает эти звуки в третьем остаточном компоненте. Хотя некоторые из этих остаточных сигналов четко имеют изотропную, ни горизонтальную, ни вертикальную, структуру (такую, как, например, шум), существуют звуки, которые не имеют четкой горизонтальной структуры, но, тем не менее, переносят тональную информацию и могут восприниматься как гармоническая часть звука. Пример представляет собой частотно-модулированные тона, которые могут возникать в записях вследствие игры на скрипке или вокалов, в которых они, как говорят, имеют "вибрато". Вследствие стратегии распознавания горизонтальных либо вертикальных структур вышеуказанные способы не всегда имеют возможность захватывать такие звуки в своем гармоническом компоненте.
Процедура гармонического/перкуссионного разделения на основе неотрицательной матричной факторизации, которая допускает захват гармонических звуков с негоризонтальными спектральными структурами в гармоническом компоненте, предложена в [11]. Тем не менее, она не включает в себя третий остаточный компонент.
Если обобщить вышесказанное, недавние способы основываются на таком наблюдении, что, в представлении в виде спектрограммы, гармонические звуки приводят к горизонтальным структурам, а перкуссионные звуки приводят к вертикальным структурам. Кроме того, эти способы ассоциируют структуры, которые не являются ни горизонтальными, ни вертикальными (т.е. негармонические, неперкуссионные звуки), с остаточной категорией. Тем не менее, это допущение не применимо для таких сигналов, как частотно-модулированные тона, которые демонстрируют колеблющиеся спектральные структуры, тем не менее, при одновременном переносе тональной информации.
Структурный тензор, инструментальное средство, используемое в обработке изображений (см. [12], [13]), применяется к полутоновым изображениям для обнаружения краев и углов (см. [14]), либо для того, чтобы оценивать ориентацию объекта. Структурный тензор уже использован для предварительной обработки и извлечения признаков в аудиообработке (см. [15], [16]).
Цель настоящего изобретения заключается в том, чтобы предоставлять усовершенствованные принципы для обработки аудиосигналов. Цель настоящего изобретения достигается посредством устройства по п. 1, посредством способа по п. 16 и посредством компьютерной программы по п. 17.
Предусмотрено устройство для анализа спектрограммы уровня аудиосигнала. Устройство содержит модуль определения изменения частоты, выполненный с возможностью определять изменение частоты для каждого частотно-временного бина (элемента разрешения) из множества частотно-временных бинов спектрограммы уровня аудиосигнала в зависимости от спектрограммы уровня аудиосигнала. Кроме того, устройство содержит классификатор, выполненный с возможностью назначать каждый частотно-временной бин из множества частотно-временных бинов группе компонентов сигнала из двух или более групп компонентов сигнала в зависимости от изменения частоты, определенного для упомянутого частотно-временного бина.
Кроме того, предусмотрен способ для анализа спектрограммы уровня аудиосигнала. Способ содержит:
- определение изменения частоты для каждого частотно-временного бина из множества частотно-временных бинов спектрограммы уровня аудиосигнала в зависимости от спектрограммы уровня аудиосигнала; и
- назначение каждого частотно-временного бина из множества частотно-временных бинов группе компонентов сигнала из двух или более групп компонентов сигнала в зависимости от изменения частоты, определенного для упомянутого частотно-временного бина.
Кроме того, предусмотрена компьютерная программа, при этом компьютерная программа выполнена с возможностью реализовывать вышеописанный способ при выполнении на компьютере или в процессоре сигналов.
Далее подробнее описываются варианты осуществления настоящего изобретения в отношении чертежей, на которых:
Фиг. 1 иллюстрирует устройство для анализа спектрограммы уровня аудиосигнала согласно варианту осуществления,
Фиг. 2 иллюстрирует спектрограмму смешения певческого голоса, кастаньет и аплодисментов с увеличенной по масштабу областью, согласно варианту осуществления, при этом ориентация стрелок указывает направление, и при этом длина стрелок указывает показатель анизотропии,
Фиг. 3 иллюстрирует диапазон значений ориентации/анизотропии, вычисленных посредством использования структурного тензора согласно варианту осуществления,
Фиг. 4 иллюстрирует сравнение между HPR-M- и HPR-ST-способом для отрывка синтетического входного сигнала,
Фиг. 5 иллюстрирует устройство, согласно варианту осуществления, при этом устройство содержит генератор сигналов, и
Фиг. 6 иллюстрирует устройство, согласно варианту осуществления, при этом устройство содержит один или более микрофонов для записи аудиосигнала.
Фиг. 1 иллюстрирует устройство для анализа спектрограммы уровня аудиосигнала согласно вариантам осуществления.
Устройство содержит модуль 110 определения изменения частоты. Модуль 110 определения изменения частоты выполнен с возможностью определять изменение частоты для каждого частотно-временного бина из множества частотно-временных бинов спектрограммы уровня аудиосигнала в зависимости от спектрограммы уровня аудиосигнала.
Кроме того, устройство содержит классификатор 120. Классификатор 120 выполнен с возможностью назначать каждый частотно-временной бин из множества частотно-временных бинов группе компонентов сигнала из двух или более групп компонентов сигнала в зависимости от изменения частоты, определенного для упомянутого частотно-временного бина.
Согласно варианту осуществления, модуль 110 определения изменения частоты, например, может быть выполнен с возможностью определять изменение частоты для каждого частотно-временного бина из множества частотно-временных бинов в зависимости от угла
Figure 00000001
для упомянутого частотно-временного бина. Угол
Figure 00000001
для упомянутого частотно-временного бина зависит от спектрограммы уровня аудиосигнала.
В варианте осуществления, модуль 110 определения изменения частоты, например, может быть выполнен с возможностью определять изменение частоты для каждого частотно-временного бина из множества частотно-временных бинов дополнительно в зависимости от частоты f s дискретизаци и аудиосигнала и в зависимости от длины N аналитической оконной функции, и в зависимости от размера H скачка аналитической оконной функции.
Согласно варианту осуществления, модуль 110 определения изменения частоты устройства выполнен с возможностью определять изменение частоты для каждого частотно-временного бина из множества частотно-временных бинов в зависимости от формулы:
Figure 00000002
Figure 00000003
указывает частотно-временной бин из множества частотно-временных бинов, при этом
Figure 00000004
указывает изменение частоты для упомянутого частотно-временного бина
Figure 00000005
, при этом b указывает время, при этом k указывает частоту, при этом f s указывает частоту дискретизации аудиосигнала, при этом N указывает длину аналитической оконной функции, при этом H указывает размер скачка аналитической оконной функции, и при этом
Figure 00000006
указывает угол для упомянутого частотно-временного бина
Figure 00000005
, при этом угол
Figure 00000001
зависит от спектрограммы уровня.
В варианте осуществления, модуль 110 определения изменения частоты, например, может быть выполнен с возможностью определять частную производную S b спектрограммы S уровня аудиосигнала относительно временного индекса. В таком варианте осуществления, модуль 110 определения изменения частоты, например, может быть выполнен с возможностью определять частную производную S k спектрограммы S уровня аудиосигнала относительно временного индекса.
Кроме того, в таком варианте осуществления модуль 110 определения изменения частоты выполнен с возможностью определять структурный тензор
Figure 00000007
для каждого частотно-временного бина
Figure 00000005
из множества частотно-временных бинов в зависимости от частной производной S b спектрограммы S уровня аудиосигнала относительно временного индекса и в зависимости от частной производной S k спектрограммы S уровня аудиосигнала относительно частотного индекса.
Кроме того, в таком варианте осуществления модуль 110 определения изменения частоты, например, может быть выполнен с возможностью определять угол
Figure 00000001
для каждого частотно-временного бина
Figure 00000005
из множества частотно-временных бинов в зависимости от структурного тензора
Figure 00000008
для упомянутого частотно-временного бина
Figure 00000005
.
Согласно варианту осуществления, модуль 110 определения изменения частоты, например, может быть выполнен с возможностью определять угол
Figure 00000001
для каждого частотно-временного бина
Figure 00000005
из множества частотно-временных бинов посредством определения двух компонентов
Figure 00000009
и
Figure 00000010
собственного вектора
Figure 00000011
структурного тензора (
Figure 00000008
) упомянутого частотно-временного бина
Figure 00000005
и посредством определения угла (
Figure 00000001
) для упомянутого частотно-временного бина
Figure 00000012
согласно следующему:
Figure 00000013
.
Figure 00000001
указывает угол для упомянутого частотно-временного бина
Figure 00000012
, при этом b указывает время, при этом k указывает частоту, и при этом atan() указывает обратную функцию тангенса.
В варианте осуществления классификатор 120, например, может быть выполнен с возможностью определять показатель анизотропии для каждого частотно-временного бина
Figure 00000005
из множества частотно-временных бинов в зависимости, по меньшей мере, от одной из формул:
Figure 00000014
и
Figure 00000015
,
Figure 00000016
является первым собственным значением, λ
Figure 00000017
является вторым собственным значением структурного тензора (
Figure 00000018
) упомянутого частотно-временного бина
Figure 00000005
, и
Figure 00000019
.
В таком варианте осуществления классификатор 120, например, может быть выполнен с возможностью назначать каждый частотно-временной бин из множества частотно-временных бинов группе компонентов сигнала из двух или более групп компонентов сигнала дополнительно в зависимости от изменения показателя анизотропии.
Согласно варианту осуществления классификатор 120, например, может быть выполнен с возможностью определять показатель анизотропии для упомянутого частотно-временного бина
Figure 00000005
в зависимости от формулы:
Figure 00000020
Figure 00000021
является показателем анизотропии в зависимости от упомянутого частотно-временного бина
Figure 00000005
, и при этом классификатор 120 выполнен с возможностью назначать упомянутый частотно-временной бин
Figure 00000005
группе остаточных компонентов из двух или более групп компонентов сигнала, если показатель
Figure 00000021
анизотропии меньше первого порогового значения c, либо при этом классификатор 120 выполнен с возможностью назначать упомянутый частотно-временной бин
Figure 00000005
группе остаточных компонентов из двух или более групп компонентов сигнала, если показатель
Figure 00000021
анизотропии меньше или равен первому пороговому значению c, при этом
Figure 00000022
.
В варианте осуществления классификатор 120, например, может быть выполнен с возможностью назначать каждый частотно-временной бин из множества частотно-временных бинов группе компонентов сигнала из двух или более групп компонентов сигнала в зависимости от изменения
Figure 00000004
частоты, определенного для упомянутого частотно-временного бина
Figure 00000005
, так что классификатор 120 назначает частотно-временной бин из множества частотно-временных бинов группе гармонических компонентов сигнала из двух или более групп компонентов сигнала в зависимости от того, меньше или нет абсолютное значение
Figure 00000023
изменения
Figure 00000004
частоты, определенного для упомянутого частотно-временного бина
Figure 00000005
, второго порогового значения
Figure 00000024
, либо в зависимости от того, меньше или равно либо нет абсолютное значение
Figure 00000025
изменения
Figure 00000004
частоты, определенного для упомянутого частотно-временного бина
Figure 00000005
, второму пороговому значению
Figure 00000026
, при этом
Figure 00000027
.
Согласно варианту осуществления классификатор 120, например, может быть выполнен с возможностью назначать каждый частотно-временной бин из множества частотно-временных бинов группе компонентов сигнала из двух или более групп компонентов сигнала в зависимости от изменения
Figure 00000004
частоты, определенного для упомянутого частотно-временного бина
Figure 00000005
, так что классификатор 120 назначает частотно-временной бин из множества частотно-временных бинов группе перкуссионных компонентов сигнала из двух или более групп компонентов сигнала в зависимости от того, превышает или нет абсолютное значение
Figure 00000023
изменения
Figure 00000004
частоты, определенного для упомянутого частотно-временного бина
Figure 00000005
, третье пороговое значение
Figure 00000028
, либо в зависимости от того, превышает или равно либо нет абсолютное значение
Figure 00000025
изменения (
Figure 00000004
) частоты, определенного для упомянутого частотно-временного бина
Figure 00000029
, третьему пороговому значению
Figure 00000030
, при этом
Figure 00000031
.
Далее предоставляется подробное описание вариантов осуществления.
Варианты осуществления предоставляют усовершенствованные принципы для гармонического/перкуссионного/остаточного разделения звука на основе структурного тензора. Некоторые варианты осуществления захватывают частотно-модулированные звуки, которые содержат тональную информацию в гармоническом компоненте, посредством использования информации относительно ориентации спектральных структур, предоставленной посредством структурного тензора.
Некоторые варианты осуществления основаны на таких выявленных сведениях, что строгая классификация на горизонтальные и вертикальные является неподходящей для этих сигналов и может приводить к утечке тональной информации в остаточный компонент. Варианты осуществления относятся к новому способу, который вместо этого использует структурный тензор, математическое инструментальное средство, для того чтобы вычислять преобладающие углы ориентации на спектрограмме уровня. Варианты осуществления используют эту информацию ориентации для того, чтобы отличать между гармоническими, перкуссионными и остаточными компонентами сигнала, даже в случае частотно-модулированных сигналов. В завершение, эффективность принципа вариантов осуществления верифицируется посредством как объективных показателей оценки, так и аудиопримеров.
Кроме того, некоторые варианты осуществления основаны на таких выявленных сведениях, что структурный тензор может считаться "черным ящиком", в котором ввод представляет собой полутоновое изображение, а выводы представляют собой углы n для каждого пиксела, соответствующего направлению наименьшего изменения и показателю достоверности или анизотропии для этого направления для каждого пиксела. Структурный тензор дополнительно предлагает возможность сглаживания, что уменьшает влияние шума для повышенной устойчивости. Кроме того показатель достоверности может использоваться для того, чтобы определять качество оцененных углов. Низкое значение этого показателя достоверности указывает то, что пиксел находится в области с постоянной яркостью без четкого направления.
Изменение локальной частоты, например, может извлекаться из углов, полученных посредством структурного тензора. Из этих углов можно определять то, принадлежит частотно-временной бин на спектрограмме гармоническому (=с низким изменением локальной частоты) или перкуссионному (=с высоким или бесконечным изменением локальной частоты) компоненту.
Предусмотрены улучшенные варианты осуществления для гармонической/перкуссионной/остаточной классификации и разделения.
Гармоническое/перкуссионное/остаточное разделение звука представляет собой полезное инструментальное средство предварительной обработки для таких вариантов применения, как переложение инструментов с несколькими основными тонами или извлечение ритма. Вместо выполнения поиска только строго горизонтальных и вертикальных структур, некоторые варианты осуществления определяют преобладающие углы ориентации, а также локальную анизотропию на спектрограмме посредством использования структурного тензора, известного из обработки изображений.
В вариантах осуществления предоставляемая информация относительно ориентации спектральных структур затем может использоваться для того, чтобы различать между гармоническими, перкуссионными и остаточными компонентами сигнала посредством задания соответствующих пороговых значений, см. фиг. 2.
Фиг. 2 иллюстрирует спектрограмму смешения певческого голоса, кастаньет и аплодисментов с увеличенной по масштабу областью, дополнительно показывающую направление (ориентация стрелок) и показатель анизотропии (длина стрелок), полученные посредством структурного тензора. Цвет стрелок указывает то, назначается соответствующий частотно-временной бин гармоническому компоненту (зоны 210) перкуссионному компоненту (зоны 230) или остаточному компоненту (зоны 220), на основе информации ориентации и анизотропии.
Все бины, имеющие ни высокую, ни низкую скорость изменения локальной частоты либо показатель достоверности, который указывает постоянную область, назначены таким образом, что они принадлежат остаточному компоненту. Пример для этого разделения спектрограммы можно видеть на фиг. 2. Варианты осуществления лучше работают для аудиосигналов, содержащих частотно-модулированные звуки, чем аналогичные способы, работающие на спектрограмме уровня.
Сначала описывается принцип структурного тензора, и этот общий принцип расширяется с возможностью применения в контексте аудиообработки.
В дальнейшем матрицы и векторы записываются в качестве полужирных букв для удобства обозначения. Кроме того, оператор (⋅) используется для того, чтобы индексировать конкретный элемент. В этом случае, матрица или вектор записывается в качестве неполужирной буквы, чтобы показывать ее скалярное использование.
Сначала описывается вычисление спектрограммы согласно вариантам осуществления. Аудиосигнал, например, может представлять собой (дискретный) входной аудиосигнал.
Структурный тензор может применяться к представлению в виде спектрограммы дискретного входного аудиосигнала
Figure 00000032
с частотой дискретизации в f s . Для спектрального анализа x, используется кратковременное преобразование Фурье (STFT):
Figure 00000033
, (1)
где X(b,k) C, b обозначает индекс кадра, k является частотным индексом, и w ∈ R N является оконной функцией длины N (другими словами: N является длиной аналитической оконной функции). HN, HN представляет размер скачка аналитической оконной функции. Следует отметить, что поскольку STFT-спектр имеет определенную симметрию вокруг точки Найквиста в
Figure 00000034
, обработка, например, может ограничиваться как 0 ≤ k
Figure 00000035
, поскольку симметрия может восстанавливаться в ходе обратного STFT.
Посредством использования вышеприведенной формулы (1), может получаться спектрограмма. Спектрограмма содержит множество спектров, при этом множество спектров следуют друг за другом во времени. Второй спектр из множества спектров следует за первым спектром во времени, если существуют, по меньшей мере, несколько вторых выборок временной области, которые используются для того, чтобы формировать второй спектр, и которые не используются для того, чтобы формировать первый спектр, и которые представляют собой выборки временной области, которые ссылаются на последующий момент времени относительно вторых выборок временной области, которые используются для того, чтобы формировать первый спектр. Оконные функции выборок временной области, используемых для формирования граничащих по времени спектров, например, могут перекрываться.
В вариантах осуществления длина N аналитической оконной функции, например, может задаваться следующим образом:
256 выборок ≤ N ≤ 2048 выборок.
В некоторых вариантах осуществления длина аналитической оконной функции, например, может составлять 2048. В других вариантах осуществления длина аналитической оконной функции, например, может составлять 1024 выборок. В дополнительных вариантах осуществления длина аналитической оконной функции, например, может составлять 768 выборок. В еще дополнительных вариантах осуществления длина аналитической оконной функции, например, может составлять 256 выборок.
В вариантах осуществления размер H скачка при анализе, например, может составлять в диапазоне между 25% и 75% от аналитической оконной функции. В таких вариантах осуществления:
0,25 NH ≤ 0,75 Н.
Таким образом, в таких вариантах осуществления, если аналитическая оконная функция имеет, например, 2048 выборок (N=2048), размер скачка при анализе, например, может составлять в диапазоне:
512 выборок ≤ H ≤ 1536 выборок.
Если аналитическая оконная функция имеет, например, 256 выборок (N=256), размер скачка при анализе, например, может составлять в диапазоне:
64 выборки ≤ H ≤ 192 выборки.
В предпочтительных вариантах осуществления размер скачка при анализе, например, может составлять 50% от аналитической оконной функции. Это соответствует перекрытию оконных функций для двух последующих аналитических оконных функций в 50%.
В некоторых вариантах осуществления размер скачка при анализе, например, может составлять 25% от аналитической оконной функции. Это соответствует перекрытию оконных функций для двух последующих аналитических оконных функций в 75%.
В других вариантах осуществления размер скачка при анализе, например, может составлять 75% от аналитической оконной функции. Это соответствует перекрытию оконных функций для двух последующих аналитических оконных функций в 25%.
Следует отметить, что принципы настоящего изобретения являются применимыми для любого вида преобразования из временной области в спектральную область, к примеру, для MDCT (модифицированного дискретного косинусного преобразования), MDST (модифицированного дискретного синусного преобразования), DSTFT (дискретного кратковременного преобразования Фурье) и т.д.
Действительнозначная логарифмическая спектрограмма, например, может вычисляться следующим образом:
Figure 00000036
(2)
Спектрограмма уровня аудиосигнала может упоминаться как S, и значение спектрограммы уровня для частотно-временного бина
Figure 00000037
может упоминаться как
Figure 00000038
.
Далее описывается вычисление структурного тензора согласно вариантам осуществления.
Для вычисления структурного тензора необходимы частные производные S. Частная производная относительно временного индекса b задается следующим образом:
Figure 00000039
(3)
тогда как частная производная относительно частотного индекса k задается следующим образом:
Figure 00000040
, (4)
где d является дискретным оператором дифференцирования (например, для центральных разностей можно выбирать d=[-1,0,1]/2), и
Figure 00000041
обозначает двумерную свертку.
Кроме того, он может задаваться:
Figure 00000042
где
Figure 00000043
является поточечным матричным умножением, также известным как произведение Адамара, и G является двумерным сглаживающим гауссовым фильтром, имеющим среднеквадратическое отклонение
Figure 00000044
в направлении временного индекса и
Figure 00000045
в направлении частотного индекса. Структурный тензор
Figure 00000008
затем предоставляется посредством симметричной и положительной полуопределенной матрицы 2×2:
Figure 00000046
(8)
Структурный тензор содержит информацию относительно доминирующей ориентации спектрограммы в позиции
Figure 00000047
. Следует отметить, что в частном случае, в котором G является скаляром,
Figure 00000008
не содержит больше информации, чем градиент в этой позиции на спектрограмме. Тем не менее, в отличие от градиента, структурный тензор может сглаживаться посредством G без эффектов подавления, что обеспечивает его большую устойчивость к шуму.
Следует отметить, что структурный тензор
Figure 00000008
задается для каждого частотно-временного бина
Figure 00000048
из множества частотно-временных бинов. Таким образом, когда рассматриваются множество частотно-временных бинов, например, частотно-временные бины
Figure 00000049
, то существуют множество структурных тензоров
Figure 00000050
. Например, для каждого частотно-временного бина
Figure 00000048
из множества частотно-временных бинов, определяется один структурный тензор
Figure 00000008
.
Далее описывается вычисление углов и показателя анизотропии согласно вариантам осуществления.
Информация относительно ориентации для каждого бина на спектрограмме получается посредством вычисления собственных значений
Figure 00000051
,
Figure 00000052
с
Figure 00000053
и соответствующих собственных векторов
Figure 00000054
и
Figure 00000055
структурного тензора
Figure 00000008
. Следует отметить, что
Figure 00000056
, собственный вектор, соответствующий меньшему собственному значению
Figure 00000051
, указывает в направление наименьшего изменения спектрограммы при индексе
Figure 00000057
, тогда как
Figure 00000058
указывает в направлении наибольшего изменения. Таким образом, угол ориентации в конкретном бине может получаться следующим образом:
Figure 00000059
(9)
Figure 00000060
и
Figure 00000010
являются компонентами собственного вектора
Figure 00000061
.
atan() указывает обратную функцию тангенса.
Помимо этого, показатель анизотропии:
Figure 00000020
(10)
при
Figure 00000019
может определяться для каждого бина. Следует отметить, что
Figure 00000062
. Значения
Figure 00000063
, близкие к 1, указывают высокую анизотропию спектрограммы при индексе
Figure 00000057
, в то время как постоянное окружение приводит к значениям, близким к 0. Пороговое значение
Figure 00000064
, которое задает предел для того, что должно считаться анизотропным, может выбираться, чтобы дополнительно увеличивать устойчивость к шуму.
Физический смысл угла
Figure 00000065
может пониматься посредством рассмотрения непрерывного сигнала с изменением мгновенной частоты
Figure 00000066
в течение временного интервала
Figure 00000067
. Таким образом, скорость
Figure 00000068
изменения мгновенной частоты обозначается посредством следующего:
Figure 00000069
(11)
Например, согласно вариантам осуществления, углы (указываются посредством направления стрелок на фиг. 2), полученные посредством структурного тензора, например, могут транслироваться в скорость изменения локальной частоты:
Figure 00000070
(11a)
для каждого частотно-временного бина спектрограммы.
Изменение частоты для каждого частотно-временного бина, например, может упоминаться как скорость изменения мгновенной частоты.
При рассмотрении частоты дискретизации, длины и размера скачка применяемого STFT-анализа, отношение между углами на спектрограмме и скоростью
Figure 00000004
изменения мгновенной частоты для каждого бина может извлекаться посредством следующего:
Figure 00000071
(12)
Также среднеквадратические отклонения сглаживающего фильтра G в дискретной области
Figure 00000044
и
Figure 00000072
могут преобразовываться в непрерывные физические параметры
Figure 00000073
и
Figure 00000074
посредством следующего:
Figure 00000075
(13)
Далее описывается гармоническое/перкуссионное/остаточное разделение с использованием структурного тензора.
Информация, полученная через структурный тензор, может применяться к задаче HPR-разделения, например, чтобы классифицировать каждый бин на спектрограмме в качестве части гармонического, перкуссионного или остаточного компонента входного сигнала.
Варианты осуществления основаны на таких выявленных сведениях, что бины, назначаемые гармоническим компонентам, должны принадлежать достаточно горизонтальным структурам, тогда как бины, принадлежащие достаточно вертикальным структурам, должны назначаться перкуссионному компоненту. Кроме того, бины, которые не принадлежат ни одному виду ориентированной структуры, должны назначаться остаточному компоненту.
Согласно вариантам осуществления бин
Figure 00000005
например, может назначаться гармоническому компоненту, если он удовлетворяет первому из следующих двух ограничений.
Согласно предпочтительным вариантам осуществления бин
Figure 00000005
, например, может назначаться гармоническому компоненту, если он удовлетворяет обоим из следующих двух ограничений:
- Первое ограничение, например, может заключаться в том, что абсолютное значение угла
Figure 00000065
меньше (или равно) порогового значения
Figure 00000076
. Пороговое значение
Figure 00000077
, например, может составлять в диапазоне
Figure 00000078
. Это означает то, что бин должен быть частью некоторой спектральной структуры, которая не имеет наклона, большего или меньшего
Figure 00000079
. Таким образом, частотно-модулированные звуки также могут рассматриваться в качестве части гармонического компонента, в зависимости от параметра
Figure 00000080
.
- Второе ограничение, например, может заключаться в том, что показатель
Figure 00000081
анизотропии поддерживает то, что бин
Figure 00000005
является частью некоторой направленной анизотропной структуры и в силу этого превышает второе пороговое значение c. Следует отметить, что для данного бина
Figure 00000065
, угол
Figure 00000081
и показатель
Figure 00000081
анизотропии вместе задают точку в R2, заданную в полярных координатах.
Аналогично, в вариантах осуществления другое пороговое значение
Figure 00000082
угла назначается, чтобы задавать то, когда бин должен назначаться перкуссионному компоненту (зоны 330 с вертикальными линиями на фиг. 3).
Таким образом, согласно вариантам осуществления бин
Figure 00000005
, например, может назначаться перкуссионному компоненту, если он удовлетворяет первому из следующих двух ограничений.
Согласно предпочтительным вариантам осуществления бин
Figure 00000005
, например, может назначаться перкуссионному компоненту, если он удовлетворяет обоим из следующих двух ограничений:
- Первое ограничение, например, может заключаться в том, что абсолютное значение угла
Figure 00000065
превышает (или равно) пороговое значение
Figure 00000083
. Пороговое значение
Figure 00000084
, например, может составлять в диапазоне
Figure 00000085
. Это означает то, что бин должен быть частью некоторой спектральной структуры, которая не имеет наклона, большего или меньшего
Figure 00000086
. Таким образом, частотно-модулированные звуки также могут рассматриваться в качестве части гармонического компонента, в зависимости от параметра
Figure 00000087
.
- Второе ограничение, например, может заключаться в том, что показатель
Figure 00000081
анизотропии поддерживает то, что бин
Figure 00000005
является частью некоторой направленной анизотропной структуры и в силу этого превышает второе пороговое значение c. Следует отметить, что для данного бина
Figure 00000065
, угол
Figure 00000081
и показатель
Figure 00000081
анизотропии вместе задают точку в R2, заданную в полярных координатах.
В завершение, в вариантах осуществления все бины, которые не назначаются ни гармоническому, ни перкуссионному компоненту, например, могут назначаться остаточному компоненту.
Вышеописанный процесс назначения может выражаться посредством задания маски для гармонического компонента M h , маски для перкуссионного компонента M p и маски для остаточного компонента M r .
Следует отметить, что вместо использования порогового значения
Figure 00000088
и порогового значения
Figure 00000089
, пороговые значения в вариантах осуществления, например, могут задаваться для максимальной абсолютной скорости
Figure 00000090
изменения частоты при
Figure 00000091
, чтобы обеспечивать для выбора параметров лучшую физическую интерпретацию. В таком случае маски задаются следующим образом:
Figure 00000092
В завершение, STFT гармонического компонента X h , перкуссионного компонента X p и остаточного компонента X r получается следующим образом:
Figure 00000093
Соответствующие временные сигналы затем могут вычисляться через обратное STFT.
Фиг. 3 иллюстрирует диапазон значений ориентации/анизотропии, вычисленных посредством структурного тензора.
В частности, фиг. 3 иллюстрирует поднабор всех точек, которые приводят к назначению для гармонического компонента. В частности, значения в зонах 310 с волнистыми линиями приводят к назначению для гармонического компонента.
Значения в зонах 330 с вертикальными линиями приводят к назначению для перкуссионного компонента.
Значения в зонах 320, которые являются пунктирными, приводят к назначению для остаточного компонента.
Пороговое значение
Figure 00000094
задает линию 301 на фиг. 3, а пороговое значение
Figure 00000089
задает линию 302 на фиг. 3.
Фиг. 5 иллюстрирует устройство, согласно варианту осуществления при этом устройство содержит генератор 130 сигналов, выполненный с возможностью формировать выходной аудиосигнал в зависимости от назначения множества частотно-временных бинов двум или более групп компонентов сигнала.
Например, генератор сигналов может фильтровать различные компоненты аудиосигнала посредством применения различных весовых коэффициентов к значениям уровня частотно-временных бинов различных групп компонентов сигнала. Например, группа гармонических компонентов сигнала может иметь первый весовой коэффициент w h , группа перкуссионных компонентов сигнала может иметь второй весовой коэффициент w p , и группа остаточных компонентов сигнала может иметь первый весовой коэффициент w r , и значение уровня каждого частотно-временного бина из множества частотно-временных бинов, например, может взвешиваться с весовым коэффициентом группы компонентов сигнала, которой назначается частотно-временной бин.
Например, чтобы подчеркнуть гармонические компоненты сигнала, в варианте осуществления, в котором весовые коэффициенты умножаются на линейные значения уровня, например:
w h =1,3, w p =0,7, и w r =0,2
Например, чтобы подчеркнуть гармонические компоненты сигнала, в варианте осуществления, в котором весовые коэффициенты добавляются в логарифмические значения уровня, например:
w h =-0,35, w p =+0,26, и w r =-1,61
Например, чтобы подчеркнуть перкуссионные компоненты сигнала, в варианте осуществления, в котором весовые коэффициенты умножаются на линейные значения уровня, например:
w h =0,7, w p =1,3, и w r =0,2
Например, чтобы подчеркнуть перкуссионные компоненты сигнала, в варианте осуществления, в котором весовые коэффициенты добавляются в логарифмические значения уровня, например:
w h =-0,35, w p =+0,26, и w r =-1,61
Таким образом, генератор 130 сигналов выполнен с возможностью применять весовой коэффициент к значению уровня каждого частотно-временного бина из множества частотно-временных бинов, чтобы получать выходной аудиосигнал, при этом весовой коэффициент, который применяется к упомянутому частотно-временному бину, зависит от группы компонентов сигнала, которой назначается упомянутый частотно-временной бин.
В конкретном варианте осуществления по фиг. 5 процессор 130 сигналов, например, может представлять собой повышающий микшер, выполненный с возможностью микшировать с увеличением количества каналов аудиосигнал, чтобы получать выходной аудиосигнал, содержащий два или более выходных аудиоканалов. Повышающий микшер, например, может быть выполнен с возможностью формировать два или более выходных аудиоканалов в зависимости от назначения множества частотно-временных бинов двум или более групп компонентов сигнала.
Например, два или более выходных аудиоканалов могут формироваться из аудиосигнала, фильтрующего различные компоненты аудиосигнала посредством применения различных весовых коэффициентов к частотно-временным бинам значений уровня различных групп компонентов сигнала, как описано выше.
Тем не менее, для того чтобы формировать различные аудиоканалы, могут использоваться различные веса для групп компонентов сигнала, которые, например, могут быть конкретными для каждого из различных выходных аудиоканалов.
Например, для первого выходного аудиоканала, веса, которые должны добавляться в логарифмические значения уровня, например, могут составлять:
w1 h =+0,26, w1 p =-0,35, и w1 r =-1,61.
Кроме того, для второго выходного аудиоканала, веса, которые должны добавляться в логарифмические значения уровня, например, могут составлять:
w2 h =+0,35, w2 p =-0,26, и w2 r =-1,61.
Например, при повышающем микшировании аудиосигнала, чтобы получать пять выходных аудиоканалов, передний левый, центральный, правый, левый объемного звучания и правый объемного звучания:
- Гармонический весовой коэффициент w1 h может быть больше для формирования левого, центрального и правого выходных аудиоканалов по сравнению с гармоническим весовым коэффициентом w2 h для формирования левого и правого выходных аудиоканалов объемного звучания.
- Перкуссионный весовой коэффициент w1 p может быть меньшим для формирования левого, центрального и правого выходных аудиоканалов по сравнению с перкуссионным весовым коэффициентом w2 p для формирования левого и правого выходных аудиоканалов объемного звучания.
Отдельные весовые коэффициенты могут использоваться для каждого выходного аудиоканала, который должен формироваться.
Фиг. 6 иллюстрирует устройство согласно варианту осуществления, при этом устройство содержит один или более микрофонов 171, 172 для записи аудиосигнала.
На фиг. 6, первый микрофон 171 записывает первый аудиоканал аудиосигнала. Необязательный второй микрофон 172 записывает необязательный второй аудиоканал аудиосигнала.
Кроме того, устройство по фиг. 6 дополнительно содержит генератор 180 спектрограмм уровня для формирования спектрограммы уровня аудиосигнала из аудиосигнала, который содержит первый аудиоканал и необязательно содержит необязательный второй аудиоканал. Формирование спектрограммы уровня из аудиосигнала является известным принципом для специалистов в данной области техники.
Далее рассматривается оценка вариантов осуществления.
Чтобы показывать эффективность вариантов осуществления в захвате частотно-модулированных звуков в гармоническом компоненте, HPR-способ на основе структурного тензора (HPR-ST) согласно вариантам осуществления сравнивается с неитеративным способом на основе медианной фильтрации, представленным в [10] (HPR-M). Дополнительно, показатели также вычисляются для результатов разделения с идеальными двоичными масками (IBM), которые служат в качестве опорного уровня для максимального достижимого качества разделения.
При рассмотрении параметров тестируемой системы для HPR-ST, а также для HPR-M, STFT-параметры выбраны как составляющие f s =22050 Гц, N=1024 и H=256, с использованием синусоидальной оконной функции для w. Параметры разделения для HPR-M выбраны аналогично экспериментам, выполняемым в [10]. Согласно вариантам осуществления структурный тензор вычисляется с использованием дифференциального оператора, например, оператора Шарра [17] в качестве дискретного оператора d дифференцирования. Сглаживание выполнено с использованием изотропного гауссова фильтра 9×9 со среднеквадратическими отклонениями
Figure 00000095
, который приводит к
Figure 00000096
и
Figure 00000097
. В завершение, пороговые значения для разделения заданы равными
Figure 00000098
Figure 00000099
и
Figure 00000100
.
Следует отметить, что посредством выбора
Figure 00000101
и
Figure 00000102
согласно вариантам осуществления, даже очень крутые структуры на спектрограмме назначаются гармоническому компоненту. Варианты осуществления используют наблюдения относительно звуков вибрато реального мира, как, например, показано на фиг. 2. Здесь, можно видеть, что в некоторых случаях вибрато певческим голосом имеет очень высокую скорость изменения мгновенной частоты. Кроме того, следует отметить, что посредством выбора
Figure 00000103
, назначение бина на спектрограмме остаточному компоненту зависит чисто от его показателя анизотропии.
Эффективность HPR-ST согласно вариантам осуществления оценена посредством сравнения его со способом на основе медианной фильтрации предшествующего уровня техники (HPR-M), представленным в [10], посредством как объективных показателей оценки, так и аудиопримеров.
Чтобы сравнивать поведение HPR-ST согласно вариантам осуществления и HPR-M предшествующего уровня техники при применении к сигналам, содержащим частотно-модулированные звуки, чтобы получать объективные результаты, сформированы два тестовых элемента.
Тестовый элемент 1 состоит из наложения чисто синтетических звуков. Гармонический источник выбран в качестве тона вибрато с основной частотой в 1000 Гц, частотой вибрато в 3 Гц, охватом вибрато в 50 Гц и 4 обертонами. Для перкуссионного источника, используются несколько импульсов, в то время как белый шум представляет ни гармонический, ни перкуссионный остаточный источник.
Тестовый элемент 2 сформирован посредством наложения сигналов реального мира певческого голоса с вибрато (гармоническим компонентом), кастаньетами (перкуссионным компонентом) и аплодисментами (ни гармоническим, ни перкуссионным компонентом).
При интерпретации HPR-разделения этих элементов в качестве задачи разделения источников, вычислены стандартные показатели оценки разделения источников (отношение "сигнал источника-искажения" (SDR), отношение "сигнал источника-помехи" (SIR) и отношение "сигнал источника-артефакты" (SAR), как представлено в [18]) для результатов разделения обеих процедур. Результаты показаны в табл. 1.
Figure 00000104
Для элемента 1, HPR-ST дает в результате SDR в 21,25 дБ для тона вибрато и в силу этого находится ближе к оптимальному результату разделения IBM (29,43 дБ), чем к результату разделения HPR-M (11,51 дБ). Это указывает то, что HPR-ST улучшается при захвате этого частотно-модулированного звука в гармоническом компоненте по сравнению с HPRM. Это также показано на фиг. 4.
Фиг. 4 иллюстрирует сравнение между HPR-M- и HPR-ST-способом для выдержки синтетического входного сигнала (элемент 1). Для улучшенной видимости, спектрограммы вычислены с отличающимися STFT-параметрами по сравнению с параметрами, используемыми для алгоритмов разделения.
Фиг. 4(a) иллюстрирует частоту входного сигнала относительно времени. На фиг. 4, проиллюстрированы спектрограммы гармонических компонентов и суммы перкуссионного и остаточного компонента, вычисленных для обеих процедур. Можно видеть, что для HPR-M, крутые наклоны тона вибрато просачиваются в остаточный компонент (фиг. 4(b) и (c)), в то время как HPR-ST (фиг. 4(d) и (e)) дает в результате хорошее разделение. Он также поясняет очень низкие SIR-значения HPRM для остаточного компонента по сравнению с HPR-ST (-11,99 дБ по сравнению с 14,12 дБ).
Следует отметить, что высокое SIR-значение HPR-M для гармонического компонента отражает только то, что имеется небольшое количество мешающих звуков от других компонентов, а не то, что звук вибрато хорошо захвачен в целом. В общем, большинство наблюдений для элемента 1 являются менее выраженными, но также и допустимыми для смешения звуков реального мира в элементе 2. Для этого элемента, SIR-значение HPR-M для вокалов даже превышает SIR-значение HPR-ST (20,83 дБ по сравнению с 15,61 дБ). С другой стороны, низкое SIR-значение для аплодисментов поддерживает то, что части вибрато в вокалах просачиваются в остаточный компонент для HPR-M (1,11 дБ), в то время как остаточный компонент HPR-ST содержит меньшее количество мешающих звуков (6,34 дБ). Это указывает то, что варианты осуществления допускают захват частотно-модулированных структур вокалов гораздо лучше, чем HPR-M.
Если обобщить результаты, для сигналов, которые содержат частотно-модулированные тона, HPR-ST-принцип вариантов осуществления предоставляет гораздо лучшие результаты разделения по сравнению с HPR-M.
Некоторые варианты осуществления используют структурный тензор для обнаружения певческого голоса (обнаружение певческого голоса согласно предшествующему уровню техники описывается в [2]).
Хотя некоторые аспекты описаны в контексте устройства, очевидно, что эти аспекты также представляют описание соответствующего способа, при этом блок или устройство соответствует этапу способа либо признаку этапа способа. Аналогично, аспекты, описанные в контексте этапа способа, также представляют описание соответствующего блока или элемента, или признака соответствующего устройства. Некоторые или все этапы способа могут быть выполнены посредством (или с использованием) устройства, такого как, например, микропроцессор, программируемый компьютер либо электронная схема. В некоторых вариантах осуществления один или более наиболее важных этапов способа могут выполняться посредством этого устройства.
В зависимости от определенных требований к реализации варианты осуществления изобретения могут реализовываться в аппаратных средствах либо в программном обеспечении, либо, по меньшей мере, частично в аппаратных средствах, либо, по меньшей мере, частично в программном обеспечении. Реализация может выполняться с использованием цифрового носителя хранения данных, например, гибкого диска, DVD, Blu-Ray, CD, ROM, PROM, EPROM, EEPROM или флэш-памяти, имеющего сохраненные электронно считываемые управляющие сигналы, которые взаимодействуют (или допускают взаимодействие) с программируемой компьютерной системой, так что осуществляется соответствующий способ. Следовательно, цифровой запоминающий носитель может быть компьютерно-читаемым.
Некоторые варианты осуществления согласно изобретению содержат носитель данных, имеющий электронночитаемые управляющие сигналы, которые допускают взаимодействие с программируемой компьютерной системой таким образом, что осуществляется один из способов, описанных в данном документе.
В общем, варианты осуществления настоящего изобретения могут быть реализованы как компьютерный программный продукт с программным кодом, при этом программный код выполнен с возможностью осуществления одного из способов, когда компьютерный программный продукт работает на компьютере. Программный код, например, может быть сохранен на машиночитаемом носителе.
Другие варианты осуществления содержат компьютерную программу для осуществления одного из способов, описанных в данном документе, сохраненную на машиночитаемом носителе.
Другими словами, следовательно, вариант осуществления изобретаемого способа представляет собой компьютерную программу, имеющую программный код для осуществления одного из способов, описанных в данном документе, когда компьютерная программа работает на компьютере.
Следовательно, дополнительный вариант осуществления изобретаемых способов представляет собой запоминающий носитель (цифровой запоминающий носитель или компьютерно-читаемый носитель), содержащий записанную компьютерную программу для осуществления одного из способов, описанных в данном документе. Носитель данных, цифровой запоминающий носитель или носитель с записанными данными типично является материальным и/или некратковременным.
Следовательно, дополнительный вариант осуществления изобретаемого способа представляет собой поток данных или последовательность сигналов, представляющих компьютерную программу для осуществления одного из способов, описанных в данном документе. Поток данных или последовательность сигналов, например, может быть выполнена с возможностью передачи через соединение для передачи данных, например, через Интернет.
Дополнительный вариант осуществления содержит средство обработки, например, компьютер или программируемое логическое устройство, выполненное с возможностью осуществлять один из способов, описанных в данном документе.
Дополнительный вариант осуществления содержит компьютер, имеющий установленную компьютерную программу для осуществления одного из способов, описанных в данном документе.
Дополнительный вариант осуществления согласно изобретению содержит устройство или систему, выполненную с возможностью передавать (например, электронно или оптически) компьютерную программу для осуществления одного из способов, описанных в данном документе, в приемное устройство. Приемное устройство, например, может представлять собой компьютер, мобильное устройство, запоминающее устройство и т.п. Устройство или система, например, может содержать файловый сервер для передачи компьютерной программы в приемное устройство.
В некоторых вариантах осуществления программируемое логическое устройство (например, программируемая пользователем вентильная матрица) может использоваться для того, чтобы выполнять часть или все из функциональностей способов, описанных в данном документе. В некоторых вариантах осуществления программируемая пользователем вентильная матрица может взаимодействовать с микропроцессором, чтобы осуществлять один из способов, описанных в данном документе. В общем, способы предпочтительно осуществляются посредством любого устройства.
Устройство, описанное в данном документе, может реализовываться с использованием аппаратного устройства либо с использованием компьютера, либо с использованием комбинации аппаратного устройства и компьютера.
Способы, описанные в данном документе, могут осуществляться с использованием аппаратного устройства либо с использованием компьютера, либо с использованием комбинации аппаратного устройства и компьютера.
Вышеописанные варианты осуществления являются просто иллюстративными в отношении принципов настоящего изобретения. Следует понимать, что модификации и изменения компоновок и подробностей, описанных в данном документе, должны быть очевидными для специалистов в данной области техники. Следовательно, они подразумеваются как ограниченные только посредством объема нижеприведенной формулы изобретения, а не посредством конкретных подробностей, представленных посредством описания и пояснения вариантов осуществления в данном документе.
Библиографический список
[1] Aggelos Gkiokas, Vassilios Katsouros, George Carayannis и Themos Stafylakis, "Music tempo estimation and beat tracking by applying source separation and metrical relations", in Proceedings of the IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP), 2012 год, стр. 421-424.
[2] Bernhard Lehner, Gerhard Widmer и Reinhard Sonnleitner, "On the reduction of false positives in singing voice detection", in Proceedings of the IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP), Florence, Italy, 2014 год, стр. 7480-7484.
[3] Yushi Ueda, Yuuki Uchiyama, Takuya Nishimoto, Nobutaka Ono и Shigeki Sagayama, "HMM-based approach for automatic chord detection using refined acoustic features", in Proceedings of the IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP), Dallas, Texas, USA, 2010 год, стр. 5518-5521.
[4] Nobutaka Ono, Kenichi Miyamoto, Hirokazu Kameoka и Shigeki Sagayama, "A real-time equalizer of harmonic and percussive components in music signals", in Proceedings of the International Society for Music Information Retrieval Conference (ISMIR), Philadelphia, Pennsylvania, USA, 2008 год, стр. 139-144.
[5] Nobutaka Ono, Kenichi Miyamoto, Jonathan LeRoux, Hirokazu Kameoka и Shigeki Sagayama, "Separation of the monaural audio signal into harmonic/percussive components by complementary diffusion on spectrogram", in European Signal Processing Conference, Lausanne, Switzerland, 2008 год, стр. 240-244.
[6] Derry Fitzgerald, "Harmonic/percussive separation using median filtering", in Proceedings of the International Conference on Digital Audio Effects (DAFX), Graz, Austria, 2010 год, стр. 246-253.
[7] Scott N. Levine и Julius O. Smith III, "A sines+transients+noise audio representation for data compression and time/pitch scale modications", in Proceedings of the AES Convention, 1998 год.
[8] Tony S. Verma и Teresa H.Y. Meng, "An analysis/synthesis tool for transient signals that allows the flexible sines+transients+noise model for audio", in Proceedings of the IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP), Seattle, Washington, USA, май 1998 года, стр. 3573-3576.
[9] Laurent Daudet, "Sparse and structured decompositions of signals with the molecular matching pursuit", IEEE Transactions on Audio, Speech and Language Processing, издание 14, номер 5, стр. 1808-1816, сентябрь 2006 года.
[10] Jonathan Driedger, Meinard Müller и Sascha Disch, "Extending harmonic-percussive separation of audio signals", in Proceedings of the International Conference on Music Information Retrieval (ISMIR), Taipei, Taiwan, 2014 год, стр. 611-616.
[11] Jeongsoo Park и Kyogu Lee, "Harmonic-percussive source separation using harmonicity and sparsity constraints", in Proceedings of the International Conference on Music Information Retrieval (ISMIR), Málaga, Spain, 2015 год, стр. 148-154.
[12] Josef Bigun и Gösta H. Granlund, "Optimal orientation detection of linear symmetry", in Proceedings of the IEEE First International Conference on Computer Vision, London, UK, 1987 год, стр. 433-438.
[13] Hans Knutsson, "Representing local structure using tensors", in 6th Scandinavian Conference on Image Analysis, Oulu, Finland, 1989 год, стр. 244-251.
[14] Chris Harris и Mike Stephens, "A combined corner and edge detector", in Proceedings of the 4th Alvey Vision Conference, Manchester, UK, 1988 год, стр. 147-151.
[15] Rolf Bardeli, "Similarity search in animal sound databases", IEEE Transactions on Multimedia, издание 11, номер 1, стр. 68-76, январь 2009 года.
[16] Matthias Zeppelzauer, Angela S. Stöger и Christian Breiteneder, "Acoustic detection of elephant presence in noisy environments", in Proceedings of the 2nd ACM International Workshop on Multimedia Analysis for Ecological Data, Barcelona, Spain, 2013 год, стр. 3-8.
[17] Hanno Scharr, "Optimale Operatoren in der digitalen Bildverarbeitung", Dissertation, IWR, Fakultät für Physik und Astronomie, Universität Heidelberg, Heidelberg, Germany, 2000 год.
[18] Emmanuel Vincent, Rémi Gribonval и Cédric Févotte, "Performance measurement in blind audio source separation", IEEE Transactions on Audio, Speech and Language Processing, издание 14, номер 4, стр. 1462-1469, 2006 год.

Claims (61)

1. Устройство для анализа амплитудной спектрограммы аудиосигнала, содержащее:
- модуль (110) определения изменения частоты, выполненный с возможностью определения изменения частоты для каждого частотно-временного бина из множества частотно-временных бинов амплитудной спектрограммы аудиосигнала в зависимости от амплитудной спектрограммы аудиосигнала, и
- классификатор (120), выполненный с возможностью назначать каждый частотно-временной бин из множества частотно-временных бинов группе компонентов сигнала из двух или более групп компонентов сигнала в зависимости от изменения частоты, определенного для упомянутого частотно-временного бина.
2. Устройство по п. 1,
- в котором модуль (110) определения изменения частоты выполнен с возможностью определения изменения частоты для каждого частотно-временного бина из множества частотно-временных бинов в зависимости от угла (
Figure 00000105
) для упомянутого частотно-временного бина, при этом угол (
Figure 00000105
) для упомянутого частотно-временного бина зависит от амплитудной спектрограммы аудиосигнала.
3. Устройство по п. 2,
- в котором модуль (110) определения изменения частоты выполнен с возможностью определения изменения частоты для каждого частотно-временного бина из множества частотно-временных бинов дополнительно в зависимости от частоты (f s ) дискретизации аудиосигнала, и в зависимости от длины (N) аналитической оконной функции, и в зависимости от размера (H) скачка аналитической оконной функции.
4. Устройство по п. 3,
- в котором модуль (110) определения изменения частоты устройства выполнен с возможностью определения изменения частоты для каждого частотно-временного бина из множества частотно-временных бинов в зависимости от формулы:
Figure 00000106
- при этом
Figure 00000107
указывает частотно-временной бин из множества частотно-временных бинов,
- при этом
Figure 00000108
указывает изменение частоты для упомянутого частотно-временного бина
Figure 00000107
,
- при этом b указывает время,
- при этом k указывает частоту,
- при этом f s указывает частоту дискретизации аудиосигнала,
- при этом N указывает длину аналитической оконной функции,
- при этом H указывает размер скачка аналитической оконной функции, и
- при этом
Figure 00000109
указывает угол для упомянутого частотно-временного бина
Figure 00000110
, при этом угол
Figure 00000105
зависит от амплитудной спектрограммы.
5. Устройство по п. 2,
- в котором модуль (110) определения изменения частоты выполнен с возможностью определения частной производной (S b ) амплитудной спектрограммы (S) аудиосигнала относительно временного индекса,
- при этом модуль (110) определения изменения частоты выполнен с возможностью определения частной производной (S k ) амплитудной спектрограммы (S) аудиосигнала относительно временного индекса, и
- при этом модуль (110) определения изменения частоты выполнен с возможностью определения структурного тензора (
Figure 00000111
) для каждого частотно-временного бина
Figure 00000112
из множества частотно-временных бинов в зависимости от частной производной (S b ) амплитудной спектрограммы (S) аудиосигнала относительно временного индекса и в зависимости от частной производной (S k ) амплитудной спектрограммы (S) аудиосигнала относительно частотного индекса, и
- при этом модуль (110) определения изменения частоты выполнен с возможностью определения угла (
Figure 00000105
) для каждого частотно-временного бина
Figure 00000112
из множества частотно-временных бинов в зависимости от структурного тензора (
Figure 00000113
) для упомянутого частотно-временного бина
Figure 00000112
.
6. Устройство по п. 5,
- в котором модуль (110) определения изменения частоты выполнен с возможностью определения угла (
Figure 00000105
) для каждого частотно-временного бина
Figure 00000112
из множества частотно-временных бинов посредством определения двух компонентов
Figure 00000114
и
Figure 00000115
собственного вектора
Figure 00000116
структурного тензора (
Figure 00000113
) упомянутого частотно-временного бина
Figure 00000112
и посредством определения угла (
Figure 00000105
) для упомянутого частотно-временного бина
Figure 00000112
согласно следующему:
Figure 00000117
- при этом
Figure 00000105
указывает угол для упомянутого частотно-временного бина
Figure 00000112
,
- при этом b указывает время,
- при этом k указывает частоту, и
- при этом atan() указывает обратную функцию тангенса.
7. Устройство по п. 5,
- в котором классификатор (120) выполнен с возможностью определения показателя анизотропии для каждого частотно-временного бина
Figure 00000118
из множества частотно-временных бинов в зависимости, по меньшей мере, от одной из формул:
Figure 00000119
и
Figure 00000120
,
- при этом
Figure 00000121
является первым собственным значением, λ
Figure 00000122
является вторым собственным значением структурного тензора (
Figure 00000123
) упомянутого частотно-временного бина
Figure 00000118
, и
Figure 00000124
,
- при этом классификатор (120) выполнен с возможностью назначать каждый частотно-временной бин из множества частотно-временных бинов группе компонентов сигнала из двух или более групп компонентов сигнала дополнительно в зависимости от изменения показателя анизотропии.
8. Устройство по п. 7,
- в котором классификатор (120) выполнен с возможностью определять показатель анизотропии для упомянутого частотно-временного бина
Figure 00000118
в зависимости от формулы:
Figure 00000125
- при этом
Figure 00000126
является показателем анизотропии в зависимости от упомянутого частотно-временного бина
Figure 00000127
, и
- при этом классификатор (120) выполнен с возможностью назначать упомянутый частотно-временной бин
Figure 00000118
группе остаточных компонентов из двух или более групп компонентов сигнала, если показатель (
Figure 00000126
) анизотропии меньше первого порогового значения c, либо при этом классификатор (120) выполнен с возможностью назначать упомянутый частотно-временной бин
Figure 00000118
группе остаточных компонентов из двух или более групп компонентов сигнала, если показатель (
Figure 00000126
) анизотропии меньше или равен первому пороговому значению c,
- при этом
Figure 00000128
.
9. Устройство по п. 1, в котором классификатор (120) выполнен с возможностью назначать каждый частотно-временной бин из множества частотно-временных бинов группе компонентов сигнала из двух или более групп компонентов сигнала в зависимости от изменения (
Figure 00000108
) частоты, определенного для упомянутого частотно-временного бина
Figure 00000129
, так что классификатор (120) назначает частотно-временной бин из множества частотно-временных бинов группе гармонических компонентов сигнала из двух или более групп компонентов сигнала в зависимости от того, меньше или нет абсолютное значение (
Figure 00000130
) изменения (
Figure 00000108
) частоты, определенного для упомянутого частотно-временного бина
Figure 00000131
, второго порогового значения
Figure 00000132
, либо в зависимости от того, меньше или равно либо нет абсолютное значение (
Figure 00000133
) изменения (
Figure 00000108
) частоты, определенного для упомянутого частотно-временного бина
Figure 00000131
, второму пороговому значению
Figure 00000134
,
- при этом
Figure 00000135
.
10. Устройство по п. 1, в котором классификатор (120) выполнен с возможностью назначать каждый частотно-временной бин из множества частотно-временных бинов группе компонентов сигнала из двух или более групп компонентов сигнала в зависимости от изменения (
Figure 00000108
) частоты, определенного для упомянутого частотно-временного бина
Figure 00000129
, так что классификатор (120) назначает частотно-временной бин из множества частотно-временных бинов группе перкуссионных компонентов сигнала из двух или более групп компонентов сигнала в зависимости от того, превышает или нет абсолютное значение (
Figure 00000130
) изменения (
Figure 00000108
) частоты, определенного для упомянутого частотно-временного бина
Figure 00000131
, третье пороговое значение
Figure 00000136
, либо в зависимости от того, превышает или равно либо нет абсолютное значение (
Figure 00000133
) изменения (
Figure 00000108
) частоты, определенного для упомянутого частотно-временного бина
Figure 00000131
, третьему пороговому значению
Figure 00000137
,
- при этом
Figure 00000138
.
11. Устройство по п. 9, в котором классификатор (120) выполнен с возможностью назначать каждый частотно-временной бин из множества частотно-временных бинов группе компонентов сигнала из двух или более групп компонентов сигнала в зависимости от изменения (
Figure 00000108
) частоты, определенного для упомянутого частотно-временного бина
Figure 00000129
, так что классификатор (120) назначает частотно-временной бин из множества частотно-временных бинов группе перкуссионных компонентов сигнала из двух или более групп компонентов сигнала в зависимости от того, превышает или нет абсолютное значение (
Figure 00000130
) изменения (
Figure 00000108
) частоты, определенного для упомянутого частотно-временного бина
Figure 00000131
, третье пороговое значение
Figure 00000136
, либо в зависимости от того, превышает или равно либо нет абсолютное значение (
Figure 00000133
) изменения (
Figure 00000108
) частоты, определенного для упомянутого частотно-временного бина
Figure 00000131
, третьему пороговому значению
Figure 00000137
,
- при этом
Figure 00000138
.
12. Устройство по п. 1, при этом устройство содержит генератор (130) сигналов, выполненный с возможностью формировать выходной аудиосигнал в зависимости от назначения множества частотно-временных бинов двум или более группам компонентов сигнала.
13. Устройство по п. 12, в котором генератор (130) сигналов выполнен с возможностью применять весовой коэффициент к значению (w h , w p , w r ) амплитуды каждого частотно-временного бина из множества частотно-временных бинов, чтобы получать выходной аудиосигнал, при этом весовой коэффициент (w h , w p , w r ), который применяется к упомянутому частотно-временному бину, зависит от группы компонентов сигнала, которой назначается упомянутый частотно-временной бин.
14. Устройство по п. 12,
- в котором процессор сигналов (130) представляет собой повышающий микшер, выполненный с возможностью повышающего микширования аудиосигнала, чтобы получать выходной аудиосигнал, содержащий два или более выходных аудиоканала,
- при этом повышающий микшер выполнен с возможностью формировать два или более выходных аудиоканала в зависимости от назначения множества частотно-временных бинов двум или более группам компонентов сигнала.
15. Устройство по п. 1,
- при этом устройство содержит один или более микрофонов (171, 172) для записи аудиосигнала, и
- при этом устройство дополнительно содержит генератор (180) амплитудных спектрограмм для формирования амплитудной спектрограммы аудиосигнала из аудиосигнала.
16. Способ для анализа амплитудной спектрограммы аудиосигнала, содержащий этапы, на которых:
- определяют изменение частоты для каждого частотно-временного бина из множества частотно-временных бинов амплитудной спектрограммы аудиосигнала в зависимости от амплитудной спектрограммы аудиосигнала, и
- назначают каждый частотно-временной бин из множества частотно-временных бинов группе компонентов сигнала из двух или более групп компонентов сигнала в зависимости от изменения частоты, определенного для упомянутого частотно-временного бина.
17. Цифровой носитель хранения данных, содержащий компьютерную программу для реализации способа по п. 16 при выполнении на компьютере или в процессоре сигналов.
RU2018136575A 2016-03-18 2017-03-16 Устройство и способ для гармонического/перкуссионного/остаточного разделения звука с использованием структурного тензора на спектрограммах RU2712652C1 (ru)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
EP16161251.0A EP3220386A1 (en) 2016-03-18 2016-03-18 Apparatus and method for harmonic-percussive-residual sound separation using a structure tensor on spectrograms
EP16161251.0 2016-03-18
PCT/EP2017/056257 WO2017158102A1 (en) 2016-03-18 2017-03-16 Apparatus and method for harmonic-percussive-residual sound separation using a structure tensor on spectrograms

Publications (1)

Publication Number Publication Date
RU2712652C1 true RU2712652C1 (ru) 2020-01-30

Family

ID=55646318

Family Applications (1)

Application Number Title Priority Date Filing Date
RU2018136575A RU2712652C1 (ru) 2016-03-18 2017-03-16 Устройство и способ для гармонического/перкуссионного/остаточного разделения звука с использованием структурного тензора на спектрограммах

Country Status (11)

Country Link
US (1) US10770051B2 (ru)
EP (2) EP3220386A1 (ru)
JP (1) JP6800995B2 (ru)
KR (1) KR102250624B1 (ru)
CN (1) CN109247030B (ru)
BR (1) BR112018068852A2 (ru)
CA (1) CA3017558C (ru)
ES (1) ES2788682T3 (ru)
MX (1) MX2018011104A (ru)
RU (1) RU2712652C1 (ru)
WO (1) WO2017158102A1 (ru)

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109658951B (zh) * 2019-01-08 2021-03-26 北京雷石天地电子技术有限公司 混合信号检测方法及系统
TWI783215B (zh) * 2020-03-05 2022-11-11 緯創資通股份有限公司 信號處理系統及其信號降噪的判定方法與信號補償方法
CN112150386B (zh) * 2020-09-29 2023-03-21 西安工程大学 基于对比度均值的sar图像相干斑非局部平均抑制方法
CN113203992A (zh) * 2021-04-29 2021-08-03 电子科技大学 一种多基sar的抗欺骗性干扰方法
KR102475219B1 (ko) * 2022-09-21 2022-12-07 국방과학연구소 비디오 형태의 데이터 증강에 기반한 합성 개구면 레이다의 표적 분류 장치, 방법, 컴퓨터 판독 가능한 기록 매체 및 컴퓨터 프로그램

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS638698A (ja) * 1986-06-27 1988-01-14 松下電器産業株式会社 リズム表示装置
JP2010054802A (ja) * 2008-08-28 2010-03-11 Univ Of Tokyo 音楽音響信号からの単位リズムパターン抽出法、該方法を用いた楽曲構造の推定法、及び、音楽音響信号中の打楽器パターンの置換法
JP2011221156A (ja) * 2010-04-07 2011-11-04 Yamaha Corp 楽曲解析装置
WO2013038459A1 (ja) * 2011-09-16 2013-03-21 パイオニア株式会社 音声処理装置、再生装置、音声処理方法およびプログラム

Family Cites Families (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS5950734A (ja) 1982-09-16 1984-03-23 スタンレー電気株式会社 磁石式交流発電機の電圧調整装置
US5845241A (en) * 1996-09-04 1998-12-01 Hughes Electronics Corporation High-accuracy, low-distortion time-frequency analysis of signals using rotated-window spectrograms
DE10313875B3 (de) * 2003-03-21 2004-10-28 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Vorrichtung und Verfahren zum Analysieren eines Informationssignals
DE102004049517B4 (de) * 2004-10-11 2009-07-16 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Extraktion einer einem Audiosignal zu Grunde liegenden Melodie
US7521622B1 (en) * 2007-02-16 2009-04-21 Hewlett-Packard Development Company, L.P. Noise-resistant detection of harmonic segments of audio signals
JP5294300B2 (ja) * 2008-03-05 2013-09-18 国立大学法人 東京大学 音信号の分離方法
JP2010210758A (ja) * 2009-03-09 2010-09-24 Univ Of Tokyo 音声を含む信号の処理方法及び装置
JP2013164584A (ja) * 2012-01-12 2013-08-22 Yamaha Corp 音響処理装置
EP2747451A1 (en) * 2012-12-21 2014-06-25 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Filter and method for informed spatial filtering using multiple instantaneous direction-of-arrivial estimates
CN103680517A (zh) * 2013-11-20 2014-03-26 华为技术有限公司 一种音频信号的处理方法、装置及设备
JP6763721B2 (ja) * 2016-08-05 2020-09-30 大学共同利用機関法人情報・システム研究機構 音源分離装置
US10354632B2 (en) * 2017-06-28 2019-07-16 Abu Dhabi University System and method for improving singing voice separation from monaural music recordings

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS638698A (ja) * 1986-06-27 1988-01-14 松下電器産業株式会社 リズム表示装置
JP2010054802A (ja) * 2008-08-28 2010-03-11 Univ Of Tokyo 音楽音響信号からの単位リズムパターン抽出法、該方法を用いた楽曲構造の推定法、及び、音楽音響信号中の打楽器パターンの置換法
JP2011221156A (ja) * 2010-04-07 2011-11-04 Yamaha Corp 楽曲解析装置
WO2013038459A1 (ja) * 2011-09-16 2013-03-21 パイオニア株式会社 音声処理装置、再生装置、音声処理方法およびプログラム

Also Published As

Publication number Publication date
CN109247030A (zh) 2019-01-18
KR20180121995A (ko) 2018-11-09
CA3017558C (en) 2021-03-16
CA3017558A1 (en) 2017-09-21
CN109247030B (zh) 2023-03-10
BR112018068852A2 (pt) 2019-01-22
KR102250624B1 (ko) 2021-05-12
JP2019515323A (ja) 2019-06-06
ES2788682T3 (es) 2020-10-22
JP6800995B2 (ja) 2020-12-16
US20190012999A1 (en) 2019-01-10
EP3430612B1 (en) 2020-03-25
EP3220386A1 (en) 2017-09-20
EP3430612A1 (en) 2019-01-23
WO2017158102A1 (en) 2017-09-21
US10770051B2 (en) 2020-09-08
MX2018011104A (es) 2019-01-10

Similar Documents

Publication Publication Date Title
RU2712652C1 (ru) Устройство и способ для гармонического/перкуссионного/остаточного разделения звука с использованием структурного тензора на спектрограммах
US8175730B2 (en) Device and method for analyzing an information signal
RU2714579C1 (ru) Устройство и способ реконструкции фазовой информации с использованием структурного тензора на спектрограммах
CN107533848B (zh) 用于话音恢复的系统和方法
Füg et al. Harmonic-percussive-residual sound separation using the structure tensor on spectrograms
Shah et al. Chroma feature extraction
US9305570B2 (en) Systems, methods, apparatus, and computer-readable media for pitch trajectory analysis
DK2843659T3 (en) PROCEDURE AND APPARATUS TO DETECT THE RIGHT OF PITCH PERIOD
JP2010210758A (ja) 音声を含む信号の処理方法及び装置
Virtanen Audio signal modeling with sinusoids plus noise
John et al. Classification of Indian classical carnatic music based on raga using deep learning
CN108369803A (zh) 用于形成基于声门脉冲模型的参数语音合成系统的激励信号的方法
Gurunath Reddy et al. Predominant melody extraction from vocal polyphonic music signal by time-domain adaptive filtering-based method
Mankad et al. On the performance of empirical mode decomposition-based replay spoofing detection in speaker verification systems
Costa et al. Sparse time-frequency representations for polyphonic audio based on combined efficient fan-chirp transforms
de León et al. A complex wavelet based fundamental frequency estimator in singlechannel polyphonic signals
Dziubiński et al. High accuracy and octave error immune pitch detection algorithms
da Costa et al. High-Definition Time-Frequency Representation Based on Adaptive Combination of Fan-Chirp Transforms via Structure Tensor
Ingale et al. Singing voice separation using mono-channel mask
Eley et al. A custom feature set for analyzing historically informed baroque performances
Song et al. Recognition Of live performance sound and studio recording sound based on audio comparison
JP2007536587A (ja) 情報信号を解析するための装置および方法