RU2714579C1 - Устройство и способ реконструкции фазовой информации с использованием структурного тензора на спектрограммах - Google Patents

Устройство и способ реконструкции фазовой информации с использованием структурного тензора на спектрограммах Download PDF

Info

Publication number
RU2714579C1
RU2714579C1 RU2018136578A RU2018136578A RU2714579C1 RU 2714579 C1 RU2714579 C1 RU 2714579C1 RU 2018136578 A RU2018136578 A RU 2018136578A RU 2018136578 A RU2018136578 A RU 2018136578A RU 2714579 C1 RU2714579 C1 RU 2714579C1
Authority
RU
Russia
Prior art keywords
time
frequency
phase
audio signal
bin
Prior art date
Application number
RU2018136578A
Other languages
English (en)
Inventor
Андреас НИДЕРМАЙЕР
Рихард ФЮГ
Саша ДИШ
Original Assignee
Фраунхофер-Гезелльшафт Цур Фердерунг Дер Ангевандтен Форшунг Е.Ф.
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Фраунхофер-Гезелльшафт Цур Фердерунг Дер Ангевандтен Форшунг Е.Ф. filed Critical Фраунхофер-Гезелльшафт Цур Фердерунг Дер Ангевандтен Форшунг Е.Ф.
Application granted granted Critical
Publication of RU2714579C1 publication Critical patent/RU2714579C1/ru

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/18Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being spectral information of each sub-band
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/60Information retrieval; Database structures therefor; File system structures therefor of audio data
    • G06F16/68Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/683Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R3/00Circuits for transducers, loudspeakers or microphones
    • H04R3/04Circuits for transducers, loudspeakers or microphones for correcting frequency response
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S7/00Indicating arrangements; Control arrangements, e.g. balance control
    • H04S7/30Control circuits for electronic adaptation of the sound field
    • H04S7/307Frequency adjustment, e.g. tone control
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10HELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
    • G10H2210/00Aspects or methods of musical processing having intrinsic musical character, i.e. involving musical theory or musical parameters or relying on musical knowledge, as applied in electrophonic musical tools or instruments
    • G10H2210/031Musical analysis, i.e. isolation, extraction or identification of musical elements or musical parameters from a raw acoustic signal or from an encoded audio signal
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10HELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
    • G10H2210/00Aspects or methods of musical processing having intrinsic musical character, i.e. involving musical theory or musical parameters or relying on musical knowledge, as applied in electrophonic musical tools or instruments
    • G10H2210/031Musical analysis, i.e. isolation, extraction or identification of musical elements or musical parameters from a raw acoustic signal or from an encoded audio signal
    • G10H2210/041Musical analysis, i.e. isolation, extraction or identification of musical elements or musical parameters from a raw acoustic signal or from an encoded audio signal based on mfcc [mel -frequency spectral coefficients]
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10HELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
    • G10H2210/00Aspects or methods of musical processing having intrinsic musical character, i.e. involving musical theory or musical parameters or relying on musical knowledge, as applied in electrophonic musical tools or instruments
    • G10H2210/031Musical analysis, i.e. isolation, extraction or identification of musical elements or musical parameters from a raw acoustic signal or from an encoded audio signal
    • G10H2210/056Musical analysis, i.e. isolation, extraction or identification of musical elements or musical parameters from a raw acoustic signal or from an encoded audio signal for extraction or identification of individual instrumental parts, e.g. melody, chords, bass; Identification or separation of instrumental parts by their characteristic voices or timbres
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10HELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
    • G10H2210/00Aspects or methods of musical processing having intrinsic musical character, i.e. involving musical theory or musical parameters or relying on musical knowledge, as applied in electrophonic musical tools or instruments
    • G10H2210/031Musical analysis, i.e. isolation, extraction or identification of musical elements or musical parameters from a raw acoustic signal or from an encoded audio signal
    • G10H2210/076Musical analysis, i.e. isolation, extraction or identification of musical elements or musical parameters from a raw acoustic signal or from an encoded audio signal for extraction of timing, tempo; Beat detection
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10HELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
    • G10H2240/00Data organisation or data communication aspects, specifically adapted for electrophonic musical tools or instruments
    • G10H2240/011Files or data streams containing coded musical information, e.g. for transmission
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10HELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
    • G10H2240/00Data organisation or data communication aspects, specifically adapted for electrophonic musical tools or instruments
    • G10H2240/011Files or data streams containing coded musical information, e.g. for transmission
    • G10H2240/046File format, i.e. specific or non-standard musical file format used in or adapted for electrophonic musical instruments, e.g. in wavetables
    • G10H2240/066MPEG audio-visual compression file formats, e.g. MPEG-4 for coding of audio-visual objects
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10HELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
    • G10H2240/00Data organisation or data communication aspects, specifically adapted for electrophonic musical tools or instruments
    • G10H2240/011Files or data streams containing coded musical information, e.g. for transmission
    • G10H2240/046File format, i.e. specific or non-standard musical file format used in or adapted for electrophonic musical instruments, e.g. in wavetables
    • G10H2240/071Wave, i.e. Waveform Audio File Format, coding, e.g. uncompressed PCM audio according to the RIFF bitstream format method
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10HELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
    • G10H2250/00Aspects of algorithms or signal processing methods without intrinsic musical character, yet specifically adapted for or used in electrophonic musical processing
    • G10H2250/131Mathematical functions for musical analysis, processing, synthesis or composition
    • G10H2250/215Transforms, i.e. mathematical transforms into domains appropriate for musical signal processing, coding or compression
    • G10H2250/235Fourier transform; Discrete Fourier Transform [DFT]; Fast Fourier Transform [FFT]
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0272Voice signal separating
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2400/00Details of stereophonic systems covered by H04S but not provided for in its groups
    • H04S2400/15Aspects of sound capture and related signal processing for recording or reproduction
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2420/00Techniques used stereophonic systems covered by H04S but not provided for in its groups
    • H04S2420/03Application of parametric coding in stereophonic audio systems
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2420/00Techniques used stereophonic systems covered by H04S but not provided for in its groups
    • H04S2420/07Synergistic effects of band splitting and sub-band processing

Abstract

Изобретение относится к обработке аудиосигнала и предназначено для разделения гармонического ударного остаточного звука с использованием структурного тензора на спектрограммах. Технический результат – обеспечение усовершенствованных принципов для обработки аудиосигналов. Устройство для реконструкции фазы из амплитудной спектрограммы аудиосигнала содержит определитель изменения частоты, выполненный с возможностью определения изменения частоты для каждого временно-частотного бина из множества временно-частотных бинов амплитудной спектрограммы аудиосигнала в зависимости от амплитудной спектрограммы аудиосигнала, и реконструктор фазы, выполненный с возможностью генерации значений фазы для множества временно-частотных бинов в зависимости от изменений частот, определенных для множества временно-частотных бинов. 5 н. и 16 з.п. ф-лы, 10 ил., 1 табл.

Description

Настоящее изобретение относится к обработке аудиосигнала и, в частности, к устройству и способу для разделения гармонического-ударного-остаточного звука с использованием структурного тензора на спектрограммах.
Способность разделения звука на его гармоническую и ударную составляющие является эффективным этапом предобработки для многих применениях.
Хотя ʺгармоническое-ударное(-остаточное) разделениеʺ является общим термином, это обманчиво, поскольку предусматривает гармоническую структуру с синусоидами, имеющими частоту, кратную основной частоте. Несмотря на то, что правильный термин должен звучать как ʺтональное-ударное(-остаточное) разделениеʺ, термин ʺгармоническийʺ вместо ʺтональныйʺ используется в дальнейшем для упрощения понимания.
С использованием отделенной ударной составляющей музыкальной записи, например, могут приводить к повышению качества для отслеживания биений (см. [1]), анализа ритма и транскрипции ритмических инструментов. Отделенная гармоническая составляющая пригодна для транскрипции высоко звучащих инструментов и обнаружения струн (см. [3]). Кроме того, гармоническое-ударное разделение можно использовать в целях повторного смешивания, например, изменения отношения уровней между обеими составляющими сигнала (см. [4]), что делает общее восприятие звука ʺмягчеʺ или ʺжестчеʺ.
Некоторые способы гармонического-ударного разделения звука опираются на предположение о том, что гармонические звуки имеют горизонтальную структуру в амплитудной спектрограмме входного сигнала (во временном направлении), тогда как ударные звуки возникают как вертикальные структуры (в частотном направлении). В Ono et al. представлен способ, который сначала создает гармонически/ударно улучшенные спектрограммы путем диффузии во временном/частотном направлении (см. [5]). Затем, сравнивая эти улучшенные представления, можно принять решение, является ли звук гармоническим или ударным.
Аналогичный способ опубликован Fitzgerald, где улучшенные спектрограммы вычислялись с использованием медианной фильтрации в перпендикулярных направлениях вместо диффузии (см. [6]), что приводит к аналогичным результатам одновременно со снижением вычислительной сложности.
Система на основе модели синусоидальных+переходных+шумовых сигналов (S+T+N) (см. [7], [8], [9]), нацелена на описание соответствующих составляющих сигнала посредством малого набора параметров. Затем способ Fitzgerald был распространен на гармоническое-ударное-остаточное (HPR) разделение в [10]. Поскольку аудиосигналы часто состоят из звуков, которые не являются ни чисто гармоническими, ни чисто ударными, эта процедура захватывает эти звуки в третьей, остаточной составляющей. Хотя некоторые из этих остаточных сигналы отчетливо имеют изотропную, ни горизонтальную, ни вертикальную, структуру (как, например, шум), существуют звуки, которые не имеют чисто горизонтальной структуры, но, тем не менее, несут тональную информацию и могут восприниматься как гармоническая часть звука. Примерами являются частотно-модулированные тоны, которые могут возникать в записях скрипичной игры или вокальных партиях, где они упоминаются как имеющие ʺвибратоʺ. Благодаря стратегии распознавания горизонтальных или вертикальных структур, вышеупомянутые способы не всегда способны захватывать такие звуки в их гармонической составляющей.
Процедура гармонического-ударного разделения на основе разложения неотрицательной матрицы, которая способна захватывать гармонические звуки с негоризонтальными спектральными структурами в гармонической составляющей была предложена в [11]. Однако она не включает в себя третью остаточную составляющую.
Подводя итог вышесказанному, последние способы опираются на наблюдение, что в представлении спектрограммы, гармонические звуки приводят к горизонтальным структурам, и ударные звуки приводят к вертикальным структурам. Кроме того, эти способы связывают структуры, которые не являются ни горизонтальными, ни вертикальными (т.е. негармонические, неударные звуки) с остаточной категорией. Однако это предположение не ограничивается сигналами наподобие частотно-модулированных тонов, которые демонстрируют флуктуирующие спектральные структуры, и вместе с тем несут тональную информацию.
Структурный тензор, инструмент, используемый в обработке изображений (см. [12], [13]), применяется к изображениям в градации серого для обнаружения краев и углов (см. [14]) или для оценивания ориентации объекта. Структурный тензор уже использовался для предобработки и извлечения признаков в обработке аудиосигнала (см. [15], [16]).
Задача настоящего изобретения состоит в обеспечении усовершенствованных принципов для обработки аудиосигнала. Задача настоящего изобретения решается посредством устройства по п. 1, посредством системы по п. 18, посредством кодера по п. 19, посредством способа по п. 20 и посредством компьютерной программы по п. 21.
Предусмотрено устройство для реконструкции фазы из амплитудной спектрограммы аудиосигнала. Устройство содержит определитель изменения частоты, выполненный с возможностью определения изменения частоты для каждого временно-частотного бина из множества временно-частотных бинов амплитудной спектрограммы аудиосигнала в зависимости от амплитудной спектрограммы аудиосигнала, и реконструктор фазы, выполненный с возможностью генерации значений фазы для множества временно-частотных бинов в зависимости от изменений частот, определенных для множества временно-частотных бинов.
Кроме того, предусмотрен кодер, выполненный с возможностью генерации амплитудной спектрограммы аудиосигнала для устройства для реконструкции фазы, как описано выше.
Кроме того, предусмотрен способ реконструкции фазы из амплитудной спектрограммы аудиосигнала. Способ содержит:
- определение изменения частоты для каждого временно-частотного бина из множества временно-частотных бинов амплитудной спектрограммы аудиосигнала в зависимости от амплитудной спектрограммы аудиосигнала, и
- генерирование значений фазы для множества временно-частотных бинов в зависимости от изменений частот, определенных для множества временно-частотных бинов.
Кроме того, предусмотрена компьютерная программа, причем компьютерная программа выполнена с возможностью реализации вышеописанного способа при исполнении на компьютере или сигнальном процессоре.
В дальнейшем, варианты осуществления настоящего изобретения описаны более подробно со ссылкой на чертежи, в которых:
фиг. 1 демонстрирует устройство для анализа амплитудной спектрограммы аудиосигнала согласно варианту осуществления,
фиг. 2 демонстрирует спектрограмму смеси поющего голоса, кастаньет и аплодисментов с увеличенным участком согласно варианту осуществления, где ориентация стрелок указывает направление, и где длина стрелок указывает меру анизотропии,
фиг. 3 демонстрирует диапазон значений ориентации/анизотропии, вычисленных с использованием структурного тензора согласно варианту осуществления,
фиг. 4 демонстрирует сравнение между способами HPR-M и HPR-ST для извлечения синтетического входного сигнала,
фиг. 5 демонстрирует устройство согласно варианту осуществления, в котором устройство содержит генератор сигнала,
фиг. 6 демонстрирует устройство согласно варианту осуществления, в котором устройство содержит один или более микрофонов для записи аудиосигнала,
фиг. 7 демонстрирует устройство для реконструкции фазы согласно варианту осуществления,
фиг. 8 демонстрирует устройство для реконструкции фазы согласно варианту осуществления, содержащему генератор сигнала,
фиг. 9 демонстрирует систему, содержащую кодер и декодер согласно варианту осуществления, в котором декодером является устройство для реконструкции фазы согласно варианту осуществления, и
фиг. 10 демонстрирует аудиокодер и аудиодекодер согласно вариантам осуществления, использующим амплитудный спектр для передачи.
Фиг. 1 демонстрирует устройство для анализа амплитудной спектрограммы аудиосигнала согласно вариантам осуществления.
Устройство содержит определитель 110 изменения частоты. Определитель 110 изменения частоты выполнен с возможностью определения изменения частоты для каждого временно-частотного бина из множества временно-частотных бинов амплитудной спектрограммы аудиосигнала в зависимости от амплитудной спектрограммы аудиосигнала.
Кроме того, устройство содержит классификатор 120. Классификатор 120 выполнен с возможностью назначения каждого временно-частотного бина из множества временно-частотных бинов группе составляющих сигнала из двух или более групп составляющих сигнала в зависимости от изменения частоты, определенной для упомянутого временно-частотного бина.
Согласно варианту осуществления, определитель 110 изменения частоты может, например, быть выполнен с возможностью определения изменения частоты для каждого временно-частотного бина из множества временно-частотных бинов в зависимости от угла
Figure 00000001
для упомянутого временно-частотного бина. Угол
Figure 00000002
для упомянутого временно-частотного бина зависит от амплитудной спектрограммы аудиосигнала.
Согласно варианту осуществления, определитель 110 изменения частоты может, например, быть выполнен с возможностью определения изменения частоты для каждого временно-частотного бина из множества временно-частотных бинов дополнительно в зависимости от частоты дискретизации fs аудиосигнала, и в зависимости от длины N окна анализа и в зависимости от величины скачка H окна анализа.
Согласно варианту осуществления, определитель 110 изменения частоты устройства выполнен с возможностью определения изменения частоты для каждого временно-частотного бина из множества временно-частотных бинов по формуле
Figure 00000003
где
Figure 00000004
указывает временно-частотный бин из множества временно-частотных бинов, где
Figure 00000005
указывает изменение частоты для упомянутого временно-частотного бина
Figure 00000006
, где b указывает время, где k указывает частоту, где fs указывает частоту дискретизации аудиосигнала, где N указывает длину окна анализа, где H указывает величину скачка окна анализа, и где
Figure 00000007
указывает угол для упомянутого временно-частотного бина
Figure 00000008
, причем угол
Figure 00000009
зависит от амплитудной спектрограммы.
Согласно варианту осуществления, определитель 110 изменения частоты может, например, быть выполнен с возможностью определения частной производной Sb амплитудной спектрограммы S аудиосигнала по индексу времени. В таком варианте осуществления, определитель 110 изменения частоты может, например, быть выполнен с возможностью определения частной производной Sk амплитудной спектрограммы S аудиосигнала по индексу времени.
Кроме того, в таком варианте осуществления, определитель 110 изменения частоты выполнен с возможностью определения структурного тензора
Figure 00000010
для каждого временно-частотного бина
Figure 00000011
из множества временно-частотных бинов в зависимости от частной производной Sb амплитудной спектрограммы S аудиосигнала по индексу времени и в зависимости от частной производной Sk амплитудной спектрограммы S аудиосигнала по индексу частоты.
Кроме того, в таком варианте осуществления, определитель 110 изменения частоты может, например, быть выполнен с возможностью определения угла
Figure 00000012
для каждого временно-частотного бина
Figure 00000013
из множества временно-частотных бинов в зависимости от структурного тензора
Figure 00000014
для упомянутого временно-частотного бина
Figure 00000015
.
Согласно варианту осуществления, определитель 110 изменения частоты может, например, быть выполнен с возможностью определения угла
Figure 00000016
для каждого временно-частотного бина
Figure 00000017
из множества временно-частотных бинов путем определения двух составляющих
Figure 00000018
и
Figure 00000019
собственного вектора
Figure 00000020
структурного тензора (
Figure 00000021
) упомянутого временно-частотного бина
Figure 00000022
, и путем определения угла (
Figure 00000023
) для упомянутого временно-частотного бина (
Figure 00000024
) согласно
Figure 00000025
,
где
Figure 00000026
указывает угол для упомянутого временно-частотного бина (
Figure 00000027
), где b указывает время, где k указывает частоту, и где atan() указывает функцию, обратную тангенсу.
Согласно варианту осуществления, классификатор 120 может, например, быть выполнен с возможностью определения меры анизотропии для каждого временно-частотного бина
Figure 00000028
из множества временно-частотных бинов согласно, по меньшей мере, одной из формул:
Figure 00000029
и
Figure 00000030
,
где
Figure 00000031
- первое собственное значение, λ
Figure 00000032
- второе собственное значение структурного тензора (
Figure 00000033
) упомянутого временно-частотного бина
Figure 00000034
, и
Figure 00000035
.
В таком варианте осуществления, классификатор 120 может, например, быть выполнен с возможностью назначения каждого временно-частотного бина из множества временно-частотных бинов группе составляющих сигнала из двух или более групп составляющих сигнала дополнительно в зависимости от изменения меры анизотропии.
Согласно варианту осуществления, классификатор 120 может, например, быть выполнен с возможностью определения меры анизотропии для упомянутого временно-частотного бина
Figure 00000036
по формуле:
Figure 00000037
где
Figure 00000038
- мера анизотропии в зависимости от упомянутого временно-частотного бина
Figure 00000039
, и при этом классификатор 120 выполнен с возможностью назначения упомянутого временно-частотного бина
Figure 00000040
группе остаточных составляющих из двух или более групп составляющих сигнала, если мера анизотропии
Figure 00000041
меньше, чем первое пороговое значение c, или классификатор 120 выполнен с возможностью назначения упомянутого временно-частотного бина
Figure 00000042
группе остаточных составляющих из двух или более групп составляющих сигнала, если мера анизотропии
Figure 00000043
меньше или равен первому порогу c, где
Figure 00000044
.
Согласно варианту осуществления, классификатор 120 может, например, быть выполнен с возможностью назначения каждого временно-частотного бина из множества временно-частотных бинов группе составляющих сигнала из двух или более групп составляющих сигнала в зависимости от изменения
Figure 00000045
частоты, определенной для упомянутого временно-частотного бина
Figure 00000046
, таким образом, что классификатор 120 назначает временно-частотный бин из множества временно-частотных бинов группе гармонических составляющих сигнала из двух или более групп составляющих сигнала в зависимости от того, меньше ли абсолютное значение
Figure 00000047
изменения
Figure 00000048
частоты, определенной для упомянутого временно-частотного бина
Figure 00000049
, чем второй порог
Figure 00000050
, или в зависимости от того, меньше или равно ли абсолютное значение
Figure 00000051
изменения
Figure 00000052
частоты, определенной для упомянутого временно-частотного бина
Figure 00000053
, второму порогу
Figure 00000054
, где
Figure 00000055
.
Согласно варианту осуществления, классификатор 120 может, например, быть выполнен с возможностью назначения каждого временно-частотного бина из множества временно-частотных бинов группе составляющих сигнала из двух или более групп составляющих сигнала в зависимости от изменения
Figure 00000056
частоты, определенной для упомянутого временно-частотного бина
Figure 00000057
, таким образом, что классификатор 120 назначает временно-частотный бин из множества временно-частотных бинов группе ударных составляющих сигнала из двух или более групп составляющих сигнала в зависимости от того, больше ли абсолютное значение
Figure 00000058
изменения
Figure 00000059
частоты, определенной для упомянутого временно-частотного бина
Figure 00000060
, чем третий порог
Figure 00000061
, или в зависимости от того, больше или равно ли абсолютное значение
Figure 00000062
изменения (
Figure 00000063
) частоты, определенной для упомянутого временно-частотного бина
Figure 00000064
, третьему порогу
Figure 00000065
, где
Figure 00000066
.
Далее обеспечено подробное описание вариантов осуществления.
Варианты осуществления предусматривают усовершенствованные принципы гармонического-ударного-остаточного (HPR) разделения звука на основе структурного тензора. Некоторые варианты осуществления захватывают частотно-модулированные звуки, которые удерживают тональную информацию в гармонической составляющей с использованием информации об ориентации спектральных структур, обеспеченных структурным тензором.
Некоторые варианты осуществления базируются на том, что строгая классификация на горизонтальный и вертикальный неприемлемо для этих сигналов и может приводить к утечке тональной информации в остаточную составляющую. Варианты осуществления относятся к новому способу, который альтернативно использует структурный тензор, математический инструмент для вычисления преобладающие углы ориентации в амплитудной спектрограмме. Варианты осуществления используют эту информацию ориентации для различения между гармоническими, ударными и остаточными составляющими сигнала, даже в случае частотно-модулированных сигналов. Наконец, эффективность принципа вариантов осуществления проверяется посредством мер объективного оценивания, а также примеров аудиосигнала.
Кроме того, некоторые варианты осуществления базируются на том, что структурный тензор может рассматриваться как черный ящик, куда вводится изображение в градации серого и откуда выводятся углы n для каждого пикселя, соответствующего направлению наименьшего изменения, и мера определенности или анизотропии для этого направления для каждого пикселя. Структурный тензор дополнительно дает возможность сглаживания, которое снижает влияние шума для повышения устойчивости. Кроме того, меру определенности можно использовать для определения качества оцененных углов. Низкое значение этой меры определенности указывает, что пиксель находится на участке постоянной яркости без какого-либо четкого направления.
Локальное изменение частоты может, например, извлекаться из углов, полученных структурным тензором. Из этих углов, можно определять, принадлежит ли временно-частотный бин в спектрограмме гармонической (= низкое локальное изменение частоты) или ударной (= высокое или бесконечное локальное изменение частоты) составляющей.
Предусмотрены усовершенствованные варианты осуществления для классификации и разделения гармонических-ударных-остаточных составляющих.
Разделение гармонического-ударного-остаточного звука является полезным инструментом предобработки для применений, например, транскрипции высоко звучащего инструмента или извлечения ритма. Вместо поиска только строго горизонтальных и вертикальных структур, некоторые варианты осуществления определяют преобладающие углы ориентации, а также, локальную анизотропию в спектрограмме с использованием структурного тензора, известного из обработки изображений.
Согласно вариантам осуществления, обеспеченная информация об ориентации спектральных структур может затем использоваться для различения между гармоническими, ударными и остаточными составляющими сигнала путем установления надлежащих порогов, см. Фиг. 2.
Фиг. 2 демонстрирует спектрограмму смеси поющего голоса, кастаньет и аплодисментов с увеличенным участком, дополнительно показывая направление (ориентацию стрелок) и меру анизотропии (длину стрелок), полученную структурным тензором. Цвет стрелок указывают, назначен ли соответствующий временно-частотный бин гармонической составляющей (зоны 210), ударной составляющей (зоны 230), или остаточной составляющей (зоны 220) на основе информации ориентации и анизотропии.
Все бины, не имеющие ни высокую, ни низкую скорость локального изменения частоты или меру определенности, которая указывает постоянный участок, были назначены принадлежащими остаточной составляющей. Пример этого разделения спектрограммы представлен на фиг. 2. Варианты осуществления лучше осуществляются для аудиосигналов, содержащих частотно-модулированные звуки, чем аналогичные способы, работающие на амплитудной спектрограмме.
Сначала, описан принцип структурного тензора, и этот общий принцип распространяется на применение в контексте обработки аудиосигнала.
В дальнейшем, матрицы и векторы записываются жирным шрифтом для удобства обозначения. Кроме того, оператор (⋅) используется для указания конкретного элемента. В этом случае матрица или вектор записывается нежирным шрифтом для демонстрации ее (его) скалярного использования.
Сначала, описано вычисление спектрограммы согласно вариантам осуществления. Аудиосигнал может, например, быть (дискретным) входным аудиосигналом.
Структурный тензор может применяться к представлению спектрограммы дискретного входного аудиосигнала
Figure 00000067
с частотой дискретизации fs. Для спектрального анализа
Figure 00000068
используется кратковременное преобразование Фурье (STFT)
Figure 00000069
(1)
где
Figure 00000070
, b обозначает индекс кадра, k - индекс частоты, и
Figure 00000071
- функция окна длиной N (другими словами: N - длина окна анализа).
Figure 00000072
, H ≤ N представляет величину скачка анализа окна. Следует отметить, что поскольку спектр STFT имеет некоторую симметрию относительно точки Найквиста в
Figure 00000073
, обработка может, например, ограничиваться 0 ≤ k ≤
Figure 00000074
, поскольку симметрия может реконструироваться в ходе обратного STFT.
Спектрограмму можно получить с использованием вышеприведенной формулы (1). Спектрограмма содержит множество спектров, где спектры следуют друг за другом по времени. Второй спектр из множества спектры следует за первым спектром по времени, если существуют, по меньшей мере, некоторые вторые выборки во временной области, которые используются для генерации второго спектра и которые не используются для генерации первого спектра, и которые являются выборками во временной области, которые относятся к более позднему моменту времени, чем первые выборки во временной области, которые используются для генерации первого спектра. Окна выборок во временной области, используемых для генерирования соседствующих по времени спектров, могут, например, перекрываются.
Согласно вариантам осуществления, длина окна анализа N может, например, задаваться как:
256 выборок ≤ N ≤ 2048 выборок.
В некоторых вариантах осуществления, длина окна анализа может быть равна, например, 2048. В других вариантах осуществления, длина окна анализа может быть равна, например, 1024 выборкам. В дополнительных вариантах осуществления, длина окна анализа может быть равна, например, 768 выборкам. В дополнительных вариантах осуществления, длина окна анализа может быть равна, например, 256 выборкам.
Согласно вариантам осуществления, величина H скачка анализа может, например, находиться в диапазоне между 25% и 75% окна анализа. В таких вариантах осуществления:
0,25 N ≤ H ≤ 0,75 N.
Таким образом, в таких вариантах осуществления, если окно анализа имеет, например, 2048 выборок (N=2048), величина скачка анализа может находиться, например, в диапазоне:
512 выборок ≤ H ≤ 1536 выборок.
Если окно анализа имеет, например, 256 выборок (N=256), величина скачка анализа может находиться, например, в диапазоне:
64 выборки ≤ H ≤ 192 выборки.
В предпочтительных вариантах осуществления, величина скачка анализа может, например, составлять 50% окна анализа. Это соответствует перекрытию окон двух последовательных окон анализа 50%.
В некоторых вариантах осуществления, величина скачка анализа может составлять, например, 25% окна анализа. Это соответствует перекрытию окон двух последовательных окон анализа 75%.
В других вариантах осуществления, величина скачка анализа может составлять, например, 75% окна анализа. Это соответствует перекрытию окон двух последовательных окон анализа 25%.
Следует отметить, что принципы настоящего изобретения применяются для любого рода преобразования из временной области в спектральную область, например, для MDCT (модифицированного дискретного косинусного преобразования), MDST (модифицированного дискретного синусного преобразования, DSTFT (дискретного кратковременного преобразования Фурье) и т.д.
Действительнозначная логарифмическая спектрограмма может, например, вычисляться как:
Figure 00000075
(2)
Амплитудная спектрограмма аудиосигнала может обозначаться S и значение амплитудной спектрограммы для временно-частотного бина
Figure 00000076
может обозначаться
Figure 00000077
.
Далее описано вычисление структурного тензора согласно вариантам осуществления.
Для вычисления структурного тензора необходимы частные производные S. Частная производная по индексу b времени задается согласно
Sb=S*d (3)
тогда как частная производная по индексу k частоты задается согласно
Sk=S*dT (4)
где d - оператор дискретного дифференцирования (например, для центральных разностей можно выбирать d=
Figure 00000078
) и
Figure 00000079
обозначает 2-мерную свертку.
Кроме того, можно задать:
T11=(Sb ⊙ Sb)*G (5)
T21=T12=(Sk ⊙ Sb)*G (6)
T22=(Sk ⊙ Sk)*G (7)
где ⊙ - скалярное матричное умножение, также известные как адамарово произведение, и G - 2-D гауссов сглаживающий фильтр, имеющий среднеквадратическое отклонение
Figure 00000080
в направлении индекса времени и
Figure 00000081
в направлении индекса частоты. Затем структурный тензор
Figure 00000082
задается симметричной и положительной квазиопределенной матрицей
Figure 00000083
Figure 00000084
(8)
Структурный тензор содержит информацию о преобладающей ориентации спектрограммы в позиции
Figure 00000085
. Следует отметить, что в особом случае, когда G является скалярным,
Figure 00000086
не содержит больше информации, чем градиент в этой позиции в спектрограмме. Однако в отличие от градиента, структурный тензор может сглаживаться посредством G без эффектов подавления, что делает его более устойчивым к шуму.
Следует отметить, что структурный тензор
Figure 00000087
задается для каждого временно-частотного бина
Figure 00000088
из множества временно-частотных бинов. Поэтому, когда рассматривается множество временно-частотных бинов, например, временно-частотные бины
Figure 00000089
то существуют множество структурных тензоров
Figure 00000090
например, для каждого временно-частотного бина
Figure 00000091
из множества временно-частотных бинов, определяется один структурный тензор
Figure 00000092
.
В дальнейшем, вычисление углов и меры анизотропии согласно вариантам осуществления описан.
Информация об ориентации для каждого бина в спектрограмме получается путем вычисления собственных значений
Figure 00000093
,
Figure 00000094
, где
Figure 00000095
, и соответствующих собственных векторов
Figure 00000096
и
Figure 00000097
структурного тензора
Figure 00000098
. Следует отметить, что
Figure 00000099
, собственный вектор, соответствующий меньшему собственному значению
Figure 00000100
, указывает направление минимального изменения в спектрограмме с индексом
Figure 00000101
, тогда как
Figure 00000102
указывает направление наибольшего изменения. Таким образом, угол ориентации в конкретном бине можно получить согласно
Figure 00000025
(9)
где
Figure 00000103
и
Figure 00000104
являются составляющими собственного вектора
Figure 00000105
.
atan() указывает функцию, обратную тангенсу.
Кроме того, мера анизотропии
Figure 00000106
(10)
где
Figure 00000035
можно определять для каждого бина. Следует отметить, что
Figure 00000107
. Значения
Figure 00000108
близкие к 1, указывают высокую анизотропию спектрограммы с индексом
Figure 00000109
, тогда как постоянное соседство приводит к значениям, близким к 0. Порог
Figure 00000110
, который задает предел, который следует рассматривать анизотропным, можно выбирать для дополнительного увеличения устойчивости к шуму.
Физический смысл угла
Figure 00000111
можно понимать с учетом непрерывного сигнала с изменением
Figure 00000112
мгновенной частоты в интервале
Figure 00000113
времени. Таким образом, мгновенная скорость
Figure 00000114
изменения частоты выражается как
Figure 00000115
(11)
Например, согласно вариантам осуществления, углы (указанные направлением стрелок на фиг. 2), полученные с помощью структурного тензора, могут, например, преобразовываться в скорость локального изменения частоты
Figure 00000116
(11a)
для каждого временно-частотного бина спектрограммы.
Изменение частоты для каждого временно-частотного бина может, например, именоваться мгновенной скоростью изменения частоты.
С учетом частоты дискретизации, длины и величины скачка применяемого анализа STFT, соотношение между углами в спектрограмме и мгновенной скоростью
Figure 00000117
изменения частоты для каждого бина можно вывести согласно
Figure 00000003
(12)
Кроме того, среднеквадратические отклонения сглаживающего фильтра G в дискретной области
Figure 00000118
и
Figure 00000119
можно преобразовать в непрерывные физические параметры
Figure 00000120
и
Figure 00000121
согласно
Figure 00000122
,
Figure 00000123
(13)
Далее описано гармоническое-ударное-остаточное разделение с использованием структурного тензора.
Информация, полученная через структурный тензор, может применяться к проблеме разделения HPR, например, для классификации каждого бина в спектрограмме как часть либо гармонической, либо ударной, либо остаточной составляющей входного сигнала.
Варианты осуществления базируются на том, что бины, назначенные гармоническим составляющим, должны принадлежать довольно горизонтальным структурам, тогда как бины, принадлежащие довольно вертикальным структурам, следует назначать ударной составляющей. Кроме того, бины, которые не принадлежат никакого рода ориентированной структуре, следует назначать остаточной составляющей.
Согласно вариантам осуществления, бин
Figure 00000124
может, например, назначаться гармонической составляющей, если он удовлетворяет первому из следующих двух ограничений.
Согласно предпочтительным вариантам осуществления, бин
Figure 00000125
может, например, назначаться гармонической составляющей, если он удовлетворяет обоим из следующих двух ограничений:
- первое ограничение может состоять, например, в том, что абсолютное значение угла
Figure 00000126
меньше (или равно) порога
Figure 00000127
. Порог
Figure 00000128
может, например, находиться в диапазоне
Figure 00000129
. Это означает, что бин должен быть частью некоторой спектральной структуры, которая не имеет наклона, большего или меньшего, чем
Figure 00000130
. Таким образом, также частотно-модулированные звуки могут рассматриваться как часть гармонической составляющей, в зависимости от параметра
Figure 00000131
.
- второе ограничение может состоять, например, в том, что мера
Figure 00000132
анизотропии поддерживает, что бин
Figure 00000133
является частью некоторой направленной, анизотропной структуры, и поэтому превышает дополнительный порог c. Следует отметить, что для данного бина
Figure 00000134
, угол
Figure 00000135
и мера
Figure 00000136
анизотропии совместно задают точку в
Figure 00000137
, заданную в полярных координатах.
Аналогично, согласно вариантам осуществления, другой угловой порог
Figure 00000138
назначается для задания, когда бин следует назначать ударной составляющей (зоны 330 с вертикальными линиями на фиг. 3).
Таким образом, согласно вариантам осуществления, бин
Figure 00000139
может, например, назначаться ударной составляющей, если он удовлетворяет первому из следующих двух ограничений.
Согласно предпочтительным вариантам осуществления, бин
Figure 00000140
может, например, назначаться ударной составляющей, если он удовлетворяет обоим из следующих двух ограничений:
- первое ограничение может состоять, например, в том, что абсолютное значение угла
Figure 00000141
больше (или равно) порогового значения
Figure 00000142
. Порог
Figure 00000143
может, например, находиться в диапазоне
Figure 00000144
. Это означает, что бин должен быть частью некоторой спектральной структуры, которая не имеет наклона, большего или меньшего, чем
Figure 00000145
. Таким образом, также частотно-модулированные звуки могут рассматриваться как часть гармонической составляющей, в зависимости от параметра
Figure 00000146
.
- второе ограничение может состоять, например, в том, что мера анизотропии
Figure 00000147
поддерживает, что бин
Figure 00000148
является частью некоторой направленной, анизотропной структуры, и поэтому превышает дополнительный порог c. Следует отметить, что для данного бина
Figure 00000149
, угол
Figure 00000150
и мера анизотропии
Figure 00000151
совместно задают точку в
Figure 00000137
, заданную в полярных координатах.
Наконец, согласно вариантам осуществления, все бины, которые не назначаются ни гармонической, ни ударной составляющей, могут, например, назначаться остаточной составляющей.
Вышеописанный процесс назначения может выражаться путем задания маски для гармонической составляющей Mh, маски для ударной составляющей Mp и маски для остаточной составляющей Mr.
Следует отметить, что вместо использования порогового значения
Figure 00000152
и порогового значения
Figure 00000153
пороги, согласно вариантам осуществления, могут, например, задаваться на максимальной абсолютной скорости изменения частоты
Figure 00000154
, где
Figure 00000155
, для придания выбору параметров лучшей физической интерпретации. Затем маски задаются согласно:
Figure 00000156
(14)
Figure 00000157
(15)
Figure 00000158
(16)
Наконец, STFT гармонической составляющей Xh, ударной составляющей Xp и остаточной составляющей Xr получаются согласно
Xh=Mh ⊙ X (17)
Xp=Mp ⊙ X (18)
Xr=Mr ⊙ X (19)
Затем соответствующие временные сигналы можно вычислять посредством обратного STFT.
Фиг. 3 демонстрирует диапазон значений ориентации/анизотропии, вычисленных структурным тензором.
В частности, на фиг. 3 показано подмножество всех точек, которые приводят к назначению гармонической составляющей. В частности, значения в зонах 310 с волнистыми линиями приводят к назначению гармонической составляющей.
Значения в зонах 330 с вертикальными линиями приводят к назначению ударной составляющей.
Значения в зонах 320, отмеченных точками, приводят к назначению остаточной составляющей.
Порог
Figure 00000159
задает линию 301 на фиг. 3, и порог
Figure 00000160
задает линию 302 на фиг. 3.
Фиг. 5 демонстрирует устройство согласно варианту осуществления, в котором устройство содержит генератор 130 сигнала, выполненный с возможностью генерации выходного аудиосигнала в зависимости от назначения множества временно-частотных бинов двум или более группам составляющих сигнала.
Например, генератор сигнала может фильтровать разные составляющие аудиосигнала путем применения разных весовых коэффициентов к значениям амплитуды временно-частотных бинов разных групп составляющих сигнала. Например, группа гармонических составляющих сигнала может иметь первый весовой коэффициент wh, группа ударных составляющих сигнала может иметь второй весовой коэффициент wp, и группа остаточных составляющих сигнала может иметь первый весовой коэффициент wr, и значение амплитуды каждого временно-частотного бина из множества временно-частотных бинов может, например, взвешиваться весовым коэффициентом группы составляющих сигнала, которой назначается временно-частотный бин.
Например, для выделения гармонических составляющих сигнала, согласно варианту осуществления, где весовые коэффициенты умножаются на линейные значения амплитуды, например,
wh=1,3, wp=0,7, и wr=0,2
Например, для выделения гармонических составляющих сигнала, согласно варианту осуществления, где весовые коэффициенты прибавляются к логарифмическим значениям амплитуды, например,
wh=+0,26, wp=-0,35, и wr=-1,61
Например, для выделения ударные составляющие сигнала, согласно варианту осуществления, где весовые коэффициенты умножаются на линейные значения амплитуды, например,
wh=0,7, wp=1,3, и wr=0,2
Например, для выделения ударные составляющие сигнала, согласно варианту осуществления, где весовые коэффициенты прибавляются к логарифмическим значениям амплитуды, например,
wh=-0,35, wp=+0,26, и wr=-1,61
Таким образом, генератор 130 сигнала выполнен с возможностью применения весового коэффициента к значению амплитуды каждого временно-частотного бина из множества временно-частотных бинов для получения выходного аудиосигнала, причем весовой коэффициент, который применяется к упомянутому временно-частотному бину, зависит от группы составляющих сигнала, которой назначен упомянутый временно-частотный бин.
В конкретном варианте осуществления, представленном на фиг. 5, процессор 130 сигнала может быть, например, повышающим микшером, выполненным с возможностью повышающего микширования аудиосигнала для получения выходного аудиосигнала, содержащего два или более выходных аудиоканалов. Повышающий микшер может, например, быть выполнен с возможностью генерации двух или более выходных аудиоканалов в зависимости от назначения множества временно-частотных бинов двум или более группам составляющих сигнала.
Например, два или более выходных аудиоканалов могут генерироваться из фильтра аудиосигнала разных составляющих аудиосигнала путем применения разных весовых коэффициентов к значениям амплитуды временно-частотных бинов разных групп составляющих сигнала, как описано выше.
Однако для генерации разных аудиоканалов могут использоваться разные весовые коэффициенты для групп составляющих сигнала, которые могут, например, быть специфичными для каждого из разных выходных аудиоканалов.
Например, для первого выходного аудиоканала, весовые коэффициенты, прибавляемые к логарифмическим значениям амплитуды, могут, например, быть
w1h=+0,26, w1p=-0,35, и w1r=-1,61.
И для второго выходного аудиоканала, весовые коэффициенты, прибавляемые к логарифмическим значениям амплитуды, могут, например, быть
w2h=+0,35, w2p=-0,26, и w2r=-1,61.
Например, при повышающем смешивании аудиосигнала для получения пяти выходных аудиоканалов, переднего левого, центрального, правого, левого окружающего и правого окружающего:
- гармонический весовой коэффициент w1h можно увеличивать для генерирования левого, центрального и правого выходных аудиоканалов по сравнению с гармоническим весовым коэффициентом w2h для генерирования левого окружающего и правого окружающего выходных аудиоканалов.
- ударный весовой коэффициент w1p можно уменьшать для генерирования левого, центрального и правого выходных аудиоканалов по сравнению с ударным весовым коэффициентом w2p для генерирования левого окружающего и правого окружающего выходных аудиоканалов.
Отдельные весовые коэффициенты можно использовать для генерирования каждого выходного аудиоканала.
Фиг. 6 демонстрирует устройство согласно варианту осуществления, в котором устройство содержит один или более микрофонов 171, 172 для записи аудиосигнала.
На фиг. 6, первый микрофон 171 записывает первый аудиоканал аудиосигнала. Необязательный второй микрофон 172 записывает необязательный второй аудиоканал аудиосигнала.
Кроме того, устройство, представленное на фиг. 6, дополнительно содержит генератор 180 амплитудной спектрограммы для генерирования амплитудной спектрограммы аудиосигнала из аудиосигнала который содержит первый аудиоканал и, в необязательном порядке, содержит необязательный второй аудиоканал. Генерирование амплитудной спектрограммы из аудиосигнала является общеизвестным принципом для специалиста в данной области техники.
Далее рассматривается оценивание вариантов осуществления.
Чтобы продемонстрировать эффективность вариантов осуществления при захвате частотно-модулированных звуков в гармонической составляющей, способ HPR на основе структурного тензора (HPR-ST) согласно вариантам осуществления сравнивается с неитерационным способом на основе медианной фильтрации, представленным на [10] (HPR-M). Дополнительно, метрики также вычисляются для разделения результатов с идеальными двоичными масками (IBM), которые служат эталоном для максимально достижимого качества разделения.
С учетом параметров испытуемой системы, для обоих HPR-ST и HPR-M, выбираются параметры STFT fs=22050 Гц, N=1024 и H=256, с использованием окна синуса для w. Параметры разделения для HPR-M были выбраны, как в экспериментах, осуществляемых в [10]. Согласно вариантам осуществления, структурный тензор вычисляется с использованием дифференциального оператора, например, оператора Шарра [17] в качестве оператора d дискретного дифференцирования. Сглаживание осуществлялось с использованием изотропного гауссова фильтра
Figure 00000161
со среднеквадратическими отклонениями
Figure 00000162
, что дает
Figure 00000163
и
Figure 00000164
. Наконец, пороги для разделения были заданы как
Figure 00000165
Figure 00000166
и
Figure 00000167
.
Следует отметить, что благодаря выбору
Figure 00000168
и
Figure 00000169
согласно вариантам осуществления, даже очень крутые структуры в спектрограмме назначаются гармонической составляющей. Варианты осуществления используют наблюдения о звуках вибрато реального мира, как, например, показано на фиг. 2. Здесь можно видеть в ряде случаев, что вибрато в поющем голосе имеет очень высокую мгновенную скорость изменения частоты. Кроме того, следует отметить, что при выборе
Figure 00000170
, назначение бина в спектрограмме остаточной составляющей зависит только от его меры анизотропии.
Эффективность HPR-ST согласно вариантам осуществления оценивалась путем сравнения с традиционным способом HPR-M на основе медианной фильтрации, представленным в [10] посредством мер объективного оценивания, а также примеров аудиосигнала.
Для сравнения поведения HPR-ST согласно вариантам осуществления и HPR-M уровня техники применительно к сигналам, содержащим частотно-модулированные звуки, для получения объективных результатов, генерировались два испытательных элемента.
Испытательный элемент 1 состоит из суперпозиции чисто синтетических звуком. В качестве гармонического источника был выбран тон вибрато с основной частотой 1000 Гц, частотой вибрато 3 Гц, ширины вибрато 50 Гц и 4 обертонами. В качестве ударного источника используется несколько импульсов, тогда как белый шум не представляет ни гармонический, ни ударный, ни остаточный источник.
Испытательный элемент 2 генерировался наложением сигналов реального мира поющего голоса с вибрато (гармоническим), кастаньетами (ударным) и аплодисментами (ни гармоническим, ни ударным).
Интерпретируя разделение HPR этих элементов как проблему разделение источников, вычисляли стандартные метрики оценивания разделения источников (отношение источника к искажению SDR, отношение источника к помехе SIR, и отношения источника к артефактам SAR, представленные в [18]) для разделения результатов обеих процедур. Результаты приведены в таблице 1.
В таблице 1 приведены меры объективного оценивания, где все значения заданы в дБ:
SDR SDR SAR
IBM HPR-M HPR-ST IBM HPR-M HPR-ST IBM HPR-M HPR-ST
элемент 1 вибрато 29,43 11,51 21,25 34,26 27,94 30,01 31,16 11,61 21,88
импульсы 8,56 -10,33 -1,47 20,31 -7,96 12,03 8,90 2,02 -1,00
шум 8,49 -13,53 2,58 24,70 -11,99 14,12 8,61 3,97 3,06
элемент 2 вокальные партии 14,82 6,48 9,18 22,75 20,83 15,61 15,60 6,68 10,42
кастаньеты 8,48 3,79 2,37 21,59 16,09 17,96 8,73 4,16 2,56
аплодисменты 7,39 -2,03 -0,37 20,31 1,11 6,34 7,66 3,33 1,58
(Таблица 1)
Для элемента 1 HPR-ST дает SDR 21,25 дБ для тона вибрато, и поэтому он ближе к оптимальному результату разделения IBM (29,43 дБ), чем к результату разделения HPR-M (11,51 дБ). Это указывает, что HPR-ST улучшает захват этого частотно-модулированного звука в гармонической составляющей по сравнению с HPRM. Это также показано на фиг. 4.
Фиг. 4 демонстрирует сравнение между способами HPR-M и HPR-ST для извлечения синтетического входного сигнала (элемент 1). Для улучшенной видимости спектрограммы вычислялись с другими параметрами STFT, чем использовались для алгоритмов разделения.
Фиг. 4 (a) демонстрирует частоту входного сигнала относительно времени. На фиг. 4 графически изображены спектрограммы гармонических составляющих и сумма ударной и остаточной составляющих, вычисленных для обеих процедур. Можно видеть, что для HPR-M крутые наклоны тона вибрато подмешиваются в остаточную составляющую (фиг. 4 (b) и (c) ), тогда как HPR-ST (фиг. 4 (d) и (e)) дает хорошее разделение. Это также поясняет очень низкие значения SIR HPRM для остаточной составляющей по сравнению с HPR-ST (-11,99 дБ в отличие от 14,12 дБ).
Следует отметить, что высокое значение SIR HPR-M для гармонической составляющей отражает лишь тот факт, что другие составляющие создают очень малую помеху, а не что звук вибрато хорошо захватывается в целом. В целом большинство наблюдений для элемента 1 менее выражено, но также пригодно для смеси звуков реального мира в элементе 2. Для этого элемента, значение SIR HPR-M для вокальных партий даже превышает значение SIR HPR-ST (20,83 дБ в отличие от 15,61 дБ). Опять же, низкое значение SIR для аплодисментов поддерживает, что участки вибрато в вокальных партиях подмешиваются в остаточную составляющую для HPR-M (1,11 дБ), тогда как остаточная составляющая HPR-ST содержит меньше звуковых помех (6,34 дБ). Это указывает, что варианты осуществления позволяют захватывать частотно-модулированные структуры вокальных партий гораздо лучше, чем HPR-M.
В итоге, для сигналов, которые содержат частотно-модулированные тоны, принцип HPR-ST вариантов осуществления обеспечивает гораздо лучшие результаты разделения по сравнению с HPR-M.
Некоторые варианты осуществления используют структурный тензор для обнаружения поющего голоса. (Обнаружение поющего голоса согласно уровню техники описано в [2]).
Далее описан другой аспект вариантов осуществления. Этот дополнительный аспект относится к реконструкции фазы из амплитудной спектрограммы.
Фиг. 7 демонстрирует устройство для реконструкции фазы из амплитудной спектрограммы аудиосигнала согласно варианту осуществления.
Устройство содержит определитель 110 изменения частоты, выполненный с возможностью определения изменения частоты для каждого временно-частотного бина из множества временно-частотных бинов амплитудной спектрограммы аудиосигнала в зависимости от амплитудной спектрограммы аудиосигнала.
Кроме того, устройство содержит реконструктор 140 фазы, выполненный с возможностью генерации значений фазы для множества временно-частотных бинов в зависимости от изменений частот, определенных для множества временно-частотных бинов.
Согласно вариантам осуществления, реконструктор 140 фазы может, например, быть выполнен с возможностью генерации значения фазы для каждого временно-частотного бина из множества временно-частотных бинов путем интегрирования изменений частоты два раза (путем интегрирования два раза во времени). Другими словами, согласно вариантам осуществления, реконструктор 140 фазы выполнен с возможностью генерации значения фазы для каждого временно-частотного бина из множества временно-частотных бинов путем интегрирования два раза по времени. Поэтому, другими словами, интервал(ы), по которому(ым) дважды осуществляется интегрирование, проходит(ят) по оси времени спектрограммы.
Согласно другим вариантам осуществления, реконструктор 140 фазы выполнен с возможностью генерации значения фазы для каждого временно-частотного бина из множества временно-частотных бинов путем интегрирования два раза по частоте (путем интегрирования два раза спектрально). Поэтому, другими словами, интервал(ы), по которому(ым) дважды осуществляется интегрирование, проходит(ят) по оси частоты спектрограммы. Например, интегрирование по частоте, которое осуществляется дважды, может, например, осуществляться согласно формулам (30) и (31).
Согласно вариантам осуществления, реконструктор 140 фазы может, например, быть выполнен с возможностью генерации значений фазы для множества временно-частотных бинов по формуле
Figure 00000171
где b0 может, например, быть индексом, указывающим блок анализа из множества блоков. b может, например, быть дополнительным индексом, указывающим дополнительный блок анализа из множества блоков. H может, например, указывать величину скачка.
Figure 00000172
и
Figure 00000173
и
Figure 00000174
могут, например, указывать значения фазы.
Согласно вариантам осуществления, определитель 110 изменения частоты может, например, быть выполнен с возможностью определения изменения частоты для каждого временно-частотного бина из множества временно-частотных бинов в зависимости от угла
Figure 00000175
для упомянутого временно-частотного бина, причем угол
Figure 00000176
для упомянутого временно-частотного бина зависит от амплитудной спектрограммы аудиосигнала.
Согласно вариантам осуществления, определитель 110 изменения частоты может, например, быть выполнен с возможностью определения изменения частоты для каждого временно-частотного бина из множества временно-частотных бинов дополнительно в зависимости от частоты дискретизации fs аудиосигнала, и в зависимости от длины N окна анализа и в зависимости от величины скачка H окна анализа.
Согласно вариантам осуществления, определитель 110 изменения частоты устройства может, например, быть выполнен с возможностью определения изменения частоты для каждого временно-частотного бина из множества временно-частотных бинов по формуле
Figure 00000003
где
Figure 00000177
указывает временно-частотный бин из множества временно-частотных бинов,
Figure 00000178
указывает изменение частоты для упомянутого временно-частотного бина
Figure 00000179
, b указывает время, k указывает частоту, fs указывает частоту дискретизации аудиосигнала, N указывает длину окна анализа, H указывает величину скачка окна анализа, и
Figure 00000180
указывает угол для упомянутого временно-частотного бина
Figure 00000181
, причем угол
Figure 00000182
зависит от амплитудной спектрограммы.
Согласно вариантам осуществления, определитель 110 изменения частоты может, например, быть выполнен с возможностью определения частной производной Sb амплитудной спектрограммы S аудиосигнала по индексу времени. Кроме того, определитель 110 изменения частоты может, например, быть выполнен с возможностью определения частной производной Sk амплитудной спектрограммы S аудиосигнала по индексу времени. Кроме того, определитель 110 изменения частоты может, например, быть выполнен с возможностью определения структурного тензора
Figure 00000183
для каждого временно-частотного бина
Figure 00000184
из множества временно-частотных бинов в зависимости от частной производной Sb амплитудной спектрограммы S аудиосигнала по индексу времени и в зависимости от частной производной Sk амплитудной спектрограммы S аудиосигнала по индексу частоты. Кроме того, определитель 110 изменения частоты может, например, быть выполнен с возможностью определения угла
Figure 00000185
для каждого временно-частотного бина
Figure 00000186
из множества временно-частотных бинов в зависимости от структурного тензора
Figure 00000187
для упомянутого временно-частотного бина
Figure 00000188
.
Согласно вариантам осуществления, определитель 110 изменения частоты может, например, быть выполнен с возможностью определения угла
Figure 00000189
для каждого временно-частотного бина
Figure 00000190
из множества временно-частотных бинов путем определения двух составляющих
Figure 00000191
и
Figure 00000192
собственного вектора
Figure 00000193
структурного тензора
Figure 00000194
упомянутого временно-частотного бина
Figure 00000195
, и путем определения угла
Figure 00000196
для упомянутого временно-частотного бина
Figure 00000197
согласно
Figure 00000025
где
Figure 00000198
указывает угол для упомянутого временно-частотного бина
Figure 00000199
; b указывает время, k указывает частоту, и atan() указывает функцию, обратную тангенсу.
Согласно вариантам осуществления, реконструктор 140 фазы, выполненный с возможностью генерации значений фазы для каждого временно-частотного бина из множества временно-частотных бинов в зависимости от изменений частот, определенных для множества временно-частотных бинов.
Согласно вариантам осуществления, реконструктор 140 фазы может, например, быть выполнен с возможностью определения меры анизотропии для каждого временно-частотного бина
Figure 00000200
из множества временно-частотных бинов в зависимости от изменения частоты, определенной для каждого временно-частотного бина из множества временно-частотных бинов.
Согласно вариантам осуществления, реконструктор 140 фазы может, например, быть выполнен с возможностью определения меры анизотропии для каждого временно-частотного бина
Figure 00000201
из множества временно-частотных бинов согласно, по меньшей мере, одной из формул:
Figure 00000202
и
Figure 00000203
,
где
Figure 00000204
- первое собственное значение, λ
Figure 00000205
- второе собственное значение структурного тензора (
Figure 00000206
) упомянутого временно-частотного бина
Figure 00000207
, и
Figure 00000035
. Реконструктор 140 фазы может, например, быть выполнен с возможностью назначения каждого временно-частотного бина из множества временно-частотных бинов группе составляющих сигнала из двух или более групп составляющих сигнала дополнительно в зависимости от изменения меры анизотропии.
Согласно вариантам осуществления, реконструктор 140 фазы выполнен с возможностью определения меры анизотропии для упомянутого временно-частотного бина
Figure 00000208
по формуле:
Figure 00000037
где
Figure 00000209
- мера анизотропии в зависимости от упомянутого временно-частотного бина
Figure 00000210
. Реконструктор 140 фазы может, например, быть выполнен с возможностью назначения упомянутого временно-частотного бина
Figure 00000211
группе остаточных составляющих из двух или более групп составляющих сигнала, если мера анизотропии
Figure 00000212
меньше, чем верхнее пороговое значение c, или реконструктор 140 фазы может, например, быть выполнен с возможностью назначения упомянутого временно-частотного бина
Figure 00000213
группе остаточных составляющих из двух или более групп составляющих сигнала, если мера анизотропии
Figure 00000214
меньше или равна верхнему пороговому значению c.
Figure 00000044
.
Согласно вариантам осуществления, реконструктор 140 фазы может, например, быть выполнен с возможностью определения режима реконструкции фазы для каждого временно-частотного бина из множества временно-частотных бинов в зависимости от меры анизотропии, нужно ли проводить реконструкцию фазы,
Реконструктор 140 фазы может, например, быть выполнен с возможностью генерации значения фазы для каждого временно-частотного бина из множества временно-частотных бинов путем интегрирования изменений частоты два раза, если режим реконструкции фазы, определенный реконструктором 140 фазы для упомянутого временно-частотного бина указывает первый режим. Кроме того, реконструктор 140 фазы может, например, быть выполнен с возможностью определения фазы для каждого временно-частотного бина из множества временно-частотных бинов путем интегрирования изменений частоты два раза, если режим реконструкции фазы, определенный реконструктором 140 фазы для упомянутого временно-частотного бина указывает второй режим, отличный от первого режима.
Согласно вариантам осуществления, реконструктор 140 фазы может, например, быть выполнен с возможностью определения режима реконструкции фазы для каждого временно-частотного бина
Figure 00000215
из множества временно-частотных бинов таким образом, что режим реконструкции фазы указывает первый режим, если мера анизотропии больше, чем нижнее пороговое значение c, и таким образом, что режим реконструкции фазы указывает второй режим, если мера анизотропии для упомянутого временно-частотного бина
Figure 00000216
меньше или равна нижнему пороговому значению c.
Согласно вариантам осуществления, верхнее пороговое значение и нижнее пороговое значение c могут, например, быть равны.
Альтернативно, реконструктор (140) фазы выполнен с возможностью определения режима реконструкции фазы для каждого временно-частотного бина
Figure 00000217
из множества временно-частотных бинов таким образом, что режим реконструкции фазы указывает первый режим, если мера анизотропии для упомянутого временно-частотного бина
Figure 00000218
больше или равна пороговому значению c, и таким образом, что режим реконструкции фазы указывает второй режим, если мера анизотропии меньше порогового значения c.
Первый режим может, например, указывать, что временно-частотный бин принадлежит группе гармонических или ударных составляющих сигнала.
Первый режим может, например, указывать, что временно-частотный бин принадлежит группе остаточных составляющих сигнала.
Далее более подробно описано оценивание фазы согласно конкретным вариантам осуществления.
Алгоритмы для задачи оценивания фазовой информации из заданной амплитудной спектрограммы предложены в [19] и [20]. Однако эти алгоритмы либо имеют высокую вычислительную сложность или приводят к неудовлетворительному воспринимаемому качеству общих аудиосигналов.
Оценивание фазовой информации из амплитудной спектрограммы является задачей, которую можно использовать, например, в кодировании аудиосигнала, где кодер может передавать только амплитуду, тогда как фаза восстанавливается на декодере. По сравнению с традиционными кодерами на основе MDCT, где спектр демонстрируют флуктуации по времени даже для постоянных тональных сигналов, амплитудный спектр (например, DFT, или CMDCT в роли MCLT) гораздо устойчивее, что позволяет осуществлять дифференциальное кодирование, эффективное по битовой скорости по времени (см. [21]) и эффективное снижение многоканальной избыточности.
Согласно вариантам осуществления, новый алгоритм оценивания структурным тензором на основе локального изменения частоты согласно вариантам осуществления основан на модели сигнала с учетом произвольного входного сигнала, составляемого из нескольких линейных чирпов. Линейный чирп-сигнал задается согласно
Figure 00000219
,
Figure 00000220
(20)
где t - временная переменная, f0 [Гц] - постоянная начальная частота, и R [Гц/с] - скорость изменения постоянной частоты. Выводя фазовый аргумент
Figure 00000221
два раза относительно t, можно показать, что
Figure 00000222
. (21)
Таким образом, текущую фазу можно получить путем интегрирования скорости изменения частоты два раза. Чтобы предложенной алгоритм работал в дискретной области, это интегрирование превращается в суммирование. Предполагая, что каждый бин спектрограммы соответствует локальному линейному чирп-сигналу, локальное изменение частоты, оцененное структурным тензором, соответствует R для каждого локального чирпа. Кроме того, с использованием меры анизотропии, полученной через структурный тензор, можно осуществлять необходимое интегрирование скоростей локального изменения частоты без какой-либо явной модели сигнала или предыдущей семантической классификации.
Поскольку высокая мера анизотропии соответствует направленным структурам наподобие тональным или ударным составляющим в спектрограмме, она, следовательно, соответствует участкам, где можно реконструировать фазу в отличие от изотропных, шумовых участков, где можно предположить случайную фазу.
Опишем это более подробно:
Как описано выше, углы (например, указанные направлением стрелок на фиг. 2), полученные структурным тензором, можно преобразовывать в скорость локального изменения частоты
Figure 00000223
(22)
для каждого временно-частотного бина спектрограммы, где
Figure 00000224
- углы для каждого бина, извлеченного с помощью структурного тензора.
Далее объяснены принципы использования информации, например, структурного тензора, для реконструкции фазы из амплитудной спектрограммы и ее использования для кодирования аудиосигнала. Предполагается, что
Figure 00000225
(23)
является не только STFT, но и произвольным временно-частотным представлением x(t). Затем проблема реконструкции фазы будет описана как задача для извлечения оценки
Figure 00000226
из амплитудной спектрограммы
Figure 00000227
. Посредством обратного преобразования
Figure 00000228
(24)
можно снова генерировать соответствующий сигнал y(t) временной области.
Согласно вариантам осуществления, оценивание структурным тензором на основе локального изменения частоты предусмотрен новый алгоритм для реконструкции фазы из амплитудной спектрограммы. Основную идею можно понимать с учетом дискретного линейного чирп-сигнала, заданного в виде
Figure 00000229
,
Figure 00000230
(25)
где t∈ℤ - переменная индекса времени, f0 [Гц] - постоянная начальная частота, R0 [Гц/с] - скорость изменения постоянной частоты и
Figure 00000231
- начальная фаза. Если этот сигнал анализируется с использованием преобразования перекрывающихся блоков, например, STFT в качестве банка фильтров, соответствующего временно-частотному представлению, распространение фазы, поскольку величина H скачка окна от предыдущего блока анализа b - 1 к текущему блоку b может выражаться как
Figure 00000232
(26)
Таким образом
Figure 00000233
- конечная разность относительно индекса b блока анализа и может интерпретироваться как оценка для мгновенной угловой частоты x(t). С использованием
Figure 00000234
можно выразить
Figure 00000235
на любом блоке анализа b > b0, когда
Figure 00000236
известна
Figure 00000237
(27)
Теперь рассмотрим изменение
Figure 00000238
от предыдущего блока анализа b - 1 к текущему блоку b:
Figure 00000239
(28)
Figure 00000240
постоянна для линейного чирпа и содержит фиксированные постоянные, а также скорость R0 изменения частоты. Она может интерпретироваться как увеличение угловой частоты от одного блока анализа к следующего блока. Если
Figure 00000241
известна, формула (27) может выражаться, кроме того, с использованием
Figure 00000242
Figure 00000243
(29)
Это означает, что можно вычислять фазу
Figure 00000244
на блоке анализа b, если известны фаза и мгновенная частота на предыдущем блоке анализа и дополнительно изменение R0 постоянной частоты.
Заметим, что вдвое больше этих выражений и формул можно вычислять для переходных сигналов, например, импульсов. Однако конечную разность нужно производить по индексу k частоты в спектральной фазе
Figure 00000245
arg
Figure 00000246
некоторого блока анализа b.
Затем временной центр тяжести для переходного сигнала получается согласно
Figure 00000247
(30)
и изменение временного центра тяжести для переходного сигнала по индексу k частоты согласно
Figure 00000248
(31)
Для этого случая можно выводить вдвое больше выражений для формулы (27) и формулы (29).
Согласно вариантам осуществления, предусмотрен алгоритм для реконструкции фазы из амплитудного спектра как объяснено выше с использованием оценки скорости локального изменения частоты полученный структурным тензором.
Предполагая, что каждый бин спектрограммы соответствует локальному линейному чирп-сигналу, соответственно, имеющему линейное изменение частоты, то локальное изменение
Figure 00000249
частоты, оцененное структурным тензором, соответствует чирповой скорости или локального линейного изменения R0 частоты, как объяснено в предыдущем подразделе. Это означает, что преобразующие направления, полученные структурным тензором, можно рассматривать как сглаженную, устойчивую оценку второй производной
Figure 00000250
по индексу b времени и до некоторых мультипликативных постоянных.
С использованием этой оценки, формула (29) может затем использоваться для вычисления текущей фазы сигнала. Поскольку предполагается, что линейное изменение частоты осуществляется только в объеме одного бина даже для сигналов с более сложной частотной модуляцией можно получить оценку фазы. Следует отметить, что мгновенная частота, а также начальная фаза, либо должна быть заранее известна (например, передаваться в качестве вспомогательной информации), либо оцениваться другими способами. В частности, мгновенную частоту можно оценивать с использованием интерполяции наподобие QFFT или отклонений амплитудного спектра.
Следует отметить, что несмотря на то, что формула (29) показывает суммы, строго суммируя в направление b блока анализа, в более развитом алгоритме сумма должна следовать траектории главного лепестка сигналов в спектрограмме. Таким образом может потребоваться включать информацию направленности, соответствующую скорости локального изменения частоты, полученной через структурный тензор либо неявно, либо явно в направлении суммирования. Это может приводить к тому, что оцененная фаза является суперпозицией результата сумм в направлении индекса k частоты и в направлении индекса b блока анализа.
Дополнительно следует отметить, что выражение, вычисленное по формуле (29), соответствует аргументу синуса как показано в формуле (25). Несмотря на то, что это имеет сильное соответствие с фазой, наблюдаемой в спектральном представлении, может потребоваться использовать дополнительную информацию (например, аналитическое выражение спектра в зависимости от фазы) для правильного синтеза фазы для каждого бина (например, для боковых лепестков спектра).
Кроме того, с использованием меры анизотропии, полученной через структурный тензор, можно осуществлять необходимое интегрирование скоростей локального изменения частоты без какой-либо явной модели сигнала или предыдущей семантической классификации. Поскольку высокая мера анизотропии соответствует направленным структурам наподобие тональным или ударным составляющим в спектрограмме, она, следовательно, соответствует участкам, где можно реконструировать фазу в отличие от изотропных, шумовых участков, где можно предположить случайную фазу.
Кроме того, не требуется ограничивать алгоритм монотембральными сигналами.
Варианты осуществления обеспечивают преимущества над уровнем техники. Например, некоторые варианты осуществления демонстрируют умеренную вычислительную сложность (например, менее, чем в [19]). Кроме того, некоторые варианты осуществления, лучше оценивают фазы, чем в [20] для частотно-модулированных сигналов.
Некоторые варианты осуществления реализуют внутреннюю классификацию составляющих сигнала:
Например, согласно некоторым вариантам осуществления, оценивание фазы возможно для гармонических составляющих сигнала; оценивание фазы возможно для ударных составляющих сигнала; но оценивание фазы невозможно для остаточных составляющих сигнала и/или шумовых составляющих сигнала.
Далее рассмотрены применения кодирования аудиосигнала.
Выбор банка фильтров является критическим этапом в проектировании аудиокодека. Традиционные кодеки часто используют MDCT (модифицированное дискретное косинусное преобразование), поскольку оно обеспечивает 50% перекрытие при критичной дискретизации и совершенную реконструкцию в отсутствие квантования. В применениях кодирования эти свойства уменьшают артефакты блочности, при сохранении низкого объема данных для спектральных коэффициентов, подлежащих передаче. Обратной стороной MDCT является его спектральная флуктуация по времени даже для стационарных сигналов. Это приводит к потере коэффициента усиления кодирования, например, для дифференциального кодирование спектральных коэффициентов, поскольку информация о ранее переданном спектре MDCT должен ограничиваться только использованием в реконструкции текущего спектра MDCT.
Поскольку амплитуда спектра, например, амплитуда банка фильтров на основе MCLT (модулированного комплексного преобразования с перекрытием) с 50% перекрытием, гораздо устойчивее по времени [21], в частности, для стационарных сигналов, варианты осуществления предусматривают конструкцию кодека на основе вышеописанных принципов для реконструкции фазы.
Согласно вариантам осуществления, кодер осуществляет временно-частотное разложение входного сигнала x(t) PCM с использованием банка фильтров анализа для получения комплексного спектра
Figure 00000251
в течение некоторого интервала времени, например, одного кадра.
Figure 00000252
используется для извлечения вспомогательной информации.
Согласно вариантам осуществления, вспомогательная информация может, например, содержать основную частоту и/или временную позицию переходных сигналов и/или фазы инициализации (например, с регулярными интервалами) и/или информацию о текущем классе сигнала, и т.д.
Затем амплитуда
Figure 00000253
квантуется до
Figure 00000254
и передается на декодер совместно со вспомогательной информацией. Затем декодер использует вспомогательную информацию, а также квантованный амплитудный спектр
Figure 00000255
для оценивания фазы исходного комплексного спектра
Figure 00000256
, как описано выше. С использованием этой оцененной фазы можно получить комплексный спектр
Figure 00000257
, который должен быть приближен к
Figure 00000258
. Затем
Figure 00000259
поступает на банк фильтров синтеза для получения выходного сигнала y(t) во временной области. Благодаря предложенному банку фильтров MCLT, кодек наподобие этого по-прежнему будет демонстрировать желательные признаки, например, перекрытие и критическая дискретизация, обеспечивая при этом более эффективные возможности дифференциального кодирования стационарных сигналов.
Фиг. 8 демонстрирует устройство для реконструкции фазы согласно одному из вышеописанных вариантов осуществления, содержащих генератор 150 сигнала. Генератор 150 сигнала выполнен с возможностью генерации выходного аудиосигнала в зависимости от амплитудной спектрограммы аудиосигнала и в зависимости от значений фазы для множества временно-частотных бинов.
Например, амплитудная спектрограмма обеспечивает значение амплитуды для конкретного временно-частотного бина, и значение фазы для конкретного временно-частотного бина было реконструировано реконструктором 140 фазы.
Фиг. 9 демонстрирует систему, содержащую кодер 210 и декодер 220 согласно варианту осуществления, где декодер 220 является устройством для реконструкции фазы согласно одному из вышеописанных вариантов осуществления.
Кодер 210 выполнен с возможностью кодирования амплитудной спектрограммы аудиосигнала.
Декодер 220 выполнен с возможностью определения изменения частоты для каждого временно-частотного бина из множества временно-частотных бинов амплитудной спектрограммы аудиосигнала в зависимости от амплитудной спектрограммы аудиосигнала.
Кроме того, декодер 220 выполнен с возможностью генерации значений фазы для множества временно-частотных бинов в зависимости от изменений частот, определенных для множества временно-частотных бинов.
Кроме того, декодер 220 выполнен с возможностью декодирования аудиосигнала с использованием амплитудной спектрограммы аудиосигнала и с использованием значений фазы для множества временно-частотных бинов.
Фиг. 10 демонстрирует аудиокодер 210 и аудиодекодер 220 согласно вариантам осуществления, использующим амплитудный спектр для передачи.
Аудиокодер 210 выполнен с возможностью генерации амплитудной спектрограммы аудиосигнала для устройства для реконструкции фазы как описано выше. На фиг. 10, декодер 220 может, например, быть устройством для реконструкции фазы, как описано выше.
Хотя некоторые аспекты были описаны в контексте устройства, очевидно, что эти аспекты также представляют описание соответствующего способа, где блок или устройство соответствует этапу способа или признаку этапа способа. Аналогично, аспекты, описанные в контексте этапа способа также представляют описание соответствующего блока или элемента или признака соответствующего устройства. Некоторые или все из этапов способа могут выполняться посредством (или с использованием) аппаратного устройства, например, микропроцессора, программируемого компьютера или электронной схемы. В некоторых вариантах осуществления, один или более из наиболее важных этапов способа может выполняться таким устройством.
В зависимости от некоторых требований реализации, варианты осуществления изобретения могут быть реализованы аппаратными средствами или программными средствами или, по меньшей мере, частично аппаратными средствами или по меньшей мере, частично программными средствами. Реализация может осуществляться с использованием цифрового запоминающего носителя, например, флоппи-диска, DVD, Blu-Ray, CD, ROM, PROM, EPROM, EEPROM или флеш-памяти, на которых хранятся электронно считываемые сигналы управления, которые взаимодействуют (или способны взаимодействовать) с программируемой компьютерной системой, благодаря чему, осуществляется соответствующий способ. Поэтому цифровой запоминающий носитель может считываться компьютером.
Некоторые варианты осуществления согласно изобретению содержат носитель данных, имеющий электронно считываемые сигналы управления, которые способны взаимодействовать с программируемой компьютерной системой, благодаря чему, осуществляется один из описанных здесь способов.
В общем случае, варианты осуществления настоящего изобретения могут быть реализованы как компьютерный программный продукт с программным кодом, причем программный код предназначен осуществлять один из способов, когда компьютерный программный продукт выполняется на компьютере. Программный код может, например, храниться на машиночитаемом носителе.
Другие варианты осуществления содержат компьютерную программу для осуществления одного из описанных здесь способов, хранящуюся на машиночитаемом носителе.
Другими словами, вариант осуществления способа, отвечающего изобретению, является, таким образом, компьютерной программой, имеющей программный код для осуществления одного из описанных здесь способов, когда компьютерная программа выполняется на компьютере.
Таким образом, дополнительный вариант осуществления способов, отвечающих изобретению является носителем данных (или цифровым запоминающим носителем, или компьютерно-читаемым носителем), на котором записана компьютерная программа для осуществления одного из описанных здесь способов. Носитель данных, цифровой запоминающий носитель или записанный носитель обычно являются материальными и/или некратковременными.
Дополнительный вариант осуществления способа, отвечающего изобретению, является, таким образом, поток данных или последовательность сигналов, представляющих компьютерную программу для осуществления одного из описанных здесь способов. Поток данных или последовательность сигналов может, например, иметь возможность переноса через соединение для передачи данных, например, через интернет.
Дополнительный вариант осуществления содержит средство обработки, например, компьютер или программируемое логическое устройство, выполненное с возможностью или адаптированное для осуществления одного из описанных здесь способов.
Дополнительный вариант осуществления содержит компьютер, на котором установлена компьютерная программа для осуществления одного из описанных здесь способов.
Дополнительный вариант осуществления согласно изобретению содержит устройство или систему, выполненную с возможностью переноса (например, электронного или оптического) компьютерной программы для осуществления одного из описанных здесь способов на приемник. Приемником может, например, быть компьютер, мобильное устройство, запоминающее устройство и т.п. Устройство или система может, например, содержать файловый сервер для переноса компьютерной программы на приемник.
В некоторых вариантах осуществления, программируемое логическое устройство (например, вентильная матрица, программируемая пользователем) может использоваться для осуществления некоторых или всех из функциональных возможностей описанных здесь способов. В некоторых вариантах осуществления, вентильная матрица, программируемая пользователем, может взаимодействовать с микропроцессором для осуществления одного из описанных здесь способов. В общем случае, способы, предпочтительно, осуществляются любым аппаратным устройством.
Описанное здесь устройство может быть реализовано с использованием аппаратного устройства или с использованием компьютера, или с использованием комбинации аппаратного устройства и компьютера.
Описанные здесь способы могут осуществляться с использованием аппаратного устройства или с использованием компьютера, или с использованием комбинации аппаратного устройства и компьютера.
Вышеописанные варианты осуществления призваны лишь иллюстрировать принципы настоящего изобретения. Следует понимать, что модификации и вариации описанных здесь компоновок и деталей будут очевидны специалистам в данной области техники. Поэтому они подлежат ограничению только объемом нижеследующей формулы изобретения, но не конкретными деталями, представленными посредством описания и объяснения рассмотренных здесь вариантов осуществления.
ССЫЛКИ
[1] Aggelos Gkiokas, Vassilios Katsouros, George Carayannis, and Themos Stafylakis, ʺMusic tempo estimation and beat tracking by applying source separation and metrical relationsʺ, in Proceedings of the IEEE International Conference on Acoustics, Speech, and Signal Processing (ICASSP), 2012, pp. 421-424.
[2] Bernhard Lehner, Gerhard Widmer, and Reinhard Sonnleitner, ʺOn the reduction of false positives in singing voice detectionʺ, in Proceedings of the IEEE International Conference on Acoustics, Speech, and Signal Processing (ICASSP), Florence, Italy, 2014, pp. 7480-7484.
[3] Yushi Ueda, Yuuki Uchiyama, Takuya Nishimoto, Nobutaka Ono, and Shigeki Sagayama, ʺHMM-based approach for automatic chord detection using refined acoustic featuresʺ, in Proceedings of the IEEE International Conference on Acoustics, Speech, and Signal Processing (ICASSP), Dallas, Texas, USA, 2010, pp. 5518-5521.
[4] Nobutaka Ono, Kenichi Miyamoto, Hirokazu Kameoka, and Shigeki Sagayama, ʺA real-time equalizer of harmonic and percussive components in music signalsʺ, in Proceedings of the International Society for Music Information Retrieval Conference (ISMIR), Philadelphia, Pennsylvania, USA, 2008, pp. 139-144.
[5] Nobutaka Ono, Kenichi Miyamoto, Jonathan LeRoux, Hirokazu Kameoka, and Shigeki Sagayama, ʺSeparation of a monaural audio signal into harmonic/percussive components by complementary diffusion on spectrogramʺ, in European Signal Processing Conference, Lausanne, Switzerland, 2008, pp. 240-244.
[6] Derry Fitzgerald, ʺHarmonic/percussive separation using median filteringʺ, in Proceedings of the International Conference on Digital Audio Effects (DAFX), Graz, Austria, 2010, pp. 246-253.
[7] Scott N. Levine and Julius O. Smith III, ʺA sines+transients+noise audio representation for data compression and time/pitch scale modicationsʺ, in Proceedings of the AES Convention, 1998.
[8] Tony S. Verma and Teresa H.Y. Meng, ʺAn analysis/synthesis tool for transient signals that allows a flexible sines+transients+noise model for audioʺ, in Proceedings of the IEEE International Conference on Acoustics, Speech, and Signal Processing (ICASSP), Seattle, Washington, USA, May 1998, pp. 3573-3576.
[9] Laurent Daudet, ʺSparse and structured decompositions of signals with the molecular matching pursuitʺ, IEEE Transactions on Audio, Speech, and Language Processing, vol. 14, no. 5, pp. 1808-1816, September 2006.
[10] Jonathan Driedger, Meinard Müller, and Sascha Disch, ʺExtending harmonic-percussive separation of audio signalsʺ, in Proceedings of the International Conference on Music Information Retrieval (ISMIR), Taipei, Taiwan, 2014, pp. 611-616.
[11] Jeongsoo Park and Kyogu Lee, ʺHarmonic-percussive source separation using harmonicity and sparsity constraintsʺ, in Proceedings of the International Conference on Music Information Retrieval (ISMIR), Málaga, Spain, 2015, pp. 148-154.
[12] Josef Bigun and Gösta H. Granlund, ʺOptimal orientation detection of linear symmetryʺ, in Proceedings of the IEEE First International Conference on Computer Vision, London, UK, 1987, pp. 433-438.
[13] Hans Knutsson, ʺRepresenting local structure using tensorsʺ, in 6th Scandinavian Conference on Image Analysis, Oulu, Finland, 1989, pp. 244-251.
[14] Chris Harris and Mike Stephens, ʺA combined corner and edge detectorʺ, in Proceedings of the 4th Alvey Vision Conference, Manchester, UK, 1988, pp. 147-151.
[15] Rolf Bardeli, ʺSimilarity search in animal sound databasesʺ, IEEE Transactions on Multimedia, vol. 11, no. 1, pp. 68-76, January 2009.
[16] Matthias Zeppelzauer, Angela S. Stöger, and Christian Breiteneder, ʺAcoustic detection of elephant presence in noisy environmentsʺ, in Proceedings of the 2nd ACM International Workshop on Multimedia Analysis for Ecological Data, Barcelona, Spain, 2013, pp4. 3-8.
[17] Hanno Scharr, ʺOptimale Operatoren in der digitalen Bildverarbeitungʺ, Dissertation, IWR, Fakultät für Physik und Astronomie, Universität Heidelberg, Heidelberg, Germany, 2000.
[18] Emmanuel Vincent, Rémi Gribonval, and Cédric Févotte, ʺPerformance measurement in blind audio source separationʺ, IEEE Transactions on Audio, Speech, and Language Processing, vol. 14, no. 4, pp. 1462-1469, 2006.
[19] Daniel W. Griffin and Jae S. Lim, ʺSignal estimation from modified short-time Fourier transformʺ, IEEE Transactions on Acoustics, Speech, and Signal Processing, vol. 32, no. 2, pp. 236-243, 1984.
[20] Paul Magron, Roland Badeau, and Bertrand David, ʺPhase reconstruction of spectrograms with linear unwrapping: application to audio signal restorationʺ, in Signal Processing Conference (EUSIPCO), 2015 23rd European. IEEE, 2015, pp. 1-5.
[21] Byung-Jun Yoon and Henrique S Malvar, ʺCoding overcomplete representations of audio using the mcltʺ, in Data Compression Conference, 2008. DCC 2008. IEEE, 2008, pp. 152-161.

Claims (77)

1. Устройство для реконструкции фазы из амплитудной спектрограммы аудиосигнала, содержащее:
определитель (110) изменения частоты, выполненный с возможностью определения изменения частоты для каждого временно-частотного бина из множества временно-частотных бинов амплитудной спектрограммы аудиосигнала в зависимости от амплитудной спектрограммы аудиосигнала, и
реконструктор (140) фазы, выполненный с возможностью генерации значений фазы для упомянутого множества временно-частотных бинов в зависимости от изменений частот, определенных для упомянутого множества временно-частотных бинов.
2. Устройство по п. 1,
в котором реконструктор (140) фазы выполнен с возможностью генерации значения фазы для каждого временно-частотного бина из упомянутого множества временно-частотных бинов путем интегрирования изменений частоты два раза.
3. Устройство по п. 1,
в котором реконструктор (140) фазы выполнен с возможностью генерации значений фазы для упомянутого множества временно-частотных бинов по формуле
Figure 00000260
,
где b 0 - индекс, указывающий блок анализа из множества блоков,
где b - дополнительный индекс, указывающий дополнительный блок анализа из упомянутого множества блоков,
где H указывает величину скачка, и
где
Figure 00000261
и
Figure 00000262
и
Figure 00000263
указывают значения фазы.
4. Устройство по п. 1,
в котором определитель (110) изменения частоты выполнен с возможностью определения изменения частоты для каждого временно-частотного бина из упомянутого множества временно-частотных бинов в зависимости от угла (
Figure 00000264
) для упомянутого временно-частотного бина, причем угол (
Figure 00000265
) для упомянутого временно-частотного бина зависит от амплитудной спектрограммы аудиосигнала.
5. Устройство по п. 4,
в котором определитель (110) изменения частоты выполнен с возможностью определения изменения частоты для каждого временно-частотного бина из упомянутого множества временно-частотных бинов дополнительно в зависимости от частоты (f s ) дискретизации аудиосигнала и в зависимости от длины (N) окна анализа и в зависимости от величины (H) скачка окна анализа.
6. Устройство по п. 5,
в котором определитель (110) изменения частоты устройства выполнен с возможностью определения изменения частоты для каждого временно-частотного бина из упомянутого множества временно-частотных бинов по формуле
Figure 00000266
,
где
Figure 00000267
указывает временно-частотный бин из упомянутого множества временно-частотных бинов,
где
Figure 00000268
указывает изменение частоты для упомянутого временно-частотного бина
Figure 00000269
,
где b указывает время,
где k указывает частоту,
где f s указывает частоту дискретизации аудиосигнала,
где N указывает длину окна анализа,
где H указывает величину скачка окна анализа, и
где
Figure 00000270
указывает угол для упомянутого временно-частотного бина
Figure 00000271
, причем угол
Figure 00000272
зависит от амплитудной спектрограммы.
7. Устройство по п. 4,
в котором определитель (110) изменения частоты выполнен с возможностью определения частной производной (S b ) амплитудной спектрограммы (S) аудиосигнала по индексу времени,
причем определитель (110) изменения частоты выполнен с возможностью определения частной производной (S k ) амплитудной спектрограммы (S) аудиосигнала по индексу времени, и
причем определитель (110) изменения частоты выполнен с возможностью определения структурного тензора (
Figure 00000273
) для каждого временно-частотного бина (
Figure 00000274
) из упомянутого множества временно-частотных бинов в зависимости от частной производной (S b ) амплитудной спектрограммы (S) аудиосигнала по индексу времени и в зависимости от частной производной (S k ) амплитудной спектрограммы (S) аудиосигнала по индексу частоты, и
причем определитель (110) изменения частоты выполнен с возможностью определения угла (
Figure 00000275
) для каждого временно-частотного бина (
Figure 00000276
) из упомянутого множества временно-частотных бинов в зависимости от структурного тензора (
Figure 00000277
) для упомянутого временно-частотного бина (
Figure 00000278
).
8. Устройство по п. 7,
в котором определитель (110) изменения частоты выполнен с возможностью определения угла (
Figure 00000279
) для каждого временно-частотного бина (
Figure 00000280
) из упомянутого множества временно-частотных бинов путем определения двух составляющих
Figure 00000281
и
Figure 00000282
собственного вектора
Figure 00000283
структурного тензора (
Figure 00000284
) упомянутого временно-частотного бина (
Figure 00000285
) и путем определения угла (
Figure 00000286
) для упомянутого временно-частотного бина (
Figure 00000287
) согласно
Figure 00000288
где
Figure 00000289
указывает угол для упомянутого временно-частотного бина (
Figure 00000290
),
где b указывает время,
где k указывает частоту, и
где atan() указывает функцию, обратную тангенсу.
9. Устройство по п. 1, в котором реконструктор (140) фазы выполнен с возможностью генерации значений фазы для каждого временно-частотного бина из упомянутого множества временно-частотных бинов в зависимости от изменений частот, определенных для упомянутого множества временно-частотных бинов.
10. Устройство по п. 7, в котором реконструктор (140) фазы выполнен с возможностью определения меры анизотропии для каждого временно-частотного бина
Figure 00000291
из упомянутого множества временно-частотных бинов в зависимости от изменения частоты, определенной для каждого временно-частотного бина из упомянутого множества временно-частотных бинов.
11. Устройство по п. 10,
в котором реконструктор (140) фазы выполнен с возможностью определения меры анизотропии для каждого временно-частотного бина
Figure 00000292
из упомянутого множества временно-частотных бинов согласно по меньшей мере одной из формул:
Figure 00000293
и
Figure 00000293
,
где
Figure 00000294
- первое собственное значение, λ
Figure 00000295
- второе собственное значение структурного тензора (
Figure 00000296
) упомянутого временно-частотного бина
Figure 00000297
, и
Figure 00000298
,
причем реконструктор (140) фазы выполнен с возможностью назначения каждого временно-частотного бина из упомянутого множества временно-частотных бинов группе составляющих сигнала из двух или более групп составляющих сигнала дополнительно в зависимости от изменения меры анизотропии.
12. Устройство по п. 11,
в котором реконструктор (140) фазы выполнен с возможностью определения меры анизотропии для упомянутого временно-частотного бина
Figure 00000299
по формуле:
Figure 00000300
где
Figure 00000301
- мера анизотропии в зависимости от упомянутого временно-частотного бина
Figure 00000302
, и
причем реконструктор (140) фазы выполнен с возможностью назначения упомянутого временно-частотного бина
Figure 00000303
группе остаточных составляющих из двух или более групп составляющих сигнала, если мера анизотропии
Figure 00000304
меньше, чем верхнее пороговое значение c, или реконструктор (140) фазы выполнен с возможностью назначения упомянутого временно-частотного бина
Figure 00000305
группе остаточных составляющих из двух или более групп составляющих сигнала, если мера анизотропии
Figure 00000306
меньше или равна верхнему пороговому значению c,
где
Figure 00000307
.
13. Устройство по п. 9,
в котором реконструктор (140) фазы выполнен с возможностью определения режима реконструкции фазы для каждого временно-частотного бина из упомянутого множества временно-частотных бинов в зависимости от меры анизотропии, нужно ли проводить реконструкцию фазы,
причем реконструктор (140) фазы выполнен с возможностью генерации значения фазы для каждого временно-частотного бина из упомянутого множества временно-частотных бинов путем интегрирования изменений частоты два раза, если режим реконструкции фазы, определенный реконструктором (140) фазы для упомянутого временно-частотного бина, указывает первый режим, и
причем реконструктор (140) фазы выполнен с возможностью определения фазы для каждого временно-частотного бина из упомянутого множества временно-частотных бинов путем интегрирования изменений частоты два раза, если режим реконструкции фазы, определенный реконструктором (140) фазы для упомянутого временно-частотного бина, указывает второй режим, отличный от первого режима.
14. Устройство по п. 13,
в котором реконструктор (140) фазы выполнен с возможностью определения режима реконструкции фазы для каждого временно-частотного бина из упомянутого множества временно-частотных бинов таким образом, что режим реконструкции фазы указывает первый режим, если мера анизотропии для упомянутого временно-частотного бина (
Figure 00000308
) больше, чем нижнее пороговое значение (c), и таким образом, что режим реконструкции фазы указывает второй режим, если мера анизотропии для упомянутого временно-частотного бина (
Figure 00000309
) меньше или равна нижнему пороговому значению (c), или
причем реконструктор (140) фазы выполнен с возможностью определения режима реконструкции фазы для каждого временно-частотного бина из упомянутого множества временно-частотных бинов таким образом, что режим реконструкции фазы указывает первый режим, если мера анизотропии для упомянутого временно-частотного бина (
Figure 00000310
) больше или равна нижнему пороговому значению (c), и таким образом, что режим реконструкции фазы указывает второй режим, если мера анизотропии для упомянутого временно-частотного бина (
Figure 00000311
) меньше, чем нижнее пороговое значение (c).
15. Устройство по п. 1,
в котором реконструктор (140) фазы выполнен с возможностью генерации значения фазы для каждого временно-частотного бина из упомянутого множества временно-частотных бинов путем интегрирования два раза по частоте.
16. Устройство по п. 1,
в котором реконструктор (140) фазы выполнен с возможностью генерации значения фазы для каждого временно-частотного бина из упомянутого множества временно-частотных бинов путем интегрирования два раза по времени.
17. Устройство по п. 1, причем устройство содержит генератор (150) сигнала, выполненный с возможностью генерации выходного аудиосигнала в зависимости от амплитудной спектрограммы аудиосигнала и в зависимости от значений фазы для упомянутого множества временно-частотных бинов.
18. Система кодирования и декодирования аудиосигнала с использованием амплитудной спектрограммы аудиосигнала, причем упомянутая система содержит:
кодер (210) для кодирования амплитудной спектрограммы аудиосигнала, и
декодер (220), который является устройством по п. 1, для декодирования аудиосигнала,
причем декодер (220) выполнен с возможностью определения изменения частоты для каждого временно-частотного бина из множества временно-частотных бинов амплитудной спектрограммы аудиосигнала в зависимости от амплитудной спектрограммы аудиосигнала,
причем декодер (220) выполнен с возможностью генерации значений фазы для упомянутого множества временно-частотных бинов в зависимости от изменений частот, определенных для упомянутого множества временно-частотных бинов, и
причем декодер (220) выполнен с возможностью декодирования аудиосигнала с использованием амплитудной спектрограммы аудиосигнала и с использованием значений фазы для упомянутого множества временно-частотных бинов.
19. Кодер (210), выполненный с возможностью генерации амплитудной спектрограммы аудиосигнала для устройства для реконструкции фазы по п. 1.
20. Способ реконструкции фазы из амплитудной спектрограммы аудиосигнала, содержащий этапы, на которых:
определяют изменение частоты для каждого временно-частотного бина из множества временно-частотных бинов амплитудной спектрограммы аудиосигнала в зависимости от амплитудной спектрограммы аудиосигнала, и
генерируют значения фазы для упомянутого множества временно-частотных бинов в зависимости от изменений частот, определенных для упомянутого множества временно-частотных бинов.
21. Цифровой запоминающий носитель, содержащий компьютерную программу для реализации способа по п. 20 при исполнении на компьютере или сигнальном процессоре.
RU2018136578A 2016-03-18 2017-03-16 Устройство и способ реконструкции фазовой информации с использованием структурного тензора на спектрограммах RU2714579C1 (ru)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
EP16161230 2016-03-18
EP16161230.4 2016-03-18
PCT/EP2017/056263 WO2017158105A1 (en) 2016-03-18 2017-03-16 Encoding by reconstructing phase information using a structure tensor on audio spectrograms

Publications (1)

Publication Number Publication Date
RU2714579C1 true RU2714579C1 (ru) 2020-02-18

Family

ID=55646317

Family Applications (1)

Application Number Title Priority Date Filing Date
RU2018136578A RU2714579C1 (ru) 2016-03-18 2017-03-16 Устройство и способ реконструкции фазовой информации с использованием структурного тензора на спектрограммах

Country Status (7)

Country Link
US (1) US10607630B2 (ru)
EP (1) EP3430620B1 (ru)
JP (1) JP6790114B2 (ru)
CN (1) CN109247069B (ru)
BR (1) BR112018068892A2 (ru)
RU (1) RU2714579C1 (ru)
WO (1) WO2017158105A1 (ru)

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10664715B2 (en) * 2018-03-16 2020-05-26 University Of Wolverhampton Computer-implemented print analysis
DE102019205543A1 (de) * 2019-04-17 2020-10-22 Robert Bosch Gmbh Verfahren zum Klassifizieren zeitlich aufeinanderfolgender digitaler Audiodaten
CN110246510B (zh) * 2019-06-24 2021-04-06 电子科技大学 一种基于RefineNet的端到端语音增强方法
JP7218688B2 (ja) * 2019-07-24 2023-02-07 日本電信電話株式会社 位相推定装置、位相推定方法、およびプログラム
CN111312258A (zh) * 2019-12-16 2020-06-19 随手(北京)信息技术有限公司 用户的身份认证方法、装置、服务器及存储介质

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
RU2487426C2 (ru) * 2008-03-20 2013-07-10 Фраунхофер-Гезелльшафт Цур Фердерунг Дер Ангевандтен Форшунг Е.Ф. Устройство и способ преобразования звукового сигнала в параметрическое представление, устройство и способ модификации параметрического представления, устройство и способ синтеза параметрического представления звукового сигнала
RU2543309C2 (ru) * 2009-01-30 2015-02-27 Фраунхофер-Гезелльшафт Цур Фердерунг Дер Ангевандтен Форшунг Е.Ф. Устройство, способ и компьютерная программа для того, чтобы управлять аудиосигналом, включающим переходный сигнал
AU2013203159B2 (en) * 2008-12-15 2015-09-17 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Audio encoder and bandwidth extension decoder
WO2015157013A1 (en) * 2014-04-11 2015-10-15 Analog Devices, Inc. Apparatus, systems and methods for providing blind source separation services

Family Cites Families (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO1986005617A1 (en) 1985-03-18 1986-09-25 Massachusetts Institute Of Technology Processing of acoustic waveforms
EP2065885B1 (en) * 2004-03-01 2010-07-28 Dolby Laboratories Licensing Corporation Multichannel audio decoding
US8843378B2 (en) * 2004-06-30 2014-09-23 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Multi-channel synthesizer and method for generating a multi-channel output signal
JP5294300B2 (ja) 2008-03-05 2013-09-18 国立大学法人 東京大学 音信号の分離方法
PL4231290T3 (pl) * 2008-12-15 2024-04-02 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Dekoder powiększania szerokości pasma audio, powiązany sposób oraz program komputerowy
JP2013057895A (ja) * 2011-09-09 2013-03-28 Research Organization Of Information & Systems 音声再生装置、音声再生方法及びコンピュータプログラム
JP2013114009A (ja) * 2011-11-29 2013-06-10 Honda Motor Co Ltd 能動型振動騒音制御装置
JP5898534B2 (ja) * 2012-03-12 2016-04-06 クラリオン株式会社 音響信号処理装置および音響信号処理方法
JP2013197815A (ja) * 2012-03-19 2013-09-30 Nippon Telegr & Teleph Corp <Ntt> 変調光源および変調信号の生成方法
US10497381B2 (en) * 2012-05-04 2019-12-03 Xmos Inc. Methods and systems for improved measurement, entity and parameter estimation, and path propagation effect measurement and mitigation in source signal separation
EP2747451A1 (en) * 2012-12-21 2014-06-25 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Filter and method for informed spatial filtering using multiple instantaneous direction-of-arrivial estimates
CN104240695A (zh) * 2014-08-29 2014-12-24 华南理工大学 一种优化的基于耳机重放的虚拟声合成方法
CN104616659B (zh) * 2015-02-09 2017-10-27 山东大学 相位对重构语音声调感知影响方法及在人工耳蜗中应用

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
RU2487426C2 (ru) * 2008-03-20 2013-07-10 Фраунхофер-Гезелльшафт Цур Фердерунг Дер Ангевандтен Форшунг Е.Ф. Устройство и способ преобразования звукового сигнала в параметрическое представление, устройство и способ модификации параметрического представления, устройство и способ синтеза параметрического представления звукового сигнала
AU2013203159B2 (en) * 2008-12-15 2015-09-17 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Audio encoder and bandwidth extension decoder
RU2543309C2 (ru) * 2009-01-30 2015-02-27 Фраунхофер-Гезелльшафт Цур Фердерунг Дер Ангевандтен Форшунг Е.Ф. Устройство, способ и компьютерная программа для того, чтобы управлять аудиосигналом, включающим переходный сигнал
WO2015157013A1 (en) * 2014-04-11 2015-10-15 Analog Devices, Inc. Apparatus, systems and methods for providing blind source separation services

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
MAGRON PAUL et al: "Phase reconstruction of spectrograms with linear unwrapping: Application to audio signal restoration", 2015 23RD EUROPEAN SIGNAL PROCESSING CONFERENCE (EUSIPCO), EURASIP, 31.08.2015, p.p. 1-5. *

Also Published As

Publication number Publication date
US10607630B2 (en) 2020-03-31
US20190019529A1 (en) 2019-01-17
BR112018068892A2 (pt) 2019-01-22
WO2017158105A1 (en) 2017-09-21
EP3430620B1 (en) 2020-03-25
CN109247069B (zh) 2021-12-21
JP2019512740A (ja) 2019-05-16
EP3430620A1 (en) 2019-01-23
JP6790114B2 (ja) 2020-11-25
CN109247069A (zh) 2019-01-18

Similar Documents

Publication Publication Date Title
RU2714579C1 (ru) Устройство и способ реконструкции фазовой информации с использованием структурного тензора на спектрограммах
US5781880A (en) Pitch lag estimation using frequency-domain lowpass filtering of the linear predictive coding (LPC) residual
JP4818335B2 (ja) 信号帯域拡張装置
EP1982329B1 (en) Adaptive time and/or frequency-based encoding mode determination apparatus and method of determining encoding mode of the apparatus
RU2712652C1 (ru) Устройство и способ для гармонического/перкуссионного/остаточного разделения звука с использованием структурного тензора на спектрограммах
KR20080101872A (ko) 부호화/복호화 장치 및 방법
DK2843659T3 (en) PROCEDURE AND APPARATUS TO DETECT THE RIGHT OF PITCH PERIOD
Füg et al. Harmonic-percussive-residual sound separation using the structure tensor on spectrograms
Bhatt Simulation and overall comparative evaluation of performance between different techniques for high band feature extraction based on artificial bandwidth extension of speech over proposed global system for mobile full rate narrow band coder
Byun et al. Development of a Psychoacoustic Loss Function for the Deep Neural Network (DNN)-Based Speech Coder.
Eyben et al. Acoustic features and modelling
de León et al. A complex wavelet based fundamental frequency estimator in singlechannel polyphonic signals
Dziubiński et al. High accuracy and octave error immune pitch detection algorithms
Chunghsin Multiple fundamental frequency estimation of polyphonic recordings
US20220392458A1 (en) Methods and system for waveform coding of audio signals with a generative model
Ceron Pitch-informed solo and accompaniment separation.
Santoro et al. Multiple F0 Estimation in the Transform Domain.
Anifowose Design of a keyword spotting system using modified cross-correlation in the time and the MFCC domain
MULTIPLES Chunghsin YEH
Balaji et al. A Novel DWT Based Speech Enhancement System through Advanced Filtering Approach with Improved Pitch Synchronous Analysis
Gao et al. A new approach to generating Pitch Cycle Waveform (PCW) for Waveform Interpolation codec