RU2716911C2 - Способ и устройство для кодирования множественных аудиосигналов и способ и устройство для декодирования смеси множественных аудиосигналов с улучшенным разделением - Google Patents

Способ и устройство для кодирования множественных аудиосигналов и способ и устройство для декодирования смеси множественных аудиосигналов с улучшенным разделением Download PDF

Info

Publication number
RU2716911C2
RU2716911C2 RU2017134722A RU2017134722A RU2716911C2 RU 2716911 C2 RU2716911 C2 RU 2716911C2 RU 2017134722 A RU2017134722 A RU 2017134722A RU 2017134722 A RU2017134722 A RU 2017134722A RU 2716911 C2 RU2716911 C2 RU 2716911C2
Authority
RU
Russia
Prior art keywords
audio signals
multiple audio
mixture
sources
additional information
Prior art date
Application number
RU2017134722A
Other languages
English (en)
Other versions
RU2017134722A3 (ru
RU2017134722A (ru
Inventor
Джагдас БЫЛЕН
Алексей ОЗЕРОВ
Патрик ПЕРЕС
Original Assignee
Интердиджитал Се Пэйтент Холдингз
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Priority claimed from EP15306144.5A external-priority patent/EP3115992A1/en
Application filed by Интердиджитал Се Пэйтент Холдингз filed Critical Интердиджитал Се Пэйтент Холдингз
Publication of RU2017134722A publication Critical patent/RU2017134722A/ru
Publication of RU2017134722A3 publication Critical patent/RU2017134722A3/ru
Application granted granted Critical
Publication of RU2716911C2 publication Critical patent/RU2716911C2/ru

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/008Multichannel audio signal coding or decoding using interchannel correlation to reduce redundancy, e.g. joint-stereo, intensity-coding or matrixing
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0272Voice signal separating
    • HELECTRICITY
    • H03ELECTRONIC CIRCUITRY
    • H03MCODING; DECODING; CODE CONVERSION IN GENERAL
    • H03M1/00Analogue/digital conversion; Digital/analogue conversion
    • H03M1/12Analogue/digital converters
    • H03M1/124Sampling or signal conditioning arrangements specially adapted for A/D converters
    • H03M1/1245Details of sampling arrangements or methods
    • H03M1/1265Non-uniform sampling
    • H03M1/128Non-uniform sampling at random intervals, e.g. digital alias free signal processing [DASP]
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • G10L19/032Quantisation or dequantisation of spectral components

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Signal Processing (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Mathematical Physics (AREA)
  • Quality & Reliability (AREA)
  • Theoretical Computer Science (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)
  • Transmission Systems Not Characterized By The Medium Used For Transmission (AREA)

Abstract

Изобретение относится к средствам для кодирования и декодирования множественных аудиосигналов. Технический результат заключается в повышении эффективности кодирования и декодирования смеси аудиосигналов с улучшением их разделения. Принимают или извлекают из запоминающего устройства или любого источника данных смесь упомянутых множественных аудиосигналов. Генерируют множественные оцененные аудиосигналы, которые аппроксимируют упомянутые множественные аудиосигналы, исходя из дополнительной информации, связанной с упомянутой смесью множественных аудиосигналов. Декодируют и демультиплексируют дополнительную информацию, содержащую случайно отобранные квантованные образцы временной области каждого из множественных аудиосигналов. Генерируют упомянутые множественные оцененные аудиосигналы с использованием упомянутых квантованных образцов каждого из множественных аудиосигналов. 6 н. и 9 з.п. ф-лы, 4 ил.

Description

ОБЛАСТЬ ТЕХНИКИ
Настоящее изобретение относится к способу и устройству для кодирования множественных аудиосигналов, и к способу и устройству для декодирования смеси множественных аудиосигналов с улучшенным выделением множественных аудиосигналов.
УРОВЕНЬ ТЕХНИКИ
Задача разделения аудиоисточников состоит в оценивании отдельных источников (например, речи, музыкальных инструментов, шума, и т.д.) на основании их смесей. В контексте звука, смесь означает запись множественных источников единственным микрофоном или множественными микрофонами. Информированное разделение (выделение) источников (informed source separation - ISS) для аудиосигналов может рассматриваться в виде задачи извлечения отдельных аудиоисточников из смеси источников, если некоторая информация об источниках является доступной. ISS относится также к сжатию аудиообъектов (источников) [6], т.е. к кодированию многоисточниковых аудиосигналов, если смесь этих источников является известной как на стадии кодирования, так и на стадии декодирования. Обе эти задачи являются взаимосвязанными. Они являются важными для разнообразных применений.
Известные решения (например, [3], [4], [5], [20], [21]) основаны на предположении того, что первоисточники являются доступными во время стадии кодирования. Дополнительную информацию вычисляют и передают вместе со смесью, и их обрабатывают на стадии декодирования для восстановления источников.
Например, в документе [21], в частности, раскрыто композиционное моделирование для разложения амплитудной спектрограммы на ее атомные единицы (называемые атомами), в виде разложения неотрицательной матрицы. Спектральные векторы могут быть, таким образом, получены на основании комбинации векторов активации и матрицы, состоящей из атомов. В качестве конкретной реализации, словарные обучающие технологии, используемые в области разреженных представлений и сжимающего восприятия, используются для поиска словарей, имеющих разреженные представления. Это обеспечивает модель, которой можно воспользоваться на стороне декодирования.
Хотя известно несколько способов ISS, во всех этих подходах стадия кодирования является более сложной и вычислительно более затратной, чем стадия декодирования. Таким образом, эти подходы не являются предпочтительными в случаях, когда платформа, выполняющая кодирование, не может обрабатывать вычислительную сложность, требуемую кодером. Наконец, известные сложные кодеры являются непригодными к использованию для оперативного кодирования, т.е. для постепенного кодирования сигнала по мере того, как он поступает, что является очень важным для некоторых применений.
СУЩНОСТЬ ИЗОБРЕТЕНИЯ
Ввиду вышеупомянутого, весьма желательно иметь полностью автоматическое и эффективное решение для обеих задач ISS. Конкретно, было бы желательным решение, в котором кодер требует значительно меньшей обработки, чем декодер.
Настоящее изобретение обеспечивает простую схему кодирования, которая смещает большую часть нагрузки по обработке со стороны кодера на сторону декодера. Предлагаемый простой путь для генерирования дополнительной информации обеспечивает не только кодирование с низкой сложностью, но и эффективное восстановление в декодере. Наконец, в отличие от некоторых существующих эффективных способов, которые нуждаются в том, чтобы во время кодирования был известен полный сигнал (что называется пакетным кодированием), предлагаемая схема кодирования обеспечивает оперативное кодирование, т.е. сигнал кодируется постепенно по мере того, как он поступает.
Кодер отбирает случайные образцы из аудиоисточников со случайной структурой. В одном варианте осуществления, случайная структура является псевдослучайной структурой. Отобранные значения квантуются предопределенным квантователем, и результирующие квантованные образцы сцепляются и сжимаются без потерь энтропийным кодером для генерирования дополнительной информации. Смесь может быть также создана на стороне кодирования, или она может быть получена другими путями и уже является доступной на стороне декодирования.
Декодер сначала восстанавливает квантованные образцы на основании дополнительной информации, и затем вероятностно оценивает наиболее вероятные источники в смеси, зная квантованные образцы и смесь.
В одном варианте осуществления, принципы настоящего раскрытия относятся к способу для кодирования множественных аудиосигналов, раскрытому в пункте 1 формулы изобретения. В одном варианте осуществления, принципы настоящего раскрытия относятся к способу для декодирования смеси множественных аудиосигналов, раскрытому в пункте 3 формулы изобретения.
В одном варианте осуществления, принципы настоящего раскрытия относятся к кодирующему устройству, которое содержит множество отдельных аппаратных компонентов, по одному для каждого этапа способа кодирования, описанного ниже. В одном варианте осуществления, принципы настоящего раскрытия относятся к декодирующему устройству, которое содержит множество отдельных аппаратных компонентов, по одному для каждого этапа способа декодирования, описанного ниже.
В одном варианте осуществления, принципы настоящего раскрытия относятся к машиночитаемому носителю, имеющему исполняемые команды для предписания компьютеру выполнять способ кодирования, содержащий этапы, описанные ниже. В одном варианте осуществления, принципы настоящего раскрытия относятся к машиночитаемому носителю, имеющему исполняемые команды для предписания компьютеру выполнять способ декодирования, содержащий этапы, описанные ниже.
В одном варианте осуществления, принципы настоящего раскрытия относятся к кодирующему устройству для разделения аудиоисточников, содержащему по меньшей мере один аппаратный компонент, например, аппаратный процессор, и энергонезависимый, материальный, машиночитаемый носитель данных, материально реализующий по меньшей мере один программный компонент, и, при исполнении на упомянутом по меньшей мере одном аппаратном процессоре, программный компонент предписывает выполнение этапов способа кодирования, описанного ниже. В одном варианте осуществления, принципы настоящего раскрытия относятся к кодирующему устройству для разделения аудиоисточников, содержащему по меньшей мере один аппаратный компонент, например, аппаратный процессор, и энергонезависимый, материальный, машиночитаемый носитель данных, материально реализующий по меньшей мере один программный компонент, и, при исполнении на упомянутом по меньшей мере одном аппаратном процессоре, программный компонент предписывает выполнение этапов способа декодирования, описанного ниже.
В отличие от существующих решений, кодирование основано на случайном отборе образцов аудиосигналов временной области, вместо привлечения моделей и/или вычислений с использованием преобразования Фурье. Это может потенциально обеспечить очень быстрый процесс кодирования, который может требовать только достаточно ограниченной обработки в конкретных реализациях. Несмотря на этот неожиданный случайный отбор образцов временной области, обеспечивается возможность восстановления аудиосигналов на основании их смеси на стороне декодирования.
Дополнительные цели, признаки и преимущества принципов настоящего раскрытия станут понятными после рассмотрения нижеследующего описания и прилагаемой формулы изобретения, приведенных в сочетании с сопутствующими чертежами.
КРАТКОЕ ОПИСАНИЕ ЧЕРТЕЖЕЙ
Иллюстративные варианты осуществления описаны со ссылкой на сопутствующие чертежи, в которых
Фиг. 1 показывает структуру системы передачи и/или хранения, содержащей кодер и декодер;
Фиг. 2 показывает упрощенную структуру иллюстративного кодера;
Фиг. 3 показывает упрощенную структуру иллюстративного декодера; и
Фиг. 4 показывает сравнение характеристик CS-ISS и классической ISS.
ПОДРОБНОЕ ОПИСАНИЕ ИЗОБРЕТЕНИЯ
Фиг. 1 показывает структуру системы передачи и/или хранения, содержащей кодер и декодер. Первоисточники
Figure 00000001
звука вводятся в кодер, который обеспечивает смесь х и дополнительную информацию. Декодер использует смесь х и дополнительную информацию для восстановления звука, причем предполагается, что некоторая информация была потеряна: таким образом, декодер должен оценить источники звука и обеспечивает оцененные источники
Figure 00000002
звука.
Предполагается, что первоисточники
Figure 00000001
являются доступными в кодере, и обрабатываются кодером для генерирования дополнительной информации. Смесь может быть также сгенерирована кодером, или она может быть получена другими средствами и является доступной в декодере. Например, для известной аудиодорожки, доступной в Интернете, дополнительная информация, генерируемая на основании отдельных источников, может быть сохранена, например, авторами аудиодорожки или другими лицами. Одной задачей, описываемой здесь, является наличие одноканальных аудиоисточников, записанных единственными микрофонами, которые суммируются вместе для образования смеси. Другие конфигурации, например, многоканальный звук или записи с использованием множественных микрофонов, могут быть легко обработаны посредством прямого расширения описываемых способов.
Одна техническая задача, которая рассматривается здесь в пределах описанной выше системы, состоит в следующем: при наличии кодера для генерирования дополнительной информации, спроектировать декодер, который может оценить источники
Figure 00000002
, которые являются как можно более близкими к первоисточникам
Figure 00000001
. Декодер должен эффективно использовать дополнительную информацию и известную смесь х для минимизации необходимого размера дополнительной информации для данного качества оцененных источников. Предполагается, что декодер знает как смесь, так и то, как она образована с использованием источников.
Таким образом, настоящее изобретение содержит две части: кодер и декодер.
Фиг. 2 а) показывает упрощенную структуру иллюстративного кодера. Кодер спроектирован таким образом, чтобы он был вычислительно простым. Он отбирает случайные образцы из аудиоисточников. В одном варианте осуществления, он использует предопределенную псевдослучайную структуру. В другом варианте осуществления, он использует любую случайную структуру. Отобранные значения квантуются (предопределенным) квантователем, и результирующие квантованные образцы
Figure 00000003
сцепляются и сжимаются без потерь энтропийным кодером (например, кодером Хаффмана или арифметическим кодером) для генерирования дополнительной информации. Также, создают смесь, если она еще не является доступной на стороне декодирования.
Фиг. 2 b) показывает увеличенные иллюстративные сигналы в кодере. Сигнал х смеси получают посредством наложения или микширования сигналов
Figure 00000001
разных источников. Из каждого из сигналов
Figure 00000001
источников также случайно отбирают образцы в блоках отбора образцов, и образцы квантуют в одном или нескольких квантователях (в этом варианте осуществления, имеется один квантователь для каждого сигнала) для получения квантованных образцов
Figure 00000003
. Квантованные образцы кодируют для использования в качестве дополнительной информации. Следует отметить, что в других вариантах осуществления порядок следования отбора образцов и квантования может быть изменен.
Фиг. 3 показывает упрощенную структуру иллюстративного декодера. Декодер сначала восстанавливает квантованные образцы
Figure 00000003
на основании дополнительной информации. Затем он вероятностно оценивает наиболее вероятные источники
Figure 00000002
, зная наблюдаемые образцы
Figure 00000003
и смесь х , и используя известные структуры и корреляции между источниками.
Возможные реализации кодера являются очень простыми. Одна возможная реализация декодера функционирует на основе следующих двух предположений:
(1) Источники имеют совместное гауссово распределение в области краткосрочного преобразования Фурье (Short-Time Fourier Transform - STFT) с размером F окна и числом N окон.
(2) Дисперсионный тензор
Figure 00000004
гауссова распределения имеет низкоранговое неотрицательное тензорное разложение (Non-Negative Tensor Decomposition - NTF) ранга K , так что
Figure 00000005
Исходя из этих двух предположений, функционирование декодера может быть обобщено с помощью следующих этапов:
1. Инициализировать матрицы
Figure 00000006
со случайными неотрицательными значениями и вычислить дисперсионный тензор
Figure 00000007
следующим образом:
Figure 00000008
2. Пока не будет достигнута сходимость или максимальное число итераций, повторять:
2.1 Вычислить условные математические ожидания спектров мощности источников следующим образом:
Figure 00000009
где
Figure 00000010
является матрицей комплексных STFT-коэффициентов источников. Дополнительные подробности в отношении вычисления условных математических ожиданий приведены ниже.
2.2 Повторно оценить параметры
Figure 00000006
NTF-модели с использованием правил мультипликативного обновления (multiplicative update - MU), минимизирующих IS-расходимость [15] между трехвалентным тензором оцененных спектров
Figure 00000011
мощности источников и трехвалентным тензором приближения
Figure 00000012
NTF-модели следующим образом:
Figure 00000013
Figure 00000014
Figure 00000015
Эти обновления могут быть итерационно повторены много раз.
3. Вычислить матрицу STFT-коэффициентов
Figure 00000016
как апостериорное среднее следующим образом:
Figure 00000017
и преобразовать обратно во временную область для восстановления оцененных источников
Figure 00000002
. Дополнительные подробности в отношении вычисления апостериорного среднего приведены ниже.
Нижеследующее описывает некоторые математические основы вышеупомянутых вычислений.
Тензор является структурой данных, которая может рассматриваться в качестве более многомерной матрицы. Матрица является двумерной, тогда как тензор может быть N-мерным. В данном случае, V является трехмерным тензором (подобно кубу). Он представляет матрицу ковариаций совместного гауссова распределения источников.
Матрица может быть представлена в виде суммы нескольких матриц с рангом, равным 1, каждая из которых образована посредством умножения двух векторов, в низкоранговой модели. В данном случае, тензор подобным образом представляют в виде суммы К тензоров ранга, равного одному, причем тензор ранга, равного одному, образован посредством умножения трех векторов, например, h i , q i и w i . Эти векторы соединяют для образования матриц H , Q и W . Существует К наборов векторов для К тензоров ранга, равного одному. По существу, тензор представлен К компонентами, и матрицы H , Q и W представляют, как компоненты распределены по разным кадрам, разным частотам STFT и разным источникам, соответственно.
Подобно низкоранговой модели в матрицах, К поддерживают малым, поскольку малое К лучше определяет характеристики данных, таких как аудиоданные, например, музыка. Следовательно, можно предположить неизвестные характеристики сигнала с использованием информации о том, что V должен быть тензором низкого ранга. Это уменьшает число неизвестных и определяет взаимосвязь между разными частями данных.
Этапы описанного выше итерационного алгоритма могут быть описаны следующим образом.
Сначала, инициализировать матрицы H , Q и W и, таким образом, V .
Зная V , узнают распределение вероятностей сигнала. Затем, если рассмотреть наблюдаемую часть сигналов (сигналы наблюдаются только частично), можно оценить STFT-коэффициенты
Figure 00000018
, например, посредством винеровской фильтрации. Это является апостериорным средним сигнала. Дополнительно, также вычисляют апостериорную ковариацию сигнала, которая будет использоваться ниже. Этот этап выполняют независимо для каждого окна сигнала, и он является параллелизуемым. Этот этап называют этапом математического ожидания или Е-этапом.
После вычисления апостериорного среднего и ковариации, их используют для вычисления апостериорных спектров p мощности. Это необходимо для обновления более ранних параметров модели, т.е. H , Q и W . Может оказаться предпочтительным повторение этого этапа более одного раза для достижения лучшей оценки (например, 2-10 раз). Это называют этапом максимизации или М-этапом.
После обновления параметров H , Q и W модели, все этапы (из оценивания STFT-коэффициентов
Figure 00000018
), могут повторяться до тех пор, пока не будет достигнута некоторая сходимость, в одном варианте осуществления. После достижения этой сходимости, в одном варианте осуществления, апостериорное среднее STFT-коэффициентов
Figure 00000018
преобразуют во временную область для получения аудиосигнала в качестве конечного результата.
Одно преимущество настоящего изобретения состоит в том, что оно обеспечивает улучшенное восстановление множественных аудиосигналов источников из их смеси. Это обеспечивает возможность эффективного хранения и передачи многоисточниковых аудиозаписей, не требующих мощных устройств. Мобильные телефоны или планшеты могут быть легко использованы для сжатия информации в отношении множественных источников аудиодорожки без большого разряда заряда аккумуляторной батареи или использования процессора.
Дополнительное преимущество состоит в том, что вычислительные ресурсы для кодирования и декодирования источников используются более эффективно, поскольку сжатая информация в отношении отдельных источников декодируется только тогда, когда она является необходимой. В некоторых применениях, таких как создание музыки, информацию в отношении отдельных источников всегда кодируют и сохраняют, однако она не всегда необходима и доступна впоследствии. Таким образом, в отличие от дорогостоящего кодера, который выполняет обработку с высокой сложностью в отношении каждого кодированного аудиопотока, система с кодером с низкой сложностью и декодером с высокой сложностью имеет преимущество в использовании вычислительной мощности только для тех аудиопотоков, для которых отдельные источники фактически потребуются позже.
Третье преимущество, обеспечиваемое настоящим изобретением, состоит в адаптируемости к новым и лучшим способам декодирования. Когда открывают новый и улучшенный способ использования корреляций в данных, может быть разработан новый способ для декодирования (лучший способ для оценки
Figure 00000002
, зная
Figure 00000019
), и можно декодировать более ранние кодированные битовые потоки с лучшим качеством, без необходимости повторного кодирования источников. Тогда как в традиционных теориях кодирования-декодирования, когда улучшенный способ использования корреляций в данных приводит к новому способу кодирования, необходимо декодировать и повторно кодировать источники для использования преимуществ нового подхода. Кроме того, процесс повторного кодирования уже закодированного битового потока, как известно, вводит дополнительные ошибки в отношении первоисточников.
Четвертым преимуществом настоящего изобретения является возможность кодирования источников в оперативном режиме, т.е. источники кодируются по мере того, как они поступают к кодеру, и доступность полного потока не является необходимой для кодирования.
Пятое преимущество настоящего изобретения состоит в том, что пропуски в сигналах отдельных аудиоисточников могут быть восстановлены, что известно как звуковое окрашивание. Таким образом, настоящее изобретение обеспечивает возможность совместного звукового окрашивания и разделения источников, как описано ниже.
На подход, раскрытый здесь, повлияли теория распределенного кодирования [9] источников и, конкретно, теория распределенного кодирования [10] видео, где цель также состоит в смещении сложности от кодера к декодеру. Этот подход основан на принципах [11-13] сжимающего восприятия/ отбора образцов, поскольку источники проецируются на линейное подпространство, измеряемое случайно выбранным подмножеством векторов базиса, который является некогерентным [13] с базисом, где источники звука являются разреженными. Раскрытый подход может называться основанным на сжимающем отборе образцов ISS (CS-ISS).
Более конкретно, предлагается кодировать источники посредством простого случайного выбора подмножества временных образцов источников, после чего следует однородное квантование и энтропийный кодер. В одном варианте осуществления, это является единственной дополнительной информацией, передаваемой к декодеру.
Следует отметить, что преимущество отбора образцов во временной области является двойным. Во-первых, он является более быстрым, чем отбор образцов в любой преобразованной области. Во-вторых, временной базис является достаточно некогерентным с кадром краткосрочного преобразования Фурье (Short-Time Fourier Transform - STFT), где аудиосигналы являются разреженными, и он является даже более некогерентным с низкоранговым NTF- представлением STFT-коэффициентов. В теории сжимающего восприятия показано, что некогерентность области измерения и предшествующей информационной области является существенной для восстановления источников [13].
Для восстановления источников в декодере на основании квантованных образцов источников и смеси, предлагается использовать основанный на моделях подход, который согласуется с основанным на моделях сжимающем восприятии [14]. В частности, в одном варианте осуществления, используется модель неотрицательного тензорного разложения (nonnegative tensor factorization - NTF) Itakura-Saito (IS) спектрограмм источников, как в [4,5]. Благодаря ее гауссовой вероятностной формулировке [15], эта модель может быть оценена в смысле наибольшего правдоподобия (maximum-likelihood - ML) на основании смеси и переданного квантованного участка образцов источников. Для оценивания модели, может быть использован новый обобщенный алгоритм [16] максимизации математического ожидания (generalized expectation-maximization - GEM) на основе правил [15] мультипликативного обновления (multiplicative update - MU). Зная оцененную модель и все другие наблюдения, источники могут быть оценены посредством винеровской фильтрации [17].
ОБЗОР ИНФРАСТРУКТУРЫ CS-ISS
Общая структура предлагаемого CS-ISS-кодера/ декодера показана на фиг. 2, как уже объяснено выше. Кодер случайным образом производит подвыборку образцов из источников с необходимой скоростью, с использованием предопределенной структуры рандомизации, и квантует эти образцы. Квантованные образцы затем упорядочивают в единственный поток, подлежащий сжатию энтропийным кодером для образования конечного кодированного битового потока. Случайная структура отбора образцов (или затравка, которая генерирует случайную структуру), известна как кодеру, так и декодеру, и, следовательно, не должна передаваться, в одном варианте осуществления. В другом варианте осуществления, случайная структура отбора образцов или затравка, которая генерирует случайную структуру, передается к декодеру. Также предполагается, что аудиосмесь должен узнать декодер. Декодер выполняет энтропийное декодирование для извлечения квантованных образцов источников, после чего следует CS-ISS-декодирование, как будет подробно обсуждаться ниже.
Предлагаемая CS-ISS-инфраструктура имеет несколько преимуществ по сравнению с традиционными ISS, которые могут быть обобщены следующим образом:
Первое преимущество состоит в том, что простой декодер на фиг. 2 может быть использован для кодирования с низкой сложностью, необходимого, например, в маломощных устройствах. Схема кодирования с низкой сложностью является также предпочтительной для применений, где кодирование используется часто, но только некоторые кодированные потоки должны быть декодированы. Примером такого применения является создание музыки в студии, где источники каждого создаваемого музыкального произведения сохраняются для будущего использования, но требуются редко. Следовательно, с использованием CS-ISS возможна значительная экономия в отношении вычислительной мощности и времени обработки.
Второе преимущество состоит в том, что выполнение отбора образцов во временной области (а не в преобразованной области) обеспечивает не только простую схему отбора образцов, но и возможность выполнения кодирования в оперативном режиме, при необходимости, что не всегда прямо реализуется в других способах [4,5]. Кроме того, независимая схема кодирования обеспечивает возможность кодирования источников распределенным образом без снижения эффективности декодирования.
Третье преимущество состоит в том, что этап кодирования выполняется без каких-либо предположений в отношении этапа декодирования. Таким образом, можно использовать декодеры, отличные от декодера, предлагаемого в этом варианте осуществления. Это обеспечивает значительное преимущество перед классическим ISS [2-5] в том смысле, что когда будет спроектирован лучше выполняющий свою функцию декодер, кодированные источники смогут прямо получить выгоду от улучшенного декодирования, без необходимости повторного кодирования. Это стало возможным посредством случайного отбора образцов, используемого в кодере. Теория сжимающего восприятия показывает, что схема случайного отбора образцов обеспечивает некогерентность с большим числом областей, так что становится возможным проектировать эффективные декодеры, основанные на разной предшествующей информации в отношении данных.
CS-ISS-ДЕКОДЕР
Обозначим несущее множество случайных образцов как Ωʺ, тогда из источника
Figure 00000020
отбирают образцы в индексированные моменты времени
Figure 00000021
. После стадии энтропийного декодирования, CS-ISS-декодер имеет подмножество квантованных образцов источников
Figure 00000022
, где квантованные образцы определяются как
Figure 00000023
(1)
где
Figure 00000024
указывает на истинный сигнал источника, а
Figure 00000025
является шумом квантования.
Следует отметить, что здесь сигналы временной области представляют буквами с двумя штрихами, например, xʺ, в то время как кадровые или оконные сигналы временной области обозначают буквами с одним штрихом, например, x', и комплексные коэффициенты краткосрочного преобразования Фурье (STFT) обозначают буквами без штрихов, например, x.
Смесь, как предполагается, является суммой первоисточников, так что
Figure 00000026
(2)
Предполагается, что смесь является известной в декодере. Следует отметить, что смесь, как предполагается здесь, является свободной от шумов и неквантованной. Однако раскрытый алгоритм может быть также легко расширен для включения шума в смесь.
Для вычисления STFT-коэффициентов, смесь и источники сначала преобразуют в оконную временную область с длиной М окна и N окнами всего. Результирующие коэффициенты, обозначаемые
Figure 00000027
,
Figure 00000028
и
Figure 00000029
, представляют квантованные источники, первоисточники и смесь в оконной временной области, соответственно, для j=1,…,J, n=1,…,N и m=1,…,M (только для m в соответствующем подмножестве
Figure 00000030
в случае квантованных образцов источников). STFT-коэффициенты источников, sjfn, и смеси, xfn, вычисляют посредством применения унитарного преобразования
Figure 00000031
, (F=M) Фурье к каждому окну соответствующих элементов оконной временной области. Например, [x1n,…, xFn]T=
Figure 00000032
Т.
Источники моделируют в STFT-область с нормальным распределением
Figure 00000033
, причем дисперсионный тензор V=[
Figure 00000034
]j ,f,n имеет следующую низкоранговую NTF-структуру [18]:
Figure 00000035
(3)
Эта модель параметризуется посредством
Figure 00000036
, где
Figure 00000037
,
Figure 00000038
и
Figure 00000039
.
Согласно одному варианту осуществления принципов настоящего раскрытия, сигналы источников восстанавливают с использованием обобщенного алгоритма максимизации математических ожиданий, который кратко описан в Алгоритме 1. Этот алгоритм оценивает источники и статистику источников на основании наблюдений с использованием данной модели Θ посредством винеровской фильтрации на этапе вычисления математических ожиданий, и затем обновляет модель с использованием апостериорной статистики источников на этапе максимизации. Подробности в отношении каждого этапа алгоритма приведены ниже.
Алгоритм 1 GEM-алгоритм для CS-ISS-декодирования с использованием NTF-модели
1: процедура CS-ISS-декодирование
Figure 00000040

2: Инициализировать неотрицательные
Figure 00000041
случайным образом
3: повторять
4: Оценить
Figure 00000042
(источники) и
Figure 00000043
(апостериорные спектры мощности), зная
Figure 00000044
- Е-этап, см. раздел 3.1
5: Обновить
Figure 00000041
, зная
Figure 00000043
- М-этап, см. раздел 3.2
6: пока не будут удовлетворены критерии сходимости
7: закончить процедуру
ОЦЕНИВАНИЕ ИСТОЧНИКОВ
Поскольку все базовые распределения являются гауссовыми, и все соотношения между источниками и наблюдениями являются линейными, источники могут быть оценены в смысле минимальной среднеквадратической ошибки (minimum mean square error - MMSE) посредством винеровского фильтра [17], зная дисперсионный тензор V, определяемый в (3) параметрами Q,W,H модели.
Пусть наблюдаемый вектор данных для n-го кадра
Figure 00000045
определен как
Figure 00000046
T, где
Figure 00000047
T и
Figure 00000048
T.
Зная соответствующие наблюдаемые данные
Figure 00000045
и Θ NTF-модели, апостериорное распределение каждого кадра sjn источника может быть записано как
Figure 00000049
, где
Figure 00000050
и
Figure 00000051
являются, соответственно, апостериорным средним и апостериорной матрицей ковариаций. Каждый из них может быть вычислен посредством винеровской фильтрации в виде
Figure 00000052
зная определения
Figure 00000053
Figure 00000054
где U(
Figure 00000030
) является матрицей
Figure 00000055
столбцов из U с индексом в
Figure 00000030
. Таким образом, апостериорные спектры
Figure 00000056
мощности, которые будут использоваться для обновления NTF-модели, как описано ниже, могут быть вычислены в виде
Figure 00000057
ОБНОВЛЕНИЕ МОДЕЛИ
Параметры NTF-модели могут повторно оцениваться с использованием правил мультипликативного обновления (MU), минимизирующих IS-расходимость [15] между трехвалентным тензором оцененных спектров
Figure 00000058
мощности источников и трехвалентным тензором приближения V NTF-модели, определяемого в виде
Figure 00000059
, где
Figure 00000060
является IS-расходимостью; и
Figure 00000061
и
Figure 00000062
заданы (14) и (3). В результате, Q,W,H могут быть обновлены с использованием правил MU, представленных в [18]. Эти правила MU могут повторяться несколько раз для улучшения оценки модели.
Дополнительно, в применениях для разделения источников с использованием NTF/NMF-модели часто необходимо иметь некоторую предшествующую информацию об отдельных источниках. Эта информация может быть некоторыми образцами из источников, или знанием о том, в какой момент времени какой источник является «неактивным». Однако, когда такая информация должна быть обеспечена, всегда дело обстоит так, что необходимы алгоритмы для предопределения того, из скольких компонентов состоит каждый источник. Это часто обеспечивают посредством инициализации параметров
Figure 00000063
,
Figure 00000064
,
Figure 00000065
модели таким образом, что некоторые части Q и H устанавливают равными нулю, и каждый компонент присваивают конкретному источнику. В одном варианте осуществления, вычисление модели модифицируют таким образом, что зная общее число компонентов К, каждый источник присваивают компонентам автоматически, а не вручную. Это достигается посредством обеспечения «молчания» источников не посредством параметров модели STFT-области, а посредством образцов временной области (с ограничением на наличие образцов временной области, равных нулю), и посредством смягчения начальных условий в отношении параметров модели таким образом, чтобы они настраивались автоматически. Дополнительная модификация для обеспечения разреженной структуры на распределении компонентов источников (определяемой Q) также возможна посредством небольшой модификации уравнений мультипликативного обновления, приведенных выше. Это приводит к автоматическому присваиванию источников компонентам.
Таким образом, в одном варианте осуществления, матрицы H и Q определяются автоматически, когда присутствует дополнительная информация IS о форме периодов молчания источников. Дополнительная информация IS может включать в себя информацию о том, в какие периоды времени какой источник молчит. При наличии такой конкретной информации, классическим способом использования NMF является инициализация H и Q таким образом, чтобы предопределенные компоненты ki были присвоены каждому источнику. Улучшенное решение устраняет потребность в такой инициализации, и узнает H и Q таким образом, что ki не должны быть известны заранее. Это стало возможным посредством 1) использования образцов временной области в качестве входных данных, так что обработка STFT-области не является обязательной, и 2) ограничения матрицы Q таким образом, чтобы она имела разреженную структуру. Это достигается модификацией уравнений мультипликативного обновления для Q, как описано выше.
РЕЗУЛЬТАТЫ
Для определения характеристики подхода настоящего раскрытия, три источника музыкального сигнала на частоте 16 кГц закодировали и затем декодировали с использованием предлагаемого CS-ISS с разными уровнями квантования (16 битов, 11 битов, 6 битов и 1 бит) и разными скоростями отбора образцов в битах для каждого источника (0,64, 1,28, 2,56, 5,12 и 10,24 кбит/с/источник). В этом примере предполагается, что структура случайного отбора образцов предопределена и известна как во время кодирования, так и во время декодирования. Квантованные образцы усекают и сжимают с использованием арифметического кодера с использованием предположения гауссова распределения с нулевым средним. На стороне декодера, посредством арифметического декодера, источники декодируют на основании квантованных образцов с использованием 50 итераций GEM-алгоритма, причем STFT вычисляют с использованием наполовину перекрывающего синусоидального окна из 1024 образцов (64 мс) с использованием гауссовой оконной функции, и число компонентов является фиксированным и равным K=18, т.е. по 6 компонентов на каждый источник. Качество восстановленных образцов измеряется по отношению сигнал-искажения (signal to distortion ratio - SDR), как описано в [19]. Результирующие скорости кодированной передачи в битах и SDR декодированных сигналов представлены в таблице 1 вместе с процентным отношением кодированных образцов в скобках. Следует отметить, что скорости передачи сжатых данных в таблице 1 отличаются от соответствующих скоростей передачи необработанных данных в битах вследствие переменной характеристики стадии энтропийного кодирования, что является ожидаемым.
Число битов на каждый образец Скорость передачи сжатых данных/ SDR (% сохраненных образцов)
Скорость передачи необработанных данных (кбит/с/источник)
Figure 00000066
16 битов
11 битов
6 битов
1 бит
Таблица 1: конечные скорости передачи в битах (в кбит/с на каждый источник) после стадии энтропийного кодирования CS-ISS с соответствующим SDR (в дБ) для разных (однородных) уровней квантования и разных скоростей передачи необработанных данных перед энтропийным кодированием. Процентное отношение сохраненных образцов также обеспечено для каждого случая в скобках. Результаты, соответствующие наилучшему компромиссу между скоростью передачи и искажениями приведены полужирным шрифтом.
Характеристика CS-ISS в сравнении с классическим ISS-подходом с более сложным кодером и более простым декодером представлена в [4]. ISS-алгоритм используют с квантованием и кодированием NTF-модели, как в [5], т.е. NTF-коэффициенты однородно квантуют в логарифмической области, размеры шагов квантования разных NTF-матриц вычисляют с использованием уравнений (31)-(33) из [5], и индексы кодируют с использованием арифметического кодера на основе гауссовой модели смеси (Gaussian mixture model - GMM) с двумя состояниями (см. фиг. 5 из [5]). Этот подход оценивается для разных размеров шага квантования и разных чисел NTF-компонентов, т.е. Δ=2-2, 2-1.5, 2-1,…, 24, а K=4, 6,…, 30. Результаты сгенерированы с использованием 250 итераций обновления модели. Характеристики как CS-ISS, так и классического ISS показаны на фиг. 4, причем CS-ISS явно превосходит ISS-подход, даже несмотря на то, что ISS-подход может использовать оптимизированное число компонентов и квантование, в противоположность нашему декодеру, который использует фиксированное число компонентов (кодер является очень простым и не вычисляет это значение). Различие в характеристиках имеет место вследствие высокой эффективности, достигнутой CS-ISS-декодером благодаря некогерентности временной области, в которой случайно отбираются образцы, и низкоранговой NTF-области. Также, ISS-подход не может быть реализован с SDR за пределами 10 дБ, вследствие недостаточной верности передачи в структуре кодера, как объясняется в [5]. Даже несмотря на то, что в этой работе невозможно выполнить сравнение с ISS-алгоритмом, представленным в [5], вследствие временных ограничений, результаты указывают на то, что характеристика скорости передачи относительно искажений демонстрирует похожее поведение. Следует напомнить, что предлагаемый подход отличается своим кодером с низкой сложностью и, следовательно, может быть все же предпочтительным по сравнению с другими ISS-подходами с лучшими характеристиками скорости передачи относительно искажений.
Характеристика CS-ISS в таблице 1 и на фиг. 4 указывает на то, что разные уровни квантования могут быть предпочтительными при разных скоростях передачи. Даже несмотря на то, что ни 16-битовое квантование, ни 1-битовое квантование не кажутся имеющими хорошие характеристики, характеристика указывает на то, что 16-битовое квантование может превосходить другие схемы, когда доступна гораздо более высокая скорость передачи в битах. Подобным образом, более грубое квантование, такое как 1-битовое квантование, может быть предпочтительным при рассмотрении значительно меньших скоростей передачи в битах. Выбор квантования может быть выполнен в кодере с использованием простой справочной таблицы в качестве ссылки. Следует также отметить, что даже несмотря на то, что кодер в CS-ISS является очень простым, предлагаемый декодер имеет значительно большую сложность, обычно большую, чем сложность кодеров традиционных ISS-способов. Однако это можно также преодолеть посредством использования независимости винеровской фильтрации среди кадров в предлагаемом декодере с параллельной обработкой, например, с использованием графических процессоров (graphical processing unit - GPU).
Раскрытое решение обычно приводит к тому факту, что низкоранговая тензорная структура появляется в энергетической спектрограмме восстановленных сигналов.
Следует отметить, что использование глагола «содержать» и его спряжений не исключает наличия элементов или этапов, отличных от элементов или этапов, заявленных в формуле изобретения. Кроме того, использование элемента в единственном числе не исключает наличия множества таких элементов. Несколько «средств» могут быть представлены одним и тем же аппаратным элементом. Дополнительно, настоящее изобретение пребывает во всех до единого новых признаках или комбинациях признаков. При использовании здесь, «цифровой аудиосигнал» или «аудиосигнал» не описывает только математическую абстракцию, а вместо этого означает информацию, реализуемую или носимую физическим носителем, которую может детектировать машина или устройство. Этот термин включает в себя записанные или передаваемые сигналы, и следует понимать, что он включает в себя передачу посредством любой формы кодирования, в том числе импульсно-кодовой модуляции (pulse code modulation - PCM), но не только PCM.
Признаки, где это уместно, могут быть реализованы в аппаратном средстве, программном средстве, или в их комбинации. Соединения, где это применимо, могут быть реализованы в виде беспроводных соединений или проводных, не обязательно прямых или специальных, соединений.
ССЫЛОЧНЫЕ МАТЕРИАЛЫ
[1] E. Vincent, S. Araki, F. J. Theis, G. Nolte, P. Bofill, H. Sawada, A. Ozerov, B. V. Gowreesunker, D. Lutter, and N. Q. K. Duong, ʺThe signal separation evaluation campaign (2007-2010): Achievements and remaining challenges,ʺ Signal Processing, том 92, № 8, стр. 1928-1936, 2012.
[2] M. Parvaix, L. Girin, and J.-M. Brossier, ʺA watermarkingbased method for informed source separation of audio signals with a single sensor,ʺ IEEE Trans. Audio, Speech, Language Process., том 18, № 6, стр. 1464-1475, 2010.
[3] M. Parvaix and L. Girin, ʺInformed source separation of linear instantaneous under-determined audio mixtures by source index embedding,ʺ IEEE Trans. Audio, Speech, Language Process., том 19, № 6, стр. 1721-1733, 2011.
[4] A. Liutkus, J. Pinel, R. Badeau, L. Girin, and G. Richard, ʺInformed source separation through spectrogram coding and data embedding,ʺ Signal Processing, том 92, № 8, стр. 1937- 1949, 2012.
[5] A. Ozerov, A. Liutkus, R. Badeau, and G. Richard, ʺCoding-based informed source separation: Nonnegative tensor factorization approach,ʺ IEEE Transactions on Audio, Speech, and Language Processing, том 21, № 8, стр. 1699-1712, Aug. 2013.
[6] J. Engdegard, B. Resch, C. Falch, O. Hellmuth, J. Hilpert, A. H¨olzer, L. Terentiev, J. Breebaart, J. Koppens, E. Schuijers, and W. Oomen, ʺSpatial audio object coding (SAOC) - The upcoming MPEG standard on parametric object based audio coding,ʺ in 124th Audio Engineering Society Convention (AES 2008), Амстердам, Нидерланды, май 2008.
[7] A. Ozerov, A. Liutkus, R. Badeau, and G. Richard, ʺInformed source separation: source coding meets source separation,ʺ in IEEE Workshop Applications of Signal Processing to Audio and Acoustics (WASPAA'11), New Paltz, Нью-Йорк, США, октябрь 2011, стр. 257-260.
[8] S. Kirbiz, A. Ozerov, A. Liutkus, and L. Girin, ʺPerceptual coding-based informed source separation,ʺ in Proc. 22nd European Signal Processing Conference (EUSIPCO), 2014, стр. 959-963.
[9] Z. Xiong, A. D. Liveris, and S. Cheng, ʺDistributed source coding for sensor networks,ʺ IEEE Signal Processing Magazine, том 21, № 5, стр. 80-94, сентябрь 2004.
[10] B. Girod, A. Aaron, S. Rane, and D. Rebollo-Monedero, ʺDistributed video coding,ʺ Proceedings of the IEEE, том 93, № 1, стр. 71-83, январь 2005.
[11] D. Donoho, ʺCompressed sensing,ʺ IEEE Trans. Inform. Theory, том 52, № 4, стр. 1289-1306, апрель 2006.
[12] R. G. Baraniuk, ʺCompressive sensing,ʺ IEEE Signal Processing Mag., том 24, № 4, стр. 118-120, июль 2007.
[13] E. J. Candes and M. B. Wakin, ʺAn introduction to compressive sampling,ʺ IEEE Signal Processing Magazine, том 25, стр. 21-30, 2008.
[14] R. G. Baraniuk, V. Cevher, M. F. Duarte, and C. Hegde, ʺModel-based compressive sensing,ʺ IEEE Trans. Info. Theory, том 56, № 4, стр. 1982-2001, апрель 2010.
[15] C. Fevotte, N. Bertin, and J.-L. Durrieu, ʺNonnegative matrix factorization with the Itakura-Saito divergence. With application to music analysis,ʺ Neural Computation, том 21, № 3, стр. 793-830, март 2009.
[16] A. P. Dempster, N. M. Laird, and D. B. Rubin., ʺMaximum likelihood from incomplete data via the EM algorithm,ʺ Journal of the Royal Statistical Society. Series B (Methodological), том 39, стр. 1-38, 1977.
[17] S.M. Kay, Fundamentals of Statistical Signal Processing: Estimation Theory. Englewood Cliffs, NJ: Prentice Hall, 1993.
[18] A. Ozerov, C. Fevotte, R. Blouet, and J.-L. Durrieu, ʺMultichannel nonnegative tensor factorization with structured constraints for user-guided audio source separation,ʺ in IEEE International Conference on Acoustics, Speech, and Signal Processing (ICASSP'11), Prague, май 2011, стр. 257-260.
[19] V. Emiya, E. Vincent, N. Harlander, and V. Hohmann, ʺSubjective and objective quality assessment of audio source separation,ʺ IEEE Trans. Audio, Speech, Language Process., том 19, № 7, стр. 2046-2057, 2011.
[20] J. Nikunen, T. Virtanen, and M. Vilermo, ʺMultichannel audio upmixing by time-frequency filtering using non-negative tensor factorizationʺ, J. Audio Eng. Soc., том 60, № 10, стр. 794-806, 2012.
[21] T. Virtanen, J. F. Gemmeke, B. Raj, and P. Smaragdis, ʺCompositional models for audio processingʺ, IEEE Signal Processing Magazine, стр. 125-144, 2015

Claims (41)

1. Способ для кодирования множественных аудиосигналов (
Figure 00000067
временной области в качестве дополнительной информации, которая может быть использована для декодирования и выделения множественных аудиосигналов временной области из смеси ( x ) упомянутых множественных аудиосигналов временной области, отличающийся тем, что упомянутый способ содержит этапы, на которых
- случайно отбирают и квантуют образцы каждого из множественных аудиосигналов временной области; и
- кодируют отобранные и квантованные образцы множественных аудиосигналов временной области в качестве упомянутой дополнительной информации.
2. Способ по п. 1, в котором на этапе случайного отбора образцов используют предопределенную псевдослучайную структуру.
3. Способ по п. 1 или 2, в котором смесь множественных аудиосигналов временной области кодируют постепенно по мере того, как она поступает.
4. Способ по одному из пп. 1-3, дополнительно содержащий этапы, на которых определяют, в какие периоды времени какой источник молчит, и кодируют определенную информацию в упомянутой дополнительной информации.
5. Способ для декодирования смеси ( x ) множественных аудиосигналов (
Figure 00000067
, содержащий этапы, на которых
- принимают или извлекают, из запоминающего устройства или любого источника данных, смесь упомянутых множественных аудиосигналов; и
- генерируют множественные оцененные аудиосигналы (
Figure 00000068
), которые аппроксимируют упомянутые множественные аудиосигналы, исходя из дополнительной информации, связанной с упомянутой смесью множественных аудиосигналов,
отличающийся тем, что упомянутый способ содержит этапы, на которых:
- декодируют и демультиплексируют дополнительную информацию, содержащую случайно отобранные квантованные образцы временной области каждого из множественных аудиосигналов;
- генерируют упомянутые множественные оцененные аудиосигналы с использованием упомянутых квантованных образцов каждого из множественных аудиосигналов.
6. Способ по п. 5, в котором этап генерирования множественных оцененных аудиосигналов содержит этапы, на которых
- вычисляют дисперсионный тензор V из случайных неотрицательных значений;
- вычисляют условные математические ожидания спектров мощности источников квантованных образцов множественных аудиосигналов, причем получают оцененные спектры
Figure 00000069
мощности источников и причем используют дисперсионный тензор V и комплексные коэффициенты краткосрочного преобразования Фурье (Short-Time Fourier Transform - STFT) множественных аудиосигналов;
- итерационно повторно вычисляют дисперсионный тензор V из оцененных спектров
Figure 00000069
мощности источников;
- вычисляют матрицу STFT-коэффициентов
Figure 00000070
из результирующего дисперсионного тензора V ; и
- преобразуют матрицу STFT-коэффициентов
Figure 00000070
во временную область, причем получают множественные оцененные аудиосигналы.
7. Способ по п. 5 или 6, дополнительно содержащий этап, на котором осуществляют звуковое окрашивание для по меньшей мере одного из множественных аудиосигналов.
8. Способ по одному из пп. 5-7, в котором упомянутая дополнительная информация дополнительно содержит информацию, определяющую, в какие периоды времени какой аудиоисточник молчит, дополнительно содержащий этап, на котором автоматически определяют матрицы H и Q , которые задают дисперсионный тензор V .
9. Устройство для кодирования множественных аудиосигналов (
Figure 00000067
в качестве дополнительной информации, которая может быть использована для декодирования и выделения множественных аудиосигналов временной области из смеси ( x ) упомянутых множественных аудиосигналов, содержащее
по меньшей мере один процессор, выполненный с возможностью предписания устройству выполнить способ для кодирования множественных аудиосигналов временной области, отличающееся тем, что упомянутый по меньшей мере один процессор выполнен с возможностью предписывать устройству выполнить этапы, на которых
- случайно отбирают и квантуют образцы каждого из множественных аудиосигналов временной области; и
- кодируют отобранные и квантованные образцы множественных аудиосигналов временной области в качестве упомянутой дополнительной информации.
10. Устройство по п. 9, в котором случайный отбор образцов использует предопределенную псевдослучайную структуру.
11. Устройство для декодирования смеси ( x ) множественных аудиосигналов (
Figure 00000067
, содержащее
по меньшей мере один процессор, выполненный с возможностью предписания устройству выполнить способ для декодирования смеси множественных аудиосигналов, который содержит этапы, на которых
- принимают или извлекают из запоминающего устройства или любого источника данных смесь упомянутых множественных аудиосигналов; и
- генерируют множественные оцененные аудиосигналы (
Figure 00000068
), которые аппроксимируют упомянутые множественные аудиосигналы, исходя из дополнительной информации, связанной с упомянутой смесью множественных аудиосигналов;
отличающееся тем, что упомянутый по меньшей мере один процессор выполнен с возможностью выполнения этапов, на которых
- декодируют и демультиплексируют дополнительную информацию, содержащую случайно отобранные квантованные образцы временной области каждого из множественных аудиосигналов;
- генерируют упомянутые множественные оцененные аудиосигналы с использованием упомянутых квантованных образцов каждого из множественных аудиосигналов.
12. Устройство по п. 11, в котором этап генерирования множественных оцененных аудиосигналов содержит этапы, на которых
- вычисляют дисперсионный тензор V из случайных неотрицательных значений;
- вычисляют условные математические ожидания спектров мощности источников квантованных образцов множественных аудиосигналов, причем получают оцененные спектры
Figure 00000069
мощности источников и причем используют дисперсионный тензор V и комплексные коэффициенты краткосрочного преобразования Фурье (Short-Time Fourier Transform - STFT) множественных аудиосигналов;
- итерационно повторно вычисляют дисперсионный тензор V из оцененных спектров
Figure 00000069
мощности источников;
- вычисляют матрицу STFT-коэффициентов
Figure 00000070
из результирующего дисперсионного тензора V ; и
- преобразуют матрицу STFT-коэффициентов
Figure 00000070
во временную область, причем получают множественные оцененные аудиосигналы.
13. Устройство по п. 11 или 12, в котором упомянутый по меньшей мере один процессор дополнительно выполнен с возможностью звукового окрашивания для по меньшей мере одного из множественных аудиосигналов временной области.
14. Машиночитаемый носитель данных, хранящий компьютерную программу, содержащую программный код, выполненный с возможностью выполнения способа по любому из пп. 1-4 при его исполнении процессором.
15. Машиночитаемый носитель данных, хранящий компьютерную программу, содержащую программный код, выполненный с возможностью выполнения способа по любому из пп. 5-8 при его исполнении процессором.
RU2017134722A 2015-04-10 2016-03-10 Способ и устройство для кодирования множественных аудиосигналов и способ и устройство для декодирования смеси множественных аудиосигналов с улучшенным разделением RU2716911C2 (ru)

Applications Claiming Priority (7)

Application Number Priority Date Filing Date Title
EP15305536.3 2015-04-10
EP15305536 2015-04-10
EP15306144.5A EP3115992A1 (en) 2015-07-10 2015-07-10 Method and device for encoding multiple audio signals, and method and device for decoding a mixture of multiple audio signals with improved separation
EP15306144.5 2015-07-10
EP15306425.8 2015-09-16
EP15306425 2015-09-16
PCT/EP2016/055135 WO2016162165A1 (en) 2015-04-10 2016-03-10 Method and device for encoding multiple audio signals, and method and device for decoding a mixture of multiple audio signals with improved separation

Publications (3)

Publication Number Publication Date
RU2017134722A RU2017134722A (ru) 2019-04-04
RU2017134722A3 RU2017134722A3 (ru) 2019-10-08
RU2716911C2 true RU2716911C2 (ru) 2020-03-17

Family

ID=55521726

Family Applications (1)

Application Number Title Priority Date Filing Date
RU2017134722A RU2716911C2 (ru) 2015-04-10 2016-03-10 Способ и устройство для кодирования множественных аудиосигналов и способ и устройство для декодирования смеси множественных аудиосигналов с улучшенным разделением

Country Status (10)

Country Link
US (1) US20180082693A1 (ru)
EP (1) EP3281196A1 (ru)
JP (1) JP2018513996A (ru)
KR (1) KR20170134467A (ru)
CN (1) CN107636756A (ru)
BR (1) BR112017021865A2 (ru)
CA (1) CA2982017A1 (ru)
MX (1) MX2017012957A (ru)
RU (1) RU2716911C2 (ru)
WO (1) WO2016162165A1 (ru)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112115918A (zh) * 2020-09-29 2020-12-22 西北工业大学 一种信号稀疏表示及重构的时频原子字典及信号处理方法
CN113314110B (zh) * 2021-04-25 2022-12-02 天津大学 一种基于量子测量与酉变换技术的语言模型及构建方法
KR20220151953A (ko) * 2021-05-07 2022-11-15 한국전자통신연구원 부가 정보를 이용한 오디오 신호의 부호화 및 복호화 방법과 그 방법을 수행하는 부호화기 및 복호화기

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2005096274A1 (fr) * 2004-04-01 2005-10-13 Beijing Media Works Co., Ltd Dispositif et procede de codage/decodage audio ameliores
US6975254B1 (en) * 1998-12-28 2005-12-13 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Methods and devices for coding or decoding an audio signal or bit stream
US8489403B1 (en) * 2010-08-25 2013-07-16 Foundation For Research and Technology—Institute of Computer Science ‘FORTH-ICS’ Apparatuses, methods and systems for sparse sinusoidal audio processing and transmission
US20140297294A1 (en) * 2007-02-14 2014-10-02 Lg Electronics Inc. Methods and Apparatuses for Encoding and Decoding Object-Based Audio Signals
WO2014161996A2 (en) * 2013-04-05 2014-10-09 Dolby International Ab Audio processing system

Family Cites Families (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP1920636B1 (en) * 2005-08-30 2009-12-30 LG Electronics Inc. Apparatus and method for decoding an audio signal
US7873511B2 (en) * 2006-06-30 2011-01-18 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Audio encoder, audio decoder and audio processor having a dynamically variable warping characteristic
JP4932917B2 (ja) * 2009-04-03 2012-05-16 株式会社エヌ・ティ・ティ・ドコモ 音声復号装置、音声復号方法、及び音声復号プログラム
CN101742313B (zh) * 2009-12-10 2011-09-07 北京邮电大学 基于压缩感知技术的分布式信源编码的方法
US8390490B2 (en) * 2011-05-12 2013-03-05 Texas Instruments Incorporated Compressive sensing analog-to-digital converters
EP2688066A1 (en) * 2012-07-16 2014-01-22 Thomson Licensing Method and apparatus for encoding multi-channel HOA audio signals for noise reduction, and method and apparatus for decoding multi-channel HOA audio signals for noise reduction
US20150312663A1 (en) * 2012-09-19 2015-10-29 Analog Devices, Inc. Source separation using a circular model
JP6250071B2 (ja) * 2013-02-21 2017-12-20 ドルビー・インターナショナル・アーベー パラメトリック・マルチチャネル・エンコードのための方法
US9576583B1 (en) * 2014-12-01 2017-02-21 Cedar Audio Ltd Restoring audio signals with mask and latent variables
WO2016137871A1 (en) * 2015-02-23 2016-09-01 Metzler Richard E S Lister Systems, apparatus, and methods for bit level representation for data processing and analytics

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6975254B1 (en) * 1998-12-28 2005-12-13 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Methods and devices for coding or decoding an audio signal or bit stream
WO2005096274A1 (fr) * 2004-04-01 2005-10-13 Beijing Media Works Co., Ltd Dispositif et procede de codage/decodage audio ameliores
US20140297294A1 (en) * 2007-02-14 2014-10-02 Lg Electronics Inc. Methods and Apparatuses for Encoding and Decoding Object-Based Audio Signals
US8489403B1 (en) * 2010-08-25 2013-07-16 Foundation For Research and Technology—Institute of Computer Science ‘FORTH-ICS’ Apparatuses, methods and systems for sparse sinusoidal audio processing and transmission
WO2014161996A2 (en) * 2013-04-05 2014-10-09 Dolby International Ab Audio processing system

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
OZEROV ALEXEY et al. "Coding-based informed source separation: nonnegative tensor factorization approach". *

Also Published As

Publication number Publication date
JP2018513996A (ja) 2018-05-31
BR112017021865A2 (pt) 2018-07-10
US20180082693A1 (en) 2018-03-22
RU2017134722A3 (ru) 2019-10-08
CA2982017A1 (en) 2016-10-13
WO2016162165A1 (en) 2016-10-13
CN107636756A (zh) 2018-01-26
RU2017134722A (ru) 2019-04-04
MX2017012957A (es) 2018-02-01
EP3281196A1 (en) 2018-02-14
KR20170134467A (ko) 2017-12-06

Similar Documents

Publication Publication Date Title
JP6543640B2 (ja) エンコーダ、デコーダ並びに符号化及び復号方法
Ozerov et al. Informed source separation: source coding meets source separation
Ozerov et al. Coding-based informed source separation: Nonnegative tensor factorization approach
KR101733326B1 (ko) 개선된 확률 분포 추정을 이용한 선형 예측 기반 오디오 코딩
JPWO2007088853A1 (ja) 音声符号化装置、音声復号装置、音声符号化システム、音声符号化方法及び音声復号方法
RU2744485C1 (ru) Ослабление шума в декодере
JP6148342B2 (ja) 低または中ビットレートに対する知覚品質に基づくオーディオ分類
RU2716911C2 (ru) Способ и устройство для кодирования множественных аудиосигналов и способ и устройство для декодирования смеси множественных аудиосигналов с улучшенным разделением
JPWO2012004998A1 (ja) スペクトル係数コーディングの量子化パラメータを効率的に符号化する装置及び方法
EP3544005B1 (en) Audio coding with dithered quantization
RU2636126C2 (ru) Устройство для кодирования речевого сигнала с использованием acelp в автокорреляционной области
Rohlfing et al. NMF-based informed source separation
JP2008519308A5 (ru)
Bilen et al. Compressive sampling-based informed source separation
AU2014280258B9 (en) Apparatus and method for audio signal envelope encoding, processing and decoding by modelling a cumulative sum representation employing distribution quantization and coding
AU2014280256B2 (en) Apparatus and method for audio signal envelope encoding, processing and decoding by splitting the audio signal envelope employing distribution quantization and coding
Kırbız et al. Perceptual coding-based informed source separation
EP3115992A1 (en) Method and device for encoding multiple audio signals, and method and device for decoding a mixture of multiple audio signals with improved separation
Kassim et al. Compressive sensing based low bit rate speech encoder
Ramirez Intra-predictive switched split vector quantization of speech spectra
Rohlfing et al. Quantization-aware parameter estimation for audio upmixing
Kim KLT-based adaptive entropy-constrained vector quantization for the speech signals

Legal Events

Date Code Title Description
HZ9A Changing address for correspondence with an applicant
MM4A The patent is invalid due to non-payment of fees

Effective date: 20210311