RU2742739C1 - Выбор задержки основного тона - Google Patents

Выбор задержки основного тона Download PDF

Info

Publication number
RU2742739C1
RU2742739C1 RU2020119049A RU2020119049A RU2742739C1 RU 2742739 C1 RU2742739 C1 RU 2742739C1 RU 2020119049 A RU2020119049 A RU 2020119049A RU 2020119049 A RU2020119049 A RU 2020119049A RU 2742739 C1 RU2742739 C1 RU 2742739C1
Authority
RU
Russia
Prior art keywords
estimate
correlation
delay
pitch
current frame
Prior art date
Application number
RU2020119049A
Other languages
English (en)
Inventor
Эммануэль РАВЕЛЛИ
Мартин ДИТЦ
Михаэль ШНАБЕЛЬ
Артур ТРИТТАРТ
Александр ЧЕКАЛИНСКИЙ
Original Assignee
Фраунхофер-Гезелльшафт Цур Фердерунг Дер Ангевандтен Форшунг Е.Ф.
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Фраунхофер-Гезелльшафт Цур Фердерунг Дер Ангевандтен Форшунг Е.Ф. filed Critical Фраунхофер-Гезелльшафт Цур Фердерунг Дер Ангевандтен Форшунг Е.Ф.
Application granted granted Critical
Publication of RU2742739C1 publication Critical patent/RU2742739C1/ru

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/08Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters
    • G10L19/09Long term prediction, i.e. removing periodical redundancies, e.g. by using adaptive codebook or pitch predictor
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/005Correction of errors induced by the transmission channel, if related to the coding algorithm
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/16Vocoder architecture
    • G10L19/18Vocoders using multiple modes
    • G10L19/22Mode decision, i.e. based on audio signal content versus external parameters
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/26Pre-filtering or post-filtering
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/06Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being correlation coefficients
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/90Pitch determination of speech signals
    • HELECTRICITY
    • H03ELECTRONIC CIRCUITRY
    • H03MCODING; DECODING; CODE CONVERSION IN GENERAL
    • H03M7/00Conversion of a code where information is represented by a given sequence or number of digits to a code where the same, similar or subset of information is represented by a different sequence or number of digits
    • H03M7/30Compression; Expansion; Suppression of unnecessary data, e.g. redundancy reduction
    • H03M7/3059Digital compression and data reduction techniques where the original information is represented by a subset or similar information, e.g. lossy compression
    • H03M7/3064Segmenting
    • HELECTRICITY
    • H03ELECTRONIC CIRCUITRY
    • H03MCODING; DECODING; CODE CONVERSION IN GENERAL
    • H03M7/00Conversion of a code where information is represented by a given sequence or number of digits to a code where the same, similar or subset of information is represented by a different sequence or number of digits
    • H03M7/30Compression; Expansion; Suppression of unnecessary data, e.g. redundancy reduction
    • H03M7/60General implementation details not specific to a particular type of compression
    • H03M7/6005Decoder aspects
    • HELECTRICITY
    • H03ELECTRONIC CIRCUITRY
    • H03MCODING; DECODING; CODE CONVERSION IN GENERAL
    • H03M7/00Conversion of a code where information is represented by a given sequence or number of digits to a code where the same, similar or subset of information is represented by a different sequence or number of digits
    • H03M7/30Compression; Expansion; Suppression of unnecessary data, e.g. redundancy reduction
    • H03M7/60General implementation details not specific to a particular type of compression
    • H03M7/6011Encoder aspects

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Theoretical Computer Science (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)

Abstract

Изобретение относится к области вычислительной техники для кодирования и декодирования информационного сигнала. Технический результат заключается в повышении точности оценок задержки основного тона, которые лучше подходят к комплексным сигналам, с такой же или меньшей сложностью, чем в известном уровне техники. Технический результат достигается за счет выполнения первого оценивания для текущего кадра; выполнения второго оценивания для текущего кадра; и выбора между первой оценкой, полученной при первом оценивании, и второй оценкой, полученной при втором оценивании, на основе корреляционных измерений, при этом выполнение второго оценивания достигается на основе результата этапа выбора, выполненного в предыдущем кадре. 4 н. и 24 з.п. ф-лы, 14 ил.

Description

В настоящей заявке представлены примеры способов и устройств, которые допускают выполнение несложной процедуры определения основного тона, например, для долговременной постфильтрации (LTPF), кодирования.
Например, примеры способны выбирать задержку основного тона для информационного сигнала, например, аудиосигнала, например, для выполнения LTPF.
1.1. Уровень техники изобретения
Аудиокодеки на основе преобразования обычно вносят межгармонический шум, при обработке гармонических аудиосигналов, в частности, с малой задержкой и низким битрейтом. Этот межгармонический шум обычно воспринимается в форме очень раздражающего артефакта, значительно сокращая качество функционирования аудиокодека на основе преобразования, при субъективной оценке на высокотональном аудиоматериале.
Долговременная постфильтрация (LTPF) является инструментальным средством для аудиокодирования на основе преобразования, которое способствует подавлению упомянутого межгармонического шума. Она основана на постфильтре, который применяется к сигналу во временной области после декодирования с преобразованием. Упомянутый постфильтр является, по существу, фильтром с бесконечной импульсной характеристикой (БИХ-фильтром) с гребенчатой частотной характеристикой, управляемым двумя параметрами: задержкой основного тона и усилением.
Для повышения устойчивости, параметры постфильтра (задержка основного тона и/или усиление на кадр) оцениваются на кодирующей стороне и кодируются в поток битов, когда усиление не равно нулю. Случай нулевого усиления сигнализируется одним битом и соответствует неактивному постфильтру, используемому, когда сигнал не содержит гармонической части.
LTPF впервые применена в стандарте 3GPP EVS [1] и позднее интегрирована в стандарт MPEG-H 3D-Audio [2]. Соответствующими патентами являются [3] и [4].
Алгоритм определения основного тона оценивает одну задержку основного тона на кадр. Он выполняется, обычно, с низкой частотой дискретизации (например 6,4 кГц), чтобы снизить сложность. Алгоритм должен, в идеале, обеспечивать точное, стабильное и непрерывное оценивание.
При использовании для кодирования с LTPF, наиболее важно получение непрерывного контура основного тона, иначе в выходном сигнале после LTPF можно услышать некоторые, обусловленные нестабильностью артефакты. Отсутствие истинной основной частоты (например, вследствие наличия нескольких частот) имеет меньшую значимость, так как это не приводит к сильным артефактам, а имеет следствием небольшое ухудшение характеристики LTPF.
Другой важной характеристикой алгоритма определения основного тона является его вычислительная сложность. При реализации в аудиокодеке, предназначенном для устройств малой мощности или даже сверхмалой мощности, его вычислительная сложность должна быть как можно ниже.
1.2. Известный уровень техники
Известен пример кодера с LTPF, который можно найти в опубликованной литературе. Такой кодер описан в стандарте 3GPP EVS [1]. Эта реализация использует алгоритм определения основного тона, описанный в разделе 5.1.10 описания стандарта. Упомянутый алгоритм определения основного тона имеет высокую эффективность и очень хорошо работает с LTPF, так как он выдает очень стабильный и непрерывный контур основного тона. Однако его основным недостатком является относительно высокая сложность.
Другие существующие алгоритмы определения основного тона, даже никогда не применявшиеся для кодирования с LTPF, можно использовать, теоретически, для LTPF. Одним примером является YIN [6], алгоритм определения основного тона, часто считающийся одним из наиболее точных. Однако YIN является очень сложным, даже значительно более сложным, чем алгоритм, описанный в [1].
Другим примером, стоящим упоминания, является алгоритм определения основного тона, используемый в стандарте 3GPP AMR-WB [7], который имеет значительно меньшую сложность, чем алгоритм, описанный в [1], но, при этом, худшую эффективность, в частности, он дает менее стабильный и непрерывный контур основного тона. Известный уровень техники раскрывается в следующих публикациях:
[1] 3GPP TS 26.445; Codec for Enhanced Voice Services (EVS); Detailed algorithmic description.
[2] ISO/IEC 23008-3:2015; Information technology -- High efficiency coding and media delivery in heterogeneous environments -- Part 3: 3D audio.
[3] Ravelli et al. "Apparatus and method for processing an audio signal using a harmonic post-filter." U.S. Patent Application No. 2017/0140769 A1. 18 May. 2017.
[4] Markovic et al. "Harmonicity-dependent controlling of a harmonic filter tool." U.S. Patent Application No. 2017/0133029 A1. 11 May. 2017.
[5] ITU-T G.718 : Frame error robust narrow-band and wideband embedded variable bit-rate coding of speech and audio from 8-32 kbit/s.
[6] De Cheveigné, Alain, and Hideki Kawahara. "YIN, a fundamental frequency estimator for speech and music." The Journal of the Acoustical Society of America 111.4 (2002): 1917-1930.
[7] 3GPP TS 26.190; Speech codec speech processing functions; Adaptive Multi-Rate - Wideband (AMR-WB) speech codec; Transcoding functions.
Однако существуют несколько случаев, для которых следует улучшить оценивание задержки основного тона.
Текущие алгоритмы определения основного тона низкой сложности (подобные алгоритму, описанному в [7]) имеют эффективность, которая не удовлетворительна для LTPF, в частности, при сложных сигналах, подобных полифонической музыке. Контур основного тона может быть очень нестабильным, даже во время устойчивых тонов. Это обусловлено скачками между локальными максимумами взвешенной автокорреляционной функции.
Следовательно, существует потребность в получении оценок задержки основного тона, которые лучше подходят к комплексным сигналам, с такой же или меньшей сложностью, чем в известном уровне техники.
2. Сущность изобретения
В соответствии с примерами предлагается устройство для кодирования информационного сигнала, включающего в себя множество кадров, при этом устройство содержит:
первый блок оценки, выполненный с возможностью получения первой оценки, причем первая оценка является оценкой задержки основного тона для текущего кадра;
второй блок оценки, выполненный с возможностью получения второй оценки, причем вторая оценка является другой оценкой задержки основного тона для текущего кадра,
селектор, выполненный с возможностью отбора выбранного значения, посредством выполнения выбора между первой оценкой и второй оценкой, на основе первого и второго корреляционных измерений,
причем второй блок оценки согласован с задержкой основного тона, выбранной в предыдущем кадре, с тем чтобы получить вторую оценку для текущего кадра,
отличающееся тем, что селектор выполнен с возможностью:
выполнения сравнения между:
уменьшенной версией первого корреляционного измерения, относящегося к текущему кадру и полученного при задержке, соответствующей первой оценке; и
вторым корреляционным измерением, относящимся к текущему кадру и полученным при задержке, соответствующей второй оценке,
чтобы выбрать первую оценку, когда второе корреляционное измерение меньше, чем уменьшенная версия первого корреляционного измерения, и/или
выбрать вторую оценку, когда второе корреляционное измерение больше, чем уменьшенная версия первого корреляционного измерения,
причем, по меньшей мере, одно из первого и второго корреляционных измерений является автокорреляционным измерением и/или нормированным автокорреляционным измерением.
В соответствии с примерами предлагается устройство для кодирования информационного сигнала в поток битов (63), включающий в себя множество кадров, при этом устройство (60a) содержит:
блок определения, содержащий:
первый блок оценки, выполненный с возможностью получения первой оценки, причем первая оценка является оценкой задержки основного тона для текущего кадра;
второй блок оценки, выполненный с возможностью получения второй оценки, причем вторая оценка является другой оценкой задержки основного тона для текущего кадра, причем второй блок оценки согласован с задержкой основного тона, выбранной в предыдущем кадре, с тем чтобы получить вторую оценку для текущего кадра;
селектор, выполненный с возможностью отбора выбранного значения посредством выполнения выбора между первой оценкой и второй оценкой, на основе, по меньшей мере, одного корреляционного измерения, причем селектор выполнен с возможностью выполнения сравнения между:
вторым корреляционным измерением, относящимся к текущему кадру и полученным при задержке, соответствующей второй оценке; и
порогом выбора задержки основного тона,
чтобы выбрать вторую оценку, когда второе корреляционное измерение выше порога выбора задержки основного тона; и/или
выбрать первую оценку, когда второе корреляционное измерение ниже порога выбора задержки основного тона; и
инструментальное средство долговременной постфильтрации (LTPF), выполненное с возможностью кодирования данных, используемых для выполнения LTPF в декодере, причем данные, используемые для выполнения LTPF, включают в себя выбранное значение.
В соответствии с примерами предлагается устройство для кодирования информационного сигнала, включающего в себя множество кадров, при этом устройство содержит:
первый блок оценки, выполненный с возможностью получения первой оценки, причем первая оценка является оценкой задержки основного тона для текущего кадра;
второй блок оценки, выполненный с возможностью получения второй оценки, причем вторая оценка является другой оценкой задержки основного тона для текущего кадра,
селектор, выполненный с возможностью отбора выбранного значения посредством выполнения выбора между первой оценкой и второй оценкой, на основе, по меньшей мере, одного корреляционного измерения,
причем второй блок оценки согласован с задержкой основного тона, выбранной в предыдущем кадре, чтобы получить вторую оценку для текущего кадра.
В соответствии примерами, селектор выполнен с возможностью выполнения сравнения между:
вторым корреляционным измерением, относящимся к текущему кадру и полученным при задержке, соответствующей второй оценке; и
порогом выбора задержки основного тона,
чтобы выбрать вторую оценку, когда второе корреляционное измерение выше порога выбора задержки основного тона; и/или
выбрать первую оценку, когда второе корреляционное измерение ниже порога выбора задержки основного тона.
В соответствии с примерами, селектор выполнен с возможностью выполнения сравнения между:
первым корреляционным измерением, относящимся к текущему кадру и полученным при задержке, соответствующей первой оценке; и
вторым корреляционным измерением, относящимся к текущему кадру и полученным при задержке, соответствующей второй оценке,
чтобы выбрать первую оценку, когда первое корреляционное измерение, по меньшей мере, больше, чем второе корреляционное измерение, и/или
выбрать вторую оценку, когда первое корреляционное измерение, по меньшей мере, меньше, чем второе корреляционное измерение.
В соответствии с примерами, селектор выполнен с возможностью:
выполнения сравнения между:
уменьшенной версией первого корреляционного измерения, относящегося к текущему кадру и полученного при задержке, соответствующей первой оценке; и
вторым корреляционным измерением, относящимся к текущему кадру и полученным при задержке, соответствующей второй оценке,
чтобы выбрать первую оценку, когда второе корреляционное измерение меньше, чем уменьшенная версия первого корреляционного измерения, и/или
выбрать вторую оценку, когда второе корреляционное измерение больше, чем уменьшенная версия первого корреляционного измерения.
В соответствии с примерами, по меньшей мере, одно из первого и второго корреляционных измерений является автокорреляционным измерением и/или нормированным автокорреляционным измерением.
Может быть реализован кодер преобразования для формирования представления информационного сигнала или его обработанной версии.
В соответствии с примерами, второй блок оценки выполнен с возможностью:
получения второй оценки посредством поиска задержки, которая максимизирует вторую корреляционную функцию во втором подынтервале, который содержит задержку основного тона, выбранную для предыдущего кадра.
В соответствии с примерами, второй подынтервал содержит задержки в пределах расстояния меньше, чем предварительно заданный порог числа задержек от задержки основного тона, выбранной для предыдущего кадра.
В соответствии с примерами, второй блок оценки выполнен с возможностью:
поиска максимального значения среди значений второй корреляционной функции, чтобы поставить вторую оценку в соответствие с задержкой, относящейся к максимальному значению среди значений второй корреляционной функции.
В соответствии с примерами, первый блок оценки выполнен с возможностью:
получения первой оценки в виде задержки, которая максимизирует первую корреляционную функцию, относящуюся к текущему кадру.
В соответствии с примерами, первая корреляционная функция ограничена задержками в первом подынтервале.
В соответствии с примерами, первый подынтервал содержит число задержек больше, чем второй подынтервал, и/или, по меньшей мере, некоторые из задержек во втором подынтервале содержатся в первом подынтервале.
В соответствии с примерами, первый блок оценки выполнен с возможностью:
присвоения весовых коэффициентов значениям корреляционных измерений первой корреляционной функции с использованием монотонно убывающей весовой функции перед поиском задержки, которая максимизирует первую корреляционную функцию.
В соответствии с примерами, по меньшей мере, одна из второй и первой корреляционных функций является автокорреляционной функцией и/или нормированной автокорреляционной функцией.
В соответствии с примерами, первый блок оценки выполнен с возможностью получения первой оценки
Figure 00000001
посредством выполнения, по меньшей мере, некоторых из следующих операций:
Figure 00000002
Figure 00000003
Figure 00000004
Figure 00000005
где
Figure 00000006
является весовой функцией,
Figure 00000007
и
Figure 00000008
относятся к минимальной задержке и максимальной задержке,
Figure 00000009
является значением автокорреляционного измерения, оцененным на основе информационного сигнала или его обработанной версии, и N является длиной кадра.
В соответствии с примерами, второй блок оценки выполнен с возможностью получения второй оценки
Figure 00000010
посредством выполнения следующей операции:
Figure 00000011
где
Figure 00000012
,
Figure 00000013
,
Figure 00000014
является выбранной оценкой в предыдущем кадре, и
Figure 00000015
является расстоянием от
Figure 00000014
,
Figure 00000007
и
Figure 00000008
относятся к минимальной задержке и максимальной задержке.
В соответствии с примерами, селектор выполнен с возможностью выполнения выбора оценки
Figure 00000016
задержки основного тона следующим образом:
Figure 00000017
где
Figure 00000001
является первой оценкой,
Figure 00000018
является второй оценкой,
Figure 00000019
является значением информационного сигнала или его обработанной версией,
Figure 00000020
является нормированным корреляционным измерением сигнала
Figure 00000021
длительностью
Figure 00000022
, при задержке
Figure 00000023
,
Figure 00000024
является коэффициент уменьшения.
В соответствии с примерами предлагается, после селектора, инструментальное средство долговременной постфильтрации (LTPF) для управления долговременным постфильтром в устройстве декодирования.
В соответствии с примерами, информационный сигнал является аудиосигналом.
В соответствии с примерами, устройство выполнено с возможностью получения первого корреляционного измерения в виде измерения гармоничности текущего кадра и второго корреляционного измерения в виде измерения гармоничности текущего кадра, ограниченного подынтервалом, заданным для предыдущего кадра.
В соответствии с примерами, устройство выполнено с возможностью получения первого и второго корреляционных измерений с использованием одной и той же корреляционной функции вплоть до весовой функции.
В соответствии с примерами, устройство выполнено с возможностью получения первого корреляционного измерения в виде нормированной версии первой оценки вплоть до весовой функции.
В соответствии с примерами, устройство выполнено с возможностью получения второго корреляционного измерения в виде нормированной версии второй оценки.
В соответствии с примерами предлагается система, содержащая кодирующую сторону и декодирующую сторону, при этом кодирующая сторона является такой, как описано выше, декодирующая сторона содержит инструментальное средство долговременной постфильтрации, управляемое на основе оценки задержки основного тона выбранной селектором.
В соответствии с примерами предлагается способ для определения задержки основного тона для сигнала, разделенного на кадры, содержащий следующие этапы:
выполняется первое оценивание для текущего кадра;
выполняется второе оценивание для текущего кадра; и
выполняется выбор между первой оценкой, полученной при первом оценивании, и второй оценкой, полученной при втором оценивании, на основе, по меньшей мере, одного корреляционного измерения,
при этом выполнение второго оценивания достигается на основе результата этапа выбора, выполненного в предыдущем кадре.
В соответствии с примерами, способ может содержать использование выбранной задержки для долговременной постфильтрации (LTPF).
В соответствии с примерами, способ может содержать использование выбранной задержки для маскирования потери пакетов (PLC).
В соответствии с примерами предлагается способ для определения задержки основного тона для сигнала, разделенного на кадры, содержащий следующие этапы:
выполняется первое оценивание для текущего кадра;
выполняется второе оценивание для текущего кадра; и
выполняется выбор между первой оценкой, полученной при первом оценивании, и второй оценкой, полученной при втором оценивании, на основе корреляционных измерений,
при этом выполнение второго оценивания достигается на основе результата этапа выбора, выполненного в предыдущем кадре,
отличающийся тем, что выполнение выбора включает в себя выполнение сравнения между:
уменьшенной версией первого корреляционного измерения, относящегося к текущему кадру и полученного при задержке, соответствующей первой оценке; и
вторым корреляционным измерением, относящимся к текущему кадру и полученным при задержке, соответствующей второй оценке; и
выбор первой оценки, когда второе корреляционное измерение меньше, чем уменьшенная версия первого корреляционного измерения, и/или выбор второй оценки, когда второе корреляционное измерение больше, чем уменьшенная версия первого корреляционного измерения,
причем, по меньшей мере, одно из первого и второго корреляционных измерений является автокорреляционным измерением и/или нормированным автокорреляционным измерением.
В соответствии с примерами, предлагается способ для кодирования потока битов для сигнала, разделенного на кадры, содержащий следующие этапы:
выполняется первое оценивание для текущего кадра;
выполняется второе оценивание для текущего кадра; и
выполняется выбор между первой оценкой, полученной при первом оценивании, и второй оценкой, полученной при втором оценивании, на основе, по меньшей мере, одного корреляционного измерения,
при этом выполнение второго оценивания достигается на основе результата этапа выбора, выполненного в предыдущем кадре,
причем выполнение выбора включает в себя выполнение сравнения между:
вторым корреляционным измерением, относящимся к текущему кадру и полученным при задержке, соответствующей второй оценке; и
порогом выбора задержки основного тона,
выбор второй оценки, когда второе корреляционное измерение выше порога выбора задержки основного тона, и/или выбор первой оценки, когда второе корреляционное измерение ниже порога выбора задержки основного тона; и
способ дополнительно содержит кодирование данных, используемых для выполнения LTPF в декодере, выбранного значения.
В соответствии с примерами предлагается программа, содержащая инструкции, которые, при их исполнении процессором, предписывают процессору выполнять любой из выше- или нижеописанных способов.
3. Описание чертежей
Фиг. 1a и 2 - схемы устройств в соответствии с примерами.
Фиг. 1b - способ в соответствии с примером.
Фиг. 3 и 4 - способы в соответствии с примерами.
Фиг. 5 и 5(1)-5(4) - графики корреляционных функций.
Фиг. 6 - система в соответствии с изобретением.
Фиг. 7 и 8 - устройства в соответствии с изобретением.
Фиг. 9 - примерная схема работы декодера.
5. Примеры выборов и оценивания
Далее раскрываются примеры процедур, систем и устройств выделения основного тона, имеющих низкую сложность, например, для кодирования и/или декодирования с LTPF.
Информационный сигнал может быть описан во временной области (TD) в виде последовательности отсчетов (например, x(n)), полученных в разные дискретные моменты времени (n). Представление TD может содержать множество кадров, каждый из которых соответствует множеству отсчетов. Кадры могут появляться в последовательности один за другим таким образом, что текущий кадр предшествует во времени последующему кадру и следует во времени после предыдущего кадра. Создается возможность циклической работы, чтобы операции, выполненные с предыдущим кадром, повторялись для текущего кадра.
В ходе цикла, относящегося к текущему кадру, можно выполнить, по меньшей мере, некоторые операции (например, вторую оценку), которые согласуются с (обусловлены) выбором, выполненным в предыдущем цикле, относящемся к предыдущему кадру. Следовательно, график сигнала в предыдущем кадре учитывается, например, при выборе задержки основного тона, подлежащей использованию декодером для выполнения долговременной постфильтрации (LTPF).
5.1 Общее устройство и функционирование в соответствии с примерами
Фиг. 1a представляет участок устройства 10 для кодирования информационного сигнала. Устройство 10 может содержать первый блок 11 оценки, выполненный с возможностью выполнения процесса первого оценивания, чтобы получить первую оценку 14 (T1) для текущего кадра 13. Устройство 10 может содержать второй блок 12 оценки, выполненный с возможностью выполнения процесса второго оценивания, чтобы получить вторую оценку 16 (T2) для текущего кадра 13. Устройство 10 может содержать селектор 17, выполненный с возможностью выполнения выбора 18 между первой оценкой 14 и второй оценкой 16, на основе, по меньшей мере, одного корреляционного измерения (элемент, представленный переключателем 17a, управляется элементом 17). Выходная (окончательная) оценка 19 (Tbest) выбирается между первой оценкой 14 и второй оценкой 16 и может, например, подаваться в декодер, например, для выполнения LTPF. Выходная (окончательная) оценка 19 будет использоваться как задержка основного тона для LTPF.
Окончательная оценка (выбранное значение) 19 может также подаваться на вход регистра 19’ и использоваться, при выполнении цикла на последующем кадре, в качестве входных данных 19” (Tprev) во второй блок 12 оценки, касающихся ранее выполненного выбора. Для каждого кадра 13, второй блок 12 оценки получает вторую оценку 16, на основе предыдущей окончательной оценки 19” для предыдущего кадра.
Фиг. 1b представляет способ 100 (например, для определения задержки основного тона, подлежащей использованию для LPTF) для сигнала, разделенного на кадры. Способ содержит выполнение первого оценивания (оценивание задержки основного тона) для текущего кадра на этапе S101. Способ содержит выполнение второго оценивания для текущего кадра на этапе S102, при этом второе оценивание основано на выборе, выполненным в предыдущем кадре, (например, окончательной задержке основного тона, выбранной для LTPF в предыдущем кадре). Способ содержит выполнение выбора между первой оценкой 14 и второй оценкой 16, на основе, по меньшей мере, одного корреляционного измерения на этапе S103.
Затем, на этапе S104, кадры обновляются: кадр, который был «текущим кадром», становится «предыдущим кадром», а новый (последующий) кадр становится новым «текущим кадром». После обновления, способ можно повторить.
Фиг. 2 представляет участок устройства 10 (который может быть таким же, как на фиг. 1a) для кодирования информационного сигнала. В селекторе 17, первый измерительный блок 21 может измерять первую корреляцию (например, нормированную корреляцию) 23, относящуюся к текущему кадру 13, (например, нормированную автокорреляцию первой оценки T1). Второй измерительный блок 22 может измерять вторую корреляцию (например, нормированную корреляцию) 25, относящуюся к текущему кадру 13, (например, нормированную автокорреляцию второй оценки T2). Первая нормированная корреляция 23 может быть уменьшена в масштабе в преобразователе 26 масштаба посредством умножения на предварительно заданную величину α, которая может иметь значение, например, 0,8-0,9, в частности 0,84-0,86, и которая может быть равной 0,85. Вторая корреляция (например, нормированная корреляция) 25, относящаяся к текущему кадру 13, может сравниваться, например, с масштабированной первой корреляцией 24 (в примерах, преобразователь 26 масштаба является необязательным, и первая корреляция не масштабируется). Выбор 18 между первой оценкой 14 (T1) и второй оценкой 16 (T2) основан на сравнении, выполняемом в блоке 27 сравнения. Когда вторая корреляция 25 превышает уменьшенную в масштабе первую корреляцию 24, в качестве информации о задержке основного тона выбирается вторая оценка 16 как выбранная выходная оценка 19 (Tbest=T2), подлежащая представлению в декодер (например, подлежащая использованию в качестве задержки основного тона для LTPF). Когда вторая корреляция 25 меньше уменьшенной в масштабе первой корреляции 24, в качестве информации 19 о задержке основного тона (Tbest=T1) выбирается первая оценка 14 (T1) для представления в декодер.
5.2 Первое оценивание
Далее описаны операции первого блока 11 оценки, которые можно использовать, например, для обеспечения первой оценки 14, на основе текущего кадра 13. Способ 30 представлен на фиг. 3.
Этап 1. 1-я стадия повторной дискретизации (этап S31)
Входной сигнал
Figure 00000025
с частотой дискретизации
Figure 00000026
повторно дискретизируется до более низкой частоты дискретизации
Figure 00000027
(например,
Figure 00000028
). Повторная дискретизация может выполняться с использованием, например, классического подхода: повышающая дискретизация+низкочастотная фильтрация+понижающая дискретизация. Данный этап является необязательным в некоторых примерах.
Этап 2. Высокочастотная фильтрация (этап S32)
Повторно дискретизированный сигнал подвергается затем высокочастотной фильтрации с использованием, например, БИХ-фильтра 2-го порядка с 3-дБ граничной частотой 50 Гц. Полученный сигнал обозначается
Figure 00000029
. Данный этап является необязательным в некоторых примерах.
Этап 3. 2-я стадия повторной дискретизации (этап S33)
Сигнал
Figure 00000029
дополнительно подвергается понижающей дискретизации на 2 с использованием низкочастотного фильтра с конечной импульсной характеристикой (КИХ-фильтра) 4-го порядка с последующим прореживателем. Полученный сигнал с частотой дискретизации
Figure 00000030
, (например,
Figure 00000031
) обозначается
Figure 00000032
. Данный этап является необязательным в некоторых примерах.
Этап 4. Вычисление автокорреляции (этап S34)
Возможно выполнение процесса автокорреляции. Например, автокорреляция может выполняться для
Figure 00000032
по формуле
Figure 00000033
где
Figure 00000022
является размером кадра.
Figure 00000034
и
Figure 00000035
являются минимальным и максимальным значениями при выборе задержки основного тона (например,
Figure 00000036
и
Figure 00000037
). Следовательно,
Figure 00000038
и
Figure 00000039
могут быть крайними точками первого интервала, в котором следует искать первую оценку (задержку основного тона текущего кадра).
Этап 5. Весовая обработка автокорреляции (этап S35)
Автокорреляция может подвергаться весовой обработке для предыскажения меньших задержек основного тона
Figure 00000040
где
Figure 00000041
является убывающей функцией (например, монотонно убывающей функцией), заданной, например, выражением
Figure 00000042
Этап 6. Первое оценивание (этап S36)
Первая оценка
Figure 00000043
является значением, которое максимизирует взвешенную автокорреляцию:
Figure 00000044
Первая оценка
Figure 00000043
может обеспечиваться как выход 14 первого блока 11 оценки. Это может быть оценка задержки основного тона для текущего кадра.
Функция
Figure 00000045
(или ее взвешенная версия
Figure 00000046
) является примером первой корреляционной функции, максимальное значение которой относится к первой оценке 14 задержки основного тона (T1).
5.3 Второе оценивание
Далее описаны операции второго блока 12 оценки (и/или этап S102), которые можно использовать, в примерах, для обеспечения второй оценки 16, на основе текущего кадра 13 и ранее выбранной (выходной) оценки 19” (задержки основного тона, полученной для предыдущего кадра). Способ 40 представлен на фиг. 4. Вторая оценка 16 может отличаться от первой оценки 14. Кроме того, оцененная задержка основного тона может отличаться, в некоторых примерах, от ранее оцененной задержки основного тона.
Как показано на фиг. 5, в соответствии с примерами, на этапе S41, поиск ограничен ограниченной группой задержек, которые находятся в пределах конкретного второго подынтервала 52. Поиск базируется на задержке 51, которая соответствует (ранее) выбранному значению 19”. Поиск ограничивается задержками во втором подынтервале 52, которые находятся в пределах значения δ (которое может быть выбрано, например, из 2, 3, 4, 5, 6, 7, 8, 9, 10 или другого положительного натурального числа; в некоторых примерах, δ можно выражать в процентах длины кадра, так что, если кадр содержит N отсчетов, то δ равно процентной доле от 1% до 30%, в частности, от 15% до 25%, от N). Значение δ может быть предварительно заданным порогом числа задержек или предварительно заданным процентным значением.
В соответствии с примерами, на этапе S42, вторым измерительным блоком 22 вычисляются значения автокорреляции, например, в подынтервале 52.
В соответствии с примерами, на этапе S42 отыскивается максимальное значение из результатов автокорреляции. Вторая оценка
Figure 00000047
является значением, которое максимизирует автокорреляцию в окрестности задержки основного тона текущего кадра, среди задержек во втором подынтервале с центром в ранее выбранном значении 19”, например:
Figure 00000048
где
Figure 00000014
является окончательной задержкой 51 (19”) основного тона, ранее выбранной (селектором 17), и
Figure 00000015
является постоянной (например,
Figure 00000049
), которая определяет подынтервал 52. В качестве выходного значения 16 второго блока 12 оценки может обеспечиваться значение
Figure 00000047
.
Следует отметить, что первая оценка 14 и вторая оценка 16 могут значительно отличаться друг от друга.
Функция
Figure 00000045
(область которой ограничена в данном случае между Tprev-δ и Tprev+δ) является примером второй корреляционной функции, максимальное значение которой относится ко второй оценке задержки основного тона 16 (T2).
5.4 Первое и второе корреляционные измерения
Измерительный блок 21 и/или второй измерительный блок 22 могут выполнять корреляционные измерения корреляционные измерения. Измерительный блок 21 и/или второй измерительный блок 22 могут выполнять автокорреляционные измерения. Корреляционные и/или автокорреляционные измерения могут нормироваться. Например, здесь это обеспечивается.
Функция
Figure 00000050
может быть нормированной корреляцией сигнала
Figure 00000051
при задержке основного тона
Figure 00000052
Figure 00000053
Поэтому, первым корреляционным измерением 23 может быть
Figure 00000054
normcorr(T1), где T1 является первой оценкой 14, и вторым корреляционным измерением 25 может быть normcorr(T2), где T2 является второй оценкой 16.
Следует отметить, что первое корреляционное измерение 23 составляет нормированное значение R(T1) (или Rw(T1)), тогда как второе корреляционное измерение 25 составляет нормированное значение R(T2).
5.5 Сравнение с порогом
Далее можно привести пример того, как сравнивать корреляцию для выполнения выбора. Пример дан в виде следующей формулы:
Figure 00000055
Figure 00000056
можно считать порогом 24 выбора задержки основного тона: если
Figure 00000057
, то селектор выбирает
Figure 00000058
, в ином случае селектор выбирает
Figure 00000047
. Следовательно, значение
Figure 00000059
(или информация, относящаяся к нему) может быть выбранным выходным значением 19 (T1 или T2) и подаваться в декодер (например, для LTPF), и которое будет использоваться как 19” вторым блоком 12 оценки для получения второй оценки 16.
5.6 Способ 40
Способ 40, связанный со способом 30, повышает характеристики методики, основанной только на способе 30.
При небольшом дополнительном усложнении, эффективность можно значительно повысить посредством обеспечения большей стабильности и непрерывности контура основного тона.
Способ 40 находит второй максимум для автокорреляционной функции. Это не глобальный максимум, как в способе 30, а локальный максимум в окрестности задержки основного тона предыдущего кадра. Эта вторая задержка основного тона, при выборе, создает гладкий и непрерывный контур основного тона. Однако данная вторая задержка основного тона выбирается не во всех случаях. Если, например, ожидается изменение основной частоты, то лучше сохранить глобальный максимум.
Окончательный выбор состоит в том, выбрать ли первую задержку (14) основного тона
Figure 00000001
, найденную способом 30, или вторую задержку (16) основного тона
Figure 00000010
, найденную способом 40. Это решение принимается на основе степени периодичности. В качестве степени периодичности принимается нормированная корреляция. Она равна 1, если сигнал является идеально периодическим, и 0, если сигнал является апериодическим. Тогда выбирается вторая задержка
Figure 00000010
основного тона, если ее соответствующая нормированная корреляция выше нормированной корреляции первой задержки
Figure 00000001
основного тона, умноженной на параметр
Figure 00000024
. Параметр
Figure 00000060
делает решение еще более гладким, при выборе
Figure 00000010
(16), даже когда его нормированная корреляция немного ниже нормированной корреляции первой задержки
Figure 00000001
(14) основного тона.
5.7 Особенности методики
Смотри фиг. 5(1)-5(4).
Пример первого оценивания представлен на фиг. 5(1): здесь выбирается задержка основного хода, которая соответствует максимуму автокорреляционной функции.
Выбор основан на том, что автокорреляция гармонического сигнала (с некоторым заданным основным тоном) содержит пики в положении задержки основного тона и всех кратных чисел данной задержки основного тона.
Чтобы исключить выбор пика, соответствующего кратному числу задержки основного тона, автокорреляционная функция подвергается весовой обработке, как на фиг. 5(2), вносящей меньшие предыскажения в более продолжительные задержки основного тона. Это применяется, например, в [7].
Затем допускается, что глобальный максимум взвешенной автокорреляции соответствует задержке основного тона сигнала.
В общем, только первое оценивание уже работает удовлетворительно: оно дает точный основной тон в большинстве кадров.
Первое оценивание имеет также преимущество относительно низкой сложности, если число задержек автокорреляционной функции (первый подынтервал) относительно мало.
Фиг. 5(1) показывает (невзвешенную) автокорреляцию выходного сигнала.
Имеется пять пиков: первый пик 53 соответствует задержке основного тона, и другие пики соответствуют кратным числам 53’ этой задержке основного тона.
Выбор глобального максимума (невзвешенной) автокорреляции будет давать в этом случае неверную задержку основного тона: лучше выбрать кратное число данного числа, в этом случае 4-кратное является корректной задержкой основного тона.
Однако, глобальный максимум взвешенной автокорреляции (фигура 5(2)) является корректной задержкой основного тона.
Первое оценивание работает в ряде случаев. Однако, имеется несколько случаев, когда оно дает нестабильную оценку.
Один из этих случаев является полифоническим музыкальным сигналом, который содержит смесь нескольких тонов с разными основными тонами. В данном случае сложно выделить единственный основной тон из многотонального сигнала. В этом случае первый блок 11 оценки может оценить в одном кадре основной тон одного из тональных сигналов (или даже, возможно, нескольких из них), и в следующем кадре, возможно, может оценить основной тон другого тонального сигнала (или нескольких из них). Поэтому, даже если сигнал является стабильным (основной тон разных тональных сигналов не изменяется от кадра к кадру), основной тон, обнаруженный первым оцениванием, может быть нестабильным (изменения основного тона значительно отличаются от кадра к кадру).
Такое нестабильное поведение системы является основной проблемой для LTPF. Когда основной тон используется для LTPF, наиболее важно получить непрерывный контур основного тона, иначе в выходном сигнале после LTPF можно услышать некоторые артефакты.
Фигуры 5(3) и 5(4) иллюстрируют эту проблему.
Фигура 5(3) представляет взвешенную автокорреляцию и ее максимум в кадре стабильного сигнала с несколькими основными тонами. Задержка основного тона 19” правильно выбирается в точке «20» в соответствии с пиком 54.
Фигура 5(4) показывает то же самое в последующем кадре.
В этом случае, первые три пика 54’, 54” и 54’” имеют очень близкие амплитуды. Поэтому очень малые изменения между двумя последовательными кадрами могут значительно изменить глобальный максимум и оцененную задержку основного тона.
Решение, принятое в настоящем изобретении, решает упомянутые проблемы нестабильности.
Настоящее решение выбирает, кроме задержки основного тона, относящейся к пику в кадре, задержку основного тона, которая близка к задержке основного тона предыдущего кадра.
Например, фигура 5(3) соответствует предыдущему кадру, и фигура 5(4) соответствует текущему кадру. Предполагается проверять, предпочтительно ли выбрать в текущем кадре задержку основного тона около 20 (т.е. задержку основного тона 19” или Tprev предыдущего кадра), а не задержку основного тона 40, выданную первым блоком 11 оценки.
Для этого выполняется второе оценивание (например, вторым блоком 12 оценки) посредством оценивания второй задержки T2 основного тона, которая максимизирует автокорреляционную функцию около задержки основного тона предыдущего кадра в подынтервале 52 (Tprev-δ, Tprev+δ). В случае, показанном на фигуре 5(4), данная вторая задержка T2 основного тона будет равна 20 (первая задержка основного тона равна 40). (Даже в случае T2=Tprev, это не является общим правилом. В общем, Tprev-δ≤T2≤Tprev+δ). Следует отметить, что, в примерах, чтобы оценить T2, автокорреляция не подвергается весовой обработке.
Однако, во всех случаях не требуется выбирать упомянутую вторую задержку T2 основного тона. Первую задержку T1 основного тона или вторую задержку T2 основного тона требуется выбирать, на основе некоторых критериев. Эти критерии базируются на нормированной корреляции (NC), например, измеренной селектором 17, которая обычно считается удовлетворительным показателем того, насколько периодическим является сигнал при некоторой конкретной задержке основного тона (NC, равная 0, означает совершенное отсутствие периодичности, NC, равная 1, означает идеальную периодичность).
При этом существует несколько случаев:
- Если NC второй оценки T2 превосходит NC первой оценки T1: можно быть уверенным, что вторая оценка T2 лучше первой оценки T1, так как вторая оценка T2 имеет более подходящую NC, и она дает стабильное решение (основной тон предыдущего кадра и основной тон текущего кадра являются очень близкими), поэтому ее можно безопасно выбрать.
- Если NC второй оценки T2 намного ниже, чем NC первой оценки: это указывает, что основной тон 19” предыдущего кадра не соответствует никакой периодичности в текущем кадре, сигнал является нестабильным, и основной тон изменился, поэтому не имеет смысла сохранять основной тон 19” предыдущего кадра и пробовать получить стабильное решение. В этом случае, вторая оценка T2 игнорируется, и выбирается первая оценка T1.
- Если NC второй оценки T2 немного ниже, чем NC первой оценки T1: NC обеих оценок T1 и T2 близко совпадают, и в этом случае целесообразно выбирать оценку, которая дает стабильное решение (т.е. вторую оценку T2), даже если она имеет NC немного хуже. Параметр α (α<1) используется для такого случая: он допускает выбор второй оценки T2, даже если она имеет NC немного меньше. Настройка данного параметра α позволяет сместить выбор к первой оценке T1 или второй оценке T2: меньшее значение означает, что вторая оценка будет выбираться чаще (т.е. решение будет более стабильным). Значение 0,85 (или значение в диапазоне 0,8-0,9) является удовлетворительным компромиссом: оно выбирает вторую оценку T2 достаточно часто, так что решение является достаточно стабильным для LTPF.
Дополнительные этапы, обеспечиваемые сверх первого оценивания (второе оценивание и выбор) имеют очень низкую сложность. Следовательно, предлагаемое изобретение характеризуется низкой сложностью.
6. Примеры систем кодирования/декодирования
Фиг. 6 представляет блок-схему, связанную с операциями кодирования/декодирования. Схема представляет систему 60, содержащую кодер 60a (который может содержать устройство 10) и декодер 60b. Кодер 60a получает входной информационный сигнал 61 (который может быть аудиосигналом и/или может быть распределен между кадрами, например, текущим кадром 13 и предыдущим кадром) и подготавливает поток 63 битов. Декодер 60b получает поток 63 битов (например, беспроводным способом, например, с использованием Bluetooth), чтобы сформировать выходной сигнал 68 (например, аудиосигнал).
Кодер 60a, с использованием кодера 62 преобразования, может формировать представление 63a в частотной области (или его обработанную версию) информационного сигнала 61 и представлять его в декодер 60b в потоке 63 битов. Декодер 60b может содержать декодер преобразования для получения выходного сигнала 64a.
Кодер 60a может формировать, с использованием блока 65 определения, данные, используемые для выполнения LTPF в декодере 60b. Эти данные могут содержать оценку задержки основного тона (например, 19) и/или информацию об усилении. Эти данные могут быть закодированы в потоке 63 битов в форме данных 63b в полях управления. Данные 63b (которые могут содержать окончательную оценку 19 задержки основного тона) могут подготавливаться кодером 66 с LTPF (который, в некоторых примерах, может решать, кодировать ли данные 63b). Эти данные могут использоваться декодером 67 с LTPF, который может применять их к выходному сигналу 64a из декодера 64 с преобразованием, чтобы получить выходной сигнал 68.
7. Примеры, например, для LTPF
7.1 Параметры (например, параметры LTPF) в кодере
Далее представлены примеры вычислений параметров LTPF (или параметров другого типа).
Пример для подготовки информации для LTPF приведен в следующих подразделах.
7.2.1. Повторная дискретизация
Далее описан пример (необязательной) методики повторной дискретизации (можно использовать другие методики).
Входной сигнал с частотой дискретизации
Figure 00000061
можно повторно дискретизировать до фиксированной частоты дискретизации 12,8 кГц. Повторная дискретизация выполняется с использованием подхода: повышающая дискретизация+низкочастотная фильтрация+понижающая дискретизация, который может быть выражен следующей формулой
Figure 00000062
где
Figure 00000063
означает целую часть значения (округление до меньшего целого),
Figure 00000064
является входным сигналом,
Figure 00000065
является повторно дискретизированным сигналом при 12,8 кГц,
Figure 00000066
является коэффициентом повышающей дискретизации, и
Figure 00000067
является импульсной характеристикой низкочастотного КИХ-фильтра, заданного формулой
Figure 00000068
Пример tab_resamp_filter приведен в следующей таблице:
double tab_resamp_filter[239] = {
-2,043055832879108e-05, -4,463458936757081e-05, -7,163663994481459e-05,
-1,001011132655914e-04, -1,283728480660395e-04, -1,545438297704662e-04,
-1,765445671257668e-04, -1,922569599584802e-04, -1,996438192500382e-04,
-1,968886856400547e-04, -1,825383318834690e-04, -1,556394266046803e-04,
-1,158603651792638e-04, -6,358930335348977e-05, +2,810064795067786e-19,
+7,292180213001337e-05, +1,523970757644272e-04, +2,349207769898906e-04,
+3,163786496265269e-04, +3,922117380894736e-04, +4,576238491064392e-04,
+5,078242936704864e-04, +5,382955231045915e-04, +5,450729176175875e-04,
+5,250221548270982e-04, +4,760984242947349e-04, +3,975713799264791e-04,
+2,902002172907180e-04, +1,563446669975615e-04, -5,818801416923580e-19,
-1,732527127898052e-04, -3,563859653300760e-04, -5,411552308801147e-04,
-7,184140229675020e-04, -8,785052315963854e-04, -1,011714513697282e-03,
-1,108767055632304e-03, -1,161345220483996e-03, -1,162601694464620e-03,
-1,107640974148221e-03, -9,939415631563015e-04, -8,216921898513225e-04,
-5,940177657925908e-04, -3,170746535382728e-04, +9,746950818779534e-19,
+3,452937604228947e-04, +7,044808705458705e-04, +1,061334465662964e-03,
+1,398374734488549e-03, +1,697630799350524e-03, +1,941486748731660e-03,
+2,113575906669355e-03, +2,199682452179964e-03, +2,188606246517629e-03,
+2,072945458973295e-03, +1,849752491313908e-03, +1,521021876908738e-03,
+1,093974255016849e-03, +5,811080624426164e-04, -1,422482656398999e-18,
-6,271537303228204e-04, -1,274251404913447e-03, -1,912238389850182e-03,
-2,510269249380764e-03, -3,037038298629825e-03, -3,462226871101535e-03,
-3,758006719596473e-03, -3,900532466948409e-03, -3,871352309895838e-03,
-3,658665583679722e-03, -3,258358512646846e-03, -2,674755551508349e-03,
-1,921033054368456e-03, -1,019254326838640e-03, +1,869623690895593e-18,
+1,098415446732263e-03, +2,231131973532823e-03, +3,348309272768835e-03,
+4,397022774386510e-03, +5,323426722644900e-03, +6,075105310368700e-03,
+6,603520247552113e-03, +6,866453987193027e-03, +6,830342695906946e-03,
+6,472392343549424e-03, +5,782375213956374e-03, +4,764012726389739e-03,
+3,435863514113467e-03, +1,831652835406657e-03, -2,251898372838663e-18,
-1,996476188279370e-03, -4,082668858919100e-03, -6,173080374929424e-03,
-8,174448945974208e-03, -9,988823864332691e-03, -1,151698705819990e-02,
-1,266210056063963e-02, -1,333344579518481e-02, -1,345011199343934e-02,
-1,294448809639154e-02, -1,176541543002924e-02, -9,880867320401294e-03,
-7,280036402392082e-03, -3,974730209151807e-03, +2,509617777250391e-18,
+4,586044219717467e-03, +9,703248998383679e-03, +1,525124770818010e-02,
+2,111205854013017e-02, +2,715337236094137e-02, +3,323242450843114e-02,
+3,920032029020130e-02, +4,490666443426786e-02, +5,020433088017846e-02,
+5,495420172681558e-02, +5,902970324375908e-02, +6,232097270672976e-02,
+6,473850225260731e-02, +6,621612450840858e-02, +6,671322871619612e-02,
+6,621612450840858e-02, +6,473850225260731e-02, +6,232097270672976e-02,
+5,902970324375908e-02, +5,495420172681558e-02, +5,020433088017846e-02,
+4,490666443426786e-02, +3,920032029020130e-02, +3,323242450843114e-02,
+2,715337236094137e-02, +2,111205854013017e-02, +1,525124770818010e-02,
+9,703248998383679e-03, +4,586044219717467e-03, +2,509617777250391e-18,
-3,974730209151807e-03, -7,280036402392082e-03, -9,880867320401294e-03,
-1,176541543002924e-02, -1,294448809639154e-02, -1,345011199343934e-02,
-1,333344579518481e-02, -1,266210056063963e-02, -1,151698705819990e-02,
-9,988823864332691e-03, -8,174448945974208e-03, -6,173080374929424e-03,
-4,082668858919100e-03, -1,996476188279370e-03, -2,251898372838663e-18,
+1,831652835406657e-03, +3,435863514113467e-03, +4,764012726389739e-03,
+5,782375213956374e-03, +6,472392343549424e-03, +6,830342695906946e-03,
+6,866453987193027e-03, +6,603520247552113e-03, +6,075105310368700e-03,
+5,323426722644900e-03, +4,397022774386510e-03, +3,348309272768835e-03,
+2,231131973532823e-03, +1,098415446732263e-03, +1,869623690895593e-18,
-1,019254326838640e-03, -1,921033054368456e-03, -2,674755551508349e-03,
-3,258358512646846e-03, -3,658665583679722e-03, -3,871352309895838e-03,
-3,900532466948409e-03, -3,758006719596473e-03, -3,462226871101535e-03,
-3,037038298629825e-03, -2,510269249380764e-03, -1,912238389850182e-03,
-1,274251404913447e-03, -6,271537303228204e-04, -1,422482656398999e-18,
+5,811080624426164e-04, +1,093974255016849e-03, +1,521021876908738e-03,
+1,849752491313908e-03, +2,072945458973295e-03, +2,188606246517629e-03,
+2,199682452179964e-03, +2,113575906669355e-03, +1,941486748731660e-03,
+1,697630799350524e-03, +1,398374734488549e-03, +1,061334465662964e-03,
+7,044808705458705e-04, +3,452937604228947e-04, +9,746950818779534e-19,
-3,170746535382728e-04, -5,940177657925908e-04, -8,216921898513225e-04,
-9,939415631563015e-04, -1,107640974148221e-03, -1,162601694464620e-03,
-1,161345220483996e-03, -1,108767055632304e-03, -1,011714513697282e-03,
-8,785052315963854e-04, -7,184140229675020e-04, -5,411552308801147e-04,
-3,563859653300760e-04, -1,732527127898052e-04, -5,818801416923580e-19,
+1,563446669975615e-04, +2,902002172907180e-04, +3,975713799264791e-04,
+4,760984242947349e-04, +5,250221548270982e-04, +5,450729176175875e-04,
+5,382955231045915e-04, +5,078242936704864e-04, +4,576238491064392e-04,
+3,922117380894736e-04, +3,163786496265269e-04, +2,349207769898906e-04,
+1,523970757644272e-04, +7,292180213001337e-05, +2,810064795067786e-19,
-6,358930335348977e-05, -1,158603651792638e-04, -1,556394266046803e-04,
-1,825383318834690e-04, -1,968886856400547e-04, -1,996438192500382e-04,
-1,922569599584802e-04, -1,765445671257668e-04, -1,545438297704662e-04,
-1,283728480660395e-04, -1,001011132655914e-04, -7,163663994481459e-05,
-4,463458936757081e-05, -2,043055832879108e-05};
7.2.2. Высокочастотная фильтрация
Далее описан пример (необязательной) методики высокочастотной фильтрации (можно использовать другие методики).
Повторно дискретизированный сигнал может обрабатываться низкочастотным фильтром с использованием БИХ-фильтра 2-го порядка, передаточная функция которого может выражаться формулой
Figure 00000069
7.2.3. Выделение основного тона
Далее описан пример методики выделения основного тона (можно использовать другие методики).
Сигнал
Figure 00000065
может подвергаться (необязательно) понижающей дискретизации на 2
Figure 00000070
где
Figure 00000071
= {0,1236796411180537, 0,2353512128364889, 0,2819382920909148, 0,2353512128364889, 0,1236796411180537}.
Автокорреляция of
Figure 00000072
может вычисляться по формуле
Figure 00000073
где
Figure 00000074
и
Figure 00000075
являются минимальной и максимальной задержки, которые задают первый подынтервал (для
Figure 00000076
и
Figure 00000077
можно обеспечить другие значения).
Автокорреляция может подвергаться весовой обработке по формуле
Figure 00000078
где
Figure 00000079
задается формулой
Figure 00000080
Первая оценка 14 задержки
Figure 00000058
основного тона может быть задержкой, которая максимизирует взвешенную автокорреляцию
Figure 00000081
Вторая оценка 16 задержки
Figure 00000047
основного тона может быть задержкой, которая максимизирует невзвешенную автокорреляцию в окрестности задержки (19”) основного тона, оцененной в предыдущем кадре
Figure 00000082
где
Figure 00000083
,
Figure 00000084
, и
Figure 00000085
является окончательной задержкой основного тона, оцененной в предыдущем кадре (и, следовательно, ее выбор согласован с ранее выбранной задержкой основного тона).
В таком случае, окончательная оценка 19 задержки основного тона в текущем кадре 13 может определяться из формулы
Figure 00000086
где
Figure 00000087
является нормированной корреляцией сигнала
Figure 00000051
длиной
Figure 00000088
, при задержке
Figure 00000052
Figure 00000089
Каждая нормированная корреляция 23 или 25 может быть, по меньшей мере, одним из измерений, полученных первым или вторым блоком 21 или 22 измерения сигнала.
7.2.4. Поток битов с LTPF
В некоторых примерах, первый бит потока битов с LTPF сигнализирует о присутствии параметра задержки основного тона в потоке битов. Его получают следующим образом
Figure 00000090
(Вместо 0,6, можно использовать другой порог, например, в диапазоне 0,4-0,8 или 0,5-0,7, или 0,55-0,65.)
Если pitch_present равно 0, то больше никаких бит не кодируется, что дает поток битов с LTPF только из одного бита.
Если pitch_present равно 1, то кодируется еще два параметра, один параметр задержки основного тона кодируется 9 битами, и один бит служит для сигнализации активации LTPF. В этом случае, поток битов с LTPF составлен 11 битами.
Figure 00000091
7.2.5. Параметры задержки основного тона LTPF
Далее описан пример получения параметров задержки основного тона LTPF (можно использовать другие методики).
Целая часть параметра задержки основного тона LTPF может быть задана следующим образом
Figure 00000092
где
Figure 00000093
и
Figure 00000094
,
Figure 00000095
.
Тогда дробную часть задержки основного тона LTPF можно выразить как
Figure 00000096
где
Figure 00000097
и
Figure 00000098
является импульсным откликом низкочастотного КИХ-фильтра, заданным в виде
Figure 00000099
Figure 00000100
может иметь вид, например:
double tab_ltpf_interp_R[31] = {
-2,874561161519444e-03, -3,001251025861499e-03, +2,745471654059321e-03
+1,535727698935322e-02, +2,868234046665657e-02, +2,950385026557377e-02
+4,598334491135473e-03, -4,729632459043440e-02, -1,058359163062837e-01
-1,303050213607112e-01, -7,544046357555201e-02, +8,357885725250529e-02
+3,301825710764459e-01, +6,032970076366158e-01, +8,174886856243178e-01
+8,986382851273982e-01, +8,174886856243178e-01, +6,032970076366158e-01
+3,301825710764459e-01, +8,357885725250529e-02, -7,544046357555201e-02
-1,303050213607112e-01, -1,058359163062837e-01, -4,729632459043440e-02
+4,598334491135473e-03, +2,950385026557377e-02, +2,868234046665657e-02
+1,535727698935322e-02, +2,745471654059321e-03, -3,001251025861499e-03
-2,874561161519444e-03};
Если
Figure 00000101
, то как
Figure 00000102
, так и
Figure 00000103
модифицируются в соответствии с
Figure 00000104
И наконец, индекс параметра задержки основного тона задается в виде
Figure 00000105
7.2.6 Бит активации LTPF
Сначала вычисляется нормированная корреляция следующим образом
Figure 00000106
где
Figure 00000107
и
Figure 00000108
является импульсным откликом низкочастотного КИХ-фильтра, заданным в виде
Figure 00000109
где
Figure 00000110
задается следующим образом:
double tab_ltpf_interp_x12k8[15] = {
+6,698858366939680e-03, +3,967114782344967e-02, +1,069991860896389e-01
+2,098804630681809e-01, +3,356906254147840e-01, +4,592209296082350e-01
+5,500750019177116e-01, +5,835275754221211e-01, +5,500750019177116e-01
+4,592209296082350e-01, +3,356906254147840e-01, +2,098804630681809e-01
+1,069991860896389e-01, +3,967114782344967e-02, +6,698858366939680e-03};
Затем бит активации LTPF устанавливается в соответствии с:
if (
(mem_ltpf_active==0 && mem_nc>0,94 && nc>0.94) ||
(mem_ltpf_active==1 && nc>0,9) ||
(mem_ltpf_active==1 && abs(pitch-mem_pitch)<2 && (nc-mem_nc)>-0,1 && nc>0.84)
)
{
ltpf_active=1;
}
else
{
ltpf_active=0;
}
где mem_ltpf_active является значением ltpf_active в предыдущем кадре (оно равно 0, если pitch_present=0 в предыдущем кадре), mem_nc является значением nc в предыдущем кадре (оно равно 0, если pitch_present=0 в предыдущем кадре), pitch=pitch_int+pitch_fr/4, и mem_pitch является значением основного тона в предыдущем кадре (оно равно 0, если pitch_present=0 в предыдущем кадре).
7.3 LTPF в декодере
Декодированный сигнал в частотной области (FD), например, после синтеза с помощью MDCT (модифицированного дискретного косинусного преобразования), синтеза с помощью MDST (модифицированного дискретного синусного преобразования) или синтеза на основе другого преобразования, может подвергаться постфильтрации во временной области с использованием БИХ-фильтра, параметры которого могут зависеть от данных «pitch_index» и «ltpf_active» потока битов с LTPF. Для устранения разрывов непрерывности, когда параметры изменяются от кадра к кадру, на первой четверти текущего кадра можно применить механизм перехода.
В примерах, БИХ-фильтр LTPF можно реализовать с использованием
Figure 00000111
где
Figure 00000112
является входным сигналом фильтра (т.е. декодированным сигналом после синтеза с помощью MDCT), и
Figure 00000113
является выходным сигналом фильтра.
Целая часть
Figure 00000114
и дробная часть
Figure 00000115
задержки основного тона LTPF могут вычисляться следующим образом. Сначала выделяется задержка основного тона при 12,8 кГц с использованием
Figure 00000116
Figure 00000117
Figure 00000118
Затем задержка основного тона может изменяться в масштабе до выходной частоты
Figure 00000119
дискретизации и преобразуется в целую и дробные части с использованием
Figure 00000120
Figure 00000121
Figure 00000122
Figure 00000123
где
Figure 00000119
является частотой дискретизации.
Коэффициенты фильтра
Figure 00000124
и
Figure 00000125
могут вычисляться следующим образом
Figure 00000126
Figure 00000127
где
Figure 00000128
Figure 00000129
и
Figure 00000130
и
Figure 00000131
могут быть получены в соответствии
fs_idx=min(4,(
Figure 00000061
/8000-1));
if (nbits < 320+fs_idx*80)
{
gain_ltpf=0.4;
gain_ind=0;
}
else if (nbits < 400+fs_idx*80)
{
gain_ltpf=0.35;
gain_ind=1;
}
else if (nbits < 480+fs_idx*80)
{
gain_ltpf=0.3;
gain_ind=2;
}
else if (nbits < 560+fs_idx*80)
{
gain_ltpf=0.25;
gain_ind=3;
}
else
{
gain_ltpf=0;
}
И таблицы
Figure 00000132
и
Figure 00000133
являются предварительно заданными.
Примеры
Figure 00000132
представлены ниже (вместо «fs» указана частота дискретизации):
double tab_ltpf_num_8000[4][3] = {
{6,023618207009578e-01,4,197609261363617e-01,-1,883424527883687e-02},
{5,994768582584314e-01,4,197609261363620e-01,-1,594928283631041e-02},
{5,967764663733787e-01,4,197609261363617e-01,-1,324889095125780e-02},
{5,942410120098895e-01,4,197609261363618e-01,-1,071343658776831e-02}};
double tab_ltpf_num_16000[4][3] = {
{6,023618207009578e-01,4,197609261363617e-01,-1,883424527883687e-02},
{5,994768582584314e-01,4,197609261363620e-01,-1,594928283631041e-02},
{5,967764663733787e-01,4,197609261363617e-01,-1,324889095125780e-02},
{5,942410120098895e-01,4,197609261363618e-01,-1,071343658776831e-02}};
double tab_ltpf_num_24000[4][5] = {
{3,989695588963494e-01,5,142508607708275e-01,1,004382966157454e-01,-1,278893956818042e-02,-1,572280075461383e-03},
{3,948634911286333e-01,5,123819208048688e-01,1,043194926386267e-01,-1,091999960222166e-02,-1,347408330627317e-03},
{3,909844475885914e-01,5,106053522688359e-01,1,079832524685944e-01,-9,143431066188848e-03,-1,132124620551895e-03},
{3,873093888199928e-01,5,089122083363975e-01,1,114517380217371e-01,-7,450287133750717e-03,-9,255514050963111e-04}};
double tab_ltpf_num_32000[4][7] = {
{2,982379446702096e-01,4,652809203721290e-01,2,105997428614279e-01,3,766780380806063e-02,-1,015696155796564e-02,-2,535880996101096e-03,-3,182946168719958e-04},
{2,943834154510240e-01,4,619294002718798e-01,2,129465770091844e-01,4,066175002688857e-02,-8,693272297010050e-03,-2,178307114679820e-03,-2,742888063983188e-04},
{2,907439213122688e-01,4,587461910960279e-01,2,151456974108970e-01,4,350104772529774e-02,-7,295495347716925e-03,-1,834395637237086e-03,-2,316920186482416e-04},
{2,872975852589158e-01,4,557148886861379e-01,2,172126950911401e-01,4,620088878229615e-02,-5,957463802125952e-03,-1,502934284345198e-03,-1,903851911308866e-04}};
double tab_ltpf_num_48000[4][11] = {
{1,981363739883217e-01,3,524494903964904e-01,2,513695269649414e-01,1,424146237314458e-01,5,704731023952599e-02,9,293366241586384e-03,-7,226025368953745e-03,-3,172679890356356e-03,-1,121835963567014e-03,-2,902957238400140e-04,-4,270815593769240e-05},
{1,950709426598375e-01,3,484660408341632e-01,2,509988459466574e-01,1,441167412482088e-01,5,928947317677285e-02,1,108923827452231e-02,-6,192908108653504e-03,-2,726705509251737e-03,-9,667125826217151e-04,-2,508100923165204e-04,-3,699938766131869e-05},
{1,921810055196015e-01,3,446945561091513e-01,2,506220094626024e-01,1,457102447664837e-01,6,141132133664525e-02,1,279941396562798e-02,-5,203721087886321e-03,-2,297324511109085e-03,-8,165608133217555e-04,-2,123855748277408e-04,-3,141271330981649e-05},
{1,894485314175868e-01,3,411139251108252e-01,2,502406876894361e-01,1,472065631098081e-01,6,342477229539051e-02,1,443203434150312e-02,-4,254449144657098e-03,-1,883081472613493e-03,-6,709619060722140e-04,-1,749363341966872e-04,-2,593864735284285e-05}};
Примеры
Figure 00000134
представлены ниже (вместо «fs» указана частота дискретизации):
double_tab_ltpf_den_8000[4][5] = {
{0,000000000000000e+00, 2,098804630681809e-01, 5,835275754221211e-01, 2,098804630681809e-01, 0,000000000000000e+00},
{0,000000000000000e+00, 1,069991860896389e-01, 5,500750019177116e-01, 3,356906254147840e-01, 6,698858366939680e-03},
{0,000000000000000e+00, 3,967114782344967e-02, 4,592209296082350e-01, 4,592209296082350e-01, 3,967114782344967e-02},
{0,000000000000000e+00, 6,698858366939680e-03, 3,356906254147840e-01, 5,500750019177116e-01, 1,069991860896389e-01}};
double_tab_ltpf_den_16000[4][5] = {
{0,000000000000000e+00, 2,098804630681809e-01, 5,835275754221211e-01, 2,098804630681809e-01, 0,000000000000000e+00},
{0,000000000000000e+00, 1,069991860896389e-01, 5,500750019177116e-01, 3,356906254147840e-01, 6,698858366939680e-03},
{0,000000000000000e+00, 3,967114782344967e-02, 4,592209296082350e-01, 4,592209296082350e-01, 3,967114782344967e-02},
{0,000000000000000e+00, 6,698858366939680e-03, 3,356906254147840e-01, 5,500750019177116e-01, 1,069991860896389e-01}};
double_tab_ltpf_den_24000[4][7] = {
{0,000000000000000e+00, 6,322231627323796e-02, 2,507309606013235e-01, 3,713909428901578e-01, 2,507309606013235e-01, 6,322231627323796e-02, 0,000000000000000e+00},
{0,000000000000000e+00, 3,459272174099855e-02, 1,986515602645028e-01, 3,626411726581452e-01, 2,986750548992179e-01, 1,013092873505928e-01, 4,263543712369752e-03},
{0,000000000000000e+00, 1,535746784963907e-02, 1,474344878058222e-01, 3,374259553990717e-01, 3,374259553990717e-01, 1,474344878058222e-01, 1,535746784963907e-02},
{0,000000000000000e+00, 4,263543712369752e-03, 1,013092873505928e-01, 2,986750548992179e-01, 3,626411726581452e-01, 1,986515602645028e-01, 3,459272174099855e-02}};
double_tab_ltpf_den_32000[4][9] = {
{0,000000000000000e+00, 2,900401878228730e-02, 1,129857420560927e-01, 2,212024028097570e-01, 2,723909472446145e-01, 2,212024028097570e-01, 1,129857420560927e-01, 2,900401878228730e-02, 0,000000000000000e+00},
{0,000000000000000e+00, 1,703153418385261e-02, 8,722503785537784e-02, 1,961407762232199e-01, 2,689237982237257e-01, 2,424999102756389e-01, 1,405773364650031e-01, 4,474877169485788e-02, 3,127030243100724e-03},
{0,000000000000000e+00, 8,563673748488349e-03, 6,426222944493845e-02, 1,687676705918012e-01, 2,587445937795505e-01, 2,587445937795505e-01, 1,687676705918012e-01, 6,426222944493845e-02, 8,563673748488349e-03},
{0,000000000000000e+00, 3,127030243100724e-03, 4,474877169485788e-02, 1,405773364650031e-01, 2,424999102756389e-01, 2,689237982237257e-01, 1,961407762232199e-01, 8,722503785537784e-02, 1,703153418385261e-02}};
double_tab_ltpf_den_48000[4][13] = {
{0,000000000000000e+00, 1,082359386659387e-02, 3,608969221303979e-02, 7,676401468099964e-02, 1,241530577501703e-01, 1,627596438300696e-01, 1,776771417779109e-01, 1,627596438300696e-01, 1,241530577501703e-01, 7,676401468099964e-02, 3,608969221303979e-02, 1,082359386659387e-02, 0,000000000000000e+00},
{0,000000000000000e+00, 7,041404930459358e-03, 2,819702319820420e-02, 6,547044935127551e-02, 1,124647986743299e-01, 1,548418956489015e-01, 1,767122381341857e-01, 1,691507213057663e-01, 1,352901577989766e-01, 8,851425011427483e-02, 4,499353848562444e-02, 1,557613714732002e-02, 2,039721956502016e-03},
{0,000000000000000e+00, 4,146998467444788e-03, 2,135757310741917e-02, 5,482735584552816e-02, 1,004971444643720e-01, 1,456060342830002e-01, 1,738439838565869e-01, 1,738439838565869e-01, 1,456060342830002e-01, 1,004971444643720e-01, 5,482735584552816e-02, 2,135757310741917e-02, 4,146998467444788e-03},
{0,000000000000000e+00, 2,039721956502016e-03, 1,557613714732002e-02, 4,499353848562444e-02, 8,851425011427483e-02, 1,352901577989766e-01, 1,691507213057663e-01, 1,767122381341857e-01, 1,548418956489015e-01, 1,124647986743299e-01, 6,547044935127551e-02, 2,819702319820420e-02, 7,041404930459358e-03}}
В отношении обработки перехода рассматриваются пять разных случаев.
Первый случай: ltpf_active=0, и mem_ltpf_active=0
Figure 00000135
Второй случай: ltpf_active=1, и mem_ltpf_active=0
Figure 00000136
Третий случай: ltpf_active=0, и mem_ ltpf_active=1
Figure 00000137
где
Figure 00000138
,
Figure 00000139
,
Figure 00000140
и
Figure 00000141
являются параметрами фильтра, вычисленного в предыдущем кадре.
Четвертый случай: ltpf_active=1, и mem_ltpf_active=1, и
Figure 00000142
, и
Figure 00000143
Figure 00000144
Figure 00000145
Пятый случай: ltpf_active=1, и mem_ltpf_active=1, и (
Figure 00000146
или
Figure 00000147
)
Figure 00000148
Figure 00000149
где Nf является числом отсчетов в одном кадре.
7.4 Дополнительные преимущества
Как можно понять, решения в соответствии с вышеприведенными примерами являются прозрачными для декодера. Отсутствует потребность в сигнализации для декодера, например, о том, что выбрана первая оценка или вторая оценка.
Соответственно, информационное наполнение в потоке битов 63 не увеличивается.
Кроме того, отсутствует потребность в модификации декодеров для приспособления к новой обработке, выполняемой в кодере. Декодер не обязан знать, что реализовано настоящее изобретение. Поэтому, изобретение допускает повышение степени совместимости с существующими системами.
8. Маскирование потери пакетов
Задержка основного тона Tbest (19), полученная вышеупомянутым устройством 10, 60a или 110 может использоваться в декодере (например, 60b) для реализации маскирования потери пакетов (PLC) (известно также как маскирование ошибок). PLC используется в аудиокодеках для маскирования потерянных или поврежденных пакетов во время передачи из кодера в декодер. В известном уровне техники, PLC может выполняться на декодирующей стороне и экстраполирует декодированный сигнал либо в области преобразования, либо во временной области.
Задержка основного тона может быть главным параметром, используемым в PLC с учетом основного тона. Этот параметр может оцениваться на кодирующей стороне и кодироваться в поток битов. В таком случае, задержка основного тона последних неповрежденных кадров используется для маскирования текущего потерянного кадра.
Поврежденный кадр не обеспечивает корректного слышимого выходного сигнала и должен отвергаться.
Для каждого декодируемого кадра в декодере может проверяться его допустимость. Например, каждый кадр может содержать поле, несущее циклический избыточный код (CRC), который проверяется выполнением предварительно заданных операций, обеспечиваемых предварительно заданным алгоритмом. Процедура может повторяться для проверки того, соответствует ли результат вычисления значению в поле CRC. Если кадр декодировался ненадлежащим образом (например, из-за помех при передаче), то принимается, что какие-то ошибки повредили кадр. Поэтому, если проверка дает результат некорректного декодирования, то кадр считается ненадлежаще декодированным (недопустимым, поврежденным).
Когда подтверждается, что кадр декодирован ненадлежащим образом, можно использовать стратегию маскирования, чтобы обеспечить слышимый выходной сигнал: иначе, можно услышать нечто, похожее на раздражающий перерыв в звучании. Поэтому, необходимо найти некоторую форму кадра, которая «заполняет пропуск», оставленный ненадлежаще декодированным кадром. Цель маскирования потерянного кадра состоит в том, чтобы маскировать эффект любого отсутствующего или поврежденного кадра для декодирования.
8.1 Стратегии маскирования
Процедура маскирования потерянных кадров может содержать способы маскирования для сигналов различных типов. Наибольшая эффективность кодека в ситуациях, подверженных ошибкам потерь кадров, может быть получена путем выбора наиболее подходящего способа. Один из способов маскирования потери пакетов может быть, например, маскированием во временной области в режиме TCX (преобразование кодированного возбуждения).
8.2 Маскирование во временной области в режиме TCX
Способ маскирования во временной области в режиме TCX является методикой PLC с учетом основного тона, работающим во временной области. Он наиболее подходит для сигналов с доминирующей гармонической структурой. Пример процедуры состоит в следующем: синтезированный сигнал последних декодированных кадров подвергается обратной фильтрации низкочастотным (LP-) фильтром, как описано в разделе 8.2.1, чтобы получить периодический сигнал, как описано в разделе 8.2.2. Случайный сигнал формируется генератором случайных импульсов с приблизительно равномерным распределением согласно разделу 8.2.3. Два сигнала возбуждения суммируются, формируя суммарный сигнал возбуждения, как описано в разделе 8.2.4, который адаптивно ослабляется с коэффициентом ослабления, описанным в разделе 8.2.6, и окончательно фильтруется LP-фильтром, чтобы получить маскированный временной сигнал. Если в последнем неповрежденном кадре применялась LTPF, то LTPF может также применяться к синтезированному маскированному временному сигналу, как описано в разделе 8.3. Чтобы получить надлежащее перекрытие с первым неповрежденным кадром после потерянного кадра, формируется временной сигнал подавления помехи, как описано в разделе 8.2.5.
8.2.1 Вычисление параметра LPC
Способ маскирования во временной области в режиме TCX действует в области возбуждения. Автокорреляционная функция может вычисляться в 80 эквидистантных частотных полосах. В энергию вносятся предыскажения с постоянным коэффициентом µ предыскажения
Figure 00000061
Figure 00000150
8000 0,62
16000 0,72
24000 0,82
32000 0,92
48000 0,92
Автокорреляционная функция обрабатывается оконной функцией с задержкой с использованием следующего окна
Figure 00000151
перед тем, как она преобразуется во временную область с использованием обратного ДПФ с равномерным распределением. И наконец, можно использовать операцию Левинсона-Дурбина, чтобы получить LP-фильтр,
Figure 00000152
, для маскированного кадра. Пример приведен ниже:
Figure 00000153
Figure 00000154
Figure 00000155
Figure 00000156
Figure 00000157
Figure 00000158
Figure 00000159
Figure 00000160
Figure 00000161
LP-фильтр может вычисляться в первом потерянном кадре после неповрежденного кадра и остается в последующих потерянных кадрах.
8.2.2 Построение периодической части возбуждения
Последние
Figure 00000162
декодированных временных отсчетов первыми подвергаются предыскажению с коэффициентом предыскажения из раздела 8.2.1, с использованием фильтра
Figure 00000163
чтобы получить сигнал
Figure 00000164
, где
Figure 00000165
является значением задержки основного тона
Figure 00000166
или
Figure 00000167
, если
Figure 00000168
. Значения
Figure 00000166
и
Figure 00000169
являются значениями задержки основного тона, переданными в потоке битов.
Сигнал с предыскажениями,
Figure 00000164
, дополнительно фильтруется вычисленным обратным LP-фильтром, чтобы получить предшествующий сигнал возбуждения,
Figure 00000170
. Для построения сигнала возбуждения,
Figure 00000171
, для текущего потерянного кадра,
Figure 00000170
многократно копируется с
Figure 00000165
следующим образом
Figure 00000172
где
Figure 00000173
соответствует последнему отсчету в
Figure 00000170
. Если коэффициент стабильности
Figure 00000174
ниже, чем 1, то первый цикл основного тока сигнала
Figure 00000170
сначала подвергается низкочастотной фильтрации с помощью 11-отводного линейного фазового КИХ-фильтра (с конечной импульсной характеристикой), описанного в нижеприведенной таблице
Figure 00000061
Figure 00000175
8000-16000 {0,0053, 0,0000, -0,0440, 0,0000, 0,2637, 0,5500, 0,2637, 0,0000, -0,0440, 0,0000, 0,0053}
24000-48000 {-0,0053, -0,0037, -0,0140, 0,0180, 0,2668, 0,4991, 0,2668, 0,0180, -0,0140, -0,0037, -0,0053}
Усиление основного тона,
Figure 00000176
, может быть вычислено следующим образом
Figure 00000177
Если
Figure 00000178
, то
Figure 00000179
. В ином случае, второе усиление основного тона,
Figure 00000180
, может быть вычислено следующим образом
Figure 00000181
и
Figure 00000182
. Если
Figure 00000183
, то
Figure 00000165
уменьшается на единицу для дальнейшей обработки. И наконец,
Figure 00000184
ограничивается неравенством
Figure 00000185
.
Сформированное периодическое возбуждение,
Figure 00000186
ослабляется по отсчетам на протяжении кадра, начиная с единицы и заканчивая коэффициентом ослабления,
Figure 00000187
, чтобы получить
Figure 00000188
. Усиление основного тона вычисляется только в первом потерянном кадре после неповрежденного кадра и устанавливается равным
Figure 00000187
для следующих далее потерь кадров.
8.2.3 Построение случайной части возбуждения
Случайная часть возбуждения может формироваться генератором случайных импульсов с приблизительно равномерным распределением следующим образом
Figure 00000189
где
Figure 00000190
инициализируется значением 24607 для самого первого кадра, маскируемого настоящим способом, и
Figure 00000191
выделяет 16 младших битов значения. Для дальнейших кадров,
Figure 00000192
сохраняется и используется как следующее
Figure 00000190
.
Для сдвига шума в сторону более высоких частот, сигнал возбуждения подвергается высокочастотной фильтрации с помощью 11-отводного линейного фазового КИХ-фильтра (с конечной импульсной характеристикой), описанного в нижеприведенной таблице, чтобы получить
Figure 00000193
.
Figure 00000061
Figure 00000194
8000-16000 {0, -0,0205, -0,0651, -0,1256, -0,1792, 0,8028, -0,1792, -0,1256, -0,0651, -0,0205, 0}
24000-48000 {-0,0517, -0,0587, -0,0820, -0,1024, -0,1164, 0,8786, -0,1164, -0,1024, -0,0820, -0,0587, -0,0517}
Чтобы обеспечить затухание шума до шума в полной полосе частот со скоростью ослабления в зависимости от коэффициента ослабления
Figure 00000187
, случайную часть возбуждения,
Figure 00000195
, составляют методику линейной интерполяции между версиями для полной полосы,
Figure 00000196
, и версией, прошедшей высокочастотную фильтрацию,
Figure 00000193
, по следующей формуле
Figure 00000197
где
Figure 00000198
для первого потерянного кадра после неповрежденного кадра и
Figure 00000199
для второго и дальнейших последующих потерянных кадров, где β-1 равно
Figure 00000200
предыдущего маскированного кадра.
Для регулировки уровня шума, усиление шума,
Figure 00000201
, вычисляется следующим образом
Figure 00000202
Если
Figure 00000203
в соответствии с разделом 8.2.2, то
Figure 00000204
. Иначе говоря, второе усиление шума,
Figure 00000205
, вычисляется как в вышеприведенном уравнении, но с
Figure 00000165
, равным
Figure 00000166
. Следовательно,
Figure 00000206
.
Для дальнейшей обработки,
Figure 00000207
сначала нормируется и затем умножается на
Figure 00000208
, чтобы получить
Figure 00000209
.
Сформированное случайное возбуждение,
Figure 00000210
равномерно ослабляется с
Figure 00000209
от первого отсчета до пятого отсчета и далее отсчет за отсчетом по всему кадру, начиная с
Figure 00000209
и заканчивая
Figure 00000211
, чтобы получить
Figure 00000212
. Усиление шума,
Figure 00000207
, вычисляется только в первом потерянном кадре после неповрежденного кадра и устанавливается равным
Figure 00000213
для последующих потерь кадров.
8.2.4 Построение общего возбуждения, синтез и последующая обработка
Случайное возбуждение,
Figure 00000212
, добавляется к периодическому возбуждению,
Figure 00000188
, чтобы сформировать общий сигнал возбуждения,
Figure 00000214
. Окончательный синтезированный сигнал маскированного кадра получается фильтрацией общего возбуждения с помощью LP-фильтра в соответствии с разделом 8.2.1 и последующей обработки с помощью фильтра компенсации предыскажений.
8.2.5 Подавление помех во временной области
Для достижения надлежащего перекрытия с суммированием в случае, если следующий кадр является неповрежденным кадром, можно формировать часть подавления помех во временной области part,
Figure 00000215
. Для этого, создаются
Figure 00000216
дополнительных отсчетов, как описано выше, чтобы получить сигнал
Figure 00000217
. Часть подавления помех во временной области формируется в следующей последовательности:
Заполнение нулями синтезированного буфера
Figure 00000218
во временной области
Figure 00000219
Оконная обработка
Figure 00000220
окном MDCT
Figure 00000221
Figure 00000222
Изменение формы с 2N до N
Figure 00000223
Изменение формы с N до 2N
Figure 00000224
Оконная обработка
Figure 00000225
окном
Figure 00000221
MDCT (модифицированного дискретного косинусного преобразования) (или MDST (модифицированного дискретного косинусного преобразования) (в других примерах) с зеркальным отображением
Figure 00000226
8.2.6 Обработка множественных потерянных кадров
Синтезированный сигнал ослабляется до нуля. Скорость ослабления регулируется коэффициентом ослабления,
Figure 00000187
, который зависит от предыдущего коэффициента ослабления,
Figure 00000227
, усиления основного тона,
Figure 00000184
, вычисленного по последнему корректно принятому файлу, числа последующих стертых кадров,
Figure 00000228
, и коэффициента стабильности,
Figure 00000174
. Для вычисления коэффициента ослабления,
Figure 00000187
, можно использовать следующую процедуру
if (
Figure 00000229
== 1)
Figure 00000024
=
Figure 00000230
if (
Figure 00000024
> 0.98)
Figure 00000024
= 0.98
else if (
Figure 00000024
< 0.925)
Figure 00000024
= 0.925
else if (
Figure 00000229
== 2)
Figure 00000024
= (0.63+0.35
Figure 00000231
)
Figure 00000232
if
Figure 00000024
< 0.919
Figure 00000024
= 0.919;
else if (
Figure 00000229
== 3)
Figure 00000024
= (0.652+0.328
Figure 00000231
)
Figure 00000233
else if (
Figure 00000229
== 4)
Figure 00000024
= (0.674+0.3
Figure 00000231
)
Figure 00000233
else if (
Figure 00000229
== 5) {
Figure 00000024
= (0.696+0.266
Figure 00000231
)
Figure 00000233
else
Figure 00000024
= (0.725+0.225
Figure 00000231
)
Figure 00000233
Figure 00000234
=
Figure 00000024
Можно получить коэффициент
Figure 00000174
(стабильность последних двух соседних векторов масштабных множителей
Figure 00000235
и
Figure 00000236
), например, по формуле:
Figure 00000237
где
Figure 00000238
и
Figure 00000239
являются векторами масштабных множителей последних двух соседних кадров. Множитель
Figure 00000240
ограничен неравенством
Figure 00000241
, при этом большие значения
Figure 00000240
соответствуют более стабильным сигналам. Это ограничивает флуктуации энергии и огибающей спектра. В отсутствие двух соседних векторов масштабных множителей, множитель
Figure 00000240
устанавливается равным 0,8.
Для предотвращения быстрого повышения энергии, спектр подвергается низкочастотной фильтрации с
Figure 00000242
и
Figure 00000243
.
9. LTPF и PLC с одинаковой информацией о задержке основного тона
Фиг. 9 представляет общий пример способа 100’, который можно использовать для управления декодером 60b. На этапе S101’, кодированная версия сигнала может декодироваться. В примерах, кадр может быть принят (например, по соединению Bluetooth) и/или получен из запоминающего устройства. Задержка основного тона Tbest (выбранная из T1 и T2, как описано выше) может использоваться как для PLC, так и для LTPF.
На этапе S102’ проверяется допустимость кадра (например, с помощью CRC, проверки на четность и т.д.). Если подтверждается допустимость кадра, выполняется маскирование (смотри ниже).
В ином случае, если кадр признается допустимым, на этапе S103’ проверяется, кодирована ли в кадре информации об основном тоне. В некоторых примерах, информация об основном тоне кодируется, если только подтверждается, что гармоничность превышает конкретный порог (что может указывать, например, на достаточно высокую гармоничность для выполнения LTPF и/или PLC, например).
Если на этапе S103’ подтверждается, информация о гармоничности действительно закодирована, то информация о гармоничности декодируется и сохраняется на этапе S104’. Иначе, цикл заканчивается, и новый кадр может декодироваться на этапе S101’.
Затем, на этапе S105’ проверяется, активизирована ли LTPF. Если проверка показывает, что LTPF активизирована, то LTPF выполняется на этапе S106. Иначе, LTPF пропускается; цикл заканчивается; и новый кадр может декодироваться на этапе S101’.
Что касается маскирования, оно может делиться на этапы. На этапе S107’ проверяется, хранится ли в памяти (т.е. имеется ли) информация об основном тоне предыдущего кадра (или информация об основном тоне одного из предыдущих кадров).
Если проверка указывает, что искомая информация об основном тоне хранится, то на этапе S108 может выполняться маскирование ошибок. Возможно выполнение повторного разложения кадра посредством MDCT (или MDST) с кодированием сигнала и/или маскирования во временной области в режиме, и/или способа фазового ECU.
В ином случае, если проверка на этапе S107’ показывает, никакой новой информации об основном тоне не хранится (вследствие того, что декодер не передал задержки основного тона, например), то на этапе S109’ можно использовать другой хорошо известная методика маскирования, не предусматривающий использования информации об основном тоне, обеспечиваемой кодером. Некоторые из этих методик могут базироваться на оценивании информации об основном тоне и/или другой информации о гармоничности в декодере. В некоторых примерах, в данном случае можно не выполнять никакой методики маскирования.
После выполнения маскирования, цикл заканчивается, и на этапе S101’ может декодироваться новый кадр.
Следует отметить, что задержка основного тона, используемая методикой PLC, имеет значение 19 (tbest), подготовленное устройством 10 и/или 60b на основании выбора между оценками T1 и T2, как описано выше.
10. Другие примеры
Фиг. 7 представляет устройство 110, которое может реализовать устройство 10 и/или 60a и выполнять, по меньшей мере, некоторые этапы вышеописанных способов. Устройство 110 может содержать процессор 111 и блок 112 долговременной памяти, хранящий инструкции (например, программу), которые, при их исполнении процессором 111, могут назначать процессору 111 выполнение первого оценивания 112a (например, чтобы реализовать первый блок 11 оценки), второе оценивание 112b (например, чтобы реализовать второй блок 12 оценки), и/или выбор 112c (например, чтобы реализовать селектор 18). Устройство 110 может содержать блок 116 ввода, который может получать входной информационный сигнал (например, аудиосигнал). Устройство может сохранять поток битов, например в пространстве 118 для хранения данных.
Фиг. 8 представляет устройство 120, которое может реализовать декодер 60b и/или выполнять, например, LTPF. Устройство 120 может содержать процессор 121 и блок 122 долговременной памяти, хранящий инструкции 122a (например, программу), которые, при их исполнении процессором 121, могут назначать процессору 121 выполнение, помимо прочего, операции LTPF, например, на основании параметра, получаемого из кодера. Устройство 120 может содержать блок 126 ввода, который может получать декодированное представление информационного сигнала (например, аудиосигнала). Поэтому процессор 121 может выполнять процедуры для получения декодированного представления информационного сигнала. Это декодированное представление может передаваться во внешние блоки с использованием блока 127 вывода. Блок 127 вывода может содержать, например, блок связи для связи с внешними устройствами (например, с помощью такой беспроводной связи, как Bluetooth) и/или внешними пространствами для хранения данных. Процессор 121 может сохранять декодированное представление аудиосигнала в локальном пространстве 128 для хранения данных.
В примерах, системы 110 и 120 могут представлять собой одно устройство.
В зависимости от некоторых требований к реализации, примеры могут быть реализованы аппаратурно. Реализацию можно осуществить с использованием носителя цифровых данных, например, гибкого диска, a цифрового универсального диска (DVD), диска Blu-Ray, компакт-диска (CD), постоянной памяти (ROM), программируемой постоянной памяти (PROM), стираемой программируемой постоянной памяти (EPROM), и электрически стираемой программируемой постоянной памяти (EEPROM) или флэш-памяти, содержащего электронно-считываемые сигналы управления, записанные на нем, которые взаимодействуют (или способны взаимодействовать) с программируемой компьютерной системой таким образом, что выполняется соответствующий способ. Следовательно, цифровой носитель данных может быть компьютерно-читаемым.
В общем, примеры могут быть реализованы в виде компьютерного программного продукта с программными инструкциями, при этом программные инструкции функционально предназначены для выполнения одного из способов, при выполнении компьютерного программного продукта в компьютере. Программные инструкции могут, например, храниться на машиночитаемом носителе.
Другие примеры содержат компьютерную программу для выполнения одного из способов, описанных в настоящей заявке, хранимую на машиночитаемом носителе. Иначе говоря, следовательно, примером способа является компьютерная программа, содержащая программные инструкции для исполнения одного из способов, описанных в настоящей заявке, когда компьютерная программа выполняется в компьютере.
Дополнительным примером способов является, следовательно, носитель данных (или носитель цифровых данных или компьютерно-читаемый носитель), содержащий записанную на нем компьютерную программу для выполнения одного из способов, описанных в настоящей заявке. Носитель данных, носитель цифровых данных или среда для записи являются материальным и/или долговременным, а не сигналами, которые являются нематериальными и кратковременными.
Дополнительный пример содержит устройство для обработки данных, например, компьютер или программируемое логическое устройство, выполняющее один из способов, описанных в настоящей заявке.
Дополнительный пример содержит компьютер, содержащий установленную на нем компьютерную программу для выполнения одного из способов, описанных в настоящей заявке.
Дополнительный пример содержит устройство или систему, передающую (например, электронным или оптическим способом) компьютерную программу для выполнения одного из способов, описанных в настоящей заявке в приемник. Приемник может, например, представлять собой компьютер, мобильное устройство, запоминающее устройство или что-то подобное. Устройство или система может, например, содержать сервер файлов для передачи компьютерной программы в приемник.
В некоторых примерах может применяться программируемое логическое устройство (например, программируемая вентильная матрица) для выполнения некоторых или всех функций способов, описанных в настоящей заявке. В некоторых примерах, программируемая вентильная матрица может взаимодействовать с микропроцессором, чтобы выполнять один из способов, описанных в настоящей заявке. В общем, способы могут выполняться любым подходящим аппаратным устройством.
Вышеописанные примеры наглядно поясняют изложенные принципы. Следует понимать, что в будущем станут очевидны модификации и варианты схем и особенностей, описанных в настоящей заявке. Следовательно, предполагается, что модификации и варианты должны ограничиваться объемом притязаний последующей формулы изобретения, а не конкретными особенностями, представленными в описании и пояснении примеров настоящей заявки.

Claims (78)

1. Устройство (10, 60a, 110) для кодирования информационного сигнала, содержащего множество кадров, при этом устройство содержит:
первый блок (11) оценки, выполненный с возможностью получать первую оценку (14, T1), причем первая оценка является оценкой задержки основного тона для текущего кадра (13);
второй блок (12) оценки, выполненный с возможностью получать вторую оценку (16, T2), причем вторая оценка является другой оценкой задержки основного тона для текущего кадра (13),
селектор (17), выполненный с возможностью отбирать (S103) выбранное значение (19, Tbest) посредством выполнения выбора между первой оценкой (14, T1) и второй оценкой (16, T2) на основе первого и второго корреляционных измерений (23, 25),
при этом второй блок (12) оценки согласован с задержкой (51, 19”) основного тона, выбранной в предыдущем кадре, с тем чтобы получить вторую оценку (16, T2) для текущего кадра (13),
отличающееся тем, что селектор (17) выполнен с возможностью осуществлять сравнение между:
уменьшенной версией (24) первого корреляционного измерения (23), относящегося к текущему кадру (13) и полученного при задержке, соответствующей первой оценке (14, T1); и
вторым корреляционным измерением (25), относящимся к текущему кадру (13) и полученным при задержке, соответствующей второй оценке (16, T2),
с тем чтобы выбирать первую оценку (14, T1), когда второе корреляционное измерение (25) меньше, чем уменьшенная версия (24) первого корреляционного измерения (23), и/или
выбирать вторую оценку (16, T2), когда второе корреляционное измерение (25) больше, чем уменьшенная версия (24) первого корреляционного измерения (23),
причем по меньшей мере одно из первого и второго корреляционных измерений (23, 25) является автокорреляционным измерением и/или нормированным автокорреляционным измерением.
2. Устройство (60a) для кодирования информационного сигнала в поток (63) битов, содержащий множество кадров, при этом устройство (60a) содержит:
блок (10, 65) определения, содержащий:
первый блок (11) оценки, выполненный с возможностью получать первую оценку (14, T1), причем первая оценка является оценкой задержки основного тона для текущего кадра (13);
второй блок (12) оценки, выполненный с возможностью получать вторую оценку (16, T2), причем вторая оценка является другой оценкой задержки основного тона для текущего кадра (13), при этом второй блок (12) оценки согласован с задержкой (51, 19”) основного тона, выбранной в предыдущем кадре, с тем чтобы получить вторую оценку (16, T2) для текущего кадра (13);
селектор (17), выполненный с возможностью отбирать (S103) выбранное значение (19, Tbest) посредством выполнения выбора между первой оценкой (14, T1) и второй оценкой (16, T2) на основе по меньшей мере одного корреляционного измерения (23, 25), причем селектор (17) выполнен с возможностью осуществлять сравнение (27) между:
вторым корреляционным измерением (25), относящимся к текущему кадру (13) и полученным при задержке, соответствующей второй оценке (16, T2); и
порогом (24) выбора задержки основного тона,
с тем чтобы выбрать (S103) вторую оценку (16, T2), когда второе корреляционное измерение (25) выше порога (24) выбора задержки основного тона; и/или
выбрать (S103) первую оценку (14, T1), когда второе корреляционное измерение (25) ниже порога (24) выбора задержки основного тона; и
средство (66) долговременной постфильтрации (LTPF), выполненное с возможностью кодировать данные, используемые для выполнения LTPF в декодере (60b), причем данные, используемые для выполнения LTPF, включают в себя выбранное значение (19, Tbest).
3. Устройство по п. 2, в котором сравнение выполняется между:
первым корреляционным измерением (23), относящимся к текущему кадру (13) и полученным при задержке, соответствующей первой оценке (14, T1), которая представляет порог (24) выбора задержки основного тона; и
вторым корреляционным измерением (25).
4. Устройство по п. 2, в котором сравнение выполняется между:
уменьшенной версией (24) первого корреляционного измерения (23), относящегося к текущему кадру (13) и полученного при задержке, соответствующей первой оценке (14, T1), которая представляет порог (24) выбора задержки основного тона; и
вторым корреляционным измерением (25).
5. Устройство по п. 2, при этом по меньшей мере одно из первого и второго корреляционных измерений (23, 25) является автокорреляционным измерением и/или нормированным автокорреляционным измерением.
6. Устройство по п. 2, выполненное с возможностью сравнивать выбранное значение (19, Tbest) с предварительно заданным порогом LTPF, с тем чтобы исключить кодирование выбранного значения (19, Tbest) в случае, если выбранное значение (19, Tbest) ниже предварительно заданного порога.
7. Устройство по п. 1, в котором второй блок (12) оценки выполнен с возможностью получать вторую оценку (16) посредством поиска задержки, которая максимизирует вторую корреляционную функцию во втором подынтервале (52), который содержит задержку (51, 19”) основного тона, выбранную для предыдущего кадра.
8. Устройство по п. 7, при этом второй подынтервал (52) содержит задержки (T) в пределах расстояния меньше, чем предварительно заданный порог числа задержек от задержки (51, 19”) основного тона, выбранной для предыдущего кадра.
9. Устройство по п. 7, в котором второй блок (12) оценки выполнен с возможностью осуществлять поиск максимального значения среди значений второй корреляционной функции, чтобы поставить вторую оценку (16) в соответствие с задержкой (T2), относящейся к максимальному значению среди значений второй корреляционной функции.
10. Устройство по п. 1, в котором первый блок (12) оценки выполнен с возможностью получать первую оценку (14) в виде задержки (T1), которая максимизирует первую корреляционную функцию, относящуюся к текущему кадру (13).
11. Устройство по п. 10, при этом первая корреляционная функция ограничена задержками в первом подынтервале.
12. Устройство по п. 11, при этом первый подынтервал содержит число задержек больше, чем второй подынтервал (52), и/или, по меньшей мере, некоторые из задержек во втором подынтервале (52) содержатся в первом подынтервале.
13. Устройство по п. 1, в котором первый блок (11) оценки выполнен с возможностью присваивать весовые коэффициенты значениям корреляционных измерений первой корреляционной функции с использованием монотонно убывающей весовой функции, перед поиском задержки (T1), которая максимизирует первую корреляционную функцию.
14. Устройство по п. 7, при этом по меньшей мере одна из второй и первой корреляционных функций является автокорреляционной функцией и/или нормированной автокорреляционной функцией.
15. Устройство по п. 1, в котором первый блок (11) оценки выполнен с возможностью получать первую оценку
Figure 00000244
посредством выполнения, по меньшей мере, некоторых из следующих операций:
Figure 00000245
Figure 00000246
Figure 00000247
Figure 00000248
где
Figure 00000249
является весовой функцией,
Figure 00000250
и
Figure 00000251
относятся к минимальной задержке и максимальной задержке,
Figure 00000252
является значением автокорреляционного измерения, оцененным на основе информационного сигнала или его обработанной версии, и N является длиной кадра.
16. Устройство по п. 1, в котором второй блок (12) оценки выполнен с возможностью получать вторую оценку
Figure 00000253
посредством выполнения следующей операции:
Figure 00000254
где
Figure 00000255
,
Figure 00000256
,
Figure 00000257
является выбранной оценкой в предыдущем кадре, и
Figure 00000258
является расстоянием от
Figure 00000257
,
Figure 00000250
и
Figure 00000251
относятся к минимальной задержке и максимальной задержке.
17. Устройство по п.1, в котором селектор (17) выполнен с возможностью выполнять выбор оценки
Figure 00000259
задержки основного тона следующим образом
Figure 00000260
где
Figure 00000244
является первой оценкой,
Figure 00000261
является второй оценкой,
Figure 00000262
является значением информационного сигнала или его обработанной версией,
Figure 00000263
является нормированным корреляционным измерением сигнала
Figure 00000264
длительностью
Figure 00000265
при задержке
Figure 00000266
,
Figure 00000267
является коэффициентом уменьшения.
18. Устройство по п. 1, дополнительно содержащее после селектора (17) средство (66) долговременной постфильтрации (LTPF) для управления долговременным постфильтром (67) в устройстве (60b) декодирования.
19. Устройство по п. 1, при этом информационный сигнал является аудиосигналом.
20. Устройство по п. 1, выполненное с возможностью получать первое и второе корреляционные измерения с использованием одной и той же корреляционной функции вплоть до весовой функции.
21. Устройство по п. 1, выполненное с возможностью получения первого корреляционного измерения в виде нормированной версии первой оценки вплоть до весовой функции.
22. Устройство по п. 1, выполненное с возможностью получать второе корреляционное измерение в виде нормированной версии второй оценки.
23. Устройство по п. 1, дополнительно содержащее кодер (62) преобразования, выполненный с возможностью формировать представление (63a) информационного сигнала (61) или его обработанной версии.
24. Система (60) для кодирования и декодирования информационного сигнала в поток битов, содержащая сторону (10, 60a) кодера и сторону (60b) декодера, при этом сторона кодера содержит устройство по любому из предшествующих пунктов, сторона декодера содержит средство (67) долговременной постфильтрации, управляемое на основе оценки задержки основного тона, выбранной селектором (17).
25. Способ (100) определения задержки основного тона для сигнала, разделенного на кадры, содержащий этапы, на которых:
выполняют первое оценивание для текущего кадра (S101);
выполняют второе оценивание для текущего кадра (S102); и
выбирают между первой оценкой (14, T1), полученной при первом оценивании, и второй оценкой (16, T2), полученной при втором оценивании, на основе корреляционных измерений (S103),
при этом выполнение второго оценивания достигается на основе результата этапа выбора, выполненного в предыдущем кадре,
отличающийся тем, что упомянутый выбор включает в себя выполнение сравнения между:
уменьшенной версией (24) первого корреляционного измерения (23), относящегося к текущему кадру (13) и полученного при задержке, соответствующей первой оценке (14, T1), и
вторым корреляционным измерением (25), относящимся к текущему кадру (13) и полученным при задержке, соответствующей второй оценке (16, T2); и
выбирают первую оценку (14, T1), когда второе корреляционное измерение (25) меньше, чем уменьшенная версия первого корреляционного измерения (23), и/или выбирают вторую оценку (16, T2), когда второе корреляционное измерение (25) больше, чем уменьшенная версия первого корреляционного измерения (23),
причем по меньшей мере одно из первого и второго корреляционных измерений (23, 25) является автокорреляционным измерением и/или нормированным автокорреляционным измерением.
26. Способ по п. 25, дополнительно содержащий этап, на котором используют выбранную задержку для долговременной постфильтрации (LTPF).
27. Способ (100) кодирования потока битов для сигнала, разделенного на кадры, содержащий этапы, на которых:
выполняют первое оценивание для текущего кадра (S101);
выполняют второе оценивание для текущего кадра (S102); и
выбирают между первой оценкой (14, T1), полученной при первом оценивании, и второй оценкой (16, T2), полученной при втором оценивании, на основе по меньшей мере одного корреляционного измерения (S103),
при этом выполнение второго оценивания достигается на основе результата этапа выбора, выполненного в предыдущем кадре,
при этом упомянутый выбор включает в себя выполнение сравнения (27) между:
вторым корреляционным измерением (25), относящимся к текущему кадру (13) и полученным при задержке, соответствующей второй оценке (16, T2), и
порогом (24) выбора задержки основного тона,
выбирают (S103) вторую оценку (16, T2), когда второе корреляционное измерение (25) выше порога (24) выбора задержки основного тона, и/или выбирают (S103) первую оценку (14, T1), когда второе корреляционное измерение ниже порога (24) выбора задержки основного тона; и
способ дополнительно содержит этап, на котором кодируют данные, используемые для выполнения LTPF в декодере (60b), причем данные, используемые для выполнения LTPF, включают в себя выбранное значение (19, Tbest).
28. Способ по п. 25, дополнительно содержащий этап, на котором используют выбранную задержку для маскирования потери пакетов (PLC).
RU2020119049A 2017-11-10 2018-11-05 Выбор задержки основного тона RU2742739C1 (ru)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
EP17201091.0 2017-11-10
EP17201091.0A EP3483886A1 (en) 2017-11-10 2017-11-10 Selecting pitch lag
PCT/EP2018/080195 WO2019091922A1 (en) 2017-11-10 2018-11-05 Selecting pitch lag

Publications (1)

Publication Number Publication Date
RU2742739C1 true RU2742739C1 (ru) 2021-02-10

Family

ID=60301906

Family Applications (1)

Application Number Title Priority Date Filing Date
RU2020119049A RU2742739C1 (ru) 2017-11-10 2018-11-05 Выбор задержки основного тона

Country Status (18)

Country Link
US (1) US11380341B2 (ru)
EP (2) EP3483886A1 (ru)
JP (1) JP7079325B2 (ru)
KR (1) KR102426050B1 (ru)
CN (1) CN111566733B (ru)
AR (1) AR114388A1 (ru)
AU (1) AU2018363670B2 (ru)
BR (1) BR112020009114A2 (ru)
CA (1) CA3082175C (ru)
ES (1) ES2900058T3 (ru)
MX (1) MX2020004786A (ru)
PL (1) PL3707718T3 (ru)
PT (1) PT3707718T (ru)
RU (1) RU2742739C1 (ru)
SG (1) SG11202004203WA (ru)
TW (1) TWI728277B (ru)
WO (1) WO2019091922A1 (ru)
ZA (1) ZA202002521B (ru)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11756530B2 (en) * 2019-10-19 2023-09-12 Google Llc Self-supervised pitch estimation
US11699209B2 (en) * 2020-10-22 2023-07-11 Huawei Cloud Computing Technologies Co., Ltd. Method and apparatus for embedding and extracting digital watermarking for numerical data

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20070127729A1 (en) * 2003-02-11 2007-06-07 Koninklijke Philips Electronics, N.V. Audio coding
RU2368018C2 (ru) * 2003-07-18 2009-09-20 Конинклейке Филипс Электроникс Н.В. Кодирование аудиосигнала с низкой скоростью передачи битов
US20120214544A1 (en) * 2011-02-23 2012-08-23 Shankar Thagadur Shivappa Audio Localization Using Audio Signal Encoding and Recognition
US20140108020A1 (en) * 2012-10-15 2014-04-17 Digimarc Corporation Multi-mode audio recognition and auxiliary data encoding and decoding
US20150010155A1 (en) * 2012-04-05 2015-01-08 Huawei Technologies Co., Ltd. Method for Determining an Encoding Parameter for a Multi-Channel Audio Signal and Multi-Channel Audio Encoder

Family Cites Families (179)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE3639753A1 (de) 1986-11-21 1988-06-01 Inst Rundfunktechnik Gmbh Verfahren zum uebertragen digitalisierter tonsignale
US5012517A (en) 1989-04-18 1991-04-30 Pacific Communication Science, Inc. Adaptive transform coder having long term predictor
US5233660A (en) * 1991-09-10 1993-08-03 At&T Bell Laboratories Method and apparatus for low-delay celp speech coding and decoding
JPH05281996A (ja) * 1992-03-31 1993-10-29 Sony Corp ピッチ抽出装置
IT1270438B (it) * 1993-06-10 1997-05-05 Sip Procedimento e dispositivo per la determinazione del periodo del tono fondamentale e la classificazione del segnale vocale in codificatori numerici della voce
US5581653A (en) 1993-08-31 1996-12-03 Dolby Laboratories Licensing Corporation Low bit-rate high-resolution spectral envelope coding for audio encoder and decoder
JP3402748B2 (ja) * 1994-05-23 2003-05-06 三洋電機株式会社 音声信号のピッチ周期抽出装置
JPH0811644A (ja) 1994-06-27 1996-01-16 Nissan Motor Co Ltd ルーフモール取付構造
US6167093A (en) 1994-08-16 2000-12-26 Sony Corporation Method and apparatus for encoding the information, method and apparatus for decoding the information and method for information transmission
EP0732687B2 (en) 1995-03-13 2005-10-12 Matsushita Electric Industrial Co., Ltd. Apparatus for expanding speech bandwidth
US5781888A (en) 1996-01-16 1998-07-14 Lucent Technologies Inc. Perceptual noise shaping in the time domain via LPC prediction in the frequency domain
WO1997027578A1 (en) * 1996-01-26 1997-07-31 Motorola Inc. Very low bit rate time domain speech analyzer for voice messaging
US5812971A (en) 1996-03-22 1998-09-22 Lucent Technologies Inc. Enhanced joint stereo coding method using temporal envelope shaping
JPH1091194A (ja) 1996-09-18 1998-04-10 Sony Corp 音声復号化方法及び装置
US6570991B1 (en) 1996-12-18 2003-05-27 Interval Research Corporation Multi-feature speech/music discrimination system
KR100261253B1 (ko) 1997-04-02 2000-07-01 윤종용 비트율 조절이 가능한 오디오 부호화/복호화 방법및 장치
GB2326572A (en) 1997-06-19 1998-12-23 Softsound Limited Low bit rate audio coder and decoder
AU9404098A (en) 1997-09-23 1999-04-12 Voxware, Inc. Scalable and embedded codec for speech and audio signals
JP3344962B2 (ja) 1998-03-11 2002-11-18 松下電器産業株式会社 オーディオ信号符号化装置、及びオーディオ信号復号化装置
US6507814B1 (en) * 1998-08-24 2003-01-14 Conexant Systems, Inc. Pitch determination using speech classification and prior pitch estimation
US7272556B1 (en) 1998-09-23 2007-09-18 Lucent Technologies Inc. Scalable and embedded codec for speech and audio signals
US6636829B1 (en) * 1999-09-22 2003-10-21 Mindspeed Technologies, Inc. Speech communication system and method for handling lost frames
EP1139665A1 (en) 2000-03-29 2001-10-04 Deutsche Thomson-Brandt Gmbh Method and apparatus for changing the output delay of audio or video data encoding
US6735561B1 (en) 2000-03-29 2004-05-11 At&T Corp. Effective deployment of temporal noise shaping (TNS) filters
US7099830B1 (en) 2000-03-29 2006-08-29 At&T Corp. Effective deployment of temporal noise shaping (TNS) filters
US6665638B1 (en) * 2000-04-17 2003-12-16 At&T Corp. Adaptive short-term post-filters for speech coders
US7395209B1 (en) 2000-05-12 2008-07-01 Cirrus Logic, Inc. Fixed point audio decoding system and method
AU2001270365A1 (en) * 2001-06-11 2002-12-23 Ivl Technologies Ltd. Pitch candidate selection method for multi-channel pitch detectors
US7512535B2 (en) 2001-10-03 2009-03-31 Broadcom Corporation Adaptive postfiltering methods and systems for decoding speech
US6785645B2 (en) 2001-11-29 2004-08-31 Microsoft Corporation Real-time speech and music classifier
US20030187663A1 (en) 2002-03-28 2003-10-02 Truman Michael Mead Broadband frequency translation for high frequency regeneration
US7447631B2 (en) 2002-06-17 2008-11-04 Dolby Laboratories Licensing Corporation Audio coding system using spectral hole filling
US7433824B2 (en) 2002-09-04 2008-10-07 Microsoft Corporation Entropy coding by adapting coding between level and run-length/level modes
US7502743B2 (en) 2002-09-04 2009-03-10 Microsoft Corporation Multi-channel audio encoding and decoding with multi-channel transform selection
JP4287637B2 (ja) 2002-10-17 2009-07-01 パナソニック株式会社 音声符号化装置、音声符号化方法及びプログラム
KR20030031936A (ko) 2003-02-13 2003-04-23 배명진 피치변경법을 이용한 단일 음성 다중 목소리 합성기
US20040162866A1 (en) 2003-02-19 2004-08-19 Malvar Henrique S. System and method for producing fast modulated complex lapped transforms
CN1809873B (zh) 2003-06-17 2010-05-12 松下电器产业株式会社 接收装置,发送装置及传输系统
KR101058062B1 (ko) 2003-06-30 2011-08-19 코닌클리케 필립스 일렉트로닉스 엔.브이. 잡음 부가에 의한 디코딩된 오디오의 품질 개선
US7620545B2 (en) 2003-07-08 2009-11-17 Industrial Technology Research Institute Scale factor based bit shifting in fine granularity scalability audio coding
KR100550003B1 (ko) * 2003-07-11 2006-02-08 학교법인연세대학교 상호부호화기에서 개회로 피치 추정 방법 및 그 장치
WO2005027096A1 (en) 2003-09-15 2005-03-24 Zakrytoe Aktsionernoe Obschestvo Intel Method and apparatus for encoding audio
US7009533B1 (en) 2004-02-13 2006-03-07 Samplify Systems Llc Adaptive compression and decompression of bandlimited signals
KR20050087956A (ko) 2004-02-27 2005-09-01 삼성전자주식회사 무손실 오디오 부호화/복호화 방법 및 장치
DE102004009954B4 (de) 2004-03-01 2005-12-15 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Vorrichtung und Verfahren zum Verarbeiten eines Multikanalsignals
DE102004009949B4 (de) 2004-03-01 2006-03-09 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Vorrichtung und Verfahren zum Ermitteln eines Schätzwertes
JP4867914B2 (ja) 2004-03-01 2012-02-01 ドルビー ラボラトリーズ ライセンシング コーポレイション マルチチャンネルオーディオコーディング
JP4744438B2 (ja) 2004-03-05 2011-08-10 パナソニック株式会社 エラー隠蔽装置およびエラー隠蔽方法
US7272567B2 (en) 2004-03-25 2007-09-18 Zoran Fejzo Scalable lossless audio codec and authoring tool
US7933767B2 (en) * 2004-12-27 2011-04-26 Nokia Corporation Systems and methods for determining pitch lag for a current frame of information
BRPI0608269B8 (pt) 2005-04-01 2019-09-03 Qualcomm Inc método e aparelho para quantização vetorial de uma representação de envelope espectral
US7546240B2 (en) 2005-07-15 2009-06-09 Microsoft Corporation Coding with improved time resolution for selected segments via adaptive block transformation of a group of samples from a subband decomposition
US7539612B2 (en) 2005-07-15 2009-05-26 Microsoft Corporation Coding and decoding scale factor information
KR20070037945A (ko) 2005-10-04 2007-04-09 삼성전자주식회사 오디오 신호의 부호화/복호화 방법 및 장치
US20070118361A1 (en) 2005-10-07 2007-05-24 Deepen Sinha Window apparatus and method
KR100888474B1 (ko) 2005-11-21 2009-03-12 삼성전자주식회사 멀티채널 오디오 신호의 부호화/복호화 장치 및 방법
US7805297B2 (en) 2005-11-23 2010-09-28 Broadcom Corporation Classification-based frame loss concealment for audio signals
US9123350B2 (en) 2005-12-14 2015-09-01 Panasonic Intellectual Property Management Co., Ltd. Method and system for extracting audio features from an encoded bitstream for audio classification
US8255207B2 (en) 2005-12-28 2012-08-28 Voiceage Corporation Method and device for efficient frame erasure concealment in speech codecs
US8345890B2 (en) 2006-01-05 2013-01-01 Audience, Inc. System and method for utilizing inter-microphone level differences for speech enhancement
WO2007102782A2 (en) 2006-03-07 2007-09-13 Telefonaktiebolaget Lm Ericsson (Publ) Methods and arrangements for audio coding and decoding
US8150065B2 (en) 2006-05-25 2012-04-03 Audience, Inc. System and method for processing an audio signal
DE602007003023D1 (de) 2006-05-30 2009-12-10 Koninkl Philips Electronics Nv Linear-prädiktive codierung eines audiosignals
CN1983909B (zh) * 2006-06-08 2010-07-28 华为技术有限公司 一种丢帧隐藏装置和方法
US8015000B2 (en) 2006-08-03 2011-09-06 Broadcom Corporation Classification-based frame loss concealment for audio signals
WO2008021247A2 (en) 2006-08-15 2008-02-21 Dolby Laboratories Licensing Corporation Arbitrary shaping of temporal noise envelope without side-information
FR2905510B1 (fr) 2006-09-01 2009-04-10 Voxler Soc Par Actions Simplif Procede d'analyse en temps reel de la voix pour le controle en temps reel d'un organe numerique et dispositif associe
CN101140759B (zh) 2006-09-08 2010-05-12 华为技术有限公司 语音或音频信号的带宽扩展方法及系统
US7752038B2 (en) 2006-10-13 2010-07-06 Nokia Corporation Pitch lag estimation
DE102006049154B4 (de) 2006-10-18 2009-07-09 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Kodierung eines Informationssignals
KR101292771B1 (ko) 2006-11-24 2013-08-16 삼성전자주식회사 오디오 신호의 오류은폐방법 및 장치
CN101548319B (zh) 2006-12-13 2012-06-20 松下电器产业株式会社 后置滤波器以及滤波方法
FR2912249A1 (fr) 2007-02-02 2008-08-08 France Telecom Codage/decodage perfectionnes de signaux audionumeriques.
JP4871894B2 (ja) 2007-03-02 2012-02-08 パナソニック株式会社 符号化装置、復号装置、符号化方法および復号方法
EP2015293A1 (en) 2007-06-14 2009-01-14 Deutsche Thomson OHG Method and apparatus for encoding and decoding an audio signal using adaptively switched temporal resolution in the spectral domain
US20110022924A1 (en) * 2007-06-14 2011-01-27 Vladimir Malenovsky Device and Method for Frame Erasure Concealment in a PCM Codec Interoperable with the ITU-T Recommendation G. 711
JP4928366B2 (ja) 2007-06-25 2012-05-09 日本電信電話株式会社 ピッチ探索装置、パケット消失補償装置、それらの方法、プログラム及びその記録媒体
JP4572218B2 (ja) 2007-06-27 2010-11-04 日本電信電話株式会社 音楽区間検出方法、音楽区間検出装置、音楽区間検出プログラム及び記録媒体
US10795949B2 (en) 2007-07-26 2020-10-06 Hamid Hatami-Hanza Methods and systems for investigation of compositions of ontological subjects and intelligent systems therefrom
JP4981174B2 (ja) 2007-08-24 2012-07-18 フランス・テレコム 確率テーブルの動的な計算によるシンボルプレーン符号化/復号化
ES2375192T3 (es) 2007-08-27 2012-02-27 Telefonaktiebolaget L M Ericsson (Publ) Codificación por transformación mejorada de habla y señales de audio.
CN100524462C (zh) 2007-09-15 2009-08-05 华为技术有限公司 对高带信号进行帧错误隐藏的方法及装置
WO2009056027A1 (fr) 2007-11-02 2009-05-07 Huawei Technologies Co., Ltd. Procédé et dispositif de décodage audio
WO2009066869A1 (en) 2007-11-21 2009-05-28 Electronics And Telecommunications Research Institute Frequency band determining method for quantization noise shaping and transient noise shaping method using the same
RU2439718C1 (ru) 2007-12-31 2012-01-10 ЭлДжи ЭЛЕКТРОНИКС ИНК. Способ и устройство для обработки звукового сигнала
US8386271B2 (en) 2008-03-25 2013-02-26 Microsoft Corporation Lossless and near lossless scalable audio codec
CN102057424B (zh) 2008-06-13 2015-06-17 诺基亚公司 用于经编码的音频数据的错误隐藏的方法和装置
EP2144231A1 (en) 2008-07-11 2010-01-13 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Low bitrate audio encoding/decoding scheme with common preprocessing
CA2730315C (en) 2008-07-11 2014-12-16 Jeremie Lecomte Audio encoder and decoder for encoding frames of sampled audio signals
CA2871268C (en) 2008-07-11 2015-11-03 Nikolaus Rettelbach Audio encoder, audio decoder, methods for encoding and decoding an audio signal, audio stream and computer program
EP2144230A1 (en) 2008-07-11 2010-01-13 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Low bitrate audio encoding/decoding scheme having cascaded switches
WO2010031049A1 (en) * 2008-09-15 2010-03-18 GH Innovation, Inc. Improving celp post-processing for music signals
KR20130069833A (ko) 2008-10-08 2013-06-26 프라운호퍼 게젤샤프트 쭈르 푀르데룽 데어 안겐반텐 포르슝 에. 베. 다중 분해능 스위치드 오디오 부호화/복호화 방법
GB2466673B (en) 2009-01-06 2012-11-07 Skype Quantization
TWI459375B (zh) 2009-01-28 2014-11-01 Fraunhofer Ges Forschung 音訊編碼器、音訊解碼器、包含經編碼音訊資訊之數位儲存媒體、用以將音訊信號編碼及解碼之方法及電腦程式
JP4945586B2 (ja) 2009-02-02 2012-06-06 株式会社東芝 信号帯域拡張装置
US20100223061A1 (en) 2009-02-27 2010-09-02 Nokia Corporation Method and Apparatus for Audio Coding
JP4932917B2 (ja) 2009-04-03 2012-05-16 株式会社エヌ・ティ・ティ・ドコモ 音声復号装置、音声復号方法、及び音声復号プログラム
FR2944664A1 (fr) * 2009-04-21 2010-10-22 Thomson Licensing Dispositif et procede de traitement d'images
US8428938B2 (en) 2009-06-04 2013-04-23 Qualcomm Incorporated Systems and methods for reconstructing an erased speech frame
US8352252B2 (en) 2009-06-04 2013-01-08 Qualcomm Incorporated Systems and methods for preventing the loss of information within a speech frame
KR20100136890A (ko) 2009-06-19 2010-12-29 삼성전자주식회사 컨텍스트 기반의 산술 부호화 장치 및 방법과 산술 복호화 장치 및 방법
CN101958119B (zh) 2009-07-16 2012-02-29 中兴通讯股份有限公司 一种改进的离散余弦变换域音频丢帧补偿器和补偿方法
CA2777073C (en) 2009-10-08 2015-11-24 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Multi-mode audio signal decoder, multi-mode audio signal encoder, methods and computer program using a linear-prediction-coding based noise shaping
EP3693963B1 (en) 2009-10-15 2021-07-21 VoiceAge Corporation Simultaneous time-domain and frequency-domain noise shaping for tdac transforms
JP5243661B2 (ja) 2009-10-20 2013-07-24 フラウンホッファー−ゲゼルシャフト ツァ フェルダールング デァ アンゲヴァンテン フォアシュンク エー.ファオ オーディオ信号符号器、オーディオ信号復号器、オーディオコンテンツの符号化表現を供給するための方法、オーディオコンテンツの復号化表現を供給するための方法、および低遅延アプリケーションにおける使用のためのコンピュータ・プログラム
CA2778368C (en) 2009-10-20 2016-01-26 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Audio encoder, audio decoder, method for encoding an audio information, method for decoding an audio information and computer program using an iterative interval size reduction
US8207875B2 (en) 2009-10-28 2012-06-26 Motorola Mobility, Inc. Encoder that optimizes bit allocation for information sub-parts
US7978101B2 (en) 2009-10-28 2011-07-12 Motorola Mobility, Inc. Encoder and decoder using arithmetic stage to compress code space that is not fully utilized
CN102648493B (zh) 2009-11-24 2016-01-20 Lg电子株式会社 音频信号处理方法和设备
MY153845A (en) 2010-01-12 2015-03-31 Fraunhofer Ges Forschung Audio encoder, audio decoder, method for encoding and audio information, method for decoding an audio information and computer program using a hash table describing both significant state values and interval boundaries
US20110196673A1 (en) 2010-02-11 2011-08-11 Qualcomm Incorporated Concealing lost packets in a sub-band coding decoder
EP2375409A1 (en) 2010-04-09 2011-10-12 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Audio encoder, audio decoder and related methods for processing multi-channel audio signals using complex prediction
FR2961980A1 (fr) 2010-06-24 2011-12-30 France Telecom Controle d'une boucle de retroaction de mise en forme de bruit dans un codeur de signal audionumerique
KR101730356B1 (ko) 2010-07-02 2017-04-27 돌비 인터네셔널 에이비 선택적인 베이스 포스트 필터
FI3751564T3 (fi) 2010-07-20 2023-01-31 Audiokooderi, audiokoodausmenetelmä ja tietokoneohjelma
US9082416B2 (en) * 2010-09-16 2015-07-14 Qualcomm Incorporated Estimating a pitch lag
US8738385B2 (en) 2010-10-20 2014-05-27 Broadcom Corporation Pitch-based pre-filtering and post-filtering for compression of audio signals
BR112013020592B1 (pt) 2011-02-14 2021-06-22 Fraunhofer-Gellschaft Zur Fôrderung Der Angewandten Forschung E. V. Codec de áudio utilizando síntese de ruído durante fases inativas
RU2589399C2 (ru) 2011-03-18 2016-07-10 Фраунхофер-Гезелльшафт Цур Фердерунг Дер Ангевандтен Форшунг Е.Ф. Расположение элемента кадра в кадрах потока битов, представляющего аудио содержимое
SG194580A1 (en) 2011-04-21 2013-12-30 Samsung Electronics Co Ltd Apparatus for quantizing linear predictive coding coefficients, sound encoding apparatus, apparatus for de-quantizing linear predictive coding coefficients, sound decoding apparatus, and electronic device therefor
EP2707873B1 (en) 2011-05-09 2015-04-08 Dolby International AB Method and encoder for processing a digital stereo audio signal
FR2977439A1 (fr) 2011-06-28 2013-01-04 France Telecom Fenetres de ponderation en codage/decodage par transformee avec recouvrement, optimisees en retard.
US9363339B2 (en) 2011-07-12 2016-06-07 Hughes Network Systems, Llc Staged data compression, including block level long range compression, for data streams in a communications system
FR2977969A1 (fr) 2011-07-12 2013-01-18 France Telecom Adaptation de fenetres de ponderation d'analyse ou de synthese pour un codage ou decodage par transformee
KR101672025B1 (ko) 2012-01-20 2016-11-02 프라운호퍼 게젤샤프트 쭈르 푀르데룽 데어 안겐반텐 포르슝 에. 베. 사인곡선 대체를 이용하여 오디오 인코딩 및 디코딩하기 위한 장치 및 방법
US20130282373A1 (en) 2012-04-23 2013-10-24 Qualcomm Incorporated Systems and methods for audio signal processing
US9026451B1 (en) 2012-05-09 2015-05-05 Google Inc. Pitch post-filter
ES2960089T3 (es) 2012-06-08 2024-02-29 Samsung Electronics Co Ltd Procedimiento y aparato para la ocultación de errores de trama y procedimiento y aparato para la decodificación de audio
GB201210373D0 (en) 2012-06-12 2012-07-25 Meridian Audio Ltd Doubly compatible lossless audio sandwidth extension
FR2992766A1 (fr) 2012-06-29 2014-01-03 France Telecom Attenuation efficace de pre-echos dans un signal audionumerique
CN102779526B (zh) * 2012-08-07 2014-04-16 无锡成电科大科技发展有限公司 语音信号中基音提取及修正方法
US9406307B2 (en) 2012-08-19 2016-08-02 The Regents Of The University Of California Method and apparatus for polyphonic audio signal prediction in coding and networking systems
US9293146B2 (en) 2012-09-04 2016-03-22 Apple Inc. Intensity stereo coding in advanced audio coding
JP6434411B2 (ja) 2012-09-24 2018-12-05 サムスン エレクトロニクス カンパニー リミテッド フレームエラー隠匿方法及びその装置、並びにオーディオ復号化方法及びその装置
CN103714821A (zh) 2012-09-28 2014-04-09 杜比实验室特许公司 基于位置的混合域数据包丢失隐藏
ITBO20120619A1 (it) 2012-11-09 2014-05-10 Tissue Machinery Co Spa Apparato e metodo di confezionamento di pannolini o altri oggetti sanitari morbidi piatti ripiegati.
US9318116B2 (en) 2012-12-14 2016-04-19 Disney Enterprises, Inc. Acoustic data transmission based on groups of audio receivers
EP2757558A1 (en) 2013-01-18 2014-07-23 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Time domain level adjustment for audio signal decoding or encoding
FR3001593A1 (fr) 2013-01-31 2014-08-01 France Telecom Correction perfectionnee de perte de trame au decodage d'un signal.
EP2954518B1 (en) 2013-02-05 2016-08-31 Telefonaktiebolaget LM Ericsson (publ) Method and apparatus for controlling audio frame loss concealment
TWI530941B (zh) 2013-04-03 2016-04-21 杜比實驗室特許公司 用於基於物件音頻之互動成像的方法與系統
MY181845A (en) 2013-06-21 2021-01-08 Fraunhofer Ges Forschung Apparatus and method for improved concealment of the adaptive codebook in acelp-like concealment employing improved pulse resynchronization
RU2665279C2 (ru) * 2013-06-21 2018-08-28 Фраунхофер-Гезелльшафт Цур Фердерунг Дер Ангевандтен Форшунг Е.Ф. Устройство и способ, реализующие улучшенные концепции для tcx ltp
EP2830064A1 (en) 2013-07-22 2015-01-28 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus and method for decoding and encoding an audio signal using adaptive spectral tile selection
EP2830055A1 (en) 2013-07-22 2015-01-28 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Context-based entropy coding of sample values of a spectral envelope
CN105723452B (zh) 2013-10-18 2020-01-31 弗劳恩霍夫应用研究促进协会 音频信号的频谱的频谱系数的解码方法及解码器
US9906858B2 (en) 2013-10-22 2018-02-27 Bongiovi Acoustics Llc System and method for digital signal processing
WO2015063227A1 (en) 2013-10-31 2015-05-07 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Audio bandwidth extension by insertion of temporal pre-shaped noise in frequency domain
SG10201709061WA (en) 2013-10-31 2017-12-28 Fraunhofer Ges Forschung Audio decoder and method for providing a decoded audio information using an error concealment modifying a time domain excitation signal
PL3069338T3 (pl) 2013-11-13 2019-06-28 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Koder do kodowania sygnału audio, system przesyłania audio i sposób określania wartości korekcji
GB2524333A (en) 2014-03-21 2015-09-23 Nokia Technologies Oy Audio signal payload
EP4336500A3 (en) 2014-04-17 2024-04-03 VoiceAge EVS LLC Methods, encoder and decoder for linear predictive encoding and decoding of sound signals upon transition between frames having different sampling rates
US9396733B2 (en) 2014-05-06 2016-07-19 University Of Macau Reversible audio data hiding
NO2780522T3 (ru) 2014-05-15 2018-06-09
EP2963649A1 (en) 2014-07-01 2016-01-06 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Audio processor and method for processing an audio signal using horizontal phase correction
US9685166B2 (en) * 2014-07-26 2017-06-20 Huawei Technologies Co., Ltd. Classification between time-domain coding and frequency domain coding
EP2980798A1 (en) 2014-07-28 2016-02-03 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Harmonicity-dependent controlling of a harmonic filter tool
EP2980799A1 (en) * 2014-07-28 2016-02-03 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus and method for processing an audio signal using a harmonic post-filter
EP2980796A1 (en) 2014-07-28 2016-02-03 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Method and apparatus for processing an audio signal, audio decoder, and audio encoder
MX349256B (es) * 2014-07-28 2017-07-19 Fraunhofer Ges Forschung Aparato y metodo para seleccionar uno de un primer algoritmo de codificacion y un segundo algoritmo de codificacion usando reduccion de armonicos.
EP4336493A3 (en) 2014-07-28 2024-06-12 Samsung Electronics Co., Ltd. Method and apparatus for packet loss concealment, and decoding method and apparatus employing same
EP2988300A1 (en) 2014-08-18 2016-02-24 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Switching of sampling rates at audio processing devices
EP3067886A1 (en) 2015-03-09 2016-09-14 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Audio encoder for encoding a multichannel signal and audio decoder for decoding an encoded audio signal
WO2016142002A1 (en) 2015-03-09 2016-09-15 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Audio encoder, audio decoder, method for encoding an audio signal and method for decoding an encoded audio signal
US10296959B1 (en) 2015-03-30 2019-05-21 Audible, Inc. Automated recommendations of audio narrations
US9886963B2 (en) 2015-04-05 2018-02-06 Qualcomm Incorporated Encoder selection
US10049684B2 (en) 2015-04-05 2018-08-14 Qualcomm Incorporated Audio bandwidth selection
JP6422813B2 (ja) 2015-04-13 2018-11-14 日本電信電話株式会社 符号化装置、復号装置、これらの方法及びプログラム
US9978400B2 (en) 2015-06-11 2018-05-22 Zte Corporation Method and apparatus for frame loss concealment in transform domain
US9837089B2 (en) 2015-06-18 2017-12-05 Qualcomm Incorporated High-band signal generation
US10847170B2 (en) 2015-06-18 2020-11-24 Qualcomm Incorporated Device and method for generating a high-band signal from non-linearly processed sub-ranges
KR20170000933A (ko) * 2015-06-25 2017-01-04 한국전기연구원 시간 지연 추정을 이용한 풍력 터빈의 피치 제어 시스템
US9830921B2 (en) 2015-08-17 2017-11-28 Qualcomm Incorporated High-band target signal control
US10803877B2 (en) 2015-09-04 2020-10-13 Samsung Electronics Co., Ltd. Signal processing methods and apparatuses for enhancing sound quality
US9978381B2 (en) * 2016-02-12 2018-05-22 Qualcomm Incorporated Encoding of multiple audio signals
US10219147B2 (en) 2016-04-07 2019-02-26 Mediatek Inc. Enhanced codec control
US10283143B2 (en) 2016-04-08 2019-05-07 Friday Harbor Llc Estimating pitch of harmonic signals
CN107945809B (zh) * 2017-05-02 2021-11-09 大连民族大学 一种复调音乐多音高估计方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20070127729A1 (en) * 2003-02-11 2007-06-07 Koninklijke Philips Electronics, N.V. Audio coding
RU2368018C2 (ru) * 2003-07-18 2009-09-20 Конинклейке Филипс Электроникс Н.В. Кодирование аудиосигнала с низкой скоростью передачи битов
US20120214544A1 (en) * 2011-02-23 2012-08-23 Shankar Thagadur Shivappa Audio Localization Using Audio Signal Encoding and Recognition
US20150010155A1 (en) * 2012-04-05 2015-01-08 Huawei Technologies Co., Ltd. Method for Determining an Encoding Parameter for a Multi-Channel Audio Signal and Multi-Channel Audio Encoder
US20140108020A1 (en) * 2012-10-15 2014-04-17 Digimarc Corporation Multi-mode audio recognition and auxiliary data encoding and decoding

Also Published As

Publication number Publication date
CA3082175A1 (en) 2019-05-16
KR102426050B1 (ko) 2022-07-28
AU2018363670B2 (en) 2021-02-18
AU2018363670A1 (en) 2020-05-21
KR20200083565A (ko) 2020-07-08
CN111566733B (zh) 2023-08-01
PL3707718T3 (pl) 2022-02-21
EP3483886A1 (en) 2019-05-15
ES2900058T3 (es) 2022-03-15
US11380341B2 (en) 2022-07-05
WO2019091922A1 (en) 2019-05-16
CN111566733A (zh) 2020-08-21
TW201923755A (zh) 2019-06-16
MX2020004786A (es) 2020-08-13
ZA202002521B (en) 2021-10-27
BR112020009114A2 (pt) 2020-10-13
US20200273475A1 (en) 2020-08-27
EP3707718A1 (en) 2020-09-16
TWI728277B (zh) 2021-05-21
JP7079325B2 (ja) 2022-06-01
PT3707718T (pt) 2021-12-27
SG11202004203WA (en) 2020-06-29
AR114388A1 (es) 2020-09-02
EP3707718B1 (en) 2021-10-13
JP2021502596A (ja) 2021-01-28
CA3082175C (en) 2022-11-01

Similar Documents

Publication Publication Date Title
JP6271531B2 (ja) デジタル音声信号における効果的なプレエコー減衰
KR101957905B1 (ko) 시간 도메인 여기 신호를 기초로 하는 오류 은닉을 사용하여 디코딩된 오디오 정보를 제공하기 위한 오디오 디코더 및 방법
KR101648290B1 (ko) 컴포트 노이즈의 생성
EP3011554B1 (en) Pitch lag estimation
KR102460233B1 (ko) 인코딩 및 디코딩 오디오 신호들
RU2742739C1 (ru) Выбор задержки основного тона
JP5295372B2 (ja) デジタルオーディオ信号におけるプリエコーの減衰
JP6728142B2 (ja) デジタルオーディオ信号におけるプレエコーを識別し、減衰させる方法及び装置
RU2707144C2 (ru) Аудиокодер и способ для кодирования аудиосигнала
WO2015190985A1 (en) Burst frame error handling
Chen Packet loss concealment for predictive speech coding based on extrapolation of speech waveform