RU2665253C2 - Устройство и способ для улучшенного маскирования адаптивной таблицы кодирования при acelp-образном маскировании с использованием улучшенной оценки запаздывания основного тона - Google Patents

Устройство и способ для улучшенного маскирования адаптивной таблицы кодирования при acelp-образном маскировании с использованием улучшенной оценки запаздывания основного тона Download PDF

Info

Publication number
RU2665253C2
RU2665253C2 RU2016101599A RU2016101599A RU2665253C2 RU 2665253 C2 RU2665253 C2 RU 2665253C2 RU 2016101599 A RU2016101599 A RU 2016101599A RU 2016101599 A RU2016101599 A RU 2016101599A RU 2665253 C2 RU2665253 C2 RU 2665253C2
Authority
RU
Russia
Prior art keywords
pitch
frame
samples
delay
fundamental tone
Prior art date
Application number
RU2016101599A
Other languages
English (en)
Other versions
RU2016101599A (ru
Inventor
Жереми ЛЕКОНТ
Михаэль ШНАБЕЛЬ
Горан МАРКОВИЧ
Мартин ДИТЦ
Бернхард НОЙГЕБАУЭР
Original Assignee
Фраунхофер-Гезелльшафт Цур Фердерунг Дер Ангевандтен Форшунг Е.Ф.
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Фраунхофер-Гезелльшафт Цур Фердерунг Дер Ангевандтен Форшунг Е.Ф. filed Critical Фраунхофер-Гезелльшафт Цур Фердерунг Дер Ангевандтен Форшунг Е.Ф.
Publication of RU2016101599A publication Critical patent/RU2016101599A/ru
Application granted granted Critical
Publication of RU2665253C2 publication Critical patent/RU2665253C2/ru

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/005Correction of errors induced by the transmission channel, if related to the coding algorithm
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/08Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters
    • G10L19/10Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters the excitation function being a multipulse excitation
    • G10L19/107Sparse pulse excitation, e.g. by using algebraic codebook
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/08Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters
    • G10L19/12Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters the excitation function being a code excitation, e.g. in code excited linear prediction [CELP] vocoders
    • G10L19/125Pitch excitation, e.g. pitch synchronous innovation CELP [PSI-CELP]
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/90Pitch determination of speech signals
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/08Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L2019/0001Codebooks
    • G10L2019/0002Codebook adaptations
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L2019/0001Codebooks
    • G10L2019/0003Backward prediction of gain
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L2019/0001Codebooks
    • G10L2019/0007Codebook element generation
    • G10L2019/0008Algebraic codebooks

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • General Physics & Mathematics (AREA)
  • Algebra (AREA)
  • Mathematical Analysis (AREA)
  • Mathematical Optimization (AREA)
  • Mathematical Physics (AREA)
  • Pure & Applied Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)
  • Mobile Radio Communication Systems (AREA)
  • Financial Or Insurance-Related Operations Such As Payment And Settlement (AREA)
  • Measurement Of Mechanical Vibrations Or Ultrasonic Waves (AREA)

Abstract

Изобретение относится к области обработки аудиосигналов. Технический результат заключается в повышении эффективности обработки аудиосигналов. Технический результат достигается за счет оценки запаздывания основного тона в зависимости от множества исходных значений запаздывания основного тона и в зависимости от множества информационных значений, при этом для каждого исходного значения запаздывания основного тона из множества исходных значений запаздывания основного тона, информационное значение из множества информационных значений назначается упомянутому исходному значению запаздывания основного тона, оценки запаздывания основного тона посредством минимизации функции ошибок, которая зависит от множества исходных значений и от множества информационных значений, и восстановления кадра с использованием оцененного запаздывания основного тона. 3 н. и 10 з.п. ф-лы, 15 ил.

Description

Настоящее изобретение относится к обработке аудиосигналов, в частности, к обработке речи, а более конкретно, к устройству и способу для улучшенного маскирования адаптивной таблицы кодирования при ACELP-образном маскировании (ACELP - линейное прогнозирование с возбуждением по алгебраическому коду).
Обработка аудиосигналов приобретают все большую важность. В области техники обработки аудиосигналов, важную роль играют технологии маскирования. Когда кадр теряется или повреждается, потерянная информация из потерянного или поврежденного кадра должна быть заменена. В обработке речевых сигналов, в частности, при рассмотрении ACELP- или ACELP-образных речевых кодеков, информация основного тона является очень важной. Требуются технологии прогнозирования основного тона и технологии повторной синхронизации импульсов.
Относительно восстановления основного тона, предусмотрены различные технологии экстраполяции основного тона в предшествующем уровне техники.
Одна из этих технологий представляет собой технологию на основе повторений. Большинство современных кодеков применяет простой подход к маскированию на основе повторений, что означает то, что последний корректно принимаемый период основного тона до потерь пакетов повторяется до тех пор, пока не поступит хороший кадр, и новая информация основного тона может декодироваться из потока битов. Альтернативно, логика обеспечения стабильности основного тона применяется согласно тому, что выбрано значение основного тона, которое принято за некоторое время до потерь пакетов. Кодеки согласно подходу на основе повторений представляют собой, например, G.719 (см. [ITU08b, 8.6]), G.729 (см. [ITU12, 4.4]), AMR (см. [3GP12a, 6.2.3.1], [ITU03]), AMR-WB (см. [3GP12b, 6.2.3.4.2]), и AMR-WB+(ACELP- и TCX20-(ACELP-образное) маскирование) (см. [3GP09]); (AMR - стандарт адаптивного многоскоростного кодирования; AMR-WB - стандарт широкополосного адаптивного многоскоростного кодирования).
Другая технология восстановления основного тона предшествующего уровня техники представляет собой извлечение основного тона из временной области. Для некоторых кодеков, основной тон требуется для маскирования, но не встраивается в поток битов. Следовательно, основной тон вычисляется на основе сигнала временной области предыдущего кадра для того, чтобы вычислять период основного тона, который затем сохраняется постоянным во время маскирования. Кодек согласно этому подходу представляет собой, например, G.722, см., в частности, G.722 Приложение 3 (см. [ITU06a, III.6.6 и III.6.7]), и G.722 Приложение 4 (см. [ITU07, IV.6.1,2.5]).
Дополнительная технология восстановления основного тона предшествующего уровня техники основана на экстраполяции. Некоторые современные кодеки применяют подходы на основе экстраполяции основного тона и выполняют конкретные алгоритмы для того, чтобы изменять основной тон, соответственно, на оценки экстраполированного основного тона во время потерь пакетов. Эти подходы подробнее описываются следующим образом в отношении G.718 и G.729.1.
Сначала рассмотрим G.718 (см. [ITU08a]). Оценка будущего основного тона проводится посредством экстраполяции для того, чтобы поддерживать модуль повторной синхронизации гортанных импульсов. Эта информация относительно возможного будущего значения основного тона используется для того, чтобы синхронизировать гортанные импульсы маскированного возбуждения.
Экстраполяция основного тона проводится только в том случае, если последний хороший кадр не является вокализованным. Экстраполяция основного тона G.718 основана на таком допущении, что кодер имеет плавный контур основного тона. Упомянутая экстраполяция проводится на основе запаздываний основного тона
Figure 00000001
последних семи субкадров перед стиранием.
В G.718, обновление предыстории плавающих значений основного тона проводится после каждого корректно принимаемого кадра. С этой целью, значения основного тона обновляются только в том случае, если базовый режим отличается от невокализованного. В случае потерянного кадра, разность
Figure 00000001
между плавающими запаздываниями основного тона вычисляется согласно формуле:
Figure 00000002
В формуле (1),
Figure 00000003
обозначает запаздывание основного тона последнего (т.е. четвертого) субкадра предыдущего кадра;
Figure 00000004
обозначает запаздывание основного тона третьего субкадра предыдущего кадра; и т.д.
Согласно G.718, сумма разностей
Figure 00000005
вычисляется следующим образом:
Figure 00000006
Поскольку значения
Figure 00000007
могут быть положительными или отрицательными, число инверсий знака
Figure 00000007
суммируется, и позиция первой инверсии указывается посредством параметра, сохраненного в запоминающем устройстве.
Параметр fcorr находится следующим образом:
Figure 00000008
,
где dmax=231 является максимальным учитываемым запаздыванием основного тона.
В G.718, позиция imax, указывающая максимальную абсолютную разность, находится согласно определению:
Figure 00000009
,
и отношение для этой максимальной разности вычисляется следующим образом:
Figure 00000010
Если это отношение превышает или равно 5, то основной тон четвертого субкадра последнего корректно принимаемого кадра используется для всех субкадров, которые должны быть маскированы. Если это отношение превышает или равно 5, это означает то, что алгоритм не экстраполирует однозначно основной тон, и повторная синхронизация гортанных импульсов не выполняется.
Если rmax меньше 5, то проводится дополнительная обработка для того, чтобы добиваться самой лучшей экстраполяции. Три различных способа используются для того, чтобы экстраполировать будущий основной тон. Чтобы выбирать между возможными алгоритмами экстраполяции основного тона, вычисляется параметр fcorr2 отклонения, который зависит от коэффициента fcorr и от позиции максимального варьирования imax основного тона. Тем не менее, сначала средняя плавающая разность основного тона модифицируется, чтобы удалять слишком большие разности основного тона от среднего значения:
Если fcorr<0,98, а если imax=3, то средняя дробная разность
Figure 00000011
основного тона определяется согласно формуле:
Figure 00000012
,
с тем, чтобы удалять разности основного тона, связанные с переходом между двумя кадрами.
Если fcorr≥0,98, или если imax≠3, средняя дробная разность
Figure 00000013
основного тона вычисляется следующим образом:
Figure 00000014
,
и максимальная плавающая разность основного тона заменена этим новым средним значением:
Figure 00000015
При этом новом среднем значении плавающих разностей основного тона, нормализованное отклонение fcorr2 вычисляется следующим образом:
Figure 00000016
,
где Isf равен 4 в первом случае и равен 6 во втором случае.
В зависимости от этого нового параметра, осуществляется выбор между тремя способами экстраполяции будущего основного тона:
- Если
Figure 00000017
изменяет знак более двух раз (это указывает высокое варьирование основного тона), первая инверсия знака находится в последнем хорошем кадре (для i<3) и fcorr2>0,945, экстраполированный основной тон dext (экстраполированный основной тон также обозначается как Text), вычисляется следующим образом:
Figure 00000018
.
- Если 0,945<fcorr2<0,99, и
Figure 00000019
изменяет знак, по меньшей мере, один раз, взвешенное среднее дробных разностей основного тона используется для того, чтобы экстраполировать основной тон. Взвешивание fw средней разности связано с нормализованным отклонением fcorr2, и позиция первой инверсии знака задается следующим образом:
Figure 00000020
Параметр imem формулы зависит от позиции первой инверсии знака
Figure 00000021
, так что imem=0, если первая инверсия знака возникает между последними двумя субкадрами предыдущего кадра, так что imem=1, если первая инверсия знака возникает между вторым и третьим субкадрами предыдущего кадра, и т.д. Если первая инверсия знака находится близко к концу последнего кадра, это означает то, что варьирование основного тона является менее стабильным рядом с потерянным кадром. Таким образом, весовой коэффициент, примененный к среднему значению, должен иметь значение около 0, и экстраполированный основной тон dext должен иметь значение близко к основному тону четвертого субкадра последнего хорошего кадра:
Figure 00000022
- В противном случае, постепенное изменение основного тона считается стабильным, и экстраполированный основной тон dext определяется следующим образом:
Figure 00000023
.
После этой обработки, запаздывание основного тона ограничено между 34 и 231 (значения обозначают минимальное и максимальное разрешенные запаздывания основного тона).
Далее, для иллюстрации другого примера технологий восстановления основного тона на основе экстраполяции, рассмотрим G.729.1 (см. [ITU06b]).
G.729.1 показывает подход на основе экстраполяции основного тона (см. [Gao]), в случае если информация прямого маскирования ошибок (например, информация фазы) не является декодируемой. Это происходит, например, если два последовательных кадра теряются (один суперкадр состоит из четырех кадров, которые могут быть или ACELP или TCX20). Также возможны TCX40- или TCX80-кадры и практически все их комбинации.
Когда один или более кадров теряются в вокализованной области, предыдущая информация основного тона всегда используется для того, чтобы восстанавливать текущий потерянный кадр. Точность текущего оцененного основного тона может оказывать непосредственное влияние на фазовое совмещение с исходным сигналом, и это критически важно для качества восстановления текущего потерянного кадра и принимаемого кадра после потерянного кадра. Использование нескольких предыдущих запаздываний основного тона вместо простого копирования предыдущего запаздывания основного тона должно приводить к статистически лучшей оценке основного тона. В G.729.1-кодере, экстраполяция основного тона для FEC (FEC - прямая коррекция ошибок) состоит из линейной экстраполяции на основе предыдущих пяти значений основного тона. Предыдущие пять значений основного тона представляют собой P(i), для i=0, 1, 2, 3, 4, где P(4) является последним значением основного тона. Модель экстраполяции задается согласно следующему:
Figure 00000024
Значение экстраполированного основного тона для первого субкадра в потерянном кадре затем задается следующим образом:
Figure 00000025
Чтобы определять коэффициенты a и b, ошибка E минимизируется, при этом ошибка E задается согласно следующему:
Figure 00000026
Посредством задания:
Figure 00000027
a и b получаются в результате следующим образом:
Figure 00000028
Далее описывается принцип маскирования стирания кадров предшествующего уровня техники для AMR-WB-кодека, как представлено в [MCZ11]. Этот принцип маскирования стирания кадров основан на линейном прогнозировании основного тона и усиления. Упомянутая работа представляет подход на основе линейной интер/экстраполяции основного тона в случае потерь кадров, на основе критерия минимальной среднеквадратической ошибки.
Согласно этому принципу маскирования стирания кадров, в декодере, когда тип последнего допустимого кадра до стертого кадра (предыдущего кадра) является идентичным стертому кадру самого раннего после стертого кадра (будущего кадра), задается основной тон P(i), где i=-N,-N+1, ..., 0, 1, ..., N+4, N+5, и где N является числом предыдущих и будущих субкадров стертого кадра. P(1), P(2), P(3), P(4) являются четырьмя основными тонами четырех субкадров в стертом кадре, P(0), P(-1), ..., P(-N) являются основными тонами предыдущих субкадров, и P(5), P(6), ..., P(N+5) являются основными тонами будущих субкадров. Используется модель линейного прогнозирования P'(i)=a+b*i. Для i=1, 2, 3, 4; P'(1), P'(2), P'(3), P'(4) являются прогнозными основными тонами для стертого кадра. MMS-критерий (MMS - минимальное среднеквадратическое значение) учитывается для того, чтобы извлекать значения двух прогнозных коэффициентов a и b согласно подходу на основе интерполяции. Согласно этому подходу, ошибка E задается следующим образом:
Figure 00000029
Затем коэффициенты a и b могут получаться посредством вычисления:
Figure 00000030
Figure 00000031
Figure 00000032
Запаздывания основного тона для последних четырех субкадров стертого кадра могут вычисляться согласно следующему:
Figure 00000033
Обнаружено, что N=4 предоставляет наилучший результат. N=4 означает, что пять предыдущих субкадров и пять будущих субкадров используются для интерполяции.
Тем не менее, когда тип предыдущих кадров отличается от типа будущих кадров, например, когда предыдущий кадр является вокализованным, но будущий кадр является невокализованным, просто вокализованные основные тона предыдущих или будущих кадров используются для того, чтобы прогнозировать основные тона стертого кадра с использованием вышеуказанного подхода на основе экстраполяции.
Далее рассмотрим повторную синхронизацию импульсов в предшествующем уровне техники, в частности, в отношении G.718 и G.729.1. Подход для повторной синхронизации импульсов описывается в [VJGS12].
Сначала описывается составление периодической части возбуждения.
Для маскирования стертых кадров после корректно принимаемого кадра, отличного от невокализованного, периодическая часть возбуждения составляется посредством повторения фильтрованного по нижним частотам последнего периода основного тона предыдущего кадра.
Составление периодической части выполняется с использованием простой копии фильтрованного по нижним частотам сегмента сигнала возбуждения из конца предыдущего кадра.
Длина периода основного тона округляется до ближайшего целого числа:
Figure 00000034
С учетом того, что длина последнего периода основного тона составляет Tp, то длина сегмента, который копируется, Tr, например, может задаваться согласно следующему:
Figure 00000035
Периодическая часть составляется для одного кадра и одного дополнительного субкадра.
Например, для M субкадров в кадре, длина субкадра составляет
Figure 00000036
,
где L является длиной кадра, также обозначаемой как Lframe: L=Lframe.
Фиг. 3 иллюстрирует составленную периодическую часть речевого сигнала.
T[0] является местоположением первого максимального импульса в составленной периодической части возбуждения. Позиции других импульсов задаются следующим образом:
Figure 00000037
согласно следующему:
Figure 00000038
После составления периодической части возбуждения, повторная синхронизация гортанных импульсов выполняется для того, чтобы корректировать разность между оцененной целевой позицией (P) последнего импульса в потерянном кадре и его фактической позицией (T[k]) в составленной периодической части возбуждения.
Постепенное изменение запаздывания основного тона экстраполировано на основе запаздываний основного тона последних семи субкадров перед потерянным кадром. Постепенно изменяющиеся запаздывания основного тона в каждом субкадре следующие:
Figure 00000039
,
где:
Figure 00000040
и Text (также обозначается как dext) является экстраполированным основным тоном, как описано выше для dext.
Разность, обозначаемая как d, между суммой общего числа (Tc) выборок в пределах циклов основного тона с постоянным основным тоном и суммой общего числа p[i] выборок в пределах циклов основного тона с постепенно изменяющимся основным тоном, находится в длине кадра. В документации отсутствует описание касательно того, как находить d.
В исходном коде G.718 (см. [ITU08a]), d находится с использованием следующего алгоритма (где M является числом субкадров в кадре):
Figure 00000041
Число импульсов в составленной периодической части в длине кадра плюс первый импульс в будущем кадре составляет N. В документации отсутствует описание касательно того, как находить N.
В исходном коде G.718 (см. [ITU08a]), N находится согласно следующему:
Figure 00000042
Позиция T[n] последнего импульса в составленной периодической части возбуждения, которая принадлежит потерянному кадру, определяется следующим образом:
Figure 00000043
Оцененная позиция P последнего импульса следующая:
Figure 00000044
Фактическая позиция T[k] для позиции последнего импульса представляет собой позицию импульса в составленной периодической части возбуждения (в том числе в поиске первого импульса после текущего кадра), ближайшую к оцененной целевой позиции P:
Figure 00000045
Повторная синхронизация гортанных импульсов проводится посредством добавления или удаления выборок в областях минимальной энергии полных циклов основного тона. Число выборок, которые должны быть добавлены или удалены, определяется посредством разности:
Figure 00000046
Области минимальной энергии определяются с использованием скользящего окна в 5 выборок. Позиция минимальной энергии задается в середине окна, в котором энергия является минимальной. Поиск выполняется между двумя импульсами основного тона от T[i]+Tc/8 до T[i+1]-Tc/4. Имеется Nmin=n-1 областей минимальной энергии.
Если Nmin=1, то имеется только одна область минимальной энергии, и dif f выборок вставляются или удаляются в этой позиции.
Для Nmin>1, меньшее число выборок добавляется или удаляется в начале и большее - к концу кадра. Число выборок, которые должны быть удалены или добавлены, между импульсами T[i] и T[i+1], находится с использованием следующего рекурсивного отношения:
Figure 00000047
Если R[i]<R[i-1], то значения R[i] и R[i-1] меняются местами.
Цель настоящего изобретения заключается в том, чтобы предоставлять усовершенствованные принципы для обработки аудиосигналов, в частности, предоставлять усовершенствованные принципы для обработки речи, а более конкретно, предоставлять улучшенные принципы маскирования.
Цель настоящего изобретения достигается посредством устройства по п. 1, посредством способа по п. 15 и посредством компьютерной программы по п. 16.
Предусмотрено устройство для определения оцененного запаздывания основного тона. Устройство содержит входной интерфейс для приема множества исходных значений запаздывания основного тона и модуль оценки запаздывания основного тона для оценки оцененного запаздывания основного тона. Модуль оценки запаздывания основного тона выполнен с возможностью оценивать оцененное запаздывание основного тона в зависимости от множества исходных значений запаздывания основного тона и в зависимости от множества информационных значений, при этом для каждого исходного значения запаздывания основного тона из множества исходных значений запаздывания основного тона, информационное значение из множества информационных значений назначается упомянутому исходному значению запаздывания основного тона.
Согласно варианту осуществления, модуль оценки запаздывания основного тона, например, может быть выполнен с возможностью оценивать оцененное запаздывание основного тона в зависимости от множества исходных значений запаздывания основного тона и в зависимости от множества значений усиления основного тона в качестве множества информационных значений, при этом для каждого исходного значения запаздывания основного тона из множества исходных значений запаздывания основного тона, значение усиления основного тона из множества значений усиления основного тона назначается упомянутому исходному значению запаздывания основного тона.
В конкретном варианте осуществления, каждое из множества значений усиления основного тона, например, может представлять собой усиление адаптивной таблицы кодирования.
В варианте осуществления, модуль оценки запаздывания основного тона, например, может быть выполнен с возможностью оценивать оцененное запаздывание основного тона посредством минимизации функции ошибок.
Согласно варианту осуществления, модуль оценки запаздывания основного тона, например, может быть выполнен с возможностью оценивать оцененное запаздывание основного тона посредством определения двух параметров a, b посредством минимизации функции ошибок:
Figure 00000048
Figure 00000049
,
где a является действительным числом, где b является действительным числом, где k является целым числом с k≥2, и где P(i) является i-ым исходным значением запаздывания основного тона, где gp(i) является i-ым значением усиления основного тона, назначаемым i-ому значению P(i) запаздывания основного тона.
В варианте осуществления, модуль оценки запаздывания основного тона, например, может быть выполнен с возможностью оценивать оцененное запаздывание основного тона посредством определения двух параметров a, b посредством минимизации функции ошибок:
Figure 00000050
,
где a является действительным числом, где b является действительным числом, где P(i) является i-ым исходным значением запаздывания основного тона, где gp(i) является i-ым значением усиления основного тона, назначаемым i-ому значению P(i) запаздывания основного тона.
Согласно варианту осуществления, модуль оценки запаздывания основного тона, например, может быть выполнен с возможностью определять оцененное запаздывание p основного тона согласно p=a*i+b.
В варианте осуществления, модуль оценки запаздывания основного тона, например, может быть выполнен с возможностью оценивать оцененное запаздывание основного тона в зависимости от множества исходных значений запаздывания основного тона и в зависимости от множества значений времени в качестве множества информационных значений, при этом для каждого исходного значения запаздывания основного тона из множества исходных значений запаздывания основного тона, значение времени из множества значений времени назначается упомянутому исходному значению запаздывания основного тона.
Согласно варианту осуществления, модуль оценки запаздывания основного тона, например, может быть выполнен с возможностью оценивать оцененное запаздывание основного тона посредством минимизации функции ошибок.
В варианте осуществления, модуль оценки запаздывания основного тона, например, может быть выполнен с возможностью оценивать оцененное запаздывание основного тона посредством определения двух параметров a, b посредством минимизации функции ошибок:
Figure 00000048
Figure 00000051
,
где a является действительным числом, где b является действительным числом, где k является целым числом с k≥2, и где P(i) является i-ым исходным значением запаздывания основного тона, где timepassed(i) является i-ым значением времени, назначаемым i-ому значению P(i) запаздывания основного тона.
Согласно варианту осуществления, модуль оценки запаздывания основного тона, например, может быть выполнен с возможностью оценивать оцененное запаздывание основного тона посредством определения двух параметров a, b посредством минимизации функции ошибок:
Figure 00000052
,
где a является действительным числом, где b является действительным числом, где P(i) является i-ым исходным значением запаздывания основного тона, где timepassed(i) является i-ым значением времени, назначаемым i-ому значению P(i) запаздывания основного тона.
В варианте осуществления, модуль оценки запаздывания основного тона выполнен с возможностью определять оцененное запаздывание p основного тона согласно p=a*i+b.
Кроме того, предусмотрен способ для определения оцененного запаздывания основного тона. Способ содержит:
- прием множества исходных значений запаздывания основного тона; и
- оценку оцененного запаздывания основного тона.
Оценка оцененного запаздывания основного тона проводится в зависимости от множества исходных значений запаздывания основного тона и в зависимости от множества информационных значений, при этом для каждого исходного значения запаздывания основного тона из множества исходных значений запаздывания основного тона, информационное значение из множества информационных значений назначается упомянутому исходному значению запаздывания основного тона.
Кроме того, предусмотрена компьютерная программа для реализации вышеописанного способа при выполнении на компьютере или в процессоре сигналов.
Кроме того, предусмотрено устройство для восстановления кадра, содержащего речевой сигнал в качестве восстановленного кадра, причем восстановленный кадр ассоциирован с одним или более доступных кадров, причем упомянутые один или более доступных кадров представляют собой, по меньшей мере, один из одного или более предшествующих кадров восстановленного кадра и одного или более последующих кадров восстановленного кадра, при этом один или более доступных кадров содержат один или более циклов основного тона в качестве одного или более доступных циклов основного тона. Устройство содержит модуль определения для определения разности числа выборок, указывающей разность между числом выборок одного из одного или более доступных циклов основного тона и числом выборок первого цикла основного тона, который должен быть восстановлен. Кроме того, устройство содержит модуль восстановления кадров для восстановления восстановленного кадра посредством восстановления, в зависимости от разности числа выборок и в зависимости от выборок упомянутого одного из одного или более доступных циклов основного тона, первого цикла основного тона, который должен быть восстановлен в качестве первого восстановленного цикла основного тона. Модуль восстановления кадров выполнен с возможностью восстанавливать восстановленный кадр таким образом, что восстановленный кадр полностью или частично содержит первый восстановленный цикл основного тона, таким образом, что восстановленный кадр полностью или частично содержит второй восстановленный цикл основного тона, и таким образом, что число выборок первого восстановленного цикла основного тона отличается от числа выборок второго восстановленного цикла основного тона.
Согласно варианту осуществления, модуль определения, например, может быть выполнен с возможностью определять разность числа выборок для каждого из множества циклов основного тона, которые должны быть восстановлены, таким образом, что разность числа выборок каждого из циклов основного тона указывает разность между числом выборок упомянутого одного из или более доступных циклов основного тона и числом выборок упомянутого цикла основного тона, который должен быть восстановлен. Модуль восстановления кадров, например, может быть выполнен с возможностью восстанавливать каждый цикл основного тона из множества циклов основного тона, которые должны быть восстановлены, в зависимости от разности числа выборок упомянутого цикла основного тона, который должен быть восстановлен, и в зависимости от выборок упомянутого одного из одного или более доступных циклов основного тона, для того чтобы восстанавливать восстановленный кадр.
В варианте осуществления, модуль восстановления кадров, например, может быть выполнен с возможностью формировать промежуточный кадр в зависимости от упомянутого одного из одного или более доступных циклов основного тона. Модуль восстановления кадров, например, может быть выполнен с возможностью модифицировать промежуточный кадр, с тем чтобы получать восстановленный кадр.
Согласно варианту осуществления, модуль определения, например, может быть выполнен с возможностью определять разностное значение (d; s) кадра, указывающее то, сколько выборок должно удаляться из промежуточного кадра или сколько выборок должно добавляться в промежуточный кадр. Кроме того, модуль восстановления кадров, например, может быть выполнен с возможностью удалять первые выборки из промежуточного кадра, с тем чтобы получать восстановленный кадр, когда разностное значение кадра указывает то, что первые выборки должны удаляться из кадра. Кроме того, модуль восстановления кадров, например, может быть выполнен с возможностью добавлять вторые выборки в промежуточный кадр, с тем чтобы получать восстановленный кадр, когда разностное значение (d; s) кадра указывает то, что вторые выборки должны добавляться в кадр.
В варианте осуществления, модуль восстановления кадров, например, может быть выполнен с возможностью удалять первые выборки из промежуточного кадра, когда разностное значение кадра указывает то, что первые выборки должны удаляться из кадра таким образом, что число первых выборок, которые удаляются из промежуточного кадра, указывается посредством разностного значения кадра. Кроме того, модуль восстановления кадров, например, может быть выполнен с возможностью добавлять вторые выборки в промежуточный кадр, когда разностное значение кадра указывает то, что вторые выборки должны добавляться в кадр таким образом, что число вторых выборок, которые добавляются в промежуточный кадр, указывается посредством разностного значения кадра.
Согласно варианту осуществления, модуль определения, например, может быть выполнен с возможностью определять разностное число s кадра таким образом, что формула:
Figure 00000053
является справедливой, где L указывает число выборок восстановленного кадра, где M указывает число субкадров восстановленного кадра, где Tr указывает округленную длину периода основного тона упомянутого одного из одного или более доступных циклов основного тона, и где P[i] указывает длину периода основного тона восстановленного цикла основного тона i-ого субкадра восстановленного кадра.
В варианте осуществления, модуль восстановления кадров, например, может быть выполнен с возможностью формировать промежуточный кадр в зависимости от упомянутого одного из одного или более доступных циклов основного тона. Кроме того, модуль восстановления кадров, например, может быть выполнен с возможностью формировать промежуточный кадр таким образом, что промежуточный кадр содержит первый частичный промежуточный цикл основного тона, один или более дополнительных промежуточных циклов основного тона и второй частичный промежуточный цикл основного тона. Кроме того, первый частичный промежуточный цикл основного тона, например, может зависеть от одной или более выборок упомянутого одного из одного или более доступных циклов основного тона, при этом каждый из одного или более дополнительных промежуточных циклов основного тона зависит от всех выборок упомянутого одного из одного или более доступных циклов основного тона, при этом второй частичный промежуточный цикл основного тона зависит от одной или более выборок упомянутого одного из одного или более доступных циклов основного тона. Кроме того, модуль определения, например, может быть выполнен с возможностью определять разностное число начальной части, указывающее то, сколько выборок должно удаляться или добавляться из первого частичного промежуточного цикла основного тона, при этом модуль восстановления кадров выполнен с возможностью удалять одну или более первых выборок из первого частичного промежуточного цикла основного тона или выполнен с возможностью добавлять одну или более первых выборок в первый частичный промежуточный цикл основного тона в зависимости от разностного числа начальной части. Кроме того, модуль определения, например, может быть выполнен с возможностью определять, для каждого из дополнительных промежуточных циклов основного тона, разностное число цикла основного тона, указывающее то, сколько выборок должно удаляться или добавляться из упомянутого одного из дополнительных промежуточных циклов основного тона. Кроме того, модуль восстановления кадров, например, может быть выполнен с возможностью удалять одну или более вторых выборок из упомянутого одного из дополнительных промежуточных циклов основного тона или выполнен с возможностью добавлять одну или более вторых выборок в упомянутый один из дополнительных промежуточных циклов основного тона в зависимости от упомянутого разностного числа цикла основного тона. Кроме того, модуль определения, например, может быть выполнен с возможностью определять разностное число конечной части, указывающее то, сколько выборок должно удаляться или добавляться из второго частичного промежуточного цикла основного тона, при этом модуль восстановления кадров выполнен с возможностью удалять одну или более третьих выборок из второго частичного промежуточного цикла основного тона или выполнен с возможностью добавлять одну или более третьих выборок во второй частичный промежуточный цикл основного тона в зависимости от разностного числа конечной части.
Согласно варианту осуществления, модуль восстановления кадров, например, может быть выполнен с возможностью формировать промежуточный кадр в зависимости от упомянутого одного из одного или более доступных циклов основного тона. Кроме того, модуль определения, например, может быть выполнен с возможностью определять одну или более низкоэнергетических частей сигнала для речевого сигнала, состоящего из промежуточного кадра, при этом каждая из одной или более низкоэнергетических частей сигнала является первой частью сигнала для речевого сигнала в промежуточном кадре, причем энергия речевого сигнала ниже во второй части сигнала для речевого сигнала, состоящего из промежуточного кадра. Кроме того, модуль восстановления кадров, например, может быть выполнен с возможностью удалять одну или более выборок, по меньшей мере, из одной из одной или более низкоэнергетических частей сигнала для речевого сигнала или добавлять одну или более выборок, по меньшей мере, в одну из одной или более низкоэнергетических частей сигнала для речевого сигнала, с тем чтобы получать восстановленный кадр.
В конкретном варианте осуществления, модуль восстановления кадров, например, может быть выполнен с возможностью формировать промежуточный кадр таким образом, что промежуточный кадр содержит один или более восстановленных циклов основного тона, так что каждый из одного или более восстановленных циклов основного тона зависит от упомянутого одного из одного или более доступных циклов основного тона. Кроме того, модуль определения, например, может быть выполнен с возможностью определять число выборок, которое должно удаляться из каждого из одного или более восстановленных циклов основного тона. Кроме того, модуль определения, например, может быть выполнен с возможностью определять каждую из одной или более низкоэнергетических частей сигнала таким образом, что для каждой из одной или более низкоэнергетических частей сигнала, число выборок упомянутой низкоэнергетической части сигнала зависит от числа выборок, которое должно удаляться из одного из одного или более восстановленных циклов основного тона, при этом упомянутая низкоэнергетическая часть сигнала расположена в упомянутом одном или более восстановленных циклов основного тона.
В варианте осуществления, модуль определения, например, может быть выполнен с возможностью определять позицию одного или более импульсов речевого сигнала кадра, который должен быть восстановлен в качестве восстановленного кадра. Кроме того, модуль восстановления кадров, например, может быть выполнен с возможностью восстанавливать восстановленный кадр в зависимости от позиции одного или более импульсов речевого сигнала.
Согласно варианту осуществления, модуль определения, например, может быть выполнен с возможностью определять позицию двух или более импульсов речевого сигнала кадра, который должен быть восстановлен в качестве восстановленного кадра, где T[0] представляет собой позицию одного из двух или более импульсов речевого сигнала кадра, который должен быть восстановлен в качестве восстановленного кадра, при этом модуль определения выполнен с возможностью определять позицию (T[i]) дополнительных импульсов из двух или более импульсов речевого сигнала согласно формуле:
Figure 00000054
,
где Tr указывает округленную длину упомянутого одного из одного или более доступных циклов основного тона, и где i является целым числом.
Согласно варианту осуществления, модуль определения, например, может быть выполнен с возможностью определять индекс k последнего импульса речевого сигнала кадра, который должен быть восстановлен в качестве восстановленного кадра, так что:
Figure 00000055
,
где L указывает число выборок восстановленного кадра, где s указывает разностное значение кадра, где T[0] указывает позицию импульса речевого сигнала кадра, который должен быть восстановлен в качестве восстановленного кадра, отличающегося от последнего импульса речевого сигнала, и где Tr указывает округленную длину упомянутого одного из одного или более доступных циклов основного тона.
В варианте осуществления, модуль определения, например, может быть выполнен с возможностью восстанавливать кадр, который должен быть восстановлен в качестве восстановленного кадра, посредством определения параметра δ, при этом δ задается согласно формуле:
Figure 00000056
,
при этом кадр, который должен быть восстановлен в качестве восстановленного кадра, содержит M субкадров, где Tp указывает длину упомянутого одного из одного или более доступных циклов основного тона, и где Text указывает длину одного из циклов основного тона, которые должны быть восстановлены, для кадра, который должен быть восстановлен в качестве восстановленного кадра.
Согласно варианту осуществления, модуль определения, например, может быть выполнен с возможностью восстанавливать восстановленный кадр посредством определения округленной длины Tr упомянутого одного из одного или более доступных циклов основного тона на основе формулы:
Figure 00000057
,
где Tp указывает длину упомянутого одного из одного или более доступных циклов основного тона.
В варианте осуществления, модуль определения, например, может быть выполнен с возможностью восстанавливать восстановленный кадр посредством применения формулы:
Figure 00000058
,
где Tp указывает длину упомянутого одного из одного или более доступных циклов основного тона, где Tr указывает округленную длину упомянутого одного из одного или более доступных циклов основного тона, при этом кадр, который должен быть восстановлен в качестве восстановленного кадра, содержит M субкадров, при этом кадр, который должен быть восстановлен в качестве восстановленного кадра, содержит L выборок, и где
Figure 00000059
является действительным числом, указывающим разность между числом выборок упомянутого одного из одного или более доступных циклов основного тона и числом выборок одного из одного или более циклов основного тона, которые должны быть восстановлены.
Кроме того, предусмотрен способ для восстановления кадра, содержащего речевой сигнал в качестве восстановленного кадра, причем восстановленный кадр ассоциирован с одним или более доступных кадров, причем упомянутые один или более доступных кадров представляют собой, по меньшей мере, один из одного или более предшествующих кадров восстановленного кадра и одного или более последующих кадров восстановленного кадра, при этом один или более доступных кадров содержат один или более циклов основного тона в качестве одного или более доступных циклов основного тона. Способ содержит:
- определение разности
Figure 00000060
числа выборок, указывающей разность между числом выборок одного из одного или более доступных циклов основного тона и числом выборок первого цикла основного тона, который должен быть восстановлен; и;
- восстановление восстановленного кадра посредством восстановления, в зависимости от разности
Figure 00000061
числа выборок и в зависимости от выборок упомянутого одного из одного или более доступных циклов основного тона, первого цикла основного тона, который должен быть восстановлен в качестве первого восстановленного цикла основного тона.
Восстановление восстановленного кадра проводится таким образом, что восстановленный кадр полностью или частично содержит первый восстановленный цикл основного тона, таким образом, что восстановленный кадр полностью или частично содержит второй восстановленный цикл основного тона, и таким образом, что число выборок первого восстановленного цикла основного тона отличается от числа выборок второго восстановленного цикла основного тона.
Кроме того, предусмотрена компьютерная программа для реализации вышеописанного способа при выполнении на компьютере или в процессоре сигналов.
Кроме того, предусмотрена система для восстановления кадра, содержащего речевой сигнал. Система содержит устройство для определения оцененного запаздывания основного тона согласно одному из вышеописанных или нижеописанных вариантов осуществления и устройство для восстановления кадра, при этом устройство для восстановления кадра выполнено с возможностью восстанавливать кадр в зависимости от оцененного запаздывания основного тона. Оцененное запаздывание основного тона представляет собой запаздывание основного тона речевого сигнала.
В варианте осуществления, восстановленный кадр, например, может быть ассоциирован с одним или более доступных кадров, причем упомянутые один или более доступных кадров представляют собой, по меньшей мере, один из одного или более предшествующих кадров восстановленного кадра и одного или более последующих кадров восстановленного кадра, при этом один или более доступных кадров содержат один или более циклов основного тона в качестве одного или более доступных циклов основного тона. Устройство для восстановления кадра, например, может представлять собой устройство для восстановления кадра согласно одному из вышеописанных или нижеописанных вариантов осуществления.
Настоящее изобретение основано на таких выявленных сведениях, что предшествующий уровень техники имеет значительные недостатки. Как G.718 (см. [ITU08a]), так и G.729.1 (см. [ITU06b]) используют экстраполяцию основного тона в случае потерь кадров. Это необходимо, поскольку в случае потерь кадров, запаздывания основного тона также теряются. Согласно G.718 и G.729.1, основной тон экстраполирован с учетом постепенного изменения основного тона во время последних двух кадров. Тем не менее, запаздывание основного тона, восстанавливаемое посредством G.718 и G.729.1, не является очень точным и, например, зачастую приводит к восстановленному запаздыванию основного тона, которое значительно отличается от реального запаздывания основного тона.
Варианты осуществления настоящего изобретения предоставляют более точное восстановление запаздывания основного тона. С этой целью, в отличие от G.718 и G.729.1, некоторые варианты осуществления учитывают информацию относительно надежности информации основного тона.
Согласно предшествующему уровню техники, информация основного тона, на которой основана экстраполяция, содержит последние восемь корректно принимаемых запаздываний основного тона, для которых режим кодирования отличается от невокализованного. Тем не менее, в предшествующем уровне техники, характеристика вокализации может быть довольно слабой, указываться посредством низкого усиления основного тона (которое соответствует низкому усилению для прогнозирования). В предшествующем уровне техники, в случае если экстраполяция основана на запаздываниях основного тона, которые имеют различные усиления основного тона, экстраполяция не позволяет выводить обоснованные результаты или даже вообще завершается неудачно и откатывается к простому подходу на основе повторений запаздывания основного тона.
Варианты осуществления основаны на таких выявленных сведениях, что причина этих недостатков предшествующего уровня техники состоит в том, что, на стороне кодера, запаздывание основного тона выбрано относительно максимизации усиления основного тона таким образом, чтобы максимизировать усиление при кодировании адаптивной таблицы кодирования, но что в случае, если речевая характеристика является слабой, запаздывание основного тона не может точно указывать основную частоту, поскольку шум в речевом сигнале приводит к тому, что оценка запаздывания основного тона становится неточной.
Следовательно, во время маскирования, согласно вариантам осуществления, применение экстраполяции запаздывания основного тона взвешивается в зависимости от надежности ранее принимаемых запаздываний, используемых для этой экстраполяции.
Согласно некоторым вариантам осуществления, предыдущие усиления адаптивных таблиц кодирования (усиления основного тона) могут использоваться в качестве показателя надежности.
Согласно некоторым дополнительным вариантам осуществления настоящего изобретения, взвешивание согласно тому, насколько давно ранее приняты запаздывания основного тона, используется в качестве показателя надежности. Например, высокие весовые коэффициенты задаются для более новых запаздываний, и меньшие весовые коэффициенты задаются для запаздываний, принятых раньше.
Согласно вариантам осуществления, предоставляются принципы взвешенного прогнозирования основного тона. В отличие от предшествующего уровня техники, предоставленное прогнозирование основного тона вариантов осуществления настоящего изобретения использует показатель надежности для каждого из запаздываний основного тона, на которых оно основано, что делает результат прогнозирования намного более допустимым и стабильным. В частности, усиление основного тона может использоваться в качестве индикатора для надежности. Альтернативно или дополнительно, согласно некоторым вариантам осуществления, время, которое прошло после корректного приема запаздывания основного тона, например, может использоваться в качестве индикатора.
Относительно повторной синхронизации импульсов, настоящее изобретение основано на таких выявленных сведениях, что один из недостатков предшествующего уровня техники относительно повторной синхронизации гортанных импульсов заключается в том, что экстраполяция основного тона не учитывает то, сколько импульсов (циклов основного тона) должно составляться в маскированном кадре.
Согласно предшествующему уровню техники, экстраполяция основного тона проводится таким образом, что изменения основного тона ожидаются только на границах субкадров.
Согласно вариантам осуществления, при проведении повторной синхронизации гортанных импульсов, могут учитываться изменения основного тона, которые отличаются от непрерывных изменений основного тона.
Варианты осуществления настоящего изобретения основаны на таких выявленных сведениях, что G.718 и G.729.1 имеют следующие недостатки.
Во-первых, в предшествующем уровне техники, при вычислении d предполагается, что имеется целое число циклов основного тона в кадре. Поскольку d задает местоположение последнего импульса в маскированном кадре, позиция последнего импульса не является корректной, когда имеется нецелочисленное число циклов основного тона в кадре. Это проиллюстрировано на фиг. 6 и фиг. 7. Фиг. 6 иллюстрирует речевой сигнал перед удалением выборок. Фиг. 7 иллюстрирует речевой сигнал после удаления выборок. Кроме того, алгоритм, используемый посредством предшествующего уровня техники для вычисления d, является неэффективным.
Кроме того, вычисление предшествующего уровня техники требует числа импульсов N в составленной периодической части возбуждения. Это добавляет необязательную вычислительную сложность.
Кроме того, в предшествующем уровне техники, вычисление числа импульсов N в составленной периодической части возбуждения не учитывает местоположение первого импульса.
Сигналы, представленные на фиг. 4 и фиг. 5, имеют идентичный период основного тона длины Tc.
Фиг. 4 иллюстрирует речевой сигнал, имеющий 3 импульса в кадре.
Напротив, фиг. 5 иллюстрирует речевой сигнал, который имеет только два импульса в кадре.
Эти примеры, проиллюстрированные посредством фиг. 4 и 5, показывают то, что число импульсов зависит от позиции первого импульса.
Кроме того, согласно предшествующему уровню техники, проверяется, находится или нет T[N-1], местоположение N-ого импульса в составленной периодической части возбуждения, в пределах длины кадра, даже если N задается таким образом, что оно включает в себя первый импульс в следующем кадре.
Кроме того, согласно предшествующему уровню техники, выборки не добавляются или удаляются перед первым и после последнего импульса. Варианты осуществления настоящего изобретения основаны на таких выявленных сведениях, что это приводит к такому недостатку, что может быть внезапное изменение длины первого полного цикла основного тона, и кроме того, это дополнительно приводит к такому недостатку, что длина цикла основного тона после последнего импульса может превышать длину последнего полного цикла основного тона перед последним импульсом, даже когда запаздывание основного тона снижается (см. фиг. 6 и 7).
Варианты осуществления основаны на таких выявленных сведениях, что импульсы T[k]=P-dif f и T[n]=P-d не равны, когда:
-
Figure 00000062
. В этом случае dif f=Tc-d, и число удаленных выборок составляет dif f вместо d.
- T[k] находится в будущем кадре, и он перемещается в текущий кадр только после удаления d выборок.
- T[n] перемещается в будущий кадр после добавления -d выборок (d<0).
Это должно приводить к неправильной позиции импульсов в маскированном кадре.
Кроме того, варианты осуществления основаны на таких выявленных сведениях, что в предшествующем уровне техники, максимальное значение d ограничено минимальным допустимым значением для кодированного запаздывания основного тона. Это представляет собой сдерживающий фактор, который ограничивает возникновение других проблем, но он также ограничивает возможное изменение основного тона и в силу этого ограничивает повторную синхронизацию импульсов.
Кроме того, варианты осуществления основаны на таких выявленных сведениях, что в предшествующем уровне техники, периодическая часть составляется с использованием целочисленного запаздывания основного тона, и что это создает сдвиг частоты гармоник и значительное ухудшение при маскировании тональных сигналов с постоянным основным тоном. Это ухудшение может наблюдаться на фиг. 8, при этом фиг. 8 иллюстрирует частотно-временное представление речевого сигнала, повторно синхронизируемого при использовании округленного запаздывания основного тона.
Кроме того, варианты осуществления основаны на таких выявленных сведениях, что большинство проблем предшествующего уровня техники возникает в случаях, показанных посредством примеров, проиллюстрированных на фиг. 6 и 7, в которых d выборок удаляются. Здесь считается, что отсутствуют ограничения на максимальное значение для d, чтобы сделать проблему легко очевидной. Проблема также возникает, когда имеется предел для d, но не является настолько очевидной. Вместо непрерывного увеличения основного тона, получается внезапное увеличение, после которого следует внезапное уменьшение основного тона. Варианты осуществления основаны на таких выявленных сведениях, что это происходит, поскольку выборки не удаляются до и после последнего импульса, и косвенно также вызывается посредством непринятия во внимание того, что импульс T[2] перемещается в кадре после удаления d выборок. Неправильное вычисление N также происходит в этом примере.
Согласно вариантам осуществления, предоставляются улучшенные принципы повторной синхронизации импульсов. Варианты осуществления предоставляют улучшенное маскирование монофонических сигналов, включающих в себя речь, которое является преимущественным по сравнению с существующими технологиями, описанными в стандартах G.718 (см. [ITU08a]) и G.729.1 (см. [ITU06b]). Предоставленные варианты осуществления являются подходящими для сигналов с постоянным основным тоном, а также для сигналов с изменяющимся основным тоном.
В числе прочего, согласно вариантам осуществления, предоставляются три технологии.
Согласно первой технологии, предоставленной посредством варианта осуществления, предоставляется принцип поиска для импульсов, который, в отличие от G.718 и G.729.1, учитывает местоположение первого импульса при вычислении числа импульсов в составленной периодической части, обозначаемого в качестве N.
Согласно второй технологии, предоставленной посредством другого варианта осуществления, предусмотрен алгоритм для поиска импульсов, которому, в отличие от G.718 и G.729.1, не требуется число импульсов в составленной периодической части, обозначаемое в качестве N, который учитывает местоположение первого импульса, и который непосредственно вычисляет индекс последнего импульса в маскированном кадре, обозначаемый в качестве k.
Согласно третьей технологии, предоставленной посредством дополнительного варианта осуществления, поиск импульсов не требуется. Согласно этой третьей технологии, составление периодической части комбинируется с удалением или добавлением выборок, за счет этого обеспечивая меньшую сложность по сравнению с предыдущими технологиями.
Дополнительно или альтернативно, некоторые варианты осуществления предоставляют следующие изменения для вышеуказанных технологий, а также для технологий G.718 и G.729.1:
- Дробная часть запаздывания основного тона, например, может использоваться для составления периодической части для сигналов с постоянным основным тоном.
- Смещение в ожидаемое местоположение последнего импульса в маскированном кадре, например, может вычисляться для нецелочисленного числа циклов основного тона в кадре.
- Выборки, например, могут добавляться или удаляться также перед первым импульсом и после последнего импульса.
- Выборки, например, могут также добавляться или удаляться, если имеется всего один импульс.
- Число выборок, которые должны быть удалены или добавлены, например, может изменяться линейно, согласно прогнозному линейному изменению в основном тоне.
Далее подробнее описываются варианты осуществления настоящего изобретения в отношении чертежей, на которых:
Фиг. 1 иллюстрирует устройство для определения оцененного запаздывания основного тона согласно варианту осуществления,
Фиг. 2a иллюстрирует устройство для восстановления кадра, содержащего речевой сигнал в качестве восстановленного кадра согласно варианту осуществления,
Фиг. 2b иллюстрирует речевой сигнал, содержащий множество импульсов,
Фиг. 2c иллюстрирует систему для восстановления кадра, содержащего речевой сигнал согласно варианту осуществления,
Фиг. 3 иллюстрирует составленную периодическую часть речевого сигнала,
Фиг. 4 иллюстрирует речевой сигнал, имеющий три импульса в кадре,
Фиг. 5 иллюстрирует речевой сигнал, имеющий два импульса в кадре,
Фиг. 6 иллюстрирует речевой сигнал перед удалением выборок,
Фиг. 7 иллюстрирует речевой сигнал по фиг. 6 после удаления выборок,
Фиг. 8 иллюстрирует частотно-временное представление речевого сигнала, повторно синхронизируемого с использованием округленного запаздывания основного тона,
Фиг. 9 иллюстрирует частотно-временное представление речевого сигнала, повторно синхронизируемого с использованием неокругленного запаздывания основного тона с дробной частью,
Фиг. 10 иллюстрирует схему запаздывания основного тона, на которой запаздывание основного тона восстанавливается с использованием принципов предшествующего уровня техники,
Фиг. 11 иллюстрирует схему запаздывания основного тона, на которой запаздывание основного тона восстанавливается согласно вариантам осуществления,
Фиг. 12 иллюстрирует речевой сигнал перед удалением выборок, и
Фиг. 13 иллюстрирует речевой сигнал по фиг. 12 с дополнительной иллюстрацией Δ03.
Фиг. 1 иллюстрирует устройство для определения оцененного запаздывания основного тона согласно варианту осуществления. Устройство содержит входной интерфейс 110 для приема множества исходных значений запаздывания основного тона и модуль 120 оценки запаздывания основного тона для оценки оцененного запаздывания основного тона. Модуль 120 оценки запаздывания основного тона выполнен с возможностью оценивать оцененное запаздывание основного тона в зависимости от множества исходных значений запаздывания основного тона и в зависимости от множества информационных значений, при этом для каждого исходного значения запаздывания основного тона из множества исходных значений запаздывания основного тона, информационное значение из множества информационных значений назначается упомянутому исходному значению запаздывания основного тона.
Согласно варианту осуществления, модуль 120 оценки запаздывания основного тона, например, может быть выполнен с возможностью оценивать оцененное запаздывание основного тона в зависимости от множества исходных значений запаздывания основного тона и в зависимости от множества значений усиления основного тона в качестве множества информационных значений, при этом для каждого исходного значения запаздывания основного тона из множества исходных значений запаздывания основного тона, значение усиления основного тона из множества значений усиления основного тона назначается упомянутому исходному значению запаздывания основного тона.
В конкретном варианте осуществления, каждое из множества значений усиления основного тона, например, может представлять собой усиление адаптивной таблицы кодирования.
В варианте осуществления, модуль 120 оценки запаздывания основного тона, например, может быть выполнен с возможностью оценивать оцененное запаздывание основного тона посредством минимизации функции ошибок.
Согласно варианту осуществления, модуль 120 оценки запаздывания основного тона, например, может быть выполнен с возможностью оценивать оцененное запаздывание основного тона посредством определения двух параметров a, b посредством минимизации функции ошибок:
Figure 00000048
Figure 00000063
,
где a является действительным числом, где b является действительным числом, где k является целым числом с k≥2, и где P(i) является i-ым исходным значением запаздывания основного тона, где gp(i) является i-ым значением усиления основного тона, назначаемым i-ому значению P(i) запаздывания основного тона.
В варианте осуществления, модуль 120 оценки запаздывания основного тона, например, может быть выполнен с возможностью оценивать оцененное запаздывание основного тона посредством определения двух параметров a, b посредством минимизации функции ошибок:
Figure 00000064
,
где a является действительным числом, где b является действительным числом, где P(i) является i-ым исходным значением запаздывания основного тона, где gp(i) является i-ым значением усиления основного тона, назначаемым i-ому значению P(i) запаздывания основного тона.
Согласно варианту осуществления, модуль 120 оценки запаздывания основного тона, например, может быть выполнен с возможностью определять оцененное запаздывание p основного тона согласно p=a*i+b.
В варианте осуществления, модуль 120 оценки запаздывания основного тона, например, может быть выполнен с возможностью оценивать оцененное запаздывание основного тона в зависимости от множества исходных значений запаздывания основного тона и в зависимости от множества значений времени в качестве множества информационных значений, при этом для каждого исходного значения запаздывания основного тона из множества исходных значений запаздывания основного тона, значение времени из множества значений времени назначается упомянутому исходному значению запаздывания основного тона.
Согласно варианту осуществления, модуль 120 оценки запаздывания основного тона, например, может быть выполнен с возможностью оценивать оцененное запаздывание основного тона посредством минимизации функции ошибок.
В варианте осуществления, модуль 120 оценки запаздывания основного тона, например, может быть выполнен с возможностью оценивать оцененное запаздывание основного тона посредством определения двух параметров a, b посредством минимизации функции ошибок:
Figure 00000065
,
где a является действительным числом, где b является действительным числом, где k является целым числом с k≥2, и где P(i) является i-ым исходным значением запаздывания основного тона, где timepassed(i) является i-ым значением времени, назначаемым i-ому значению P(i) запаздывания основного тона.
Согласно варианту осуществления, модуль 120 оценки запаздывания основного тона, например, может быть выполнен с возможностью оценивать оцененное запаздывание основного тона посредством определения двух параметров a, b посредством минимизации функции ошибок:
Figure 00000066
,
где a является действительным числом, где b является действительным числом, где P(i) является i-ым исходным значением запаздывания основного тона, где timepassed(i) является i-ым значением времени, назначаемым i-ому значению P(i) запаздывания основного тона.
В варианте осуществления, модуль 120 оценки запаздывания основного тона выполнен с возможностью определять оцененное запаздывание p основного тона согласно p=a*i+b.
Далее описываются варианты осуществления, предоставляющие взвешенное прогнозирование основного тона, относительно формул (20)-(24b).
Сначала описываются варианты осуществления для взвешенного прогнозирования основного тона с использованием взвешивания согласно усилению основного тона в отношении формул (20)-(22c). Согласно некоторым из этих вариантов осуществления, для того чтобы преодолевать недостаток предшествующего уровня техники, запаздывания основного тона взвешиваются с помощью усиления основного тона для того, чтобы выполнять прогнозирование основного тона.
В некоторых вариантах осуществления, усиление основного тона может представлять собой усиление gp адаптивной таблицы кодирования, как задано в стандарте G.729 (см. [ITU12], в частности, главу 3.7.3, более конкретно, формулу (43)). В G.729, усиление адаптивной таблицы кодирования определяется согласно следующему:
Figure 00000067
Здесь, x(n) является целевым сигналом, и y(n) получается посредством свертывания v(n) с h(n) согласно следующему:
Figure 00000068
,
где v(n) является вектором адаптивной таблицы кодирования, где y(n) является фильтрованным вектором адаптивной таблицы кодирования, и где h(n-i) является импульсной характеристикой взвешенного синтезирующего фильтра, как задано в G.729 (см. [ITU12]).
Аналогично, в некоторых вариантах осуществления, усиление основного тона может представлять собой усиление gp адаптивной таблицы кодирования, как задано в стандарте G.718 (см. [ITU08a], в частности, главу 6.8.4.1.4.1, более конкретно, формулу (170)). В G.718, усиление адаптивной таблицы кодирования определяется согласно следующему:
Figure 00000069
,
где x(n) является целевым сигналом, и yk(n) является предыдущим фильтрованным возбуждением при задержке k.
Например, см. [ITU08a], главу 6.8.4.1.4.1, формулу (171), на предмет определения того, как может задаваться yk(n).
Аналогично, в некоторых вариантах осуществления, усиление основного тона может представлять собой усиление gp адаптивной таблицы кодирования, как задано в AMR-стандарте (см. [3GP12b]), при этом усиление gp адаптивной таблицы кодирования в качестве усиления основного тона задается согласно следующему:
Figure 00000070
,
где y(n) является фильтрованным вектором адаптивной таблицы кодирования.
В некоторых конкретных вариантах осуществления, запаздывания основного тона, например, могут быть взвешены с помощью усиления основного тона, например, до выполнения прогнозирования основного тона.
С этой целью, согласно варианту осуществления, например, может вводиться второй буфер длины 8, хранящий усиления основного тона, которые принимаются в субкадрах, идентичных субкадрам запаздываний основного тона. В варианте осуществления, буфер, например, может обновляться с использованием правил, идентичных правилам обновления запаздываний основного тона. Одна возможная реализация заключается в том, чтобы обновлять оба буфера (хранящие запаздывания основного тона и усиления основного тона последних восьми субкадров) в конце каждого кадра независимо от того, является этот кадр безошибочным или подверженным ошибкам.
Предусмотрено две различных стратегии прогнозирования, известные из предшествующего уровня техники, которые могут улучшаться таким образом, чтобы использовать взвешенное прогнозирование основного тона.
Некоторые варианты осуществления обеспечивают значительные изобретаемые улучшения стратегии прогнозирования G.718-стандарта. В G.718, в случае потерь пакетов, буферы могут умножаться друг на друга поэлементно, чтобы взвешивать запаздывание основного тона с высоким коэффициентом, если ассоциированное усиление основного тона является высоким, и взвешивать его с низким коэффициентом, если ассоциированное усиление основного тона является низким. После этого, согласно G.718, прогнозирование основного тона выполняется как обычно (см. [ITU08a, раздел 7.11.1.3] на предмет подробностей относительно G.718).
Некоторые варианты осуществления обеспечивают значительные изобретаемые улучшения стратегии прогнозирования G.729.1-стандарта. Алгоритм, используемый в G.729.1 для того, чтобы прогнозировать основной тон (см. [ITU06b] на предмет подробностей относительно G.729.1), модифицируется согласно вариантам осуществления таким образом, чтобы использовать взвешенное прогнозирование.
Согласно некоторым вариантам осуществления, цель состоит в том, чтобы минимизировать функцию ошибок:
Figure 00000071
,
где gp(i) хранит усиления основного тона из предыдущих субкадров, и P(i) хранит соответствующие запаздывания основного тона.
В изобретаемой формуле (20), gp(i) представляет весовой коэффициент. В вышеприведенном примере, каждый gp(i) представляет усиление основного тона из одного из предыдущих субкадров.
Ниже предусмотрены уравнения согласно вариантам осуществления, которые описывают то, как извлекать коэффициенты a и b, которые могут использоваться для того, чтобы прогнозировать запаздывание основного тона согласно следующему: a+i*b, где i является номером субкадра для субкадра, который должен прогнозироваться.
Например, для того, чтобы получать первый прогнозный субкадр на основе прогнозирования для последних пяти субкадров P(0), ..., P(4), прогнозное значение P(5) основного тона должно быть следующим:
P(5)=a+5*b.
Чтобы извлекать коэффициенты a и b, функция ошибок, например, может извлекаться (как производная) и может задаваться равной нулю:
Figure 00000072
Предшествующий уровень техники не раскрывает использование изобретаемого взвешивания, предоставленного посредством вариантов осуществления. В частности, предшествующий уровень техники не использует весовой коэффициент gp(i).
Таким образом, в предшествующем уровне техники, который не использует весовой коэффициент gp(i), извлечение функции ошибок и задание производной функции ошибок равной 0 приводит в результате к следующему:
Figure 00000073
(см. [ITU06b, 7.6.5]).
Напротив, при использовании подхода на основе взвешенного прогнозирования предоставленных вариантов осуществления, например, подход на основе взвешенного прогнозирования по формуле (20) с весовым коэффициентом gp(i), a и b приводит в результате к следующему:
Figure 00000074
Согласно конкретному варианту осуществления, A, B, C, D; E, F, G, H, I, J и K, например, могут иметь следующие значения:
Figure 00000075
(22c)
Фиг. 10 и фиг. 11 показывают превосходные характеристики предложенной экстраполяции основного тона.
При этом, фиг. 10 иллюстрирует схему запаздывания основного тона, на которой запаздывание основного тона восстанавливается с использованием принципов предшествующего уровня техники. Напротив, фиг. 11 иллюстрирует схему запаздывания основного тона, на которой запаздывание основного тона восстанавливается согласно вариантам осуществления.
В частности, фиг. 10 иллюстрирует характеристики стандартов предшествующего уровня техники G.718 и G.729.1, тогда как фиг. 11 иллюстрирует характеристики предоставленного принципа, предоставленного посредством варианта осуществления.
Ось абсцисс обозначает номер субкадра. Непрерывная линия 1010 показывает запаздывание основного тона кодера, которое встраивается в поток битов и которое теряется в области серого сегмента 1030. Левая ось ординат представляет ось запаздывания основного тона. Правая ось ординат представляет ось усиления основного тона. Непрерывная линия 1010 иллюстрирует запаздывание основного тона, в то время как пунктирные линии 1021, 1022, 1023 иллюстрируют усиление основного тона.
Серый прямоугольник 1030 обозначает потери кадров. Вследствие потерь кадров, которые возникают в области серого сегмента 1030, информация относительно запаздывания основного тона и усиления основного тона в этой области недоступна на стороне декодера и должна быть восстановлена.
На фиг. 10, запаздывание основного тона, маскированное с использованием G.718-стандарта, проиллюстрировано посредством части 1011 штрихпунктирной линии. Запаздывание основного тона, маскированное с использованием G.729.1-стандарта, проиллюстрировано посредством части 1012 непрерывной линии. Можно четко видеть, что использование предоставленного прогнозирования основного тона (фиг. 11, часть 1013 непрерывной линии) соответствует по существу потерянному запаздыванию основного тона кодера и в силу этого является преимущественным по сравнению с G.718- и G.729.1-технологиями.
Далее описываются варианты осуществления с использованием взвешивания в зависимости от истекшего времени в отношении формул (23a)-(24b).
Чтобы преодолевать недостатки предшествующего уровня техники, некоторые варианты осуществления применяют временное взвешивание к запаздываниям основного тона до выполнения прогнозирования основного тона. Применение временного взвешивания может достигаться посредством минимизации этой функции ошибок:
Figure 00000076
,
где timepassed(i) представляет инверсию количества времени, которое прошло после корректного приема запаздывания основного тона, и P(i) хранит соответствующие запаздывания основного тона.
Некоторые варианты осуществления, например, могут задавать высокие весовые коэффициенты для более новых запаздываний и меньший весовой коэффициент для запаздываний, принятых раньше.
Согласно некоторым вариантам осуществления, формула (21a) затем может использоваться для того, чтобы извлекать a и b.
Чтобы получать первый прогнозный субкадр, некоторые варианты осуществления, например, могут осуществлять прогнозирование на основе последних пяти субкадров, P(0), ..., P(4). Например, прогнозное значение P(5) основного тона затем может получаться согласно следующему:
Figure 00000077
Например, если:
Figure 00000078
(временное взвешивание согласно субкадровой задержке), это приводит в результате к следующему:
Figure 00000079
Далее описываются варианты осуществления, предоставляющие повторную синхронизацию импульсов.
Фиг. 2a иллюстрирует устройство для восстановления кадра, содержащего речевой сигнал в качестве восстановленного кадра согласно варианту осуществления. Упомянутый восстановленный кадр ассоциирован с одним или более доступных кадров, причем упомянутые один или более доступных кадров представляют собой, по меньшей мере, один из одного или более предшествующих кадров восстановленного кадра и одного или более последующих кадров восстановленного кадра, при этом один или более доступных кадров содержат один или более циклов основного тона в качестве одного или более доступных циклов основного тона.
Устройство содержит модуль 210 определения для определения разности
Figure 00000080
числа выборок, указывающей разность между числом выборок одного из одного или более доступных циклов основного тона и числом выборок первого цикла основного тона, который должен быть восстановлен.
Кроме того, устройство содержит модуль восстановления кадров для восстановления восстановленного кадра посредством восстановления, в зависимости от разности
Figure 00000081
числа выборок и в зависимости от выборок упомянутого одного из одного или более доступных циклов основного тона, первого цикла основного тона, который должен быть восстановлен в качестве первого восстановленного цикла основного тона.
Модуль 220 восстановления кадров выполнен с возможностью восстанавливать восстановленный кадр таким образом, что восстановленный кадр полностью или частично содержит первый восстановленный цикл основного тона, таким образом, что восстановленный кадр полностью или частично содержит второй восстановленный цикл основного тона, и таким образом, что число выборок первого восстановленного цикла основного тона отличается от числа выборок второго восстановленного цикла основного тона.
Восстановление цикла основного тона проводится посредством восстановления некоторых или всех выборок цикла основного тона, который должен быть восстановлен. Если цикл основного тона, который должен быть восстановлен, полностью состоит из кадра, который потерян, то все выборки цикла основного тона, возможно, например, придется восстанавливать. Если цикл основного тона, который должен быть восстановлен, только частично состоит из кадра, который потерян, и если некоторые выборки цикла основного тона доступны, например, поскольку они состоят из другого кадра, то может быть достаточным, например, восстанавливать только те выборки цикла основного тона, которые состоят из кадра, который потерян, для того чтобы восстанавливать цикл основного тона.
Фиг. 2b иллюстрирует функциональность устройства по фиг. 2a. В частности, фиг. 2b иллюстрирует речевой сигнал 222, содержащий импульсы 211, 212, 213, 214, 215, 216, 217.
Первая часть речевого сигнала 222 состоит из кадра n-1. Вторая часть речевого сигнала 222 состоит из кадра n. Третья часть речевого сигнала 222 состоит из кадра n+1.
На фиг. 2b, кадр n-1 идет перед кадром n, а кадр n+1 идет после кадра n. Это означает, кадр n-1 содержит часть речевого сигнала, которая возникает раньше во времени по сравнению с частью речевого сигнала кадра n; и кадр n+1 содержит часть речевого сигнала, которая возникает позже во времени по сравнению с частью речевого сигнала кадра n.
В примере по фиг. 2b предполагается, что кадр n потерян или поврежден, и в силу этого только кадры перед кадром n ("предшествующие кадры") и кадры после кадра n ("последующие кадры") доступны ("доступные кадры").
Цикл основного тона, например, может задаваться следующим образом: Цикл основного тона начинается с одного из импульсов 211, 212, 213 и т.д. и завершается непосредственно последующим импульсом в речевом сигнале. Например, импульс 211 и 212 задают цикл 201 основного тона. Импульс 212 и 213 задают цикл 202 основного тона. Импульс 213 и 214 задают цикл 203 основного тона и т.д.
Альтернативно могут рассматриваться другие определения цикла основного тона, известные специалистам в данной области техники, которые используют, например, другие начальные и конечные точки цикла основного тона.
В примере по фиг. 2b, кадр n недоступен в приемном устройстве или поврежден. Таким образом, приемное устройство имеет сведения по импульсам 211 и 212 и по циклу 201 основного тона кадра n-1. Кроме того, приемное устройство имеет сведения по импульсам 216 и 217 и по циклу 206 основного тона кадра n+1. Тем не менее, кадр n, который содержит импульсы 213, 214 и 215, которые полностью содержат циклы 203 и 204 основного тона и которые частично содержат циклы 202 и 205 основного тона, должен быть восстановлен.
Согласно некоторым вариантам осуществления, кадр n может быть восстановлен в зависимости от выборок, по меньшей мере, одного цикла основного тона ("доступных циклов основного тона") доступных кадров (например, предшествующего кадра n-1 или последующего кадра n+1). Например, выборки цикла 201 основного тона кадра n-1, например, могут циклически многократно копироваться для того, чтобы восстанавливать выборки потерянного или поврежденного кадра. Посредством циклического многократного копирования выборок цикла основного тона, непосредственно цикл основного тона копируется, например, если цикл основного тона составляет c, то:
sample(x+i*c)=sample(x); где i является целым числом.
В вариантах осуществления, выборки из конца кадра n-1 копируются. Длина части (n-1)-ого кадра, который копируется, равна длине цикла 201 основного тона (или почти равна). Тем не менее, выборки из 201 и 202 используются для копирования. Это может учитываться особенно тщательно, когда имеется всего один импульс в (n-1)-ом кадре.
В некоторых вариантах осуществления, копированные выборки модифицируются.
Кроме того, настоящее изобретение основано на таких выявленных сведениях, что посредством циклического многократного копирования выборок цикла основного тона, импульсы 213, 214, 215 потерянного кадра n перемещаются в неправильные позиции, когда размер циклов основного тона, которые (полностью или частично) состоят из потерянного кадра (n) (циклов 202, 203, 204 и 205 основного тона), отличается от размера копированного доступного цикла основного тона (здесь: цикла 201 основного тона).
Например, на фиг. 2b, разность между циклом 201 основного тона и циклом 202 основного тона указывается посредством Δ1, разность между циклом 201 основного тона и циклом 203 основного тона указывается посредством Δ2, разность между циклом 201 основного тона и циклом 204 основного тона указывается посредством Δ3, и разность между циклом 201 основного тона и циклом 205 основного тона указывается посредством Δ4.
На фиг. 2b, можно видеть, что цикл 201 основного тона кадра n-1 значительно больше цикла 206 основного тона. Кроме того, циклы 202, 203, 204 и 205 основного тона, (частично или полностью) состоящие из кадра n, меньше цикла 201 основного тона и больше цикла 206 основного тона. Кроме того, циклы основного тона, находящиеся ближе к большому циклу 201 основного тона (например, циклу 202 основного тона), больше циклов основного тона (например, цикла 205 основного тона), находящихся ближе к небольшому циклу 206 основного тона.
На основе этих выявленных сведений настоящего изобретения, согласно вариантам осуществления, модуль 220 восстановления кадров выполнен с возможностью восстанавливать восстановленный кадр таким образом, что число выборок первого восстановленного цикла основного тона отличается от числа выборок второго восстановленного цикла основного тона, частично или полностью состоящего из восстановленного кадра.
Например, согласно некоторым вариантам осуществления, восстановление кадра зависит от разности числа выборок, указывающей разность между числом выборок одного из одного или более доступных циклов основного тона (например, цикла 201 основного тона) и числом выборок первого цикла основного тона (например, цикла 202, 203, 204, 205 основного тона), который должен быть восстановлен.
Например, согласно варианту осуществления, выборки цикла 201 основного тона, например, могут циклически многократно копироваться.
Затем разность числа выборок указывает, сколько выборок должно удаляться из циклически повторяющейся копии, соответствующей первому циклу основного тона, который должен быть восстановлен, или сколько выборок должно добавляться в циклически повторяющуюся копию, соответствующую первому циклу основного тона, который должен быть восстановлен.
На фиг. 2b, каждое число выборок указывает, сколько выборок должно удаляться из циклически повторяющейся копии. Тем не менее, в других примерах, число выборок может указывать, сколько выборок должно добавляться в циклически повторяющуюся копию. Например, в некоторых вариантах осуществления, выборки могут добавляться посредством добавления выборок с амплитудным нулем в соответствующий цикл основного тона. В других вариантах осуществления, выборки могут добавляться в цикл основного тона посредством копирования других выборок цикла основного тона, например, посредством копирования выборок, соседних с позициями выборок, которые должны добавляться.
Хотя выше описаны варианты осуществления, в которых выборки цикла основного тона кадра перед потерянным или поврежденным кадром циклически многократно скопированы, в других вариантах осуществления, выборки цикла основного тона кадра после потерянного или поврежденного кадра циклически многократно копируются, чтобы восстанавливать потерянный кадр. Идентичные принципы, описанные выше и ниже, применяются аналогично.
Такая разность числа выборок может определяться для каждого цикла основного тона, который должен быть восстановлен. Далее, разность числа выборок каждого цикла основного тона указывает, сколько выборок должно удаляться из циклически повторяющейся копии, соответствующей соответствующему циклу основного тона, который должен быть восстановлен, или сколько выборок должно добавляться в циклически повторяющуюся копию, соответствующую соответствующему циклу основного тона, который должен быть восстановлен.
Согласно варианту осуществления, модуль 210 определения, например, может быть выполнен с возможностью определять разность числа выборок для каждого из множества циклов основного тона, которые должны быть восстановлены, таким образом, что разность числа выборок каждого из циклов основного тона указывает разность между числом выборок упомянутого одного из одного или более доступных циклов основного тона и числом выборок упомянутого цикла основного тона, который должен быть восстановлен. Модуль 220 восстановления кадров, например, может быть выполнен с возможностью восстанавливать каждый цикл основного тона из множества циклов основного тона, которые должны быть восстановлены, в зависимости от разности числа выборок упомянутого цикла основного тона, который должен быть восстановлен, и в зависимости от выборок упомянутого одного из одного или более доступных циклов основного тона, для того чтобы восстанавливать восстановленный кадр.
В варианте осуществления, модуль 220 восстановления кадров, например, может быть выполнен с возможностью формировать промежуточный кадр в зависимости от упомянутого одного из одного или более доступных циклов основного тона. Модуль 220 восстановления кадров, например, может быть выполнен с возможностью модифицировать промежуточный кадр, с тем чтобы получать восстановленный кадр.
Согласно варианту осуществления, модуль 210 определения, например, может быть выполнен с возможностью определять разностное значение (d; s) кадра, указывающее то, сколько выборок должно удаляться из промежуточного кадра или сколько выборок должно добавляться в промежуточный кадр. Кроме того, модуль 220 восстановления кадров, например, может быть выполнен с возможностью удалять первые выборки из промежуточного кадра, с тем чтобы получать восстановленный кадр, когда разностное значение кадра указывает то, что первые выборки должны удаляться из кадра. Кроме того, модуль 220 восстановления кадров, например, может быть выполнен с возможностью добавлять вторые выборки в промежуточный кадр, с тем чтобы получать восстановленный кадр, когда разностное значение (d; s) кадра указывает то, что вторые выборки должны добавляться в кадр.
В варианте осуществления, модуль 220 восстановления кадров, например, может быть выполнен с возможностью удалять первые выборки из промежуточного кадра, когда разностное значение кадра указывает то, что первые выборки должны удаляться из кадра таким образом, что число первых выборок, которые удаляются из промежуточного кадра, указывается посредством разностного значения кадра. Кроме того, модуль 220 восстановления кадров, например, может быть выполнен с возможностью добавлять вторые выборки в промежуточный кадр, когда разностное значение кадра указывает то, что вторые выборки должны добавляться в кадр таким образом, что число вторых выборок, которые добавляются в промежуточный кадр, указывается посредством разностного значения кадра.
Согласно варианту осуществления, модуль 210 определения, например, может быть выполнен с возможностью определять разностное число s кадра таким образом, что формула:
Figure 00000082
является справедливой, где L указывает число выборок восстановленного кадра, где M указывает число субкадров восстановленного кадра, где Tr указывает округленную длину периода основного тона упомянутого одного из одного или более доступных циклов основного тона, и где P[i] указывает длину периода основного тона восстановленного цикла основного тона i-ого субкадра восстановленного кадра.
В варианте осуществления, модуль 220 восстановления кадров, например, может быть выполнен с возможностью формировать промежуточный кадр в зависимости от упомянутого одного из одного или более доступных циклов основного тона. Кроме того, модуль 220 восстановления кадров, например, может быть выполнен с возможностью формировать промежуточный кадр таким образом, что промежуточный кадр содержит первый частичный промежуточный цикл основного тона, один или более дополнительных промежуточных циклов основного тона и второй частичный промежуточный цикл основного тона. Кроме того, первый частичный промежуточный цикл основного тона, например, может зависеть от одной или более выборок упомянутого одного из одного или более доступных циклов основного тона, при этом каждый из одного или более дополнительных промежуточных циклов основного тона зависит от всех выборок упомянутого одного из одного или более доступных циклов основного тона, при этом второй частичный промежуточный цикл основного тона зависит от одной или более выборок упомянутого одного из одного или более доступных циклов основного тона. Кроме того, модуль 210 определения, например, может быть выполнен с возможностью определять разностное число начальной части, указывающее то, сколько выборок должно удаляться или добавляться из первого частичного промежуточного цикла основного тона, при этом модуль 220 восстановления кадров выполнен с возможностью удалять одну или более первых выборок из первого частичного промежуточного цикла основного тона или выполнен с возможностью добавлять одну или более первых выборок в первый частичный промежуточный цикл основного тона в зависимости от разностного числа начальной части. Кроме того, модуль 210 определения, например, может быть выполнен с возможностью определять, для каждого из дополнительных промежуточных циклов основного тона, разностное число цикла основного тона, указывающее то, сколько выборок должно удаляться или добавляться из упомянутого одного из дополнительных промежуточных циклов основного тона. Кроме того, модуль 220 восстановления кадров, например, может быть выполнен с возможностью удалять одну или более вторых выборок из упомянутого одного из дополнительных промежуточных циклов основного тона или выполнен с возможностью добавлять одну или более вторых выборок в упомянутый один из дополнительных промежуточных циклов основного тона в зависимости от упомянутого разностного числа цикла основного тона. Кроме того, модуль 210 определения, например, может быть выполнен с возможностью определять разностное число конечной части, указывающее то, сколько выборок должно удаляться или добавляться из второго частичного промежуточного цикла основного тона, при этом модуль 220 восстановления кадров выполнен с возможностью удалять одну или более третьих выборок из второго частичного промежуточного цикла основного тона или выполнен с возможностью добавлять одну или более третьих выборок во второй частичный промежуточный цикл основного тона в зависимости от разностного числа конечной части.
Согласно варианту осуществления, модуль 220 восстановления кадров, например, может быть выполнен с возможностью формировать промежуточный кадр в зависимости от упомянутого одного из одного или более доступных циклов основного тона. Кроме того, модуль 210 определения, например, может быть выполнен с возможностью определять одну или более низкоэнергетических частей сигнала для речевого сигнала, состоящего из промежуточного кадра, при этом каждая из одной или более низкоэнергетических частей сигнала является первой частью сигнала для речевого сигнала в промежуточном кадре, причем энергия речевого сигнала ниже во второй части сигнала для речевого сигнала, состоящего из промежуточного кадра. Кроме того, модуль 220 восстановления кадров, например, может быть выполнен с возможностью удалять одну или более выборок, по меньшей мере, из одной из одной или более низкоэнергетических частей сигнала для речевого сигнала или добавлять одну или более выборок, по меньшей мере, в одну из одной или более низкоэнергетических частей сигнала для речевого сигнала, с тем чтобы получать восстановленный кадр.
В конкретном варианте осуществления, модуль 220 восстановления кадров, например, может быть выполнен с возможностью формировать промежуточный кадр таким образом, что промежуточный кадр содержит один или более восстановленных циклов основного тона, так что каждый из одного или более восстановленных циклов основного тона зависит от упомянутого одного из одного или более доступных циклов основного тона. Кроме того, модуль 210 определения, например, может быть выполнен с возможностью определять число выборок, которое должно удаляться из каждого из одного или более восстановленных циклов основного тона. Кроме того, модуль 210 определения, например, может быть выполнен с возможностью определять каждую из одной или более низкоэнергетических частей сигнала таким образом, что для каждой из одной или более низкоэнергетических частей сигнала, число выборок упомянутой низкоэнергетической части сигнала зависит от числа выборок, которое должно удаляться из одного из одного или более восстановленных циклов основного тона, при этом упомянутая низкоэнергетическая часть сигнала расположена в упомянутом одном или более восстановленных циклов основного тона.
В варианте осуществления, модуль 210 определения, например, может быть выполнен с возможностью определять позицию одного или более импульсов речевого сигнала кадра, который должен быть восстановлен в качестве восстановленного кадра. Кроме того, модуль 220 восстановления кадров, например, может быть выполнен с возможностью восстанавливать восстановленный кадр в зависимости от позиции одного или более импульсов речевого сигнала.
Согласно варианту осуществления, модуль 210 определения, например, может быть выполнен с возможностью определять позицию двух или более импульсов речевого сигнала кадра, который должен быть восстановлен в качестве восстановленного кадра, где T[0] представляет собой позицию одного из двух или более импульсов речевого сигнала кадра, который должен быть восстановлен в качестве восстановленного кадра, при этом модуль 210 определения выполнен с возможностью определять позицию (T[i]) дополнительных импульсов из двух или более импульсов речевого сигнала согласно формуле:
Figure 00000083
,
где Tr указывает округленную длину упомянутого одного из одного или более доступных циклов основного тона, и где i является целым числом.
Согласно варианту осуществления, модуль 210 определения, например, может быть выполнен с возможностью определять индекс k последнего импульса речевого сигнала кадра, который должен быть восстановлен в качестве восстановленного кадра, так что:
Figure 00000084
,
где L указывает число выборок восстановленного кадра, где s указывает разностное значение кадра, где T[0] указывает позицию импульса речевого сигнала кадра, который должен быть восстановлен в качестве восстановленного кадра, отличающегося от последнего импульса речевого сигнала, и где Tr указывает округленную длину упомянутого одного из одного или более доступных циклов основного тона.
В варианте осуществления, модуль 210 определения, например, может быть выполнен с возможностью восстанавливать кадр, который должен быть восстановлен в качестве восстановленного кадра, посредством определения параметра
Figure 00000085
, при этом
Figure 00000059
задается согласно формуле:
Figure 00000086
,
при этом кадр, который должен быть восстановлен в качестве восстановленного кадра, содержит M субкадров, где Tp указывает длину упомянутого одного из одного или более доступных циклов основного тона, и где Text указывает длину одного из циклов основного тона, которые должны быть восстановлены, для кадра, который должен быть восстановлен в качестве восстановленного кадра.
Согласно варианту осуществления, модуль 210 определения, например, может быть выполнен с возможностью восстанавливать восстановленный кадр посредством определения округленной длины Tr упомянутого одного из одного или более доступных циклов основного тона на основе формулы:
Figure 00000087
,
где Tp указывает длину упомянутого одного из одного или более доступных циклов основного тона.
В варианте осуществления, модуль 210 определения, например, может быть выполнен с возможностью восстанавливать восстановленный кадр посредством применения формулы:
Figure 00000088
,
где Tp указывает длину упомянутого одного из одного или более доступных циклов основного тона, где Tr указывает округленную длину упомянутого одного из одного или более доступных циклов основного тона, при этом кадр, который должен быть восстановлен в качестве восстановленного кадра, содержит M субкадров, при этом кадр, который должен быть восстановлен в качестве восстановленного кадра, содержит L выборок, и где
Figure 00000059
является действительным числом, указывающим разность между числом выборок упомянутого одного из одного или более доступных циклов основного тона и числом выборок одного из одного или более циклов основного тона, которые должны быть восстановлены.
Ниже подробнее описываются варианты осуществления.
Далее описывается первая группа вариантов осуществления для повторной синхронизации импульсов в отношении формул (25)-(63).
В таких вариантах осуществления, если отсутствует изменение основного тона, последнее запаздывание основного тона используется без округления, сохраняя дробную часть. Периодическая часть составляется с использованием нецелочисленного основного тона и интерполяции, как указано, например, в [MTTA90]. Это уменьшает сдвиг частоты гармоник, по сравнению с использованием округленного запаздывания основного тона, и в силу этого значительно улучшает маскирование тональных или вокализованных сигналов с постоянным основным тоном.
Преимущество проиллюстрировано посредством фиг. 8 и фиг. 9, на которых сигнал, представляющий камертон с потерями кадров, маскируется с использованием, соответственно, округленного и неокругленного дробного запаздывания основного тона. При этом, фиг. 8 иллюстрирует частотно-временное представление речевого сигнала, повторно синхронизируемого с использованием округленного запаздывания основного тона. Напротив, фиг. 9 иллюстрирует частотно-временное представление речевого сигнала, повторно синхронизируемого с использованием неокругленного запаздывания основного тона с дробной частью.
Возникает повышенная вычислительная сложность при использовании дробной части основного тона. Это не должно оказывать влияние на сложность по принципу наихудшего случая, поскольку нет необходимости в повторной синхронизации гортанных импульсов.
Если отсутствует прогнозное изменение основного тона, то нет необходимости в обработке, поясненной ниже.
Если изменение основного тона прогнозируется, варианты осуществления, описанные в отношении формул (25)-(63), предоставляют принципы для определения d, представляющей собой разность, между суммой общего числа (Tc) выборок в пределах циклов основного тона с постоянным основным тоном и суммой общего числа p[i] выборок в пределах циклов основного тона с постепенно изменяющимся основным тоном.
Далее, Tc задается в формуле (15a): Tc=round(last_pitch).
Согласно вариантам осуществления, разность d может определяться с использованием более быстрого и точного алгоритма (подхода на основе быстрого алгоритма для определения d), как описано ниже.
Такой алгоритм, например, может быть основан на следующих принципах:
- В каждом субкадре i: Tc-p[i] выборок для каждого цикла основного тона (длины Tc) должны удаляться (или p[i]-Tc добавляться, если Tc-p[i]<0).
- В каждом субкадре, имеется
Figure 00000089
циклов основного тона.
- Таким образом, для каждого субкадра
Figure 00000090
выборок должны удаляться.
Согласно некоторым вариантам осуществления, округление не проводится, и используется дробный основной тон. В таком случае:
Figure 00000091
.
- Таким образом, для каждого субкадра i,
Figure 00000092
выборок должны удаляться, если δ<0 (или добавляться, если δ>0).
- Таким образом,
Figure 00000093
(где M является числом субкадров в кадре).
Согласно некоторым другим вариантам осуществления, проводится округление. Для целочисленного основного тона (M является числом субкадров в кадре), d задается следующим образом:
Figure 00000094
Согласно варианту осуществления, предусмотрен алгоритм для вычисления d, соответственно:
Figure 00000095
В другом варианте осуществления, последняя строка алгоритма заменена следующим образом:
Figure 00000096
Согласно вариантам осуществления, последний импульс T[n] находится согласно следующему:
Figure 00000097
Согласно варианту осуществления, используется формула для того, чтобы вычислять N. Эта формула получается из формулы (26) согласно следующему:
Figure 00000098
и последний импульс в таком случае имеет индекс N-1.
Согласно этой формуле, N может вычисляться для примеров, проиллюстрированных посредством фиг. 4 и фиг. 5.
Далее описывается принцип без явного поиска последнего импульса, но с учетом позиций импульсов. Такому принципу не требуется N, индекс последнего импульса в составленной периодической части.
Фактическая позиция (T[k]) последнего импульса в составленной периодической части возбуждения определяет число k полных циклов основного тона, в которых выборки удаляются (или добавляются).
Фиг. 12 иллюстрирует позицию T[2] последнего импульса перед удалением d выборок. Относительно вариантов осуществления, описанных относительно формул (25)-(63), ссылка с номером 1210 обозначает d.
В примере по фиг. 12, индекс k последнего импульса равен 2, и имеется 2 полных цикла основного тона, из которых должны удаляться выборки.
После удаления d выборок из сигнала длины L_frame+d, отсутствуют выборки из исходного сигнала помимо L_frame+d выборок. Таким образом, T[k] находится в пределах L_frame+d выборок, и k в силу этого определяется следующим образом:
Figure 00000099
Из формулы (17) и формулы (28) следует, что:
Figure 00000100
Иными словами:
Figure 00000101
Из формулы (30) следует, что:
Figure 00000102
В кодеке, который, например, использует кадры, по меньшей мере, в 20 мс, и в котором наименьшая основная частота речи составляет, например, по меньшей мере, 40 Гц, в большинстве случаев, по меньшей мере, один импульс имеется в маскированном кадре, отличном от невокализованного.
Далее описывается случай, по меньшей мере, с двумя импульсами (k≥1) в отношении формул (32)-(46).
Допустим, что в каждом полном i-ом цикле основного тона между импульсами, Δi выборок должны удаляться, где Δi задается следующим образом:
Figure 00000103
,
где a является неизвестной переменной, которая должна выражаться с точки зрения известных переменных.
Допустим, что Δ0 выборок должны удаляться перед первым импульсом, где Δ0 задается следующим образом:
Figure 00000104
Допустим, что Δk+1 выборок должны удаляться после последнего импульса, где Δk+1 задается следующим образом:
Figure 00000105
Последние два допущения соответствуют формуле (32) с учетом длины частичных первых и последних циклов основного тона.
Каждое из Δi значений является разностью числа выборок. Кроме того, Δ0 является разностью числа выборок. Кроме того, Δk+1 является разностью числа выборок.
Фиг. 13 иллюстрирует речевой сигнал по фиг. 12 с дополнительной иллюстрацией Δ03. Число выборок, которые должны быть удалены в каждом цикле основного тона, схематично представлено в примере на фиг. 13, где k=2. Относительно вариантов осуществления, описанных в отношении формул (25)-(63), ссылка с номером 1210 обозначает d.
Общее число d выборок, которые должны быть удалены, в таком случае связано с Δi следующим образом:
Figure 00000106
Из формул (32)-(35), d может получаться следующим образом:
Figure 00000107
Формула (36) является эквивалентной следующему:
Figure 00000108
Допустим, что последний полный цикл основного тона в маскированном кадре имеет длину p[M-1], т.е.:
Figure 00000109
Из формулы (32) и формулы (38) следует, что:
Figure 00000110
Кроме того, из формулы (37) и формулы (39) следует, что:
Figure 00000111
Figure 00000112
Формула (40) является эквивалентной следующему:
Figure 00000113
Из формулы (17) и формулы (41) следует, что:
Figure 00000114
Формула (42) является эквивалентной следующему:
Figure 00000115
Кроме того, из формулы (43) следует, что:
Figure 00000116
Формула (44) является эквивалентной следующему:
Figure 00000117
Кроме того, формула (45) является эквивалентной следующему:
Figure 00000118
Согласно вариантам осуществления, далее на основе формул (32)-(34), (39) и (46) вычисляется то, сколько выборок должно удаляться или добавляться перед первым импульсом и/или между импульсами, и/или после последнего импульса.
В варианте осуществления, выборки удаляются или добавляются в областях минимальной энергии.
Согласно вариантам осуществления, число выборок, которые должны быть удалены, например, может округляться с использованием следующего:
Figure 00000119
Далее описывается случай с одним импульсом (k=0) в отношении формул (47)-(55).
Если имеется всего один импульс в маскированном кадре, то Δ0 выборок должны удаляться перед импульсом:
Figure 00000120
,
где Δ и a являются неизвестными переменными, которые должны выражаться с точки зрения известных переменных; Δ1 выборок должны удаляться после импульса, где:
Figure 00000121
Затем общее число выборок, которые должны быть удалены, задается следующим образом:
Figure 00000122
Из формул (47)-(49) следует, что:
Figure 00000123
Формула (50) является эквивалентной следующему:
Figure 00000124
Предполагается, что отношение цикла основного тона перед импульсом к циклу основного тона после импульса является идентичным отношению между запаздыванием основного тона в последнем субкадре и первом субкадре в ранее принимаемом кадре:
Figure 00000125
Из формулы (52) следует, что:
Figure 00000126
Кроме того, из формулы (51) и формулы (53) следует, что:
Figure 00000127
Формула (54) является эквивалентной следующему:
Figure 00000128
Имеется
Figure 00000129
выборок, которые должны быть удалены или добавлены в области минимальной энергии перед импульсом и
Figure 00000130
выборок после импульса.
Далее описывается упрощенный принцип согласно вариантам осуществления, который не требует поиска (местоположения) импульсов, в отношении формул (56)-(63).
T[i] обозначает длину i-ого цикла основного тона. После удаления d выборок из сигнала, k полных циклов основного тона и 1 частичный (вплоть до полного) цикл основного тона получаются.
Таким образом:
Figure 00000131
Поскольку циклы основного тона длины T[i] получаются из цикла основного тона длины Tc после удаления некоторых выборок, и поскольку общее число удаленных выборок составляет d, из этого следует, что:
Figure 00000132
Из этого следует, что:
Figure 00000133
Кроме того, из этого следует, что:
Figure 00000134
Согласно вариантам осуществления, можно предполагать линейное изменение запаздывания основного тона:
Figure 00000135
В вариантах осуществления,
Figure 00000136
выборок удаляются в k-ом цикле основного тона.
Согласно вариантам осуществления, в части k-ого цикла основного тона, которая остается в кадре после удаления выборок:
Figure 00000137
выборок
удаляются.
Таким образом, общее число удаленных выборок составляет:
Figure 00000138
Формула (60) является эквивалентной следующему:
Figure 00000139
Кроме того, формула (61) является эквивалентной следующему:
Figure 00000140
Кроме того, формула (62) является эквивалентной следующему:
Figure 00000141
Согласно вариантам осуществления,
Figure 00000142
выборок удаляются в позиции минимальной энергии. Нет необходимости знать местоположение импульсов, поскольку поиск позиции минимальной энергии выполняется в кольцевом буфере, который хранит один цикл основного тона.
Если позиция минимальной энергии находится после первого импульса, и если выборки до первого импульса не удаляются, то может возникать ситуация, в которой запаздывание основного тона постепенно изменяется как
Figure 00000143
(2 цикла основного тона в последнем принимаемом кадре и 3 цикла основного тона в маскированном кадре). Таким образом, возникает неоднородность. Аналогичная неоднородность может возникать после последнего импульса, но не одновременно с тем, когда она случается перед первым импульсом.
С другой стороны, область минимальной энергии должна возникать после первого импульса с большей вероятностью, если импульс находится ближе к началу маскированного кадра. Если первый импульс находится ближе к началу маскированного кадра, более вероятно, что последний цикл основного тона в последнем принимаемом кадре превышает Tc. Чтобы уменьшать вероятность неоднородности изменения основного тона, взвешивание должно использоваться для того, чтобы обеспечивать преимущество для минимальных областей ближе к началу или к концу цикла основного тона.
Согласно вариантам осуществления, описывается реализация предоставленных принципов, которая реализует один или более или все из следующих этапов способа:
1. Сохранение, во временном буфере B, Tc фильтрованных по нижним частотам выборок из конца последнего принимаемого кадра, параллельный поиск на предмет области минимальной энергии. Временный буфер считается кольцевым буфером при поиске области минимальной энергии. (Это может означать, что область минимальной энергии может состоять из нескольких выборок от начала и нескольких выборок от конца цикла основного тона.) Область минимальной энергии, например, может быть местоположением минимума для скользящего окна с длиной в
Figure 00000144
выборок. Например, может использоваться взвешивание, которое, например, может обеспечивать преимущество для минимальных областей ближе к началу цикла основного тона.
2. Копирование выборок из временного буфера B в кадр с пропуском
Figure 00000145
выборок в области минимальной энергии. Таким образом, цикл основного тона с длиной T[0] создается. Задание
Figure 00000146
3. Для i-ого цикла основного тона (0<i<k), копирование выборок из (i-1)-ых циклов основного тона с пропуском
Figure 00000147
выборок в области минимальной энергии. Задание
Figure 00000148
. Повторение этого этапа k-1 раз.
4. Для k-ого цикла основного тона, поиск новой минимальной области в (k-1)-ом цикле основного тона с использованием взвешивания, которое обеспечивает преимущество для минимальных областей ближе к концу цикла основного тона. Затем копирование выборок из (k-1)-ого цикла основного тона с пропуском:
Figure 00000149
выборок в области минимальной энергии.
Если выборки должны добавляться, эквивалентная процедура может использоваться с учетом того, что d<0 и
Figure 00000150
, и того, что добавляется всего |d| выборок, т.е.
Figure 00000151
выборок добавляются в k-ом цикле в позиции минимальной энергии.
Дробный основной тон может использоваться на уровне субкадра, с тем чтобы извлекать d, как описано выше относительно "подхода на основе быстрого алгоритма для определения d", поскольку в любом случае используются аппроксимированные длины цикла основного тона.
Далее описывается вторая группа вариантов осуществления для повторной синхронизации импульсов в отношении формул (64)-(113). Эти варианты осуществления первой группы используют определение формулы (15b):
Figure 00000152
,
где длина последнего периода основного тона составляет Tp, и длина сегмента, который копируется, составляет Tr.
Если некоторые параметры, используемые посредством второй группы вариантов осуществления для повторной синхронизации импульсов, не заданы ниже, варианты осуществления настоящего изобретения могут использовать определения, предоставленные для этих параметров относительно первой группы вариантов осуществления для повторной синхронизации импульсов, заданных выше (см. формулы (25)-(63)).
Некоторые формулы (64)-(113) второй группы вариантов осуществления для повторной синхронизации импульсов могут переопределять некоторые параметры, уже используемые относительно первой группы вариантов осуществления для повторной синхронизации импульсов. В этом случае, предоставленные переопределяемые определения применяются для вторых вариантов осуществления для повторной синхронизации импульсов.
Как описано выше, согласно некоторым вариантам осуществления, периодическая часть, например, может составляться для одного кадра и одного дополнительного субкадра, где длина кадра обозначается как L=Lframe.
Например, для M субкадров в кадре, длина субкадра составляет
Figure 00000153
.
Как уже описано, T[0] является местоположением первого максимального импульса в составленной периодической части возбуждения. Позиции других импульсов задаются следующим образом:
T[i]=T[0]+i*Tr.
Согласно вариантам осуществления, в зависимости от составления периодической части возбуждения, например, после составления периодической части возбуждения, повторная синхронизация гортанных импульсов выполняется для того, чтобы корректировать разность между оцененной целевой позицией (P) последнего импульса в потерянном кадре и его фактической позицией (T[k]) в составленной периодической части возбуждения.
Оцененная целевая позиция (P) последнего импульса в потерянном кадре, например, может определяться косвенно посредством оценки постепенного изменения запаздывания основного тона. Постепенное изменение запаздывания основного тона, например, экстраполировано на основе запаздываний основного тона последних семи субкадров перед потерянным кадром. Постепенно изменяющиеся запаздывания основного тона в каждом субкадре следующие:
Figure 00000154
где:
Figure 00000155
,
и Text является экстраполированным основным тоном, и i является индексом субкадра. Экстраполяция основного тона может выполняться, например, с использованием взвешенной линейной подгонки либо способа из G.718, либо способа из G.729.1, либо любого другого способа для интерполяции основного тона, который, например, учитывает один или более основных тонов из будущих кадров. Экстраполяция основного тона также может быть нелинейной. В варианте осуществления, Text может определяться аналогично тому, как Text определяется выше.
Разность в длине кадра между суммой общего числа (p[i]) выборок в пределах циклов основного тона с постепенно изменяющимся основным тоном и суммой общего числа (Tp) выборок в пределах циклов основного тона с постоянным основным тоном обозначается как s.
Согласно вариантам осуществления, если Text>Tp, то s выборок должны добавляться в кадр, а если Text<Tp , то -s выборок должны удаляться из кадра. После добавления или удаления |s| выборок, последний импульс в маскированном кадре находится в оцененной целевой позиции (P).
Если Text=Tp, нет необходимости в добавлении или удалении выборок в кадре.
Согласно некоторым вариантам осуществления, повторная синхронизация гортанных импульсов выполняется посредством добавления или удаления выборок в областях минимальной энергии всех циклов основного тона.
Далее описывается вычисление параметра s согласно вариантам осуществления в отношении формул (66)-(69).
Согласно некоторым вариантам осуществления, разность s, например, может вычисляться на основе следующих принципов:
- В каждом субкадре i, p[i]-Tr выборок для каждого цикла основного тона (длины
Figure 00000156
) должны добавляться (если p[i]-Tr>0); (или Tr-p[i] выборок должны удаляться, если p[i]-Tr<0).
- В каждом субкадре, имеется
Figure 00000157
циклов основного тона.
- Таким образом, в
Figure 00000158
-том субкадре
Figure 00000159
выборок должны удаляться.
Следовательно, в соответствии с формулой (64), согласно варианту осуществления,
Figure 00000160
, например, может вычисляться согласно формуле (66):
Figure 00000161
Формула (66) является эквивалентной следующему:
Figure 00000162
где формула (67) является эквивалентной следующему:
Figure 00000163
и где формула (68) является эквивалентной следующему:
Figure 00000164
Следует отметить, что s является положительным, если Text>Tp, и выборки должны добавляться и что s является отрицательным, если Text<Tp, и выборки должны удаляться. Таким образом, число выборок, которые должны быть удалены или добавлены, может обозначаться как |s|.
Далее описывается вычисление индекса последнего импульса согласно вариантам осуществления в отношении формул (70)-(73).
Фактическая позиция последнего импульса в составленной периодической части возбуждения
Figure 00000165
определяет число k полных циклов основного тона, в которых выборки удаляются (или добавляются).
Фиг. 12 иллюстрирует речевой сигнал перед удалением выборок.
В примере, проиллюстрированном посредством фиг. 12, индекс k последнего импульса равен 2, и имеется два полных цикла основного тона, из которых должны удаляться выборки. Относительно вариантов осуществления, описанных в отношении формул (64)-(113), ссылка с номером 1210 обозначает |s|.
После удаления |s| выборок из сигнала длины L-s, где L=L_frame, или после добавления |s| выборок в сигнал длины L-s, отсутствуют выборки из исходного сигнала помимо L-s выборок. Следует отметить, что s является положительным, если выборки добавляются, и что s является отрицательным, если выборки удаляются. Таким образом, L-s<L, если выборки добавляются, и L-s>L, если выборки удаляются. Таким образом, T[k] должен быть в пределах L-s выборок, и k в силу этого определяется следующим образом:
Figure 00000166
Из формулы (15b) и формулы (70) следует, что:
Figure 00000167
Иными словами:
Figure 00000168
Согласно варианту осуществления, k, например, может определяться на основе формулы (72) следующим образом:
Figure 00000169
Например, в кодеке с использованием кадров, например, по меньшей мере, в 20 мс и с использованием наименьшей основной частоты речи, по меньшей мере, в 40 Гц, в большинстве случаев, по меньшей мере, один импульс имеется в маскированном кадре, отличном от невокализованного.
Далее описывается вычисление числа выборок, которые должны быть удалены в минимальных областях, согласно вариантам осуществления в отношении формул (74)-(99).
Например, можно предполагать, что
Figure 00000170
выборок в каждом полном i-ом цикле основного тона между импульсами должны удаляться (или добавляться), где
Figure 00000171
задается следующим образом:
Figure 00000172
и где
Figure 00000173
является неизвестной переменной, которая, например, может выражаться с точки зрения известных переменных.
Кроме того, например, можно предполагать, что
Figure 00000174
выборок должны удаляться (или добавляться) перед первым импульсом, где
Figure 00000175
задается следующим образом:
Figure 00000176
Кроме того, например, можно предполагать, что
Figure 00000177
выборок после последнего импульса должны удаляться (или добавляться), где
Figure 00000178
задается следующим образом:
Figure 00000179
Последние два допущения соответствуют формуле (74) с учетом длины частичных первых и последних циклов основного тона.
Число выборок, которые должны быть удалены (или добавлены) в каждом цикле основного тона, схематично представлено в примере на фиг. 13, где k=2. Фиг. 13 иллюстрирует схематичное представление выборок, удаленных в каждом цикле основного тона. Относительно вариантов осуществления, описанных в отношении формул (64)-(113), ссылка с номером 1210 обозначает |s|.
Общее число выборок, которые должны быть удалены (или добавлены),
Figure 00000180
, связано с
Figure 00000170
согласно следующему:
Figure 00000181
Из формул (74)-(77) следует, что:
Figure 00000182
Формула (78) является эквивалентной следующему:
Figure 00000183
Кроме того, формула (79) является эквивалентной следующему:
Figure 00000184
Кроме того, формула (80) является эквивалентной следующему:
Figure 00000185
Кроме того, с учетом формулы (16b), формула (81) является эквивалентной следующему:
Figure 00000186
Согласно вариантам осуществления, можно предполагать, что число выборок, которые должны быть удалены (или добавлены) в полном цикле основного тона после последнего импульса, задается следующим образом:
Figure 00000187
Из формулы (74) и формулы (83) следует, что:
Figure 00000188
Из формулы (82) и формулы (84) следует, что:
Figure 00000189
Формула (85) является эквивалентной следующему:
Figure 00000190
Кроме того, формула (86) является эквивалентной следующему:
Figure 00000191
Кроме того, формула (87) является эквивалентной следующему:
Figure 00000192
Из формулы (16b) и формулы (88) следует, что:
Figure 00000193
Формула (89) является эквивалентной следующему:
Figure 00000194
Кроме того, формула (90) является эквивалентной следующему:
Figure 00000195
Кроме того, формула (91) является эквивалентной следующему:
Figure 00000196
Кроме того, формула (92) является эквивалентной следующему:
Figure 00000197
Из формулы (93) следует, что:
Figure 00000198
Таким образом, например, на основе формулы (94), согласно вариантам осуществления:
- вычисляется то, сколько выборок должно удаляться и/или добавляться перед первым импульсом, и/или
- вычисляется то, сколько выборок должно удаляться и/или добавляться между импульсами, и/или
- вычисляется то, сколько выборок должно удаляться и/или добавляться после последнего импульса.
Согласно некоторым вариантам осуществления, выборки, например, могут удаляться или добавляться в областях минимальной энергии.
Из формулы (85) и формулы (94) следует, что:
Figure 00000199
Формула (95) является эквивалентной следующему:
Figure 00000200
Кроме того, из формулы (84) и формулы (94) следует, что:
Figure 00000201
Формула (97) является эквивалентной следующему:
Figure 00000202
Согласно варианту осуществления, число выборок, которые должны быть удалены после последнего импульса, может вычисляться на основе формулы (97) согласно следующему:
Figure 00000203
Следует отметить, что согласно вариантам осуществления,
Figure 00000204
, и
Figure 00000205
являются положительными, и что знак
Figure 00000206
определяет то, должны выборки добавляться или удаляться.
По причинам сложности, в некоторых вариантах осуществления, требуется добавлять или удалять целое число выборок, и в силу этого в таких вариантах осуществления,
Figure 00000207
и
Figure 00000208
, например, может округляться. В других вариантах осуществления, другие принципы с использованием интерполяции формы сигнала, например, альтернативно или дополнительно могут использоваться для того, чтобы не допускать округления, но с увеличенной сложностью.
Далее описывается алгоритм для повторной синхронизации импульсов согласно вариантам осуществления в отношении формул (100)-(113).
Согласно вариантам осуществления, входные параметры такого алгоритма, например, могут быть следующими:
L - длина кадра
M - число субкадров
Tp - длина цикла основного тона в конце последнего принимаемого кадра
Text - длина цикла основного тона в конце маскированного кадра
src_exc - входной сигнал возбуждения, который создан с копированием фильтрованного по нижним частотам последнего цикла основного тона сигнала возбуждения из конца последнего принимаемого кадра, как описано выше
dst_exc - выходной сигнал возбуждения, созданный из src_exc с использованием алгоритма, описанного здесь для повторной синхронизации импульсов
Согласно вариантам осуществления, такой алгоритм может содержать один или более или все из следующих этапов:
- вычисление изменения основного тона в расчете на субкадр на основе формулы (65):
Figure 00000209
- вычисление округленного начального основного тона на основе формулы (15b):
Figure 00000210
- вычисление числа выборок, которые должны добавляться (удаляться, если отрицательное) на основе формулы (69):
Figure 00000211
- нахождение местоположения первого максимального импульса
Figure 00000212
из числа первых выборок
Figure 00000213
в составленной периодической части возбуждения src_exc.
- получение индекса последнего импульса в повторно синхронизируемом кадре dst_exc на основе формулы (73):
Figure 00000214
- вычисление
Figure 00000215
-дельта выборок, которые должны быть добавлены или удалены между последовательными циклами, на основе формулы (94):
Figure 00000216
- вычисление числа выборок, которые должны быть добавлены или удалены перед первым импульсом, на основе формулы (96):
Figure 00000217
- округление числа выборок, которые должны быть добавлены или удалены, в меньшую сторону перед первым импульсом и сохранение в запоминающем устройстве дробной части:
Figure 00000218
- для каждой области между 2 импульсами, вычисление числа выборок, которые должны быть добавлены или удалены, на основе формулы (98):
Figure 00000219
- округление числа выборок, которые должны быть добавлены или удалены, в меньшую сторону между 2 импульсами, с учетом оставшейся дробной части из предыдущего округления:
Figure 00000220
- если вследствие добавленного
Figure 00000221
для некоторого
Figure 00000222
возникает то, что
Figure 00000223
, перестановка значений для
Figure 00000224
и
Figure 00000225
.
- вычисление числа выборок, которые должны быть добавлены или удалены после последнего импульса, на основе формулы (99):
Figure 00000226
- затем вычисление максимального числа выборок, которые должны быть добавлены или удалены, для областей минимальной энергии:
Figure 00000227
- нахождение местоположения сегмента
Figure 00000228
минимальной энергии между первыми двумя импульсами в src_exc, который имеет длину
Figure 00000229
. Для каждого последовательного сегмента минимальной энергии между двумя импульсами, позиция вычисляется следующим образом:
Figure 00000230
- если
Figure 00000231
то вычисление местоположения сегмента минимальной энергии перед первым импульсом в src_exc с использованием
Figure 00000232
. Иначе, нахождение местоположения сегмента
Figure 00000233
минимальной энергии перед первым импульсом в src_exc, который имеет длину
Figure 00000234
.
- если
Figure 00000235
то вычисление местоположения сегмента минимальной энергии после последнего импульса в src_exc с использованием
Figure 00000236
. Иначе, нахождение местоположения сегмента
Figure 00000237
минимальной энергии после последнего импульса в src_exc, который имеет длину
Figure 00000238
.
- если всего имеется один импульс в маскированном сигнале dst_exc возбуждения, т.е. если k равен 0, ограничение поиска Pmin[1] как L-s; Pmin[1] в таком случае указывает на местоположение сегмента минимальной энергии после последнего импульса в src_exc.
- если s>0, добавление
Figure 00000239
выборок в местоположении Pmin[i] для
Figure 00000240
в сигнал src_exc и его сохранение в dst_exc, иначе, если
Figure 00000241
, удаление
Figure 00000239
выборок в местоположении Pmin[i] для
Figure 00000240
из сигнала src_exc и его сохранение в dst_exc. Имеется k+2 областей, в которых выборки добавляются или удаляются.
Фиг. 2c иллюстрирует систему для восстановления кадра, содержащего речевой сигнал согласно варианту осуществления. Система содержит устройство 100 для определения оцененного запаздывания основного тона согласно одному из вышеописанных вариантов осуществления и устройство 200 для восстановления кадра, при этом устройство для восстановления кадра выполнено с возможностью восстанавливать кадр в зависимости от оцененного запаздывания основного тона. Оцененное запаздывание основного тона представляет собой запаздывание основного тона речевого сигнала.
В варианте осуществления, восстановленный кадр, например, может быть ассоциирован с одним или более доступных кадров, причем упомянутые один или более доступных кадров представляют собой, по меньшей мере, один из одного или более предшествующих кадров восстановленного кадра и одного или более последующих кадров восстановленного кадра, при этом один или более доступных кадров содержат один или более циклов основного тона в качестве одного или более доступных циклов основного тона. Устройство 200 для восстановления кадра, например, может представлять собой устройство для восстановления кадра согласно одному из вышеописанных вариантов осуществления.
Хотя некоторые аспекты описаны в контексте устройства, очевидно, что эти аспекты также представляют описание соответствующего способа, при этом блок или устройство соответствует этапу способа либо признаку этапа способа. Аналогично, аспекты, описанные в контексте этапа способа, также представляют описание соответствующего блока или элемента, или признака соответствующего устройства.
Изобретаемый разложенный сигнал может быть сохранен на цифровом носителе хранения данных или может быть передан по среде передачи, такой как беспроводная среда передачи или проводная среда передачи, к примеру, Интернет.
В зависимости от определенных требований к реализации, варианты осуществления изобретения могут быть реализованы в аппаратных средствах или в программном обеспечении. Реализация может выполняться с использованием цифрового носителя хранения данных, например, гибкого диска, DVD, CD, ROM, PROM, EPROM, EEPROM или флэш-памяти, имеющего сохраненные электронночитаемые управляющие сигналы, которые взаимодействуют (или допускают взаимодействие) с программируемой компьютерной системой таким образом, что осуществляется соответствующий способ.
Некоторые варианты осуществления согласно изобретению содержат энергонезависимый носитель хранения данных, имеющий электронночитаемые управляющие сигналы, которые допускают взаимодействие с программируемой компьютерной системой таким образом, что осуществляется один из способов, описанных в данном документе.
В общем, варианты осуществления настоящего изобретения могут быть реализованы как компьютерный программный продукт с программным кодом, при этом программный код выполнен с возможностью осуществления одного из способов, когда компьютерный программный продукт работает на компьютере. Программный код, например, может быть сохранен на машиночитаемом носителе.
Другие варианты осуществления содержат компьютерную программу для осуществления одного из способов, описанных в данном документе, сохраненную на машиночитаемом носителе.
Другими словами, следовательно, вариант осуществления изобретаемого способа представляет собой компьютерную программу, имеющую программный код для осуществления одного из способов, описанных в данном документе, когда компьютерная программа работает на компьютере.
Следовательно, дополнительный вариант осуществления изобретаемых способов представляет собой носитель хранения данных (цифровой носитель хранения данных или машиночитаемый носитель), содержащий записанную компьютерную программу для осуществления одного из способов, описанных в данном документе.
Следовательно, дополнительный вариант осуществления изобретаемого способа представляет собой поток данных или последовательность сигналов, представляющих компьютерную программу для осуществления одного из способов, описанных в данном документе. Поток данных или последовательность сигналов, например, может быть выполнена с возможностью передачи через соединение для передачи данных, например, через Интернет.
Дополнительный вариант осуществления содержит средство обработки, например, компьютер или программируемое логическое устройство, выполненное с возможностью осуществлять один из способов, описанных в данном документе.
Дополнительный вариант осуществления содержит компьютер, имеющий установленную компьютерную программу для осуществления одного из способов, описанных в данном документе.
В некоторых вариантах осуществления, программируемое логическое устройство (например, программируемая пользователем вентильная матрица) может быть использовано для того, чтобы выполнять часть или все из функциональностей способов, описанных в данном документе. В некоторых вариантах осуществления, программируемая пользователем вентильная матрица может взаимодействовать с микропроцессором, чтобы осуществлять один из способов, описанных в данном документе. В общем, способы предпочтительно осуществляются посредством любого устройства.
Вышеописанные варианты осуществления являются просто иллюстративными в отношении принципов настоящего изобретения. Следует понимать, что модификации и изменения компоновок и подробностей, описанных в данном документе, должны быть очевидными для специалистов в данной области техники. Следовательно, они подразумеваются как ограниченные только посредством объема нижеприведенной формулы изобретения, а не посредством конкретных подробностей, представленных посредством описания и пояснения вариантов осуществления в данном документе.
БИБЛИОГРАФИЧЕСКИЙ СПИСОК
[3GP09] 3GPP; Technical Specification Group Services and System Aspects, Extended adaptive multi-rate-wideband (AMR-WB+) codec, 3GPP TS 26.290, 3rd Generation Partnership Project, 2009 год.
[3GP12a], Adaptive multi-rate (AMR) speech codec; error concealment of lost frames (release 11), 3GPP TS 26.091, 3rd Generation Partnership Project, сентябрь 2012 года.
[3GP12b], Speech codec speech processing functions; adaptive multi-rate-wideband (AMRWB) speech codec; error concealment of erroneous or lost frames, 3GPP TS 26.191, 3rd Generation Partnership Project, сентябрь 2012 года.
[Gao] Yang Gao, Pitch prediction for packet loss concealment, Патент (Европа) 2002427 B1.
[ITU03] ITU-T, Wideband coding of speech at around 16 kbit/s using adaptive multi-rate wideband (amr-wb), Recommendation ITU-T G.722.2, Telecommunication Standardization Sector of ITU, июль 2003 года.
[ITU06a], G.722 Appendix III: A high-complexity algorithm for packet loss concealment for G.722, ITU-T Recommendation, ITU-T, ноябрь 2006 года.
[ITU06b], G.729.1: G.729-based embedded variable bit-rate coder: An 8-32 kbit/s scalable wideband coder bitstream interoperable with g.729, Recommendation ITU-T G.729.1, Telecommunication Standardization Sector of ITU, май 2006 года.
[ITU07], G.722 Appendix IV: A low-complexity algorithm for packet loss concealment with G.722, ITU-T Recommendation, ITU-T, август 2007 года.
[ITU08a], G.718: Frame error robust narrow-band and wideband embedded variable bit-rate coding of speech and audio from 8-32 kbit/s, Recommendation ITU-T G.718, Telecommunication Standardization Sector of ITU, июнь 2008 года.
[ITU08b], G.719: Low-complexity, full-band audio coding for high-quality, conversational applications, Recommendation ITU-T G.719, Telecommunication Standardization Sector of ITU, июнь 2008 года.
[ITU12], G.729: Coding of speech at 8 kbit/s using conjugate-structure algebraic-code-excited linear prediction (cs-acelp), Recommendation ITU-T G.729, Telecommunication Standardization Sector of ITU, июнь 2012 года.
[MCZ11] Xinwen Mu, Hexin Chen and Yan Zhao, A frame erasure concealment method based on pitch and gain linear prediction for AMR-WB codec, Consumer Electronics (ICCE), 2011 IEEE International Conference on, январь 2011 года, стр. 815-816.
[MTTA90] J.S. Marques, I. Trancoso, J.M. Tribolet and L.B. Almeida, Improved pitch prediction with fractional delays in celp coding, Acoustics, Speech and Signal Processing, 1990. ICASSP-90., 1990 International Conference on, 1990 год, стр. 665-668, том 2.
[VJGS12] Tommy Vaillancourt, Milan Jelinek, Philippe Gournay and Redwan Salami, Method and device for efficient frame erasure concealment in speech codecs, US 8255207 B2, 2012 год.

Claims (56)

1. Устройство для восстановления кадра посредством определения оцененного запаздывания основного тона, содержащее:
- входной интерфейс (110) для приема множества исходных значений запаздывания основного тона, и
- модуль (120) оценки запаздывания основного тона для оценки оцененного запаздывания основного тона,
- при этом модуль (120) оценки запаздывания основного тона выполнен с возможностью оценивать оцененное запаздывание основного тона в зависимости от множества исходных значений запаздывания основного тона и в зависимости от множества информационных значений, при этом для каждого исходного значения запаздывания основного тона из множества исходных значений запаздывания основного тона, информационное значение из множества информационных значений назначается упомянутому исходному значению запаздывания основного тона,
причем модуль (120) оценки запаздывания основного тона выполнен с возможностью оценивать оцененное запаздывание основного тона посредством минимизации функции ошибок, которая зависит от множества исходных значений и от множества информационных значений,
причем устройство выполнено с возможностью восстанавливать кадр с использованием оцененного запаздывания основного тона.
2. Устройство по п. 1, в котором модуль (120) оценки запаздывания основного тона выполнен с возможностью оценивать оцененное запаздывание основного тона в зависимости от множества исходных значений запаздывания основного тона и в зависимости от множества значений усиления основного тона в качестве множества информационных значений, при этом для каждого исходного значения запаздывания основного тона из множества исходных значений запаздывания основного тона, значение усиления основного тона из множества значений усиления основного тона назначается упомянутому исходному значению запаздывания основного тона.
3. Устройство по п. 2, в котором каждое из множества значений усиления основного тона относится к адаптивной таблице кодирования.
4. Устройство по одному из пп. 1-3, в котором модуль оценки запаздывания основного тона выполнен с возможностью оценивать оцененное запаздывание основного тона посредством определения двух параметров a, b посредством минимизации функции ошибок согласно следующему:
Figure 00000242
,
- где a является действительным числом,
- где b является действительным числом,
- где k является целым числом с k≥2, и
- где P(i) является i-ым исходным значением запаздывания основного тона,
- где gp(i) является i-ым значением усиления основного тона, назначаемым i-ому значению P(i) запаздывания основного тона,
причем err является функцией ошибок.
5. Устройство по одному из пп. 1-3, в котором модуль оценки запаздывания основного тона выполнен с возможностью оценивать оцененное запаздывание основного тона посредством определения двух параметров a, b посредством минимизации функции ошибок согласно следующему:
Figure 00000243
,
- где a является действительным числом,
- где b является действительным числом,
- где P(i) является i-ым исходным значением запаздывания основного тона,
- где gp(i) является i-ым значением усиления основного тона, назначаемым i-ому значению P(i) запаздывания основного тона,
причем err является функцией ошибок.
6. Устройство по одному из пп. 1-3, в котором модуль оценки запаздывания основного тона выполнен с возможностью определять оцененное запаздывание p основного тона согласно следующему:
p=a*i+b.
7. Устройство по п. 1, в котором модуль (120) оценки запаздывания основного тона выполнен с возможностью оценивать оцененное запаздывание основного тона в зависимости от множества исходных значений запаздывания основного тона и в зависимости от множества значений времени в качестве множества информационных значений, при этом для каждого исходного значения запаздывания основного тона из множества исходных значений запаздывания основного тона, значение времени из множества значений времени назначается упомянутому исходному значению запаздывания основного тона.
8. Устройство по п. 7, в котором модуль оценки запаздывания основного тона выполнен с возможностью оценивать оцененное запаздывание основного тона посредством определения двух параметров a, b посредством минимизации функции ошибок согласно следующему:
Figure 00000244
,
- где a является действительным числом,
- где b является действительным числом,
- где k является целым числом с k≥2, и
- где P(i) является i-ым исходным значением запаздывания основного тона,
- где timepassed(i) является i-ым значением времени, назначаемым i-ому значению P(i) запаздывания основного тона,
причем err является функцией ошибок.
9. Устройство по п. 7, в котором модуль оценки запаздывания основного тона выполнен с возможностью оценивать оцененное запаздывание основного тона посредством определения двух параметров a, b посредством минимизации функции ошибок согласно следующему:
Figure 00000245
,
- где a является действительным числом,
- где b является действительным числом,
- где P(i) является i-ым исходным значением запаздывания основного тона,
- где timepassed(i) является i-ым значением времени, назначаемым i-ому значению P(i) запаздывания основного тона,
причем err является функцией ошибок.
10. Устройство по п. 1, при этом оцененное запаздывание основного тона представляет собой запаздывание основного тона речевого сигнала.
11. Устройство по п. 10,
причем восстановленный кадр ассоциирован с одним или более доступных кадров, причем упомянутые один или более доступных кадров представляют собой, по меньшей мере, один из одного или более предшествующих кадров восстановленного кадра и одного или более последующих кадров восстановленного кадра, при этом один или более доступных кадров содержат один или более циклов основного тона в качестве одного или более доступных циклов основного тона, и
при этом устройство для восстановления кадра содержит:
- модуль (210) определения для определения разности (
Figure 00000246
;
Figure 00000247
;
Figure 00000248
) числа выборок, указывающей разность между числом выборок одного из одного или более доступных циклов основного тона и числом выборок первого цикла основного тона, который должен быть восстановлен, и
- модуль (220) восстановления кадров для восстановления восстановленного кадра посредством восстановления, в зависимости от разности (
Figure 00000246
;
Figure 00000247
;
Figure 00000248
) числа выборок и в зависимости от выборок упомянутого одного из одного или более доступных циклов основного тона, первого цикла основного тона, который должен быть восстановлен в качестве первого восстановленного цикла основного тона,
- при этом модуль (220) восстановления кадров выполнен с возможностью восстанавливать восстановленный кадр таким образом, что восстановленный кадр полностью или частично содержит первый восстановленный цикл основного тона, таким образом, что восстановленный кадр полностью или частично содержит второй восстановленный цикл основного тона, и таким образом, что число выборок первого восстановленного цикла основного тона отличается от числа выборок второго восстановленного цикла основного тона,
- при этом модуль (210) определения выполнен с возможностью определять разность (
Figure 00000246
;
Figure 00000247
;
Figure 00000248
) числа выборок в зависимости от оцененного запаздывания основного тона.
12. Способ для определения оцененного запаздывания основного тона, содержащий этапы, на которых:
- принимают множество исходных значений запаздывания основного тона, и
- оценивают оцененное запаздывание основного тона, и
- восстанавливают кадр с использованием оцененного запаздывания основного тона,
- при этом оценка оцененного запаздывания основного тона проводится в зависимости от множества исходных значений запаздывания основного тона и в зависимости от множества информационных значений, при этом для каждого исходного значения запаздывания основного тона из множества исходных значений запаздывания основного тона, информационное значение из множества информационных значений назначается упомянутому исходному значению запаздывания основного тона,
причем оценка оцененного запаздывания основного тона проводится посредством минимизации функции ошибок, которая зависит от множества исходных значений и от множества информационных значений.
13. Машиночитаемый носитель, содержащий компьютерную программу для реализации способа по п. 11 при ее выполнении на компьютере или в процессоре сигналов.
RU2016101599A 2013-06-21 2014-06-16 Устройство и способ для улучшенного маскирования адаптивной таблицы кодирования при acelp-образном маскировании с использованием улучшенной оценки запаздывания основного тона RU2665253C2 (ru)

Applications Claiming Priority (5)

Application Number Priority Date Filing Date Title
EP13173157 2013-06-21
EP13173157.2 2013-06-21
EP14166990.3 2014-05-05
EP14166990 2014-05-05
PCT/EP2014/062589 WO2014202539A1 (en) 2013-06-21 2014-06-16 Apparatus and method for improved concealment of the adaptive codebook in acelp-like concealment employing improved pitch lag estimation

Publications (2)

Publication Number Publication Date
RU2016101599A RU2016101599A (ru) 2017-07-26
RU2665253C2 true RU2665253C2 (ru) 2018-08-28

Family

ID=50942300

Family Applications (1)

Application Number Title Priority Date Filing Date
RU2016101599A RU2665253C2 (ru) 2013-06-21 2014-06-16 Устройство и способ для улучшенного маскирования адаптивной таблицы кодирования при acelp-образном маскировании с использованием улучшенной оценки запаздывания основного тона

Country Status (18)

Country Link
US (3) US10381011B2 (ru)
EP (3) EP3540731A3 (ru)
JP (4) JP6482540B2 (ru)
KR (2) KR20180042468A (ru)
CN (2) CN105408954B (ru)
AU (2) AU2014283393A1 (ru)
BR (2) BR112015031824B1 (ru)
CA (1) CA2915805C (ru)
ES (1) ES2746322T3 (ru)
HK (1) HK1224427A1 (ru)
MX (1) MX371425B (ru)
MY (1) MY177559A (ru)
PL (1) PL3011554T3 (ru)
PT (1) PT3011554T (ru)
RU (1) RU2665253C2 (ru)
SG (1) SG11201510463WA (ru)
TW (2) TWI711033B (ru)
WO (1) WO2014202539A1 (ru)

Families Citing this family (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
SG11201510463WA (en) * 2013-06-21 2016-01-28 Fraunhofer Ges Forschung Apparatus and method for improved concealment of the adaptive codebook in acelp-like concealment employing improved pitch lag estimation
CN105453173B (zh) 2013-06-21 2019-08-06 弗朗霍夫应用科学研究促进协会 利用改进的脉冲再同步化的似acelp隐藏中的自适应码本的改进隐藏的装置及方法
JP6306177B2 (ja) 2013-10-31 2018-04-04 フラウンホッファー−ゲゼルシャフト ツァ フェルダールング デァ アンゲヴァンテン フォアシュンク エー.ファオ 時間ドメイン励振信号を修正するエラーコンシールメントを用いて、復号化されたオーディオ情報を提供する、オーディオデコーダおよび復号化されたオーディオ情報を提供する方法
PT3285255T (pt) 2013-10-31 2019-08-02 Fraunhofer Ges Forschung Descodificador de áudio e método para fornecer uma informação de áudio descodificada utilizando uma ocultação de erro baseada num sinal de excitação no domínio de tempo
EP3427257B1 (en) 2016-03-07 2021-05-05 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Error concealment unit, audio decoder, and related method and computer program fading out a concealed audio frame out according to different damping factors for different frequency bands
BR112018068060A2 (pt) 2016-03-07 2019-01-08 Fraunhofer Ges Forschung unidade de ocultação de erros, codificador de áudio e método relacionado e programa de computador usando características de uma representação decodificada de um quadro de áudio adequadamente decodificado
JP6718516B2 (ja) 2016-03-07 2020-07-08 フラウンホッファー−ゲゼルシャフト ツァ フェルダールング デァ アンゲヴァンテン フォアシュンク エー.ファオ ハイブリッドコンシールメント方法:オーディオコーデックにおける周波数および時間ドメインパケットロスの組み合わせ

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5781880A (en) * 1994-11-21 1998-07-14 Rockwell International Corporation Pitch lag estimation using frequency-domain lowpass filtering of the linear predictive coding (LPC) residual
US6035271A (en) * 1995-03-15 2000-03-07 International Business Machines Corporation Statistical methods and apparatus for pitch extraction in speech recognition, synthesis and regeneration
US20020147583A1 (en) * 2000-09-15 2002-10-10 Yang Gao System for coding speech information using an adaptive codebook with enhanced variable resolution scheme
US20060089833A1 (en) * 1998-08-24 2006-04-27 Conexant Systems, Inc. Pitch determination based on weighting of pitch lag candidates
RU2389085C2 (ru) * 2004-02-18 2010-05-10 Войсэйдж Корпорейшн Способы и устройства для введения низкочастотных предыскажений в ходе сжатия звука на основе acelp/tcx
RU2418324C2 (ru) * 2005-05-31 2011-05-10 Майкрософт Корпорейшн Поддиапазонный речевой кодекс с многокаскадными таблицами кодирования и избыточным кодированием
US20120072209A1 (en) * 2010-09-16 2012-03-22 Qualcomm Incorporated Estimating a pitch lag

Family Cites Families (58)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5179594A (en) * 1991-06-12 1993-01-12 Motorola, Inc. Efficient calculation of autocorrelation coefficients for CELP vocoder adaptive codebook
US5187745A (en) * 1991-06-27 1993-02-16 Motorola, Inc. Efficient codebook search for CELP vocoders
US5621852A (en) * 1993-12-14 1997-04-15 Interdigital Technology Corporation Efficient codebook structure for code excited linear prediction coding
KR960009530B1 (en) 1993-12-20 1996-07-20 Korea Electronics Telecomm Method for shortening processing time in pitch checking method for vocoder
EP0744069B1 (en) 1994-02-01 2002-06-05 QUALCOMM Incorporated Burst excited linear prediction
US5792072A (en) * 1994-06-06 1998-08-11 University Of Washington System and method for measuring acoustic reflectance
US5699485A (en) * 1995-06-07 1997-12-16 Lucent Technologies Inc. Pitch delay modification during frame erasures
US5946650A (en) * 1997-06-19 1999-08-31 Tritech Microelectronics, Ltd. Efficient pitch estimation method
US6449590B1 (en) 1998-08-24 2002-09-10 Conexant Systems, Inc. Speech encoder using warping in long term preprocessing
US6507814B1 (en) * 1998-08-24 2003-01-14 Conexant Systems, Inc. Pitch determination using speech classification and prior pitch estimation
US6556966B1 (en) * 1998-08-24 2003-04-29 Conexant Systems, Inc. Codebook structure for changeable pulse multimode speech coding
US6456964B2 (en) * 1998-12-21 2002-09-24 Qualcomm, Incorporated Encoding of periodic speech using prototype waveforms
US6782360B1 (en) * 1999-09-22 2004-08-24 Mindspeed Technologies, Inc. Gain quantization for a CELP speech coder
WO2001082293A1 (en) * 2000-04-24 2001-11-01 Qualcomm Incorporated Method and apparatus for predictively quantizing voiced speech
US6584438B1 (en) * 2000-04-24 2003-06-24 Qualcomm Incorporated Frame erasure compensation method in a variable rate speech coder
SE519976C2 (sv) * 2000-09-15 2003-05-06 Ericsson Telefon Ab L M Kodning och avkodning av signaler från flera kanaler
US7590525B2 (en) 2001-08-17 2009-09-15 Broadcom Corporation Frame erasure concealment for predictive speech coding based on extrapolation of speech waveform
JP2003140699A (ja) * 2001-11-07 2003-05-16 Fujitsu Ltd 音声復号化装置
KR20040104508A (ko) * 2002-03-12 2004-12-10 딜리시움 네트웍스 피티와이 리미티드 오디오 변환부호화기에서 적응 코드북 피치 지연 연산을위한 방법
CA2388439A1 (en) 2002-05-31 2003-11-30 Voiceage Corporation A method and device for efficient frame erasure concealment in linear predictive based speech codecs
US6781880B2 (en) * 2002-07-19 2004-08-24 Micron Technology, Inc. Non-volatile memory erase circuitry
US7137626B2 (en) 2002-07-29 2006-11-21 Intel Corporation Packet loss recovery
WO2004034379A2 (en) 2002-10-11 2004-04-22 Nokia Corporation Methods and devices for source controlled variable bit-rate wideband speech coding
US7613607B2 (en) * 2003-12-18 2009-11-03 Nokia Corporation Audio enhancement in coded domain
WO2006009074A1 (ja) * 2004-07-20 2006-01-26 Matsushita Electric Industrial Co., Ltd. 音声復号化装置および補償フレーム生成方法
US7860710B2 (en) * 2004-09-22 2010-12-28 Texas Instruments Incorporated Methods, devices and systems for improved codebook search for voice codecs
CN101167125B (zh) 2005-03-11 2012-02-29 高通股份有限公司 用于对声码器内的帧进行相位匹配的方法及设备
AU2006232361B2 (en) * 2005-04-01 2010-12-23 Qualcomm Incorporated Methods and apparatus for encoding and decoding an highband portion of a speech signal
PL1875463T3 (pl) * 2005-04-22 2019-03-29 Qualcomm Incorporated Układy, sposoby i urządzenie do wygładzania współczynnika wzmocnienia
US8255207B2 (en) 2005-12-28 2012-08-28 Voiceage Corporation Method and device for efficient frame erasure concealment in speech codecs
US7457746B2 (en) 2006-03-20 2008-11-25 Mindspeed Technologies, Inc. Pitch prediction for packet loss concealment
JP5052514B2 (ja) 2006-07-12 2012-10-17 パナソニック株式会社 音声復号装置
US8532984B2 (en) * 2006-07-31 2013-09-10 Qualcomm Incorporated Systems, methods, and apparatus for wideband encoding and decoding of active frames
DE602007004502D1 (de) * 2006-08-15 2010-03-11 Broadcom Corp Neuphasierung des status eines dekodiergerätes nach einem paketverlust
FR2907586A1 (fr) 2006-10-20 2008-04-25 France Telecom Synthese de blocs perdus d'un signal audionumerique,avec correction de periode de pitch.
PT2102619T (pt) 2006-10-24 2017-05-25 Voiceage Corp Método e dispositivo para codificação de tramas de transição em sinais de voz
CN101046964B (zh) 2007-04-13 2011-09-14 清华大学 基于重叠变换压缩编码的错误隐藏帧重建方法
WO2008151408A1 (en) 2007-06-14 2008-12-18 Voiceage Corporation Device and method for frame erasure concealment in a pcm codec interoperable with the itu-t recommendation g.711
JP4928366B2 (ja) * 2007-06-25 2012-05-09 日本電信電話株式会社 ピッチ探索装置、パケット消失補償装置、それらの方法、プログラム及びその記録媒体
US8527265B2 (en) 2007-10-22 2013-09-03 Qualcomm Incorporated Low-complexity encoding/decoding of quantized MDCT spectrum in scalable speech and audio codecs
US8515767B2 (en) 2007-11-04 2013-08-20 Qualcomm Incorporated Technique for encoding/decoding of codebook indices for quantized MDCT spectrum in scalable speech and audio codecs
CN101261833B (zh) 2008-01-24 2011-04-27 清华大学 一种使用正弦模型进行音频错误隐藏处理的方法
CN101335000B (zh) 2008-03-26 2010-04-21 华为技术有限公司 编码的方法及装置
KR101228165B1 (ko) 2008-06-13 2013-01-30 노키아 코포레이션 프레임 에러 은폐 방법, 장치 및 컴퓨터 판독가능한 저장 매체
US8768690B2 (en) 2008-06-20 2014-07-01 Qualcomm Incorporated Coding scheme selection for low-bit-rate applications
US8428938B2 (en) 2009-06-04 2013-04-23 Qualcomm Incorporated Systems and methods for reconstructing an erased speech frame
US8415911B2 (en) * 2009-07-17 2013-04-09 Johnson Electric S.A. Power tool with a DC brush motor and with a second power source
WO2011013980A2 (en) 2009-07-27 2011-02-03 Lg Electronics Inc. A method and an apparatus for processing an audio signal
CN102648493B (zh) * 2009-11-24 2016-01-20 Lg电子株式会社 音频信号处理方法和设备
US8428936B2 (en) 2010-03-05 2013-04-23 Motorola Mobility Llc Decoder for audio signal including generic audio and speech frames
PL3451333T3 (pl) 2010-07-08 2023-01-23 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Koder wykorzystujący kasowanie aliasingu w przód
WO2012158159A1 (en) 2011-05-16 2012-11-22 Google Inc. Packet loss concealment for audio codec
US8620646B2 (en) * 2011-08-08 2013-12-31 The Intellisis Corporation System and method for tracking sound pitch across an audio signal using harmonic envelope
US8781880B2 (en) * 2012-06-05 2014-07-15 Rank Miner, Inc. System, method and apparatus for voice analytics of recorded audio
CN103714821A (zh) 2012-09-28 2014-04-09 杜比实验室特许公司 基于位置的混合域数据包丢失隐藏
CN103272418B (zh) 2013-05-28 2015-08-05 佛山市金凯地过滤设备有限公司 一种压滤机
CN105453173B (zh) 2013-06-21 2019-08-06 弗朗霍夫应用科学研究促进协会 利用改进的脉冲再同步化的似acelp隐藏中的自适应码本的改进隐藏的装置及方法
SG11201510463WA (en) * 2013-06-21 2016-01-28 Fraunhofer Ges Forschung Apparatus and method for improved concealment of the adaptive codebook in acelp-like concealment employing improved pitch lag estimation

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5781880A (en) * 1994-11-21 1998-07-14 Rockwell International Corporation Pitch lag estimation using frequency-domain lowpass filtering of the linear predictive coding (LPC) residual
US6035271A (en) * 1995-03-15 2000-03-07 International Business Machines Corporation Statistical methods and apparatus for pitch extraction in speech recognition, synthesis and regeneration
US20060089833A1 (en) * 1998-08-24 2006-04-27 Conexant Systems, Inc. Pitch determination based on weighting of pitch lag candidates
US20020147583A1 (en) * 2000-09-15 2002-10-10 Yang Gao System for coding speech information using an adaptive codebook with enhanced variable resolution scheme
RU2389085C2 (ru) * 2004-02-18 2010-05-10 Войсэйдж Корпорейшн Способы и устройства для введения низкочастотных предыскажений в ходе сжатия звука на основе acelp/tcx
RU2418324C2 (ru) * 2005-05-31 2011-05-10 Майкрософт Корпорейшн Поддиапазонный речевой кодекс с многокаскадными таблицами кодирования и избыточным кодированием
US20120072209A1 (en) * 2010-09-16 2012-03-22 Qualcomm Incorporated Estimating a pitch lag

Also Published As

Publication number Publication date
EP3540731A3 (en) 2019-10-30
TWI711033B (zh) 2020-11-21
TW201812743A (zh) 2018-04-01
JP2019066867A (ja) 2019-04-25
AU2014283393A1 (en) 2016-02-04
PT3011554T (pt) 2019-10-24
KR20180042468A (ko) 2018-04-25
EP4375993A2 (en) 2024-05-29
JP2016525220A (ja) 2016-08-22
CA2915805C (en) 2021-10-19
US20190304473A1 (en) 2019-10-03
TWI613642B (zh) 2018-02-01
US10381011B2 (en) 2019-08-13
BR112015031824A2 (pt) 2017-07-25
JP2023072050A (ja) 2023-05-23
MY177559A (en) 2020-09-18
US20160118053A1 (en) 2016-04-28
PL3011554T3 (pl) 2019-12-31
BR112015031181A2 (pt) 2017-07-25
AU2018200208B2 (en) 2020-01-02
CA2915805A1 (en) 2014-12-24
CN105408954A (zh) 2016-03-16
EP3011554B1 (en) 2019-07-03
KR102120073B1 (ko) 2020-06-08
HK1224427A1 (zh) 2017-08-18
EP3540731A2 (en) 2019-09-18
KR20160022382A (ko) 2016-02-29
MX371425B (es) 2020-01-29
CN111862998A (zh) 2020-10-30
RU2016101599A (ru) 2017-07-26
AU2018200208A1 (en) 2018-02-01
US20220343924A1 (en) 2022-10-27
ES2746322T3 (es) 2020-03-05
JP2021103325A (ja) 2021-07-15
WO2014202539A1 (en) 2014-12-24
EP3011554A1 (en) 2016-04-27
CN105408954B (zh) 2020-07-17
JP6482540B2 (ja) 2019-03-13
MX2015017833A (es) 2016-04-15
JP7202161B2 (ja) 2023-01-11
US11410663B2 (en) 2022-08-09
BR112015031824B1 (pt) 2021-12-14
SG11201510463WA (en) 2016-01-28
TW201517020A (zh) 2015-05-01

Similar Documents

Publication Publication Date Title
RU2666327C2 (ru) Устройство и способ для улучшенного маскирования адаптивной таблицы кодирования при acelp-образном маскировании с использованием улучшенной повторной синхронизации импульсов
RU2665253C2 (ru) Устройство и способ для улучшенного маскирования адаптивной таблицы кодирования при acelp-образном маскировании с использованием улучшенной оценки запаздывания основного тона
CN110931025B (en) Apparatus and method for improved concealment of adaptive codebooks in ACELP-like concealment with improved pulse resynchronization