RU2644512C1

RU2644512C1 - Способ и устройство декодирования битового потока речи/аудио

Info

Publication number: RU2644512C1
Application number: RU2016141282A
Authority: RU
Inventors: Синтао ЧЖАН; Цзэсинь ЛЮ; Лэй МЯО
Original assignee: Хуавэй Текнолоджиз Ко., Лтд.
Priority date: 2014-03-21
Filing date: 2015-01-13
Publication date: 2018-02-12
Also published as: BR112016020082B1; WO2015139521A1; US20160372122A1; AU2015234068A1; CN107369454A; CN107369455B; KR20180029279A; MY184187A; EP3121812B1; JP2017515163A; CN104934035A; CN107369454B; KR101924767B1; SG11201607099TA; EP3121812A4; CA2941540C; JP6542345B2; CA2941540A1; MX2016012064A; KR20160124877A

Abstract

Изобретение относится к технологиям декодирования аудио и предназначено для декодирования битового потока речи/аудио сигнала. Технический результат - повышение качества выходного речевого/аудио сигнала. Данный способ декодирования битового потока речи/аудио включает извлечение параметра декодирования речи/аудио текущего речевого/аудио кадра, где вышеупомянутый текущий речевой/аудио кадр является избыточным декодированным кадром или речевой/аудио кадр до вышеупомянутого текущего речевого/аудио кадра является избыточным декодированным кадром; выполнение пост-обработки на извлеченном параметре декодирования речи/аудио согласно параметрам речи/аудио X речевых/аудио кадров, где вышеупомянутые X речевых/аудио кадров включают M речевых/аудио кадров до вышеупомянутого текущего речевого/аудио кадра и/или N речевых/аудио кадров после вышеупомянутого текущего речевого/аудио кадра; и восстановление речевого/аудио сигнала путем использования пост-обработанного параметра декодирования речи/аудио вышеупомянутого текущего речевого/аудио кадра. 2 н. и 18 з.п. ф-лы, 5 ил.

Description

ОБЛАСТЬ ТЕХНИКИ, К КОТОРОЙ ОТНОСИТСЯ ИЗОБРЕТЕНИЕ

[0001] Настоящее изобретение относится к технологиям декодирования аудио, и конкретно, к способу и устройству декодирования битового потока речи/аудио.

УРОВЕНЬ ТЕХНИКИ

[0002] В системе на основе передачи голоса по протоколу Internet (VoIP, голосовая связь по IP-протоколу), пакету может требоваться проходить через множество маршрутизаторов в процессе передачи, но поскольку эти маршрутизаторы могут сменяться при обработке вызова, задержка передачи обработки вызова может изменяться. Кроме того, когда два или более пользователей осуществляют попытку вхождения в сеть, используя один и тот же шлюз, задержка маршрутизации может изменяться, и такое изменение задержки называют флуктуацией времени задержки (delay jitter). Подобным образом флуктуация времени задержки также может вызываться, когда приемник, передатчик, шлюз и подобное используют операционную систему не реального времени, и в тяжелой ситуации происходит потеря пакета данных, приводя к искажению речи/аудио и ухудшению качества VoIP.

[0003] На настоящее время были использованы многие технологии на различных уровнях системы связи, чтобы снижать задержку, сглаживить флуктуацию времени задержки и выполнять компенсацию потери пакетов. Приемник может использовать алгоритм высокопроизводительной обработки джиттер-буфера (JBM, Jitter Buffer Management), чтобы до некоторой степени компенсировать флуктуацию времени задержки в сети. Однако, в случае относительно высокого коэффициента потерь пакетов, очевидно, требование высококачественной связи не может быть удовлетворено только с использованием технологии JBM.

[0004] Чтобы помочь устранению проблемы ухудшения качества, вызываемой флуктуацией времени задержки речевого/аудио кадра, предложен алгоритм кодирования с избыточностью. То есть, в дополнение к кодированию информации текущего речевого/аудио кадра с конкретной скоростью передачи битов, кодер кодирует информацию другого речевого/аудио кадра, отличного от текущего речевого/аудио кадра, с относительно более низкой скоростью передачи битов и передает относительно более низкоскоростной двоичный поток для информации другого речевого/аудио кадра в виде избыточной информации на декодер вместе с двоичным потоком информации текущего речевого/аудио кадра. Когда речевой/аудио кадр потерян, если джиттер-буфер буферизует (или содержит в себе принятый двоичный поток) избыточную информацию для потерянного речевого/аудио кадра, декодер восстанавливает потерянный речевой/аудио кадр согласно избыточной информации, посредством этого повышая качество речи/звучания.

[0005] В существующем алгоритме кодирования с избыточностью в дополнение к включению информации речевого/аудио кадра для N-ого кадра, двоичный поток N-ого кадра включает информацию речевого/аудио кадра (N-M)-ого кадра с более низкой скоростью передачи битов. В процессе передачи, если (N-M)-ый кадр теряется, процесс декодирования выполняют согласно информации речевого/аудио кадра, которая представляет (N-M)-ый кадр и включена в двоичный поток N-ого кадра, чтобы восстанавливать речевой/аудио сигнал из (N-M)-ого кадра.

[0006] Из вышеизложенного описания можно уяснить, что в существующем алгоритме кодирования с избыточностью, избыточную информацию двоичного потока получают посредством кодирования с более низкой скоростью передачи битов, каковое, следовательно, весьма вероятно вызовет нестабильность сигнала и дополнительно обусловит низкое качество выходного речевого/аудио сигнала.

СУЩНОСТЬ ИЗОБРЕТЕНИЯ

[0007] Варианты осуществления настоящего изобретения обеспечивают способ и устройство декодирования битового потока речи/аудио, каковое помогает повысить качество выходного речевого/аудио сигнала.

[0008] Первый аспект вариантов осуществления настоящего изобретения обеспечивает способ декодирования битового потока речи/аудио, который может включать в себя:

извлечение параметра декодирования речи/аудио текущего речевого/аудио кадра, где текущий речевой/аудио кадр является избыточным декодированным кадром, или речевой/аудио кадр до текущего речевого/аудио кадра является избыточным декодированным кадром;

выполнение пост-обработки на параметре декодирования речи/аудио текущего речевого/аудио кадра согласно параметрам речи/аудио для X речевых/аудио кадров, чтобы получить пост-обработанный параметр декодирования речи/аудио текущего речевого/аудио кадра, где X речевых/аудио кадров включают M речевых/аудио кадров до текущего речевого/аудио кадра и/или N речевых/аудио кадров после текущего речевого/аудио кадра, и M и N - целые положительные числа; и

восстановление речевого/аудио сигнала текущего речевого/аудио кадра путем использования пост-обработанного параметра декодирования речи/аудио текущего речевого/аудио кадра.

[0009] Второй аспект вариантов осуществления настоящего изобретения обеспечивает декодер для декодирования битового потока речи/аудио, включающий в себя:

модуль извлечения параметра, сконфигурированный для извлечения параметра декодирования речи/аудио текущего речевого/аудио кадра, где текущий речевой/аудио кадр является избыточным декодированным кадром, или речевой/аудио кадр до текущего речевого/аудио кадра является избыточным декодированным кадром;

блок пост-обработки, сконфигурированный для выполнения пост-обработки на параметре декодирования речи/аудио текущего речевого/аудио кадра согласно параметрам речи/аудио X речевых/аудио кадров, чтобы получать пост-обработанный параметр декодирования речи/аудио текущего речевого/аудио кадра, где X речевых/аудио кадров включают в себя M речевых/аудио кадров до текущего речевого/аудио кадра и/или N речевых/аудио кадров после текущего речевого/аудио кадра, и M и N - целые положительные числа; и

блок восстановления, сконфигурированный для восстановления речевого/аудио сигнала для текущего речевого/аудио кадра с использованием пост-обработанного параметра декодирования речи/аудио текущего речевого/аудио кадра.

[0010][0011] Третий аспект вариантов осуществления настоящего изобретения обеспечивает носитель данных компьютера, где носитель данных компьютера может сохранять программу, и если исполняется, программа включает в себя некоторые или все этапы любого способа декодирования битового потока речи/аудио, описанного в вариантах осуществления настоящего изобретения.

[0012] Можно уяснить, что в некоторых вариантах осуществления настоящего изобретения в сценарии, в котором текущий речевой/аудио кадр является избыточным декодированным кадром или речевой/аудио кадр до текущего речевого/аудио кадра является избыточным декодированным кадром, после получения параметра декодирования речи/аудио текущего речевого/аудио кадра, декодер выполняет пост-обработку на параметре декодирования речи/аудио текущего речевого/аудио кадра согласно параметрам речи/аудио X речевых/аудио кадров, чтобы получить пост-обработанный параметр декодирования речи/аудио текущего речевого/аудио кадра, где вышеупомянутые X речевых/аудио кадров включают M речевых/аудио кадров до вышеупомянутого текущего речевого/аудио кадра и/или N речевых/аудио кадров после вышеупомянутого текущего речевого/аудио кадра, и восстанавливает речевой/аудио сигнал текущего речевого/аудио кадра путем использования пост-обработанного параметра декодирования речи/аудио из текущего речевого/аудио кадра, каковое гарантирует стабильное качество декодированного сигнала при переходе между избыточным декодированным кадром и обычным декодированным кадром или между избыточным декодированным кадром и восстановленным с маскированием разрушения кадра (FEC, Frame erasure concealment) кадром, посредством этого повышая качество выходного речевого/аудио сигнала.

КРАТКОЕ ОПИСАНИЕ ЧЕРТЕЖЕЙ

[0013] Чтобы более ясно описать технические решения в вариантах осуществления настоящего изобретения, в последующем кратко описываются сопроводительные чертежи, требуемые для описания вариантов осуществления. Очевидно, сопроводительные чертежи в последующем описании показывают просто некоторые варианты осуществления настоящего изобретения, и обычные специалисты в данной области техники могут получить другие чертежи из этих сопроводительных чертежей без творческих усилий.

[0014] Фиг.1 - структурная схема способа декодирования битового потока речи/аудио согласно варианту осуществления настоящего изобретения;

[0015] Фиг.2 - структурная схема другого способа декодирования битового потока речи/аудио согласно варианту осуществления настоящего изобретения;

[0016] Фиг.3 - схематичное представление декодера согласно варианту осуществления настоящего изобретения;

[0017] Фиг.4 - схематичное представление другого декодера согласно варианту осуществления настоящего изобретения; и

[0018] Фиг.5 - схематичное представление другого декодера согласно варианту осуществления настоящего изобретения.

ОПИСАНИЕ ВАРИАНТОВ ОСУЩЕСТВЛЕНИЯ ИЗОБРЕТЕНИЧ

[0019] Варианты осуществления настоящего изобретения представляют способ и устройство декодирования битового потока речи/аудио, которые помогают повысить качество выходного речевого/аудио сигнала.

[0020] Чтобы сделать более четкими и более понятными объекты, признаки и преимущества настоящего изобретения, последующее ясно описывает технические решения в вариантах осуществления настоящего изобретения со ссылкой на сопроводительные чертежи в вариантах осуществления настоящего изобретения. Очевидно, варианты осуществления, описанные в последующем, составляют лишь часть, а не все варианты осуществления настоящего изобретения. Все другие исполнения, полученные средними специалистами в данной области техники на основании вариантов осуществления настоящего изобретения без творческих усилий, входят в рамки объема охраны настоящего изобретения.

[0021] В описании, формуле изобретения и на сопроводительных чертежах настоящего изобретения термины "первый", "второй", "третий", "четвертый" и так далее предназначены для различения различных объектов, а не для указания конкретного порядка. Кроме того, термины "включающий в себя", "включая", или любая другая их разновидность предназначены охватывать неисключающее включение. Например, процесс, способ, система, изделие или устройство, включающее в себя последовательность этапов или блоков, не ограничены перечисленными этапами или блоками и могут включать этапы или блоки, которые не перечислены.

[0022] Последующее дает соответственные описания подробно.

[0023] Сначала описывается способ декодирования битового потока речи/аудио, обеспеченный в вариантах осуществления настоящего изобретения. Способ декодирования битового потока речи/аудио, обеспеченный в вариантах осуществления настоящего изобретения, исполняется декодером, где декодер может быть любым устройством, которому необходимо выводить речевые сигналы, например, устройством, таким как мобильный телефон, портативный компьютер, планшетный компьютер или персональный компьютер.

[0024] В варианте осуществления способа декодирования битового потока речи/аудио в настоящем изобретении, способ декодирования битового потока речи/аудио может включать в себя: извлечение параметра декодирования речи/аудио текущего речевого/аудио кадра, где вышеупомянутый текущий речевой/аудио кадр является избыточным декодированным кадром, или речевой/аудио кадр до вышеупомянутого текущего речевого/аудио кадра является избыточным декодированным кадром; выполнение пост-обработки на параметре декодирования речи/аудио вышеупомянутого текущего речевого/аудио кадра согласно параметрам речи/аудио X речевых/аудио кадров для получения пост-обработанного параметра декодирования речи/аудио вышеупомянутого текущего речевого/аудио кадра, где вышеупомянутые X речевых/аудио кадров включают M речевых/аудио кадров до вышеупомянутого текущего речевого/аудио кадра и/или N речевых/аудио кадров после вышеупомянутого текущего речевого/аудио кадра, и M и N - целые положительные числа; и восстановление речевого/аудио сигнала вышеупомянутого текущего речевого/аудио кадра путем использования пост-обработанного параметра декодирования речи/аудио, соответствующего вышеупомянутому текущему речевому/аудио кадру.

[0025] Фиг.1 является структурной схемой способа декодирования битового потока речи/аудио согласно варианту осуществления настоящего изобретения. Способ декодирования битового потока речи/аудио, обеспеченный в этом варианте осуществления настоящего изобретения, может включать в себя следующее содержание:

[0026] 101. Извлечь параметр декодирования речи/аудио текущего речевого/аудио кадра.

[0027] Вышеупомянутый текущий речевой/аудио кадр является избыточным декодированным кадром, или речевой/аудио кадр до вышеупомянутого текущего речевого/аудио кадра является избыточным декодированным кадром.

[0028] Если речевой/аудио кадр до вышеупомянутого текущего речевого/аудио кадра является избыточным декодированным кадром, текущий речевой/аудио кадр может быть обычным декодированным кадром, FEC восстановленным кадром или избыточным декодированным кадром, где, если текущий речевой/аудио кадр является FEC восстановленным кадром, параметр декодирования речи/аудио текущего речевого/аудио кадра может быть предсказан на основе алгоритма FEC.

[0029] 102. Выполнить пост-обработку на параметре декодирования речи/аудио вышеупомянутого текущего речевого/аудио кадра согласно параметрам речи/аудио X речевых/аудио кадров, чтобы получить пост-обработанный параметр декодирования речи/аудио вышеупомянутого текущего речевого/аудио кадра, где вышеупомянутые X речевых/аудио кадров включают M речевых/аудио кадров до вышеупомянутого текущего речевого/аудио кадра и/или N речевых/аудио кадров после вышеупомянутого текущего речевого/аудио кадра, и M и N - целые положительные числа.

[0030] То, что речевой/аудио кадр (например, текущий речевой/аудио кадр или речевой/аудио кадр до текущего речевого/аудио кадра) являются обычным декодированным кадром, означает, что параметр речи/аудио вышеупомянутого речевого/аудио кадра может быть непосредственно получен из двоичного потока речевого/аудио кадра посредством декодирования. То, что речевой/аудио кадр (например, текущий речевой/аудио кадр или речевой/аудио кадр до текущего речевого/аудио кадра) является избыточным декодированным кадром, означает, что параметр речи/аудио речевого/аудио кадра не может быть непосредственно получен из двоичного потока речевого/аудио кадра посредством декодирования, но может быть получена избыточная информация двоичного потока для речевого/аудио кадра из двоичного потока другого речевого/аудио кадра.

[0031] M речевых/аудио кадров до текущего речевого/аудио кадра относятся к M речевым/аудио кадрам, предшествующим текущему речевому/аудио кадру и непосредственно смежным с текущим речевым/аудио кадром во временной области.

[0032] Например, M может быть равным 1, 2, 3, или другим значением. Если M=1, M речевых/аудио кадров до текущего речевого/аудио кадра представляют речевые/аудио кадры, являющиеся предыдущими для текущего речевого/аудио кадра, и речевой/аудио кадр до текущего речевого/аудио кадра и текущий речевой/аудио кадр представляют два непосредственно смежных речевых/аудио кадра; когда M=2, M речевых/аудио кадров до текущего речевого/аудио кадра представляют речевой/аудио кадр до текущего речевого/аудио кадра и речевой/аудио кадр до речевого/аудио кадра до текущего речевого/аудио кадра, и речевой/аудио кадр до текущего речевого/аудио кадра, речевой/аудио кадр до речевого/аудио кадра до текущего речевого/аудио кадра и текущий речевой/аудио кадр представляют три непосредственно смежных речевых/аудио кадра; и так далее.

[0033] N речевых/аудио кадров после текущего речевого/аудио относятся к N речевым/аудио кадрам, следующим после текущего речевого/аудио кадра, и непосредственно смежным с текущим речевым/аудио кадром во временной области.

[0034] Например, N может быть равным 1, 2, 3, 4, или другим значением. Когда N=1, N речевых/аудио кадров после текущего речевого/аудио кадра представляют речевой/аудио кадр после текущего речевого/аудио кадра, и речевой/аудио кадр после текущего речевого/аудио кадра и текущий речевой/аудио кадр представляют два непосредственно смежных речевых/аудио кадра; когда N=2, N речевых/аудио кадров после текущего речевого/аудио кадра представляют речевой/аудио кадр после текущего речевого/аудио кадра и речевой/аудио кадр после речевого/аудио кадра после текущего речевого/аудио кадра, и речевой/аудио кадр после текущего речевого/аудио кадра, речевой/аудио кадр после речевого/аудио кадра после текущего речевого/аудио кадра и текущий речевой/аудио кадр представляют три непосредственно смежных речевых/аудио кадра; и так далее.

[0035] Параметр декодирования речи/аудио может включать в себя, по меньшей мере, один из следующих параметров:

огибающую расширения полосы частот, коэффициент усиления адаптивной кодовой книги (gain_pit), алгебраическую кодовую книгу, период основного тона, коэффициент наклона спектра, параметр спектральной пары и подобное.

[0036] Параметр речи/аудио может включать в себя параметр декодирования речи/аудио, класс сигнала и подобное.

[0037] Классом сигнала речевого/аудио кадра может быть «невокализованный» (UNVOICED), «вокализованный» (VOICED), «обобщенный» (GENERIC), переходный (TRANSIENT), неактивный (INACTIVE) или подобный.

[0038] Параметр спектральной пары может быть, например, по меньшей мере, одним параметром из параметра пары спектральных линий (LSP: Line Spectral Pair) или параметра спектральной пары иммитанса (ISP: Immittance Spectral Pair).

[0039] Следует понимать, что в этом варианте осуществления настоящего изобретения пост-обработка может выполняться, по меньшей мере, на одном параметре декодирования речи/аудио из огибающей расширения полосы частот, коэффициента усиления адаптивной кодовой книги, алгебраической кодовой книги, периода основного тона или параметра спектральной пары текущего речевого/аудио кадра. Конкретно, сколько параметров выбрано, и какие параметры выбраны для пост-обработки, может определяться в соответствии со сценарием практического применения и средой применения, каковое не ограничивается в этом варианте осуществления настоящего изобретения.

[0040] Может выполняться различная пост-обработка на различных параметрах декодирования речи/аудио. Например, пост-обработка, выполняемая на параметре спектральной пары текущего речевого/аудио кадра, может быть адаптивным взвешиванием, выполняемым с использованием параметра спектральной пары текущего речевого/аудио кадра и параметра спектральной пары речевого/аудио кадра, предыдущего для текущего речевого/аудио кадра, чтобы получать пост-обработанный параметр спектральной пары текущего речевого/аудио кадра, и пост-обработка, выполняемая на коэффициенте усиления адаптивной кодовой книги текущего речевого/аудио кадра, может быть регулировкой, например, ослаблением, выполняемым на коэффициенте усиления адаптивной кодовой книги.

[0041] Конкретный вид пост-обработки не ограничивается в этом варианте осуществления настоящего изобретения, и конкретная пост-обработка может задаваться в соответствии с техническим требованием или в соответствии со средой применения и в соответствии со сценарием применения.

[0042] 103. Восстановить речевой/аудио сигнал для вышеупомянутого текущего речевого/аудио кадра путем использования пост-обработанного параметра декодирования речи/аудио из вышеупомянутого текущего речевого/аудио кадра.

[0043] Из вышеизложенного описания можно уяснить, что в этом варианте осуществления, в сценарии, в котором текущий речевой/аудио кадр является избыточным декодированным кадром или речевой/аудио кадр до вышеупомянутого текущего речевого/аудио кадра является избыточным декодированным кадром, после получения параметра декодирования речи/аудио текущего речевого/аудио кадра декодер выполняет пост-обработку на параметре декодирования речи/аудио текущего речевого/аудио кадра согласно параметрам речи/аудио X речевых/аудио кадров, чтобы получить пост-обработанный параметр декодирования речи/аудио вышеупомянутого текущего речевого/аудио кадра, где вышеупомянутые X речевых/аудио кадров включают M речевых/аудио кадров до вышеупомянутого текущего речевого/аудио кадра и/или N речевых/аудио кадров после вышеупомянутого текущего речевого/аудио кадра, и восстанавливает речевой/аудио сигнал текущего речевого/аудио кадра путем использования пост-обработанного параметра декодирования речи/аудио из текущего речевого/аудио кадра, каковое гарантирует стабильное качество декодированного сигнала при переходе между избыточным декодированным кадром и обычным декодированным кадром или между избыточным декодированным кадром и FEC восстановленным кадром, посредством этого повышая качество выходного речевого/аудио сигнала.

[0044] В некоторых вариантах осуществления настоящего изобретения параметр декодирования речи/аудио вышеупомянутого текущего речевого/аудио кадра включает в себя параметр спектральной пары вышеупомянутого текущего речевого/аудио кадра, и выполнение пост-обработки на параметре декодирования речи/аудио вышеупомянутого текущего речевого/аудио кадра согласно параметрам речи/аудио X речевых/аудио кадров, чтобы получать пост-обработанный параметр декодирования речи/аудио вышеупомянутого текущего речевого/аудио кадра, например, может включать в себя: выполнение пост-обработки на параметре спектральной пары вышеупомянутого текущего речевого/аудио кадра согласно, по меньшей мере, одному из класса сигнала, коэффициента наклона спектра, коэффициента усиления адаптивной кодовой книги или параметра спектральной пары X речевых/аудио кадров, чтобы получить пост-обработанный параметр спектральной пары вышеупомянутого текущего речевого/аудио кадра.

[0045] Например, выполнение пост-обработки на параметре спектральной пары вышеупомянутого текущего речевого/аудио кадра согласно, по меньшей мере, одному из класса сигнала, коэффициента наклона спектра, коэффициента усиления адаптивной кодовой книги или параметра спектральной пары X речевых/аудио кадров, чтобы получать пост-обработанный параметр спектральной пары вышеупомянутого текущего речевого/аудио кадра, может включать в себя:

если вышеупомянутый текущий речевой/аудио кадр является обычным декодированным кадром, речевой/аудио кадр до вышеупомянутого текущего речевого/аудио кадра является избыточным декодированным кадром, классом сигнала вышеупомянутого текущего речевого/аудио кадра является «невокализованный», и классом сигнала речевого/аудио кадра, предыдущего для вышеупомянутого текущего речевого/аудио кадра, не является «невокализованный», использование параметра спектральной пары вышеупомянутого текущего речевого/аудио кадра в качестве пост-обработанного параметра спектральной пары вышеупомянутого текущего речевого/аудио кадра, или получение пост-обработанного параметра спектральной пары вышеупомянутого текущего речевого/аудио кадра на основе параметра спектральной пары вышеупомянутого текущего речевого/аудио кадра; или

если вышеупомянутый текущий речевой/аудио кадр является обычным декодированным кадром, речевой/аудио кадр до вышеупомянутого текущего речевого/аудио кадра является избыточным декодированным кадром, классом сигнала вышеупомянутого текущего речевого/аудио кадра является «невокализованный», и классом сигнала речевого/аудио кадра, предыдущего для вышеупомянутого текущего речевого/аудио кадра, не является «невокализованный», получение пост-обработанного параметра спектральной пары вышеупомянутого текущего речевого/аудио кадра на основе параметра спектральной пары текущего речевого/аудио кадра и параметра спектральной пары речевого/аудио кадра, предыдущего для вышеупомянутого текущего речевого/аудио кадра; или

если вышеупомянутый текущий речевой/аудио кадр является избыточным декодированным кадром, классом сигнала вышеупомянутого текущего речевого/аудио кадра не является «невокализованный», и классом сигнала речевого/аудио кадра после вышеупомянутого текущего речевого/аудио кадра является «невокализованный», использование параметра спектральной пары речевого/аудио кадра, предыдущего для вышеупомянутого текущего речевого/аудио кадра, в качестве пост-обработанного параметра спектральной пары вышеупомянутого текущего речевого/аудио кадра, или получение пост-обработанного параметра спектральной пары вышеупомянутого текущего речевого/аудио кадра на основе параметра спектральной пары речевого/аудио кадра, предыдущего для вышеупомянутого текущего речевого/аудио кадра; или

если вышеупомянутый текущий речевой/аудио кадр является избыточным декодированным кадром, классом сигнала вышеупомянутого текущего речевого/аудио кадра не является «невокализованный», и классом сигнала речевого/аудио кадра после вышеупомянутого текущего речевого/аудио кадра является «невокализованный», получение пост-обработанного параметра спектральной пары вышеупомянутого текущего речевого/аудио кадра на основе параметра спектральной пары вышеупомянутого текущего речевого/аудио кадра и параметра спектральной пары речевого/аудио кадра, предыдущего для вышеупомянутого текущего речевого/аудио кадра; или

если вышеупомянутый текущий речевой/аудио кадр является избыточным декодированным кадром, классом сигнала вышеупомянутого текущего речевого/аудио кадра не является «невокализованный», максимальное значение коэффициента усиления адаптивной кодовой книги подкадра в речевом/аудио кадре после вышеупомянутого текущего речевого/аудио кадра меньше чем или равно первому пороговому значению, и коэффициент наклона спектра речевого/аудио кадра, предыдущего для вышеупомянутого текущего речевого/аудио кадра, меньше чем или равен второму пороговому значению, использование параметра спектральной пары речевого/аудио кадра, предыдущего для вышеупомянутого текущего речевого/аудио кадра, в качестве пост-обработанного параметра спектральной пары вышеупомянутого текущего речевого/аудио кадра, или получение пост-обработанного параметра спектральной пары вышеупомянутого текущего речевого/аудио кадра на основе параметра спектральной пары речевого/аудио кадра, предыдущего для вышеупомянутого текущего речевого/аудио кадра; или

если вышеупомянутый текущий речевой/аудио кадр является избыточным декодированным кадром, классом сигнала вышеупомянутого текущего речевого/аудио кадра не является «невокализованный», максимальное значение коэффициента усиления адаптивной кодовой книги подкадра в речевом/аудио кадре после вышеупомянутого текущего речевого/аудио кадра меньше чем или равно первому пороговому значению, и коэффициент наклона спектра речевого/аудио кадра, предыдущего для вышеупомянутого текущего речевого/аудио кадра, меньше чем или равен второму пороговому значению, получение пост-обработанного параметра спектральной пары вышеупомянутого текущего речевого/аудио кадра на основе параметра спектральной пары текущего речевого/аудио кадра и параметра спектральной пары речевого/аудио кадра, предыдущего для вышеупомянутого текущего речевого/аудио кадра; или

если вышеупомянутый текущий речевой/аудио кадр является избыточным декодированным кадром, классом сигнала вышеупомянутого текущего речевого/аудио кадра не является «невокализованный», речевым/аудио кадра после вышеупомянутого текущего речевого/аудио кадра является «невокализованный», максимальное значение коэффициента усиления адаптивной кодовой книги подкадра в речевом/аудио кадре после вышеупомянутого текущего речевого/аудио кадра меньше чем или равно третьему пороговому значению, и коэффициент наклона спектра речевого/аудио кадра, предыдущего для вышеупомянутого текущего речевого/аудио кадра, меньше чем или равен четвертому пороговому значению, использование параметра спектральной пары речевого/аудио кадра, предыдущего для вышеупомянутого текущего речевого/аудио кадра, в качестве пост-обработанного параметра спектральной пары вышеупомянутого текущего речевого/аудио кадра, или получение пост-обработанного параметра спектральной пары вышеупомянутого текущего речевого/аудио кадра на основе параметра спектральной пары речевого/аудио кадра, предыдущего для вышеупомянутого текущего речевого/аудио кадра; или

если вышеупомянутый текущий речевой/аудио кадр является избыточным декодированным кадром, классом сигнала вышеупомянутого текущего речевого/аудио кадра не является «невокализованный», классом сигнала речевого/аудио кадра после вышеупомянутого текущего речевого/аудио кадра является «невокализованный», максимальное значение коэффициента усиления адаптивной кодовой книги подкадра в речевом/аудио кадре после вышеупомянутого текущего речевого/аудио кадра меньше чем или равно третьему пороговому значению, и коэффициент наклона спектра речевого/аудио кадра, предыдущего для вышеупомянутого текущего речевого/аудио кадра, меньше чем или равен четвертому пороговому значению, получение пост-обработанного параметра спектральной пары вышеупомянутого текущего речевого/аудио кадра на основе параметра спектральной пары вышеупомянутого текущего речевого/аудио кадра и параметра спектральной пары речевого/аудио кадра, предыдущего для вышеупомянутого текущего речевого/аудио кадра.

[0046] Могут быть различные способы для получения пост-обработанного параметра спектральной пары вышеупомянутого текущего речевого/аудио кадра на основе параметра спектральной пары вышеупомянутого текущего речевого/аудио кадра и параметра спектральной пары речевого/аудио кадра, предыдущего для вышеупомянутого текущего речевого/аудио кадра.

[0047] Например, получение пост-обработанного параметра спектральной пары вышеупомянутого текущего речевого/аудио кадра на основе параметра спектральной пары вышеупомянутого текущего речевого/аудио кадра и параметра спектральной пары речевого/аудио кадра, предыдущего для вышеупомянутого текущего речевого/аудио кадра, может включать в себя: конкретно получение пост-обработанного параметра спектральной пары вышеупомянутого текущего речевого/аудио кадра на основе параметра спектральной пары вышеупомянутого текущего речевого/аудио кадра и параметра спектральной пары речевого/аудио кадра, предыдущего для вышеупомянутого текущего речевого/аудио кадра, и с использованием следующей формулы:

, где

- пост-обработанный параметр спектральной пары вышеупомянутого текущего речевого/аудио кадра,

- параметр спектральной пары речевого/аудио кадра, предыдущего для вышеупомянутого текущего речевого/аудио кадра,

- среднее значение параметра спектральной пары вышеупомянутого текущего речевого/аудио кадра,

- параметр спектральной пары вышеупомянутого текущего речевого/аудио кадра, L - порядок параметра спектральной пары, α - весовой коэффициент параметра спектральной пары речевого/аудио кадра, предыдущего для вышеупомянутого текущего речевого/аудио кадра, β - весовой коэффициент среднего значения параметра спектральной пары вышеупомянутого текущего речевого/аудио кадра, δ - весовой коэффициент параметра спектральной пары вышеупомянутого текущего речевого/аудио кадра,

и

, где

если вышеупомянутый текущий речевой/аудио кадр является обычным декодированным кадром, и речевой/аудио кадр до вышеупомянутого текущего речевого/аудио кадра является избыточным декодированным кадром, α равно 0 или α меньше чем или равно пятому пороговому значению; или если вышеупомянутый текущий речевой/аудио кадр является избыточным декодированным кадром, β равно 0 или β меньше чем или равно шестому пороговому значению; или если вышеупомянутый текущий речевой/аудио кадр является избыточным декодированным кадром, δ равно 0 или δ меньше чем или равно седьмому пороговому значению; или если вышеупомянутый текущий речевой/аудио кадр является избыточным декодированным кадром, β равно 0 или β меньше чем или равно шестому пороговому значению, и δ равно 0 или δ меньше чем или равно седьмому пороговому значению.

[0048] Для другого примера получение пост-обработанного параметра спектральной пары вышеупомянутого текущего речевого/аудио кадра на основе параметра спектральной пары вышеупомянутого текущего речевого/аудио кадра и параметра спектральной пары речевого/аудио кадра, предыдущего для вышеупомянутого текущего речевого/аудио кадра, может включать в себя: конкретно получение пост-обработанного параметра спектральной пары вышеупомянутого текущего речевого/аудио кадра на основе параметра спектральной пары вышеупомянутого текущего речевого/аудио кадра и параметра спектральной пары речевого/аудио кадра, предыдущего для вышеупомянутого текущего речевого/аудио кадра, и с использованием следующей формулы:

, где

- параметр спектральной пары вышеупомянутого текущего речевого/аудио кадра, L - порядок параметра спектральной пары, α - весовой коэффициент параметра спектральной пары речевого/аудио кадра, предыдущего для вышеупомянутого текущего речевого/аудио кадра, δ - весовой коэффициент параметра спектральной пары речевого/аудио кадра, предыдущего для вышеупомянутого текущего речевого/аудио кадра,

и

, где

если вышеупомянутый текущий речевой/аудио кадр является обычным декодированным кадром, и речевой/аудио кадр до вышеупомянутого текущего речевого/аудио кадра является избыточным декодированным кадром, α равно 0 или α меньше чем или равно пятому пороговому значению; или если вышеупомянутый текущий речевой/аудио кадр является избыточным декодированным кадром, δ равно 0 или δ меньше чем или равно седьмому пороговому значению.

[0049] Каждый из пятого порога, шестого порога и седьмого порога может быть установлен в различные значения согласно различным средам или сценариям применения. Например, значение пятого порога может быть близким к 0, где например, пятый порог может быть равным 0,001, 0,002, 0,01, 0,1, или другим близким к 0 значением; значение шестого порога может быть близким к 0, где например, шестой порог может быть равным 0,001, 0,002, 0,01, 0,1, или другим близким к 0 значением; и значение седьмого порога может быть близким к 0, где например, седьмой порог может быть равным 0,001, 0,002, 0,01, 0,1, или другим близким к 0 значением.

[0050] Каждый из первого порога, второго порога, третьего порога и четвертого порога может быть установлен в различные значения согласно различным средам или сценариям применения.

[0051] Например, первый порог может быть установлен в 0,9, 0,8, 0,85, 0,7, 0,89 или 0,91.

[0052] Например, второй порог может быть установлен в 0,16, 0,15, 0,165, 0,1, 0,161 или 0,159.

[0053] Например, третий порог может быть установлен в 0,9, 0,8, 0,85, 0,7, 0,89 или 0,91.

[0054] Например, четвертый порог может быть установлен в 0,16, 0,15, 0,165, 0,1, 0,161 или 0,159.

[0055] Первый порог может быть равным или не равным третьему пороговому значению, и второй порог может быть равным или не равным четвертому пороговому значению.

[0056] В других вариантах осуществления настоящего изобретения параметр декодирования речи/аудио вышеупомянутого текущего речевого/аудио кадра включает в себя коэффициент усиления адаптивной кодовой книги вышеупомянутого текущего речевого/аудио кадра, и выполнение пост-обработки на параметре декодирования речи/аудио вышеупомянутого текущего речевого/аудио кадра согласно параметрам речи/аудио X речевых/аудио кадров, чтобы получать пост-обработанный параметр декодирования речи/аудио вышеупомянутого текущего речевого/аудио кадра, может включать в себя: выполнение пост-обработки на коэффициенте усиления адаптивной кодовой книги вышеупомянутого текущего речевого/аудио кадра согласно, по меньшей мере, одному из класса сигнала, коэффициента усиления алгебраической кодовой книги или коэффициента усиления адаптивной кодовой книги X речевых/аудио кадров, чтобы получить пост-обработанный коэффициент усиления адаптивной кодовой книги вышеупомянутого текущего речевого/аудио кадра.

[0057] Например, выполнение пост-обработки на коэффициенте усиления адаптивной кодовой книги вышеупомянутого текущего речевого/аудио кадра согласно, по меньшей мере, одному из класса сигнала, коэффициента усиления алгебраической кодовой книги или коэффициента усиления адаптивной кодовой книги X речевых/аудио кадров может включать в себя:

если вышеупомянутый текущий речевой/аудио кадр является избыточным декодированным кадром, классом сигнала вышеупомянутого текущего речевого/аудио кадра не является «невокализованный», классом сигнала, по меньшей мере, одного из двух речевых/аудио кадров после вышеупомянутого текущего речевого/аудио кадра является «невокализованный», и коэффициент усиления алгебраической кодовой книги для текущего подкадра вышеупомянутого текущего речевого/аудио кадра больше чем или равен коэффициенту усиления алгебраической кодовой книги из речевого/аудио кадра, предыдущего для вышеупомянутого текущего речевого/аудио кадра, (например, коэффициент усиления алгебраической кодовой книги для текущего подкадра вышеупомянутого текущего речевого/аудио кадра является 1 или больше чем в 1 раз, например, в 1, 1,5, 2, 2,5, 3, 3,4 или 4 раза, коэффициента усиления алгебраической кодовой книги речевого/аудио кадра, предыдущего для вышеупомянутого текущего речевого/аудио кадра, ослабление коэффициента усиления адаптивной кодовой книги вышеупомянутого текущего подкадра; или

если вышеупомянутый текущий речевой/аудио кадр является избыточным декодированным кадром, классом сигнала вышеупомянутого текущего речевого/аудио кадра не является «невокализованный», классом сигнала, по меньшей мере, одного из речевого/аудио кадра после вышеупомянутого текущего речевого/аудио кадра или речевой/аудио кадр после речевого/аудио кадра является «невокализованный», и коэффициент усиления алгебраической кодовой книги для текущего подкадра вышеупомянутого текущего речевого/аудио кадра больше чем или равен коэффициенту усиления алгебраической кодовой книги из подкадрадля вышеупомянутого текущего подкадра (например, коэффициент усиления алгебраической кодовой книги для текущего подкадра вышеупомянутого текущего речевого/аудио кадра является 1 или больше чем в 1 раз, например, в 1, 1,5, 2, 2,5, 3, 3,4 или 4 раза, коэффициента усиления алгебраической кодовой книги подкадра, предыдущего для вышеупомянутого текущего подкадра), ослабление коэффициента усиления адаптивной кодовой книги вышеупомянутого текущего подкадра; или

если вышеупомянутый текущий речевой/аудио кадр является избыточным декодированным кадром, или вышеупомянутый текущий речевой/аудио кадр является обычным декодированным кадром, и речевой/аудио кадр до вышеупомянутого текущего речевого/аудио кадра является избыточным декодированным кадром, и если классом сигнала вышеупомянутого текущего речевого/аудио кадра является «обобщенный», классом сигнала речевого/аудио кадра после вышеупомянутого текущего речевого/аудио кадра является «вокализованный», и коэффициент усиления алгебраической кодовой книги подкадра вышеупомянутого текущего речевого/аудио кадра больше чем или равен коэффициенту усиления алгебраической кодовой книги из подкадра, предыдущего для вышеупомянутого подкадра, (например, коэффициент усиления алгебраической кодовой книги подкадра вышеупомянутого текущего речевого/аудио кадра может быть 1 или больше чем в 1 раз, например, в 1, 1,5, 2, 2,5, 3, 3,4 или 4 раза, коэффициента усиления алгебраической кодовой книги подкадра, предыдущего для вышеупомянутого подкадра), регулировка (например, увеличение или ослабление) коэффициента усиления адаптивной кодовой книги для текущего подкадра вышеупомянутого текущего речевого/аудио кадра на основании, по меньшей мере, одного из отношения коэффициента усиления алгебраической кодовой книги текущего подкадра вышеупомянутого текущего речевого/аудио кадра к таковому из подкадра, смежного с вышеупомянутым текущим подкадром, отношения коэффициента усиления адаптивной кодовой книги текущего подкадра вышеупомянутого текущего речевого/аудио кадра к таковому из подкадра, смежного с вышеупомянутым текущим подкадром, или отношения коэффициента усиления алгебраической кодовой книги текущего подкадра вышеупомянутого текущего речевого/аудио кадра к таковому из речевого/аудио кадра, предыдущего для вышеупомянутого текущего речевого/аудио кадра (например, если отношение коэффициента усиления алгебраической кодовой книги из текущего подкадра вышеупомянутого текущего речевого/аудио кадра к таковому из подкадра, смежного с вышеупомянутым текущим подкадром, больше чем или равно одиннадцатому пороговому значению (где одиннадцатый порог может быть равным, например, 2, 2,1, 2,5, 3, или другим значением), отношение коэффициента усиления адаптивной кодовой книги из текущего подкадра вышеупомянутого текущего речевого/аудио кадра к таковому из подкадра, смежного с вышеупомянутым текущим подкадром, больше чем или равно двенадцатому пороговому значению (где двенадцатый порог может быть равным, например, 1, 1,1, 1,5, 2, 2,1, или другим значением), и отношение коэффициента усиления алгебраической кодовой книги из текущего подкадра вышеупомянутого текущего речевого/аудио кадра к таковому из речевого/аудио кадра до вышеупомянутого текущего речевого/аудио кадра меньше чем или равно тринадцатому пороговому значению (где тринадцатый порог может быть равным, например, 1, 1,1, 1,5, 2, или другим значением), коэффициент усиления адаптивной кодовой книги для текущего подкадра вышеупомянутого текущего речевого/аудио кадра может быть увеличен); или

если вышеупомянутый текущий речевой/аудио кадр является избыточным декодированным кадром, или вышеупомянутый текущий речевой/аудио кадр является обычным декодированным кадром, и речевой/аудио кадр до вышеупомянутого текущего речевого/аудио кадра является избыточным декодированным кадром, и если классом сигнала вышеупомянутого текущего речевого/аудио кадра является «обобщенный», классом сигнала речевого/аудио кадра после вышеупомянутого текущего речевого/аудио кадра является «вокализованный», и коэффициент усиления алгебраической кодовой книги для подкадра вышеупомянутого текущего речевого/аудио кадра больше чем или равен коэффициенту усиления алгебраической кодовой книги из речевого/аудио кадра, предыдущего для вышеупомянутого текущего речевого/аудио кадра, (где коэффициент усиления алгебраической кодовой книги для подкадра вышеупомянутого текущего речевого/аудио кадра является 1 или больше чем в 1 раз, например, в 1, 1,5, 2, 2,5, 3, 3,4 или 4 раза, коэффициента усиления алгебраической кодовой книги речевого/аудио кадра, предыдущего для вышеупомянутого текущего речевого/аудио кадра), регулировка (ослабление или увеличение) коэффициента усиления адаптивной кодовой книги для текущего подкадра вышеупомянутого текущего речевого/аудио кадра на основании, по меньшей мере, одного из отношения коэффициента усиления алгебраической кодовой книги текущего подкадра вышеупомянутого текущего речевого/аудио кадра к таковому из подкадра, смежного с вышеупомянутым текущим подкадром, отношения коэффициента усиления адаптивной кодовой книги текущего подкадра вышеупомянутого текущего речевого/аудио кадра к таковому из подкадра, смежного с вышеупомянутым текущим подкадром, или отношения коэффициента усиления алгебраической кодовой книги текущего подкадра вышеупомянутого текущего речевого/аудио кадра к таковому из речевого/аудио кадра, предыдущего для вышеупомянутого текущего речевого/аудио кадра (например, если отношение коэффициента усиления алгебраической кодовой книги из текущего подкадра вышеупомянутого текущего речевого/аудио кадра к таковому из подкадра, смежного с вышеупомянутым текущим подкадром, больше чем или равно одиннадцатому пороговому значению (где одиннадцатый порог может быть равным, например, 2, 2,1, 2,5, 3, или другим значением), отношение коэффициента усиления адаптивной кодовой книги из текущего подкадра вышеупомянутого текущего речевого/аудио кадра к таковому из подкадра, смежного с вышеупомянутым текущим подкадром, больше чем или равно двенадцатому пороговому значению (где двенадцатый порог может быть равным, например, 1, 1,1, 1,5, 2, 2,1, или другим значением), и отношение коэффициента усиления алгебраической кодовой книги из текущего подкадра вышеупомянутого текущего речевого/аудио кадра к таковому из речевого/аудио кадра до вышеупомянутого текущего речевого/аудио кадра меньше чем или равно тринадцатому пороговому значению (где тринадцатый порог может быть равным, например, 1, 1,1, 1,5, 2, или другим значением), коэффициент усиления адаптивной кодовой книги для текущего подкадра вышеупомянутого текущего речевого/аудио кадра может быть увеличен); или

если вышеупомянутый текущий речевой/аудио кадр является избыточным декодированным кадром, или вышеупомянутый текущий речевой/аудио кадр является обычным декодированным кадром, и речевой/аудио кадр до вышеупомянутого текущего речевого/аудио кадра является избыточным декодированным кадром, и если вышеупомянутый текущий речевой/аудио кадр является вокализованным, классом сигнала речевого/аудио кадра, предыдущего для вышеупомянутого текущего речевого/аудио кадра, является «обобщенный», и коэффициент усиления алгебраической кодовой книги для подкадра вышеупомянутого текущего речевого/аудио кадра больше чем или равен коэффициенту усиления алгебраической кодовой книги из подкадра, предыдущего для вышеупомянутого подкадра, (например, коэффициент усиления алгебраической кодовой книги для подкадра вышеупомянутого текущего речевого/аудио кадра может быть 1 или больше чем в 1 раз, например, в 1, 1,5, 2, 2,5, 3, 3,4 или 4 раза, коэффициента усиления алгебраической кодовой книги подкадра, предыдущего для вышеупомянутого подкадра), регулировка (ослабление или увеличение) коэффициента усиления адаптивной кодовой книги для текущего подкадра вышеупомянутого текущего речевого/аудио кадра на основании, по меньшей мере, одного из отношения коэффициента усиления алгебраической кодовой книги текущего подкадра вышеупомянутого текущего речевого/аудио кадра к таковому из подкадра, смежного с вышеупомянутым текущим подкадром, отношения коэффициента усиления адаптивной кодовой книги текущего подкадра вышеупомянутого текущего речевого/аудио кадра к таковому из подкадра, смежного с вышеупомянутым текущим подкадром, или отношения коэффициента усиления алгебраической кодовой книги текущего подкадра вышеупомянутого текущего речевого/аудио кадра к таковому из речевого/аудио кадра, предыдущего для вышеупомянутого текущего речевого/аудио кадра (например, если отношение коэффициента усиления алгебраической кодовой книги из текущего подкадра вышеупомянутого текущего речевого/аудио кадра к таковому из подкадра, смежного с вышеупомянутым текущим подкадром, больше чем или равно одиннадцатому пороговому значению (где одиннадцатый порог может быть равным, например, 2, 2,1, 2,5, 3, или другому значению), отношение коэффициента усиления адаптивной кодовой книги из текущего подкадра вышеупомянутого текущего речевого/аудио кадра к таковому из подкадра, смежного с вышеупомянутым текущим подкадром, больше чем или равно двенадцатому пороговому значению (где двенадцатый порог может быть равным, например, 1, 1,1, 1,5, 2, 2,1, или другим значением), и отношение коэффициента усиления алгебраической кодовой книги из текущего подкадра вышеупомянутого текущего речевого/аудио кадра к таковому из речевого/аудио кадра до вышеупомянутого текущего речевого/аудио кадра меньше чем или равно тринадцатому пороговому значению (где тринадцатый порог может быть равным, например, 1, 1,1, 1,5, 2, или другим значением), коэффициент усиления адаптивной кодовой книги для текущего подкадра вышеупомянутого текущего речевого/аудио кадра может быть увеличен; или

если вышеупомянутый текущий речевой/аудио кадр является избыточным декодированным кадром, или вышеупомянутый текущий речевой/аудио кадр является обычным декодированным кадром, и речевой/аудио кадр до вышеупомянутого текущего речевого/аудио кадра является избыточным декодированным кадром, и если классом сигнала вышеупомянутого текущего речевого/аудио кадра является «вокализованный», классом сигнала речевого/аудио кадра, предыдущего для вышеупомянутого текущего речевого/аудио кадра, является «обобщенный, и коэффициент усиления алгебраической кодовой книги подкадра вышеупомянутого текущего речевого/аудио кадра больше чем или равен коэффициенту усиления алгебраической кодовой книги из речевого/аудио кадра, предыдущего для вышеупомянутого текущего речевого/аудио кадра (например, коэффициент усиления алгебраической кодовой книги для подкадра вышеупомянутого текущего речевого/аудио кадра является 1 или больше чем в 1 раз, например, в 1, 1,5, 2, 2,5, 3, 3,4, или 4 раза, коэффициента усиления алгебраической кодовой книги речевого/аудио кадра, предыдущего для вышеупомянутого текущего речевого/аудио кадра), регулировка (ослабление или увеличение) коэффициента усиления адаптивной кодовой книги для текущего подкадра вышеупомянутого текущего речевого/аудио кадра на основании, по меньшей мере, одного из отношения коэффициента усиления алгебраической кодовой книги текущего подкадра вышеупомянутого текущего речевого/аудио кадра к таковому из подкадра, смежного с вышеупомянутым текущим подкадром, отношения коэффициента усиления адаптивной кодовой книги текущего подкадра вышеупомянутого текущего речевого/аудио кадра к таковому из подкадра, смежного с вышеупомянутым текущим подкадром, или отношения коэффициента усиления алгебраической кодовой книги текущего подкадра вышеупомянутого текущего речевого/аудио кадра к таковому из речевого/аудио кадра, предыдущего для вышеупомянутого текущего речевого/аудио кадра (например, если отношение коэффициента усиления алгебраической кодовой книги из текущего подкадра вышеупомянутого текущего речевого/аудио кадра к таковому из подкадра, смежного с вышеупомянутым текущим подкадром, больше чем или равно одиннадцатому пороговому значению (где одиннадцатый порог может быть равным, например, 2, 2,1, 2,5, 3, или другим значением), отношение коэффициента усиления адаптивной кодовой книги из текущего подкадра вышеупомянутого текущего речевого/аудио кадра к таковому из подкадра, смежного с вышеупомянутым текущим подкадром, больше чем или равно двенадцатому пороговому значению (где двенадцатый порог может быть равным, например, 1, 1,1, 1,5, 2, 2,1, или другим значением), и отношение коэффициента усиления алгебраической кодовой книги из текущего подкадра вышеупомянутого текущего речевого/аудио кадра к таковому из речевого/аудио кадра до вышеупомянутого текущего речевого/аудио кадра меньше чем или равно тринадцатому пороговому значению (где тринадцатый порог может быть равным, например, 1, 1,1, 1,5, 2, или другим значением), коэффициент усиления адаптивной кодовой книги для текущего подкадра вышеупомянутого текущего речевого/аудио кадра может быть увеличен.

[0058] В других вариантах осуществления настоящего изобретения параметр декодирования речи/аудио вышеупомянутого текущего речевого/аудио кадра включает в себя алгебраическую кодовую книгу для вышеупомянутого текущего речевого/аудио кадра, и выполнение пост-обработки на параметре декодирования речи/аудио вышеупомянутого текущего речевого/аудио кадра согласно параметрам речи/аудио X речевых/аудио кадров для получения пост-обработанного параметра декодирования речи/аудио вышеупомянутого текущего речевого/аудио кадра может включать в себя: выполнение пост-обработки на алгебраической кодовой книге вышеупомянутого текущего речевого/аудио кадра согласно, по меньшей мере, одному из класса сигнала, алгебраической кодовой книге или коэффициента наклона спектра X речевых/аудио кадров, чтобы получить пост-обработанную алгебраическую кодовую книгу для вышеупомянутого текущего речевого/аудио кадра.

[0059] Например, выполнение пост-обработки на алгебраической кодовой книге вышеупомянутого текущего речевого/аудио кадра согласно, по меньшей мере, одному из класса сигнала, алгебраической кодовой книге или коэффициенту наклона спектра X речевых/аудио кадров может включать в себя: если вышеупомянутый текущий речевой/аудио кадр является избыточным декодированным кадром, классом сигнала речевого/аудио кадра после вышеупомянутого текущего речевого/аудио кадра является «невокализованный», коэффициент наклона спектра речевого/аудио кадра, предыдущего для вышеупомянутого текущего речевого/аудио кадра, меньше чем или равен восьмому порогу, и алгебраическая кодовая книга подкадра вышеупомянутого текущего речевого/аудио кадра является 0 или меньше чем или равна девятому пороговому значению, использование алгебраической кодовой книги или случайного шума согласно подкадру до вышеупомянутого текущего речевого/аудио кадра в качестве алгебраической кодовой книги вышеупомянутого текущего подкадра.

[0060] Каждый из восьмого порога и девятого порога может быть установлен в различные значения согласно различным средам или сценариям применения.

[0061] Например, восьмой порог может быть установлен в 0,16, 0,15, 0,165, 0,1, 0,161 или 0,159.

[0062] Например, девятый порог может быть установлен в 0,1, 0,09, 0,11, 0,07, 0,101, 0,099 или другое близкое к 0 значение.

[0063] Восьмой порог может быть равным или не равным второму пороговому значению.

[0064] В других вариантах осуществления настоящего изобретения параметр декодирования речи/аудио вышеупомянутого текущего речевого/аудио кадра включает в себя огибающую расширения полосы частот для вышеупомянутого текущего речевого/аудио кадра, и выполнение пост-обработки на параметре декодирования речи/аудио вышеупомянутого текущего речевого/аудио кадра согласно параметрам речи/аудио X речевых/аудио кадров для получения пост-обработанного параметра декодирования речи/аудио вышеупомянутого текущего речевого/аудио кадра может включать в себя: выполнение пост-обработки на огибающей расширения полосы частот для вышеупомянутого текущего речевого/аудио кадра согласно, по меньшей мере, одному из класса сигнала, огибающей расширения полосы частот или коэффициента наклона спектра X речевых/аудио кадров, чтобы получить пост-обработанную огибающую расширения полосы частот вышеупомянутого текущего речевого/аудио кадра.

[0065] Например, выполнение пост-обработки на огибающей расширения полосы частот для вышеупомянутого текущего речевого/аудио кадра согласно, по меньшей мере, одному из класса сигнала, огибающей расширения полосы частот или коэффициента наклона спектра X речевых/аудио кадров, чтобы получать пост-обработанную огибающую расширения полосы частот вышеупомянутого текущего речевого/аудио кадра может включать в себя:

если речевой/аудио кадр до вышеупомянутого текущего речевого/аудио кадра является обычным декодированным кадром, и класс сигнала речевого/аудио кадра до вышеупомянутого текущего речевого/аудио кадра является таким же как таковой речевого/аудио кадра после текущего речевого/аудио кадра, получение пост-обработанной огибающей расширения полосы частот для вышеупомянутого текущего речевого/аудио кадра на основе огибающей расширения полосы частот речевого/аудио кадра, предыдущего для вышеупомянутого текущего речевого/аудио кадра, и огибающей расширения полосы частот вышеупомянутого текущего речевого/аудио кадра; или

если вышеупомянутый текущий речевой/аудио кадр является предсказанной формой декодирования с избыточностью, получение пост-обработанной огибающей расширения полосы частот для вышеупомянутого текущего речевого/аудио кадра на основе огибающей расширения полосы частот речевого/аудио кадра, предыдущего для вышеупомянутого текущего речевого/аудио кадра, и огибающей расширения полосы частот вышеупомянутого текущего речевого/аудио кадра; или

если классом сигнала вышеупомянутого текущего речевого/аудио кадра не является «невокализованный», классом сигнала речевого/аудио кадра после вышеупомянутого текущего речевого/аудио кадра является «невокализованный», коэффициент наклона спектра речевого/аудио кадра, предыдущего для вышеупомянутого текущего речевого/аудио кадра, меньше чем или равен десятому пороговому значению, коррекция огибающей расширения полосы частот для вышеупомянутого текущего речевого/аудио кадра согласно огибающей расширения полосы частот или коэффициенту наклона спектра речевого/аудио кадра, предыдущего для вышеупомянутого текущего речевого/аудио кадра, чтобы получить пост-обработанную огибающую расширения полосы частот вышеупомянутого текущего речевого/аудио кадра.

[0066] Десятый порог может быть установлен в различные значения согласно различным средам или сценариям применения. Например, десятый порог может быть установлен в 0,16, 0,15, 0,165, 0,1, 0,161 или 0,159.

[0067] Например, получение пост-обработанной огибающей расширения полосы частот для вышеупомянутого текущего речевого/аудио кадра на основе огибающей расширения полосы частот речевого/аудио кадра, предыдущего для вышеупомянутого текущего речевого/аудио кадра, и огибающей расширения полосы частот вышеупомянутого текущего речевого/аудио кадра может включать в себя: конкретно получение пост-обработанной огибающей расширения полосы частот для вышеупомянутого текущего речевого/аудио кадра на основе огибающей расширения полосы частот речевого/аудио кадра, предыдущего для вышеупомянутого текущего речевого/аудио кадра, и огибающей расширения полосы частот вышеупомянутого текущего речевого/аудио кадра, и с использованием следующей формулы:

, где

- пост-обработанная огибающая расширения полосы частот для вышеупомянутого текущего речевого/аудио кадра,

- огибающая расширения полосы частот речевого/аудио кадра, предыдущего для вышеупомянутого текущего речевого/аудио кадра,

- огибающая расширения полосы частот вышеупомянутого текущего речевого/аудио кадра,

- весовой коэффициент огибающей расширения полосы частот речевого/аудио кадра, предыдущего для вышеупомянутого текущего речевого/аудио кадра,

- весовой коэффициент огибающей расширения полосы частот вышеупомянутого текущего речевого/аудио кадра,

и

.

[0068] Для другого примера поправочный множитель для коррекции огибающей расширения полосы частот вышеупомянутого текущего речевого/аудио кадра является обратно пропорциональным коэффициенту наклона спектра речевого/аудио кадра, предыдущего для вышеупомянутого текущего речевого/аудио кадра, и пропорциональным отношению огибающей расширения полосы частот речевого/аудио кадра, предыдущего для вышеупомянутого текущего речевого/аудио кадра, к огибающей расширения полосы частот вышеупомянутого текущего речевого/аудио кадра.

[0069] В других вариантах осуществления настоящего изобретения параметр декодирования речи/аудио вышеупомянутого текущего речевого/аудио кадра включает в себя период основного тона вышеупомянутого текущего речевого/аудио кадра, и выполнение пост-обработки на параметре декодирования речи/аудио вышеупомянутого текущего речевого/аудио кадра согласно параметрам речи/аудио X речевых/аудио кадров для получения пост-обработанного параметра декодирования речи/аудио вышеупомянутого текущего речевого/аудио кадра может включать в себя: выполнение пост-обработки на периоде основного тона вышеупомянутого текущего речевого/аудио кадра согласно классам сигнала и/или периодам основного тона X речевых/аудио кадров (например, пост-обработка, такая как увеличение или ослабление, может выполняться на периоде основного тона вышеупомянутого текущего речевого/аудио кадра согласно классам сигнала и/или периодам основного тона X речевых/аудио кадров), чтобы получить пост-обработанный период основного тона вышеупомянутого текущего речевого/аудио кадра.

[0070] Из вышеизложенного описания можно уяснить, что в некоторых вариантах осуществления настоящего изобретения, при переходе между «невокализованным» речевым/аудио кадром и не «невокализованным» речевым/аудио кадром (например, когда текущий речевой/аудио кадр представляет не «невокализованный» класс сигнала и является избыточным декодированным кадром, и речевой/аудио кадр до или после текущего речевого/аудио кадра представляет не «невокализованный» тип сигнала и является обычным декодированным кадром, или когда текущий речевой/аудио кадр представляет не «невокализованный» класс сигнала и является обычным декодированным кадром, и речевой/аудио кадр до или после текущего речевого/аудио кадра представляет не «невокализованный» класс сигнала и является избыточным декодированным кадром), пост-обработку выполняют на параметре декодирования речи/аудио текущего речевого/аудио кадра, каковое помогает избегать явления щелчка (click), вызываемого при межкадровом переходе между «невокализованным» речевым/аудио кадром и не «невокализованным» речевым/аудио кадром, посредством этого повышая качество выходного речевого/аудио сигнала.

[0071] В других вариантах осуществления настоящего изобретения при переходе между обобщенным речевым/аудио кадром и вокализованным речевым/аудио кадром речевой/аудио кадр (когда текущий речевой/аудио кадр представляет «обобщенный» кадр и является избыточным декодированным кадром, и речевой/аудио кадр до или после текущего речевого/аудио кадра представляет «вокализованный» класс сигнала и является обычным декодированным кадром, или когда текущий речевой/аудио кадр представляет «вокализованный» класс сигнала и является обычным декодированным кадром, и речевой/аудио кадр до или после текущего речевого/аудио кадра представляет «обобщенный» класс сигнала и является избыточным декодированным кадром), пост-обработку выполняют на параметре декодирования речи/аудио текущего речевого/аудио кадра, каковое помогает устранить явление энергетической нестабильности, вызываемое при переходе между обобщенным кадром и вокализованным кадром, посредством этого повышая качество выходного речевого/аудио сигнала.

[0072] В еще других вариантах осуществления настоящего изобретения, когда текущий речевой/аудио кадр является избыточным декодированным кадром, классом сигнала текущего речевого/аудио кадра не является «невокализованный», и классом сигнала речевого/аудио кадра после текущего речевого/аудио кадра является «невокализованный», огибающую расширения полосы частот текущего кадра корректируют, чтобы устранить явление энергетической нестабильности в расширении полосы частот во временной области и повысить качество выходного речевого/аудио сигнала.

[0073] Чтобы помочь лучшему пониманию и реализации вышеупомянутого решения в этом варианте осуществления настоящего изобретения, некоторые конкретные сценарии применения используются в качестве примеров в последующем описании.

[0100] Что касается Фиг.2, Фиг.2 является структурной схемой другого способа декодирования битового потока речи/аудио согласно другому варианту осуществления настоящего изобретения. Другой способ декодирования битового потока речи/аудио, обеспеченный в другом варианте осуществления настоящего изобретения, может включать в себя следующее содержание:

[0101] 201. Определить состояние декодирования текущего речевого/аудио кадра.

[0102] Конкретно, например, на основе алгоритма JBM или другого алгоритма может быть определено, что текущим речевым/аудио кадром является обычный декодированный кадр, избыточный декодированный кадр или FEC восстановленный кадр.

[0103] Если текущий речевой/аудио кадр является обычным декодированным кадром, и речевой/аудио кадр до текущего речевого/аудио кадра является избыточным декодированным кадром, исполняют этап 202.

[0104] Если текущий речевой/аудио кадр является избыточным декодированным кадром, исполняют этап 203.

[0105] Если текущий речевой/аудио кадр является FEC восстановленным кадром, и речевой/аудио кадр до вышеупомянутого текущего речевого/аудио кадра является избыточным декодированным кадром, исполняют этап 204.

[0106] 202. Получить параметр декодирования речи/аудио текущего речевого/аудио кадра на основании двоичного потока текущего речевого/аудио кадра и перейти на этап 205.

[0107] 203. Получить параметр декодирования речи/аудио вышеупомянутого текущего речевого/аудио кадра на основании избыточного двоичного потока, соответствующего текущему речевому/аудио кадру, и перейти на этап 205.

[0108] 204. Получить параметр декодирования речи/аудио текущего речевого/аудио кадра посредством предсказания на основе алгоритма FEC и перейти на этап 205.

[0109] 205. Выполнить пост-обработку на параметре декодирования речи/аудио вышеупомянутого текущего речевого/аудио кадра согласно параметрам речи/аудио X речевых/аудио кадров, чтобы получить пост-обработанный параметр декодирования речи/аудио вышеупомянутого текущего речевого/аудио кадра, где вышеупомянутые X речевых/аудио кадров включают M речевых/аудио кадров до вышеупомянутого текущего речевого/аудио кадра и/или N речевых/аудио кадров после вышеупомянутого текущего речевого/аудио кадра, и M и N - целые положительные числа.

[0110] 206. Восстановить речевой/аудио сигнал вышеупомянутого текущего речевого/аудио кадра путем использования пост-обработанного параметра декодирования речи/аудио из вышеупомянутого текущего речевого/аудио кадра.

[0111] Может выполняться различная пост-обработка на различных параметрах декодирования речи/аудио. Например, пост-обработка, выполняемая на параметре спектральной пары текущего речевого/аудио кадра, может быть адаптивным взвешиванием, выполняемым с использованием параметра спектральной пары текущего речевого/аудио кадра и параметра спектральной пары речевого/аудио кадра, предыдущего для текущего речевого/аудио кадра, чтобы получать пост-обработанный параметр спектральной пары текущего речевого/аудио кадра, и пост-обработка, выполняемая на коэффициенте усиления адаптивной кодовой книги текущего речевого/аудио кадра, может быть регулировкой, такой как ослабление, выполняемое на коэффициенте усиления адаптивной кодовой книги.

[0112] Следует понимать, что подробности выполнения пост-обработки на параметре декодирования речи/аудио в этом варианте осуществления могут ссылаться на соответствующие описания вышеизложенных осуществлений способа, и подробности здесь не описываются.

[0113] Из вышеизложенного описания можно уяснить, что в этом варианте осуществления в сценарии, в котором текущий речевой/аудио кадр является избыточным декодированным кадром, или речевой/аудио кадр до вышеупомянутого текущего речевого/аудио кадра является избыточным декодированным кадром, после получения параметра декодирования речи/аудио текущего речевого/аудио кадра декодер выполняет пост-обработку на параметре декодирования речи/аудио текущего речевого/аудио кадра согласно параметрам речи/аудио X речевых/аудио кадров, чтобы получить пост-обработанный параметр декодирования речи/аудио вышеупомянутого текущего речевого/аудио кадра, где вышеупомянутые X речевых/аудио кадров включают M речевых/аудио кадров до вышеупомянутого текущего речевого/аудио кадра и/или N речевых/аудио кадров после вышеупомянутого текущего речевого/аудио кадра, и восстанавливает речевой/аудио сигнал текущего речевого/аудио кадра путем использования пост-обработанного параметра декодирования речи/аудио текущего речевого/аудио кадра, каковое гарантирует стабильное качество декодированного сигнала при переходе между избыточным декодированным кадром и обычным декодированным кадром или между избыточным декодированным кадром и FEC восстановленным кадром, посредством этого повышая качество выходного речевого/аудио сигнала.

[0114] Из вышеизложенного описания можно уяснить, что в некоторых вариантах осуществления настоящего изобретения при переходе между «невокализованным» речевым/аудио кадром и не «невокализованным» речевым/аудио кадром (например, когда текущий речевой/аудио кадр представляет не «невокализованный» класс сигнала и является избыточным декодированным кадром, и речевой/аудио кадр до или после текущего речевого/аудио кадра представляет не «невокализованный» тип сигнала и является обычным декодированным кадром, или когда текущий речевой/аудио кадр представляет не «невокализованный» класс сигнала и является обычным декодированным кадром, и речевой/аудио кадр до или после текущего речевого/аудио кадра представляет не «невокализованный» класс сигнала и является избыточным декодированным кадром), пост-обработку выполняют на параметре декодирования речи/аудио текущего речевого/аудио кадра, каковое помогает избегать явления щелчка (click), вызываемого при межкадровом переходе между «невокализованным» речевым/аудио кадром и не «невокализованным» речевым/аудио кадром, посредством этого повышая качество выходного речевого/аудио сигнала.

[0115] В других вариантах осуществления настоящего изобретения, при переходе между обобщенным речевым/аудио кадром и вокализованным речевым/аудио кадром речевой/аудио кадр (когда текущий речевой/аудио кадр является «обобщенным» кадром и избыточным декодированным кадром, и речевой/аудио кадр до или после текущего речевого/аудио кадра представляет «вокализованный» класс сигнала и является обычным декодированным кадром, или когда текущий речевой/аудио кадр представляет «вокализованный» класс сигнала и является обычным декодированным кадром, и речевой/аудио кадр до или после текущего речевого/аудио кадра представляет «обобщенный» класс сигнала и является избыточным декодированным кадром), пост-обработку выполняют на параметре декодирования речи/аудио текущего речевого/аудио кадра, каковое помогает устранить явление энергетической нестабильности, вызываемое при переходе между обобщенным кадром и вокализованным кадром, посредством этого повышая качество выходного речевого/аудио сигнала.

[0116] В других вариантах осуществления настоящего изобретения, когда текущий речевой/аудио кадр является избыточным декодированным кадром, классом сигнала текущего речевого/аудио кадра не является «невокализованный», и классом сигнала речевого/аудио кадра после текущего речевого/аудио кадра является «невокализованный», огибающую расширения полосы частот текущего кадра корректируют, чтобы устранить явление энергетической нестабильности в расширении полосы частот во временной области и повысить качество выходного речевого/аудио сигнала.

[0117] Вариант осуществления настоящего изобретения дополнительно обеспечивает соответствующее устройство для реализации вышеупомянутого решения.

[0118] Что касается Фиг.3, вариант осуществления настоящего изобретения обеспечивает декодер 300 для декодирования битового потока речи/аудио, который может включать в себя: блок 310 извлечения параметра, блок 320 пост-обработки и блок 330 восстановления.

[0119] Блок 310 извлечения параметра сконфигурирован для извлечения параметра декодирования речи/аудио текущего речевого/аудио кадра, где вышеупомянутый текущий речевой/аудио кадр является избыточным декодированным кадром, или речевой/аудио кадр до вышеупомянутого текущего речевого/аудио кадра является избыточным декодированным кадром.

[0120] Когда речевой/аудио кадр до вышеупомянутого текущего речевого/аудио кадра является избыточным декодированным кадром, текущий речевой/аудио кадр может быть обычным декодированным кадром, избыточным декодированным кадром или кадром FEC восстановления.

[0121] Блок 320 пост-обработки сконфигурирован, чтобы выполнять пост-обработку на параметре декодирования речи/аудио вышеупомянутого текущего речевого/аудио кадра согласно параметрам речи/аудио X речевых/аудио кадров для получения пост-обработанного параметра декодирования речи/аудио вышеупомянутого текущего речевого/аудио кадра, где вышеупомянутые X речевых/аудио кадров включают M речевых/аудио кадров до вышеупомянутого текущего речевого/аудио кадра и/или N речевых/аудио кадров после вышеупомянутого текущего речевого/аудио кадра, и M и N - целые положительные числа.

[0122] Блок 330 восстановления сконфигурирован, чтобы восстанавливать речевой/аудио сигнал вышеупомянутого текущего речевого/аудио кадра путем использования пост-обработанного параметра декодирования речи/аудио из вышеупомянутого текущего речевого/аудио кадра.

[0123] То, что речевой/аудио кадр (например, текущий речевой/аудио кадр или речевой/аудио кадр до текущего речевого/аудио кадра) является обычным декодированным кадром, означает, что параметр речи/аудио и т.п., вышеупомянутого речевого/аудио кадра может быть непосредственно получен из двоичного потока речевого/аудио кадра посредством декодирования. То, что речевой/аудио кадр (например, текущий речевой/аудио кадр или речевой/аудио кадр до текущего речевого/аудио кадра) является избыточным декодированным кадром, означает, что параметр речи/аудио и т.п., речевого/аудио кадра не может быть непосредственно получен из двоичного потока речевого/аудио кадра посредством декодирования, но избыточная информация двоичного потока для речевого/аудио кадра может быть получена из двоичного потока другого речевого/аудио кадра.

[0124] M речевых/аудио кадров до текущего речевого/аудио кадра относятся к M речевым/аудио кадрам, предшествующим текущему речевому/аудио кадру и непосредственно смежным с текущим речевым/аудио кадром во временной области.

[0125] Например, M может быть равным 1, 2, 3, или другим значением. Когда M=1, M речевых/аудио кадров до текущего речевого/аудио кадра представляют речевые/аудио кадры до текущего речевого/аудио кадра, и речевой/аудио кадр до текущего речевого/аудио кадра и текущий речевой/аудио кадр представляют два непосредственно смежных речевых/аудио кадра; когда M=2, M речевых/аудио кадров до текущего речевого/аудио кадра являются речевыми/аудио кадрами до текущего речевого/аудио кадра, и речевой/аудио кадр до речевого/аудио кадра до текущего речевого/аудио кадра, и речевой/аудио кадр до текущего речевого/аудио кадра, речевой/аудио кадр до речевого/аудио кадра до текущего речевого/аудио кадра и текущий речевой/аудио кадр представляют три непосредственно смежных речевых/аудио кадра; и так далее.

[0126] N речевых/аудио кадров после текущего речевого/аудио относятся к N речевым/аудио кадрам, следующим после текущего речевого/аудио кадра и непосредственно смежным с текущим речевым/аудио кадром во временной области.

[0127] Например, N может быть равным 1, 2, 3, 4, или другим значением. Когда N=1, N речевых/аудио кадров после текущего речевого/аудио кадра представляют речевой/аудио кадр после текущего речевого/аудио кадра, и речевой/аудио кадр после текущего речевого/аудио кадра и текущий речевой/аудио кадр представляют два непосредственно смежных речевых/аудио кадра; когда N=2, N речевых/аудио кадров после текущего речевого/аудио кадра представляют речевой/аудио кадр после текущего речевого/аудио кадра и речевой/аудио кадр после речевого/аудио кадра после текущего речевого/аудио кадра, и речевой/аудио кадр после текущего речевого/аудио кадра, речевой/аудио кадр после речевого/аудио кадра после текущего речевого/аудио кадра и текущий речевой/аудио кадр представляют три непосредственно смежных речевых/аудио кадра; и так далее.

[0128] Параметр декодирования речи/аудио может включать в себя, по меньшей мере, один из следующих параметров:

[0129] Параметр речи/аудио может включать в себя параметр декодирования речи/аудио, класс сигнала и т.п.

[0130] Классом сигнала речевого/аудио кадра может быть «невокализованный», «вокализованный», «обобщенный», «переходный», «неактивный» или подобный.

[0131] Параметр спектральной пары может быть, например, по меньшей мере, одним из параметра пары спектральных линий (LSP) или параметра спектральной пары иммитанса (ISP).

[0132] Следует понимать, что в этом варианте осуществления настоящего изобретения блок 320 пост-обработки может выполнять пост-обработку, по меньшей мере, на одном параметре декодирования речи/аудио из огибающей расширения полосы частот, коэффициента усиления адаптивной кодовой книги, алгебраической кодовой книги, периода основного тона или параметра спектральной пары текущего речевого/аудио кадра. Конкретно, сколько параметров выбрано, и какие параметры выбраны для пост-обработки, может быть определено согласно сценарию применения и среде применения, каковое не ограничивается в этом варианте осуществления настоящего изобретения.

[0133] Блок 320 пост-обработки может выполнять различную пост-обработку на различных параметрах декодирования речи/аудио. Например, пост-обработка, выполняемая блоком 320 пост-обработки на параметре спектральной пары текущего речевого/аудио кадра, может быть адаптивным взвешиванием, выполняемым с использованием параметра спектральной пары текущего речевого/аудио кадра и параметра спектральной пары речевого/аудио кадра, предыдущего для текущего речевого/аудио кадра, чтобы получать пост-обработанный параметр спектральной пары текущего речевого/аудио кадра, и пост-обработка, выполняемая блоком 320 пост-обработки на коэффициенте усиления адаптивной кодовой книги текущего речевого/аудио кадра, может быть регулировкой, такой как ослабление, выполняемое на коэффициенте усиления адаптивной кодовой книги.

[0134] Следует понимать, что функции функциональных модулей декодера 300 в этом варианте осуществления могут быть конкретно реализованы согласно способу из вышеизложенного варианта осуществления способа. Относительно конкретного процесса реализации, можно обратиться к соответствующим описаниям вышеизложенного осуществления способа. Подробности здесь не описываются. Декодер 300 может быть любым устройством, которому необходимо выводить речевые сигналы, например, устройством, таким как портативный компьютер, планшетный компьютер или персональный компьютер, или мобильным телефоном.

[0135] Фиг.4 является схематичным представлением декодера 400 согласно варианту осуществления настоящего изобретения. Декодер 400 может включать в себя, по меньшей мере, одну шину 401, по меньшей мере, один процессор 402, соединенный с шиной 401, и, по меньшей мере, одну память 403, соединенную с шиной 401.

[0136] Путем запуска, с использованием шины 401, программного кода, сохраненного в памяти 403, процессор 402 конфигурируется, чтобы: выполнять этапы, как описано в предыдущих варианта осуществления способа, и конкретный процесс реализации процессора 402 может ссылаться на соответствующие описания вышеизложенных вариантов осуществления способа. Подробности здесь не описываются.

[0137] Следует понимать, что в этом варианте осуществления настоящего изобретения путем запуска программного кода, сохраненного в памяти 403, процессор 402 может быть сконфигурирован для выполнения пост-обработки, по меньшей мере, на одном параметре декодирования речи/аудио из огибающей расширения полосы частот, коэффициента усиления адаптивной кодовой книги, алгебраической кодовой книги, периода основного тона или параметра спектральной пары текущего речевого/аудио кадра. Конкретно, сколько параметров выбрано, и какие параметры выбраны для пост-обработки, может определяться в соответствии со сценарием практического применения и средой применения, каковое не ограничивается в этом варианте осуществления настоящего изобретения.

[0138] Может выполняться различная пост-обработка на различных параметрах декодирования речи/аудио. Например, пост-обработка, выполняемая на параметре спектральной пары текущего речевого/аудио кадра, может быть адаптивным взвешиванием, выполняемым с использованием параметра спектральной пары текущего речевого/аудио кадра и параметра спектральной пары из речевого/аудио кадра, предыдущего для текущего речевого/аудио кадра, для получения пост-обработанного параметра спектральной пары текущего речевого/аудио кадра, и пост-обработка, выполняемая на коэффициенте усиления адаптивной кодовой книги текущего речевого/аудио кадра, может быть регулировкой, такой как ослабление, выполняемое на коэффициенте усиления адаптивной кодовой книги.

[0139] Конкретный вид пост-обработки не ограничивается в этом варианте осуществления настоящего изобретения, и конкретная пост-обработка может задаваться в соответствии с техническим требованием или в соответствии со средой применения и в соответствии со сценарием применения.

[0140] Что касается Фиг.5, Фиг.5 является структурной блок-схемой декодера 500 согласно другому варианту осуществления настоящего изобретения. Декодер 500 может включать в себя, по меньшей мере, один процессор 501, по меньшей мере, один сетевой интерфейс 504 или пользовательский интерфейс 503, память 505, и, по меньшей мере, одну коммуникационную шину 502. Коммуникационная шина 502 сконфигурирована, чтобы реализовывать соединение и связь между этими компонентами. Декодер 500 может необязательно включать в себя пользовательский интерфейс 503, который включает в себя устройство отображения (например, сенсорный экран, жидкокристаллический экран, на основе электронно-лучевой трубки (CRT), голографическое устройство или проектор (Projector), устройство, использующее щелчок/касание (например, мышь, шаровой манипулятор (trackball), сенсорную панель или сенсорный экран), камеру и/или устройство съема сигнала и подобное.

[0141] Память 505 может включать в себя постоянную память и оперативную память, и предоставлять инструкцию и данные для процессора 501. Часть памяти 505 может дополнительно включать в себя энергонезависимую оперативную память (NVRAM).

[0142] В некоторых видах реализации, память 505 сохраняет следующие элементы, исполнимый модуль или структуру данных, или подмножество таковых, или расширенный набор таковых:

операционную систему 5051, включающую в себя различные системные программы, и используемую для реализации различных базовых услуг и обработки аппаратно-реализованных задач; и

модуль 5052 прикладных программ, включающий различные прикладные программы, и сконфигурированный для реализации услуг различных приложений.

[0143] Модуль 5052 прикладных программ включает в себя, но без ограничения указанным, блок 310 извлечения параметра, блок 320 пост-обработки, блок 330 восстановления, и подобное.

В этом варианте осуществления настоящего изобретения, путем запуска программы или инструкции, сохраненной в памяти 505, процессор 501 может быть сконфигурирован, чтобы выполнять этапы, как описано в предыдущих вариантах осуществления способа.

[0145] Следует понимать, что в этом варианте осуществления, путем запуска программы или инструкции, сохраненной в памяти 505, процессор 501 может выполнять пост-обработку, по меньшей мере, на одном параметре декодирования речи/аудио из огибающей расширения полосы частот, коэффициента усиления адаптивной кодовой книги, алгебраической кодовой книги, периода основного тона или параметра спектральной пары текущего речевого/аудио кадра. Конкретно, сколько параметров выбрано, и какие параметры выбраны для пост-обработки, может определяться в соответствии со сценарием практического применения и средой применения, каковое не ограничивается в этом варианте осуществления настоящего изобретения.

[0146] Может выполняться различная пост-обработка на различных параметрах декодирования речи/аудио. Например, пост-обработка, выполняемая на параметре спектральной пары текущего речевого/аудио кадра, может быть адаптивным взвешиванием, выполняемым с использованием параметра спектральной пары текущего речевого/аудио кадра и параметра спектральной пары речевого/аудио кадра, предыдущего для текущего речевого/аудио кадра, чтобы получать пост-обработанный параметр спектральной пары текущего речевого/аудио кадра, и пост-обработка, выполняемая на коэффициенте усиления адаптивной кодовой книги текущего речевого/аудио кадра, может быть регулировкой, такой как ослабление, выполняемое на коэффициенте усиления адаптивной кодовой книги. Конкретные подробности реализации относительно пост-обработки могут ссылаться на соответствующие описания вышеизложенных вариантов осуществления способа.

[0147] Вариант осуществления настоящего изобретения дополнительно обеспечивает носитель данных компьютера, где носитель данных компьютера может хранить программу. При исполнении, программа включает в себя некоторые или все этапы любого способа декодирования битового потока речи/аудио, описанного в вышеизложенных вариантах осуществления способа.

[0148] Следует отметить, что для обеспечения краткости описания, вышеизложенные варианты осуществления способа выражены в виде последовательности действий. Однако специалисты в данной области техники оценят, что настоящее изобретение не ограничивается описанной последовательностью действий, поскольку согласно данному изобретению, некоторые этапы могут выполняться в других последовательностях или выполняться одновременно. [0149] В вышеизложенных вариантах осуществления описание каждого варианта осуществления имеет соответственные точки внимания. Относительно части, которая не описана подробно в варианте осуществления, можно обратиться к соответствующим описаниям в других вариантах осуществления.

[0150] В нескольких вариантах осуществления, представленных в этой заявке, следует понять, что раскрываемое устройство может быть реализовано другим образом. Например, вариант осуществления описанного устройства является чисто иллюстративным. Например, деление на модули является просто делением на логические функции и может быть другим делением в фактической реализации. Например, множество блоков или компонентов могут комбинироваться или объединяться в другую систему, или некоторые признаки могут игнорироваться или не выполняться. Кроме того, изображенные или описанные взаимные связи, либо непосредственные соединения, либо коммуникационные соединения, могут быть реализованы через посредство некоторых интерфейсов. Косвенные связи или коммуникационные соединения между устройствоами или блоками могут быть реализованы в электронной или других формах.

[0151] Блоки, описанные как отдельные части, могут или не могут являться физически отдельными, и части, изображенные или описанные в виде блоков, могут или не могут являться физическими блоками, могут быть размещены в одной позиции, или могут быть распределены на множестве сетевых модулей. Некоторые или все из блоков могут быть выбраны согласно фактическим потребностям для достижения целей решений из вариантов осуществления.

[0152] Кроме того, функциональные блоки в вариантах осуществления настоящего изобретения могут быть объединены в один блок обработки, или каждый из блоков могут существовать отдельно физически, или два или более блоков могут быть объединены в один блок. Объединенный блок может быть реализован в форме аппаратных средств или может быть реализован в форме программно-реализованного функционального блока.

[0153] Когда объединенный блок реализован в форме программно-реализованного функционального блока и продается или используется в качестве независимого продукта, объединенный блок может быть сохранен в читаемом компьютером носителе данных. На основе такого понимания, технические решения настоящего изобретения по существу, или часть, вносящая вклад в известный уровню техники, или все технические решения или их часть могут быть реализованы в форме программного продукта. Программный продукт сохраняется в носителе данных и включает в себя несколько инструкций для предписания вычислительному устройству (которое может быть персональным компьютером, сервером или сетевым устройством, и конкретно может быть процессором в вычислительном устройстве) выполнять все или часть этапов вышеизложенных способов, описанных в вариантах осуществления настоящего изобретения. Вышеупомянутый носитель данных может включать в себя: любой носитель, который может сохранять программный код, такой как карта флэш-памяти с USB-интерфейсом, ЗУ на магнитном диске, оперативное запоминающее устройство (RAM, оперативная память), постоянное запоминающее устройство (ROM, постоянная память), съемный накопитель на жестком диске или ЗУ на оптическом диске.

Вышеизложенные варианты осуществления предназначены просто для описания технических решений настоящего изобретения, а не для ограничения настоящего изобретения. Хотя настоящее изобретение описано подробно со ссылкой на вышеизложенные варианты осуществления, обычные специалисты в данной области техники поймут, что они могут делать изменения технических решений, описанных в вышеизложенных вариантах осуществления, или делать эквивалентные замены некоторых технических характеристик в таковых без выхода за рамки объема технических решений из вариантов осуществления настоящего изобретения.

Claims

1. Способ декодирования битового потока речи/аудио, содержащий:

извлечение параметра декодирования речи/аудио текущего речевого/аудио кадра, причем текущий речевой/аудио кадр является избыточным декодированным кадром, или речевой/аудио кадр до текущего речевого/аудио кадра является избыточным декодированным кадром;

выполнение пост-обработки на параметре декодирования речи/аудио текущего речевого/аудио кадра согласно параметрам речи/аудио X речевых/аудио кадров, чтобы получить пост-обработанный параметр декодирования речи/аудио текущего речевого/аудио кадра, причем X речевых/аудио кадров включают M речевых/аудио кадров до текущего речевого/аудио кадра и/или N речевых/аудио кадров после текущего речевого/аудио кадра, и M и N - целые положительные числа; и

восстановление речевого/аудио сигнала текущего речевого/аудио кадра путем использования пост-обработанного параметра декодирования речи/аудио, соответствующего текущему речевому/аудио кадру.

2. Способ по п.1, в котором параметр декодирования речи/аудио текущего речевого/аудио кадра содержит параметр спектральной пары текущего речевого/аудио кадра, и выполнение пост-обработки на параметре декодирования речи/аудио текущего речевого/аудио кадра согласно параметрам речи/аудио X речевых/аудио кадров содержит:

выполнение пост-обработки на параметре спектральной пары текущего речевого/аудио кадра согласно, по меньшей мере, одному из класса сигнала, коэффициента наклона спектра, коэффициента усиления адаптивной кодовой книги или параметра спектральной пары X речевых/аудио кадров, чтобы получить пост-обработанный параметр спектральной пары для текущего речевого/аудио кадра.

3. Способ по п.1, в котором

параметр декодирования речи/аудио текущего речевого/аудио кадра содержит коэффициент усиления адаптивной кодовой книги текущего речевого/аудио кадра, и выполнение пост-обработки на параметре декодирования речи/аудио текущего речевого/аудио кадра согласно параметрам речи/аудио X речевых/аудио кадров содержит:

выполнение пост-обработки на коэффициенте усиления адаптивной кодовой книги текущего речевого/аудио кадра согласно, по меньшей мере, одному из класса сигнала, коэффициента усиления алгебраической кодовой книги или коэффициента усиления адаптивной кодовой книги X речевых/аудио кадров, чтобы получить пост-обработанный коэффициент усиления адаптивной кодовой книги текущего речевого/аудио кадра.

4. Способ по п.3, в котором выполнение пост-обработки на коэффициенте усиления адаптивной кодовой книги текущего речевого/аудио кадра согласно, по меньшей мере, одному из класса сигнала, коэффициента усиления алгебраической кодовой книги или коэффициента усиления адаптивной кодовой книги X речевых/аудио кадров содержит:

в случае, когда текущий речевой/аудио кадр является избыточным декодированным кадром, классом сигнала текущего речевого/аудио кадра не является «невокализованный», классом сигнала, по меньшей мере, одного из двух речевых/аудио кадров после текущего речевого/аудио кадра является «невокализованный», и коэффициент усиления алгебраической кодовой книги текущего подкадра в текущем речевом/аудио кадре больше чем или равен коэффициенту усиления алгебраической кодовой книги речевого/аудио кадра, предыдущего для текущего речевого/аудио кадра, ослабление коэффициента усиления адаптивной кодовой книги текущего подкадра.

5. Способ по п.4, который дополнительно содержит:

в случае, когда текущий речевой/аудио кадр является избыточным декодированным кадром, классом сигнала текущего речевого/аудио кадра не является «невокализованный», классом сигнала, по меньшей мере, одного из двух речевых/аудио кадров после текущего речевого/аудио кадра является «невокализованный», и коэффициент усиления алгебраической кодовой книги текущего подкадра в текущем речевом/аудио кадре больше чем или равен коэффициенту усиления алгебраической кодовой книги подкадра, предыдущего для текущего подкадра, ослабление коэффициента усиления адаптивной кодовой книги текущего подкадра.

6. Способ по п.1, в котором параметр декодирования речи/аудио текущего речевого/аудио кадра, содержит алгебраическую кодовую книгу текущего речевого/аудио кадра, и выполнение пост-обработки на параметре декодирования речи/аудио текущего речевого/аудио кадра согласно параметрам речи/аудио X речевых/аудио кадров содержит:

выполнение пост-обработки на алгебраической кодовой книге текущего речевого/аудио кадра согласно, по меньшей мере, одному из класса сигнала, алгебраической кодовой книги или коэффициента наклона спектра X речевых/аудио кадров, чтобы получить пост-обработанную алгебраическую кодовую книгу для текущего речевого/аудио кадра.

7. Способ по п.1, в котором параметр декодирования речи/аудио текущего речевого/аудио кадра содержит огибающую расширения полосы частот текущего речевого/аудио кадра, и выполнение пост-обработки на параметре декодирования речи/аудио текущего речевого/аудио кадра согласно параметрам речи/аудио X речевых/аудио кадров содержит:

выполнение пост-обработки на огибающей расширения полосы частот текущего речевого/аудио кадра согласно, по меньшей мере, одному из класса сигнала, огибающей расширения полосы частот или коэффициента наклона спектра X речевых/аудио кадров, чтобы получить пост-обработанную огибающую расширения полосы частот текущего речевого/аудио кадра.

8. Способ по п.7, в котором выполнение пост-обработки на огибающей расширения полосы частот текущего речевого/аудио кадра согласно, по меньшей мере, одному из класса сигнала, огибающей расширения полосы частот или коэффициента наклона спектра X речевых/аудио кадров содержит:

в случае, когда речевой/аудио кадр до текущего речевого/аудио кадра является обычным декодированным кадром, и класс сигнала речевого/аудио кадра до текущего речевого/аудио кадра является таким же, как таковой речевого/аудио кадра после текущего речевого/аудио кадра, получение пост-обработанной огибающей расширения полосы частот текущего речевого/аудио кадра на основе огибающей расширения полосы частот речевого/аудио кадра, предыдущего для текущего речевого/аудио кадра, и огибающей расширения полосы частот текущего речевого/аудио кадра.

9. Способ по п.8, который дополнительно содержит:

в случае, когда текущий речевой/аудио кадр является предсказанной формой декодирования с избыточностью, получение пост-обработанной огибающей расширения полосы частот текущего речевого/аудио кадра на основе огибающей расширения полосы частот речевого/аудио кадра, предыдущего для текущего речевого/аудио кадра, и огибающей расширения полосы частот текущего речевого/аудио кадра.

10. Способ по п.8, который дополнительно содержит:

в случае, когда классом сигнала текущего речевого/аудио кадра не является «невокализованный», классом сигнала речевого/аудио кадра после текущего речевого/аудио кадра является «невокализованный», и коэффициент наклона спектра речевого/аудио кадра, предыдущего для текущего речевого/аудио кадра, меньше чем или равен десятому пороговому значению, коррекцию огибающей расширения полосы частот текущего речевого/аудио кадра согласно огибающей расширения полосы частот или коэффициенту наклона спектра речевого/аудио кадра, предыдущего для текущего речевого/аудио кадра, чтобы получить пост-обработанную огибающую расширения полосы частот текущего речевого/аудио кадра.

11. Способ по п.8, в котором поправочный множитель для коррекции огибающей расширения полосы частот текущего речевого/аудио кадра является обратно пропорциональным коэффициенту наклона спектра речевого/аудио кадра, предыдущего для текущего речевого/аудио кадра, и является пропорциональным отношению огибающей расширения полосы частот речевого/аудио кадра, предыдущего для текущего речевого/аудио кадра, к огибающей расширения полосы частот текущего речевого/аудио кадра.

12. Способ по п.1, в котором параметр декодирования речи/аудио текущего речевого/аудио кадра содержит период основного тона текущего речевого/аудио кадра, и выполнение пост-обработки на параметре декодирования речи/аудио текущего речевого/аудио кадра согласно параметрам речи/аудио X речевых/аудио кадров содержит:

выполнение пост-обработки на периоде основного тона текущего речевого/аудио кадра согласно классам сигнала и/или периодам основного тона X речевых/аудио кадров, чтобы получить пост-обработанный период основного тона текущего речевого/аудио кадра.

13. Декодер для декодирования битового потока речи/аудио, содержащий:

память, сохраняющую инструкции, и процессор, связанный с памятью, который исполняет инструкции, чтобы:

извлекать параметр декодирования речи/аудио текущего речевого/аудио кадра, причем текущий речевой/аудио кадр является избыточным декодированным кадром, или речевой/аудио кадр до текущего речевого/аудио кадра является избыточным декодированным кадром;

выполнять пост-обработку на параметре декодирования речи/аудио текущего речевого/аудио кадра согласно параметрам речи/аудио X речевых/аудио кадров, чтобы получать пост-обработанный параметр декодирования речи/аудио текущего речевого/аудио кадра, причем X речевых/аудио кадров включают M речевых/аудио кадров до текущего речевого/аудио кадра и/или N речевых/аудио кадров после текущего речевого/аудио кадра, и M и N - целые положительные числа; и

восстанавливать речевой/аудио сигнал текущего речевого/аудио кадра путем использования пост-обработанного параметра декодирования речи/аудио текущего речевого/аудио кадра.

14. Декодер по п.13, в котором параметр декодирования речи/аудио текущего речевого/аудио кадра содержит параметр спектральной пары текущего речевого/аудио кадра и

процессор сконфигурирован, чтобы:

выполнять пост-обработку на параметре спектральной пары текущего речевого/аудио кадра согласно, по меньшей мере, одному из параметра спектральной пары, коэффициента усиления адаптивной кодовой книги, коэффициента наклона спектра или класса сигнала X речевых/аудио кадров, чтобы получить пост-обработанный параметр спектральной пары текущего речевого/аудио кадра.

15. Декодер по п.13, в котором параметр декодирования речи/аудио текущего речевого/аудио кадра содержит коэффициент усиления адаптивной кодовой книги текущего речевого/аудио кадра;

процессор сконфигурирован, чтобы:

выполнять пост-обработку на коэффициенте усиления адаптивной кодовой книги текущего речевого/аудио кадра согласно, по меньшей мере, одному из класса сигнала, коэффициента усиления алгебраической кодовой книги или коэффициента усиления адаптивной кодовой книги X речевых/аудио кадров, чтобы получить пост-обработанный коэффициент усиления адаптивной кодовой книги для текущего речевого/аудио кадра.

16. Декодер по п.13, в котором параметр декодирования речи/аудио текущего речевого/аудио кадра содержит огибающую расширения полосы частот текущего речевого/аудио кадра, и процессор сконфигурирован, чтобы:

выполнять пост-обработку на огибающей расширения полосы частот текущего речевого/аудио кадра согласно, по меньшей мере, одному из класса сигнала, огибающей расширения полосы частот или коэффициента наклона спектра X речевых/аудио кадров, чтобы получить пост-обработанную огибающую расширения полосы частот текущего речевого/аудио кадра.

17. Декодер по п. 13, в котором процессор сконфигурирован, чтобы:

в случае, когда речевой/аудио кадр до текущего речевого/аудио кадра является обычным декодированным кадром, и класс сигнала речевого/аудио кадра до текущего речевого/аудио кадра является таким же, как таковой речевого/аудио кадра после текущего речевого/аудио кадра, получать пост-обработанную огибающую расширения полосы частот текущего речевого/аудио кадра на основе огибающей расширения полосы частот речевого/аудио кадра, предыдущего для текущего речевого/аудио кадра, и огибающей расширения полосы частот текущего речевого/аудио кадра.

18. Декодер по п.17, в котором процессор дополнительно сконфигурирован, чтобы

в случае, когда текущий речевой/аудио кадр является предсказанной формой декодирования с избыточностью, получать пост-обработанную огибающую расширения полосы частот текущего речевого/аудио кадра на основе огибающей расширения полосы частот речевого/аудио кадра, предыдущего для текущего речевого/аудио кадра, и огибающей расширения полосы частот текущего речевого/аудио кадра.

19. Декодер по п. 17, в котором поправочный множитель, используемый процессором для коррекции огибающей расширения полосы частот текущего речевого/аудио кадра, является обратно пропорциональным коэффициенту наклона спектра речевого/аудио кадра, предыдущего для текущего речевого/аудио кадра, и является пропорциональным отношению огибающей расширения полосы частот речевого/аудио кадра, предыдущего для текущего речевого/аудио кадра, к огибающей расширения полосы частот текущего речевого/аудио кадра.

20. Декодер по п.13, в котором параметр декодирования речи/аудио текущего речевого/аудио кадра содержит период основного тона текущего речевого/аудио кадра, и процессор конкретно сконфигурирован, чтобы:

выполнять пост-обработку на периоде основного тона текущего речевого/аудио кадра согласно, по меньшей мере, одному из класса сигнала или периода основного тона X речевых/аудио кадров, чтобы получить пост-обработанный период основного тона текущего речевого/аудио кадра.