RU2644512C1 - Способ и устройство декодирования битового потока речи/аудио - Google Patents
Способ и устройство декодирования битового потока речи/аудио Download PDFInfo
- Publication number
- RU2644512C1 RU2644512C1 RU2016141282A RU2016141282A RU2644512C1 RU 2644512 C1 RU2644512 C1 RU 2644512C1 RU 2016141282 A RU2016141282 A RU 2016141282A RU 2016141282 A RU2016141282 A RU 2016141282A RU 2644512 C1 RU2644512 C1 RU 2644512C1
- Authority
- RU
- Russia
- Prior art keywords
- speech
- audio frame
- audio
- current speech
- current
- Prior art date
Links
- 238000000034 method Methods 0.000 title claims abstract description 48
- 238000012805 post-processing Methods 0.000 claims abstract description 85
- 230000005236 sound signal Effects 0.000 claims abstract description 24
- 230000003595 spectral effect Effects 0.000 claims description 111
- 230000003044 adaptive effect Effects 0.000 claims description 65
- 238000001228 spectrum Methods 0.000 claims description 21
- 238000012937 correction Methods 0.000 claims description 5
- 230000003313 weakening effect Effects 0.000 claims description 3
- 239000000126 substance Substances 0.000 abstract 1
- 238000010586 diagram Methods 0.000 description 8
- 238000004891 communication Methods 0.000 description 7
- 230000008569 process Effects 0.000 description 6
- 238000011084 recovery Methods 0.000 description 5
- 230000007704 transition Effects 0.000 description 5
- 238000000605 extraction Methods 0.000 description 4
- 239000000872 buffer Substances 0.000 description 3
- 230000008859 change Effects 0.000 description 3
- 238000005516 engineering process Methods 0.000 description 3
- 238000012545 processing Methods 0.000 description 3
- 230000005540 biological transmission Effects 0.000 description 2
- 230000006870 function Effects 0.000 description 2
- 230000001052 transient effect Effects 0.000 description 2
- 230000015556 catabolic process Effects 0.000 description 1
- 238000006731 degradation reaction Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000007480 spreading Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/005—Correction of errors induced by the transmission channel, if related to the coding algorithm
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/02—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/04—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
- G10L19/06—Determination or coding of the spectral characteristics, e.g. of the short-term prediction coefficients
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/04—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
- G10L19/16—Vocoder architecture
- G10L19/167—Audio streaming, i.e. formatting and decoding of an encoded audio signal representation into a data stream for transmission or storage purposes
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/038—Speech enhancement, e.g. noise reduction or echo cancellation using band spreading techniques
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/78—Detection of presence or absence of voice signals
-
- H—ELECTRICITY
- H03—ELECTRONIC CIRCUITRY
- H03M—CODING; DECODING; CODE CONVERSION IN GENERAL
- H03M7/00—Conversion of a code where information is represented by a given sequence or number of digits to a code where the same, similar or subset of information is represented by a different sequence or number of digits
- H03M7/30—Compression; Expansion; Suppression of unnecessary data, e.g. redundancy reduction
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/04—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
- G10L19/26—Pre-filtering or post-filtering
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L2019/0001—Codebooks
- G10L2019/0002—Codebook adaptations
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- Signal Processing (AREA)
- Health & Medical Sciences (AREA)
- Human Computer Interaction (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Quality & Reliability (AREA)
- Theoretical Computer Science (AREA)
- Compression, Expansion, Code Conversion, And Decoders (AREA)
- Machine Translation (AREA)
Abstract
Изобретение относится к технологиям декодирования аудио и предназначено для декодирования битового потока речи/аудио сигнала. Технический результат - повышение качества выходного речевого/аудио сигнала. Данный способ декодирования битового потока речи/аудио включает извлечение параметра декодирования речи/аудио текущего речевого/аудио кадра, где вышеупомянутый текущий речевой/аудио кадр является избыточным декодированным кадром или речевой/аудио кадр до вышеупомянутого текущего речевого/аудио кадра является избыточным декодированным кадром; выполнение пост-обработки на извлеченном параметре декодирования речи/аудио согласно параметрам речи/аудио X речевых/аудио кадров, где вышеупомянутые X речевых/аудио кадров включают M речевых/аудио кадров до вышеупомянутого текущего речевого/аудио кадра и/или N речевых/аудио кадров после вышеупомянутого текущего речевого/аудио кадра; и восстановление речевого/аудио сигнала путем использования пост-обработанного параметра декодирования речи/аудио вышеупомянутого текущего речевого/аудио кадра. 2 н. и 18 з.п. ф-лы, 5 ил.
Description
ОБЛАСТЬ ТЕХНИКИ, К КОТОРОЙ ОТНОСИТСЯ ИЗОБРЕТЕНИЕ
[0001] Настоящее изобретение относится к технологиям декодирования аудио, и конкретно, к способу и устройству декодирования битового потока речи/аудио.
УРОВЕНЬ ТЕХНИКИ
[0002] В системе на основе передачи голоса по протоколу Internet (VoIP, голосовая связь по IP-протоколу), пакету может требоваться проходить через множество маршрутизаторов в процессе передачи, но поскольку эти маршрутизаторы могут сменяться при обработке вызова, задержка передачи обработки вызова может изменяться. Кроме того, когда два или более пользователей осуществляют попытку вхождения в сеть, используя один и тот же шлюз, задержка маршрутизации может изменяться, и такое изменение задержки называют флуктуацией времени задержки (delay jitter). Подобным образом флуктуация времени задержки также может вызываться, когда приемник, передатчик, шлюз и подобное используют операционную систему не реального времени, и в тяжелой ситуации происходит потеря пакета данных, приводя к искажению речи/аудио и ухудшению качества VoIP.
[0003] На настоящее время были использованы многие технологии на различных уровнях системы связи, чтобы снижать задержку, сглаживить флуктуацию времени задержки и выполнять компенсацию потери пакетов. Приемник может использовать алгоритм высокопроизводительной обработки джиттер-буфера (JBM, Jitter Buffer Management), чтобы до некоторой степени компенсировать флуктуацию времени задержки в сети. Однако, в случае относительно высокого коэффициента потерь пакетов, очевидно, требование высококачественной связи не может быть удовлетворено только с использованием технологии JBM.
[0004] Чтобы помочь устранению проблемы ухудшения качества, вызываемой флуктуацией времени задержки речевого/аудио кадра, предложен алгоритм кодирования с избыточностью. То есть, в дополнение к кодированию информации текущего речевого/аудио кадра с конкретной скоростью передачи битов, кодер кодирует информацию другого речевого/аудио кадра, отличного от текущего речевого/аудио кадра, с относительно более низкой скоростью передачи битов и передает относительно более низкоскоростной двоичный поток для информации другого речевого/аудио кадра в виде избыточной информации на декодер вместе с двоичным потоком информации текущего речевого/аудио кадра. Когда речевой/аудио кадр потерян, если джиттер-буфер буферизует (или содержит в себе принятый двоичный поток) избыточную информацию для потерянного речевого/аудио кадра, декодер восстанавливает потерянный речевой/аудио кадр согласно избыточной информации, посредством этого повышая качество речи/звучания.
[0005] В существующем алгоритме кодирования с избыточностью в дополнение к включению информации речевого/аудио кадра для N-ого кадра, двоичный поток N-ого кадра включает информацию речевого/аудио кадра (N-M)-ого кадра с более низкой скоростью передачи битов. В процессе передачи, если (N-M)-ый кадр теряется, процесс декодирования выполняют согласно информации речевого/аудио кадра, которая представляет (N-M)-ый кадр и включена в двоичный поток N-ого кадра, чтобы восстанавливать речевой/аудио сигнал из (N-M)-ого кадра.
[0006] Из вышеизложенного описания можно уяснить, что в существующем алгоритме кодирования с избыточностью, избыточную информацию двоичного потока получают посредством кодирования с более низкой скоростью передачи битов, каковое, следовательно, весьма вероятно вызовет нестабильность сигнала и дополнительно обусловит низкое качество выходного речевого/аудио сигнала.
СУЩНОСТЬ ИЗОБРЕТЕНИЯ
[0007] Варианты осуществления настоящего изобретения обеспечивают способ и устройство декодирования битового потока речи/аудио, каковое помогает повысить качество выходного речевого/аудио сигнала.
[0008] Первый аспект вариантов осуществления настоящего изобретения обеспечивает способ декодирования битового потока речи/аудио, который может включать в себя:
извлечение параметра декодирования речи/аудио текущего речевого/аудио кадра, где текущий речевой/аудио кадр является избыточным декодированным кадром, или речевой/аудио кадр до текущего речевого/аудио кадра является избыточным декодированным кадром;
выполнение пост-обработки на параметре декодирования речи/аудио текущего речевого/аудио кадра согласно параметрам речи/аудио для X речевых/аудио кадров, чтобы получить пост-обработанный параметр декодирования речи/аудио текущего речевого/аудио кадра, где X речевых/аудио кадров включают M речевых/аудио кадров до текущего речевого/аудио кадра и/или N речевых/аудио кадров после текущего речевого/аудио кадра, и M и N - целые положительные числа; и
восстановление речевого/аудио сигнала текущего речевого/аудио кадра путем использования пост-обработанного параметра декодирования речи/аудио текущего речевого/аудио кадра.
[0009] Второй аспект вариантов осуществления настоящего изобретения обеспечивает декодер для декодирования битового потока речи/аудио, включающий в себя:
модуль извлечения параметра, сконфигурированный для извлечения параметра декодирования речи/аудио текущего речевого/аудио кадра, где текущий речевой/аудио кадр является избыточным декодированным кадром, или речевой/аудио кадр до текущего речевого/аудио кадра является избыточным декодированным кадром;
блок пост-обработки, сконфигурированный для выполнения пост-обработки на параметре декодирования речи/аудио текущего речевого/аудио кадра согласно параметрам речи/аудио X речевых/аудио кадров, чтобы получать пост-обработанный параметр декодирования речи/аудио текущего речевого/аудио кадра, где X речевых/аудио кадров включают в себя M речевых/аудио кадров до текущего речевого/аудио кадра и/или N речевых/аудио кадров после текущего речевого/аудио кадра, и M и N - целые положительные числа; и
блок восстановления, сконфигурированный для восстановления речевого/аудио сигнала для текущего речевого/аудио кадра с использованием пост-обработанного параметра декодирования речи/аудио текущего речевого/аудио кадра.
[0010][0011] Третий аспект вариантов осуществления настоящего изобретения обеспечивает носитель данных компьютера, где носитель данных компьютера может сохранять программу, и если исполняется, программа включает в себя некоторые или все этапы любого способа декодирования битового потока речи/аудио, описанного в вариантах осуществления настоящего изобретения.
[0012] Можно уяснить, что в некоторых вариантах осуществления настоящего изобретения в сценарии, в котором текущий речевой/аудио кадр является избыточным декодированным кадром или речевой/аудио кадр до текущего речевого/аудио кадра является избыточным декодированным кадром, после получения параметра декодирования речи/аудио текущего речевого/аудио кадра, декодер выполняет пост-обработку на параметре декодирования речи/аудио текущего речевого/аудио кадра согласно параметрам речи/аудио X речевых/аудио кадров, чтобы получить пост-обработанный параметр декодирования речи/аудио текущего речевого/аудио кадра, где вышеупомянутые X речевых/аудио кадров включают M речевых/аудио кадров до вышеупомянутого текущего речевого/аудио кадра и/или N речевых/аудио кадров после вышеупомянутого текущего речевого/аудио кадра, и восстанавливает речевой/аудио сигнал текущего речевого/аудио кадра путем использования пост-обработанного параметра декодирования речи/аудио из текущего речевого/аудио кадра, каковое гарантирует стабильное качество декодированного сигнала при переходе между избыточным декодированным кадром и обычным декодированным кадром или между избыточным декодированным кадром и восстановленным с маскированием разрушения кадра (FEC, Frame erasure concealment) кадром, посредством этого повышая качество выходного речевого/аудио сигнала.
КРАТКОЕ ОПИСАНИЕ ЧЕРТЕЖЕЙ
[0013] Чтобы более ясно описать технические решения в вариантах осуществления настоящего изобретения, в последующем кратко описываются сопроводительные чертежи, требуемые для описания вариантов осуществления. Очевидно, сопроводительные чертежи в последующем описании показывают просто некоторые варианты осуществления настоящего изобретения, и обычные специалисты в данной области техники могут получить другие чертежи из этих сопроводительных чертежей без творческих усилий.
[0014] Фиг.1 - структурная схема способа декодирования битового потока речи/аудио согласно варианту осуществления настоящего изобретения;
[0015] Фиг.2 - структурная схема другого способа декодирования битового потока речи/аудио согласно варианту осуществления настоящего изобретения;
[0016] Фиг.3 - схематичное представление декодера согласно варианту осуществления настоящего изобретения;
[0017] Фиг.4 - схематичное представление другого декодера согласно варианту осуществления настоящего изобретения; и
[0018] Фиг.5 - схематичное представление другого декодера согласно варианту осуществления настоящего изобретения.
ОПИСАНИЕ ВАРИАНТОВ ОСУЩЕСТВЛЕНИЯ ИЗОБРЕТЕНИЧ
[0019] Варианты осуществления настоящего изобретения представляют способ и устройство декодирования битового потока речи/аудио, которые помогают повысить качество выходного речевого/аудио сигнала.
[0020] Чтобы сделать более четкими и более понятными объекты, признаки и преимущества настоящего изобретения, последующее ясно описывает технические решения в вариантах осуществления настоящего изобретения со ссылкой на сопроводительные чертежи в вариантах осуществления настоящего изобретения. Очевидно, варианты осуществления, описанные в последующем, составляют лишь часть, а не все варианты осуществления настоящего изобретения. Все другие исполнения, полученные средними специалистами в данной области техники на основании вариантов осуществления настоящего изобретения без творческих усилий, входят в рамки объема охраны настоящего изобретения.
[0021] В описании, формуле изобретения и на сопроводительных чертежах настоящего изобретения термины "первый", "второй", "третий", "четвертый" и так далее предназначены для различения различных объектов, а не для указания конкретного порядка. Кроме того, термины "включающий в себя", "включая", или любая другая их разновидность предназначены охватывать неисключающее включение. Например, процесс, способ, система, изделие или устройство, включающее в себя последовательность этапов или блоков, не ограничены перечисленными этапами или блоками и могут включать этапы или блоки, которые не перечислены.
[0022] Последующее дает соответственные описания подробно.
[0023] Сначала описывается способ декодирования битового потока речи/аудио, обеспеченный в вариантах осуществления настоящего изобретения. Способ декодирования битового потока речи/аудио, обеспеченный в вариантах осуществления настоящего изобретения, исполняется декодером, где декодер может быть любым устройством, которому необходимо выводить речевые сигналы, например, устройством, таким как мобильный телефон, портативный компьютер, планшетный компьютер или персональный компьютер.
[0024] В варианте осуществления способа декодирования битового потока речи/аудио в настоящем изобретении, способ декодирования битового потока речи/аудио может включать в себя: извлечение параметра декодирования речи/аудио текущего речевого/аудио кадра, где вышеупомянутый текущий речевой/аудио кадр является избыточным декодированным кадром, или речевой/аудио кадр до вышеупомянутого текущего речевого/аудио кадра является избыточным декодированным кадром; выполнение пост-обработки на параметре декодирования речи/аудио вышеупомянутого текущего речевого/аудио кадра согласно параметрам речи/аудио X речевых/аудио кадров для получения пост-обработанного параметра декодирования речи/аудио вышеупомянутого текущего речевого/аудио кадра, где вышеупомянутые X речевых/аудио кадров включают M речевых/аудио кадров до вышеупомянутого текущего речевого/аудио кадра и/или N речевых/аудио кадров после вышеупомянутого текущего речевого/аудио кадра, и M и N - целые положительные числа; и восстановление речевого/аудио сигнала вышеупомянутого текущего речевого/аудио кадра путем использования пост-обработанного параметра декодирования речи/аудио, соответствующего вышеупомянутому текущему речевому/аудио кадру.
[0025] Фиг.1 является структурной схемой способа декодирования битового потока речи/аудио согласно варианту осуществления настоящего изобретения. Способ декодирования битового потока речи/аудио, обеспеченный в этом варианте осуществления настоящего изобретения, может включать в себя следующее содержание:
[0026] 101. Извлечь параметр декодирования речи/аудио текущего речевого/аудио кадра.
[0027] Вышеупомянутый текущий речевой/аудио кадр является избыточным декодированным кадром, или речевой/аудио кадр до вышеупомянутого текущего речевого/аудио кадра является избыточным декодированным кадром.
[0028] Если речевой/аудио кадр до вышеупомянутого текущего речевого/аудио кадра является избыточным декодированным кадром, текущий речевой/аудио кадр может быть обычным декодированным кадром, FEC восстановленным кадром или избыточным декодированным кадром, где, если текущий речевой/аудио кадр является FEC восстановленным кадром, параметр декодирования речи/аудио текущего речевого/аудио кадра может быть предсказан на основе алгоритма FEC.
[0029] 102. Выполнить пост-обработку на параметре декодирования речи/аудио вышеупомянутого текущего речевого/аудио кадра согласно параметрам речи/аудио X речевых/аудио кадров, чтобы получить пост-обработанный параметр декодирования речи/аудио вышеупомянутого текущего речевого/аудио кадра, где вышеупомянутые X речевых/аудио кадров включают M речевых/аудио кадров до вышеупомянутого текущего речевого/аудио кадра и/или N речевых/аудио кадров после вышеупомянутого текущего речевого/аудио кадра, и M и N - целые положительные числа.
[0030] То, что речевой/аудио кадр (например, текущий речевой/аудио кадр или речевой/аудио кадр до текущего речевого/аудио кадра) являются обычным декодированным кадром, означает, что параметр речи/аудио вышеупомянутого речевого/аудио кадра может быть непосредственно получен из двоичного потока речевого/аудио кадра посредством декодирования. То, что речевой/аудио кадр (например, текущий речевой/аудио кадр или речевой/аудио кадр до текущего речевого/аудио кадра) является избыточным декодированным кадром, означает, что параметр речи/аудио речевого/аудио кадра не может быть непосредственно получен из двоичного потока речевого/аудио кадра посредством декодирования, но может быть получена избыточная информация двоичного потока для речевого/аудио кадра из двоичного потока другого речевого/аудио кадра.
[0031] M речевых/аудио кадров до текущего речевого/аудио кадра относятся к M речевым/аудио кадрам, предшествующим текущему речевому/аудио кадру и непосредственно смежным с текущим речевым/аудио кадром во временной области.
[0032] Например, M может быть равным 1, 2, 3, или другим значением. Если M=1, M речевых/аудио кадров до текущего речевого/аудио кадра представляют речевые/аудио кадры, являющиеся предыдущими для текущего речевого/аудио кадра, и речевой/аудио кадр до текущего речевого/аудио кадра и текущий речевой/аудио кадр представляют два непосредственно смежных речевых/аудио кадра; когда M=2, M речевых/аудио кадров до текущего речевого/аудио кадра представляют речевой/аудио кадр до текущего речевого/аудио кадра и речевой/аудио кадр до речевого/аудио кадра до текущего речевого/аудио кадра, и речевой/аудио кадр до текущего речевого/аудио кадра, речевой/аудио кадр до речевого/аудио кадра до текущего речевого/аудио кадра и текущий речевой/аудио кадр представляют три непосредственно смежных речевых/аудио кадра; и так далее.
[0033] N речевых/аудио кадров после текущего речевого/аудио относятся к N речевым/аудио кадрам, следующим после текущего речевого/аудио кадра, и непосредственно смежным с текущим речевым/аудио кадром во временной области.
[0034] Например, N может быть равным 1, 2, 3, 4, или другим значением. Когда N=1, N речевых/аудио кадров после текущего речевого/аудио кадра представляют речевой/аудио кадр после текущего речевого/аудио кадра, и речевой/аудио кадр после текущего речевого/аудио кадра и текущий речевой/аудио кадр представляют два непосредственно смежных речевых/аудио кадра; когда N=2, N речевых/аудио кадров после текущего речевого/аудио кадра представляют речевой/аудио кадр после текущего речевого/аудио кадра и речевой/аудио кадр после речевого/аудио кадра после текущего речевого/аудио кадра, и речевой/аудио кадр после текущего речевого/аудио кадра, речевой/аудио кадр после речевого/аудио кадра после текущего речевого/аудио кадра и текущий речевой/аудио кадр представляют три непосредственно смежных речевых/аудио кадра; и так далее.
[0035] Параметр декодирования речи/аудио может включать в себя, по меньшей мере, один из следующих параметров:
огибающую расширения полосы частот, коэффициент усиления адаптивной кодовой книги (gain_pit), алгебраическую кодовую книгу, период основного тона, коэффициент наклона спектра, параметр спектральной пары и подобное.
[0036] Параметр речи/аудио может включать в себя параметр декодирования речи/аудио, класс сигнала и подобное.
[0037] Классом сигнала речевого/аудио кадра может быть «невокализованный» (UNVOICED), «вокализованный» (VOICED), «обобщенный» (GENERIC), переходный (TRANSIENT), неактивный (INACTIVE) или подобный.
[0038] Параметр спектральной пары может быть, например, по меньшей мере, одним параметром из параметра пары спектральных линий (LSP: Line Spectral Pair) или параметра спектральной пары иммитанса (ISP: Immittance Spectral Pair).
[0039] Следует понимать, что в этом варианте осуществления настоящего изобретения пост-обработка может выполняться, по меньшей мере, на одном параметре декодирования речи/аудио из огибающей расширения полосы частот, коэффициента усиления адаптивной кодовой книги, алгебраической кодовой книги, периода основного тона или параметра спектральной пары текущего речевого/аудио кадра. Конкретно, сколько параметров выбрано, и какие параметры выбраны для пост-обработки, может определяться в соответствии со сценарием практического применения и средой применения, каковое не ограничивается в этом варианте осуществления настоящего изобретения.
[0040] Может выполняться различная пост-обработка на различных параметрах декодирования речи/аудио. Например, пост-обработка, выполняемая на параметре спектральной пары текущего речевого/аудио кадра, может быть адаптивным взвешиванием, выполняемым с использованием параметра спектральной пары текущего речевого/аудио кадра и параметра спектральной пары речевого/аудио кадра, предыдущего для текущего речевого/аудио кадра, чтобы получать пост-обработанный параметр спектральной пары текущего речевого/аудио кадра, и пост-обработка, выполняемая на коэффициенте усиления адаптивной кодовой книги текущего речевого/аудио кадра, может быть регулировкой, например, ослаблением, выполняемым на коэффициенте усиления адаптивной кодовой книги.
[0041] Конкретный вид пост-обработки не ограничивается в этом варианте осуществления настоящего изобретения, и конкретная пост-обработка может задаваться в соответствии с техническим требованием или в соответствии со средой применения и в соответствии со сценарием применения.
[0042] 103. Восстановить речевой/аудио сигнал для вышеупомянутого текущего речевого/аудио кадра путем использования пост-обработанного параметра декодирования речи/аудио из вышеупомянутого текущего речевого/аудио кадра.
[0043] Из вышеизложенного описания можно уяснить, что в этом варианте осуществления, в сценарии, в котором текущий речевой/аудио кадр является избыточным декодированным кадром или речевой/аудио кадр до вышеупомянутого текущего речевого/аудио кадра является избыточным декодированным кадром, после получения параметра декодирования речи/аудио текущего речевого/аудио кадра декодер выполняет пост-обработку на параметре декодирования речи/аудио текущего речевого/аудио кадра согласно параметрам речи/аудио X речевых/аудио кадров, чтобы получить пост-обработанный параметр декодирования речи/аудио вышеупомянутого текущего речевого/аудио кадра, где вышеупомянутые X речевых/аудио кадров включают M речевых/аудио кадров до вышеупомянутого текущего речевого/аудио кадра и/или N речевых/аудио кадров после вышеупомянутого текущего речевого/аудио кадра, и восстанавливает речевой/аудио сигнал текущего речевого/аудио кадра путем использования пост-обработанного параметра декодирования речи/аудио из текущего речевого/аудио кадра, каковое гарантирует стабильное качество декодированного сигнала при переходе между избыточным декодированным кадром и обычным декодированным кадром или между избыточным декодированным кадром и FEC восстановленным кадром, посредством этого повышая качество выходного речевого/аудио сигнала.
[0044] В некоторых вариантах осуществления настоящего изобретения параметр декодирования речи/аудио вышеупомянутого текущего речевого/аудио кадра включает в себя параметр спектральной пары вышеупомянутого текущего речевого/аудио кадра, и выполнение пост-обработки на параметре декодирования речи/аудио вышеупомянутого текущего речевого/аудио кадра согласно параметрам речи/аудио X речевых/аудио кадров, чтобы получать пост-обработанный параметр декодирования речи/аудио вышеупомянутого текущего речевого/аудио кадра, например, может включать в себя: выполнение пост-обработки на параметре спектральной пары вышеупомянутого текущего речевого/аудио кадра согласно, по меньшей мере, одному из класса сигнала, коэффициента наклона спектра, коэффициента усиления адаптивной кодовой книги или параметра спектральной пары X речевых/аудио кадров, чтобы получить пост-обработанный параметр спектральной пары вышеупомянутого текущего речевого/аудио кадра.
[0045] Например, выполнение пост-обработки на параметре спектральной пары вышеупомянутого текущего речевого/аудио кадра согласно, по меньшей мере, одному из класса сигнала, коэффициента наклона спектра, коэффициента усиления адаптивной кодовой книги или параметра спектральной пары X речевых/аудио кадров, чтобы получать пост-обработанный параметр спектральной пары вышеупомянутого текущего речевого/аудио кадра, может включать в себя:
если вышеупомянутый текущий речевой/аудио кадр является обычным декодированным кадром, речевой/аудио кадр до вышеупомянутого текущего речевого/аудио кадра является избыточным декодированным кадром, классом сигнала вышеупомянутого текущего речевого/аудио кадра является «невокализованный», и классом сигнала речевого/аудио кадра, предыдущего для вышеупомянутого текущего речевого/аудио кадра, не является «невокализованный», использование параметра спектральной пары вышеупомянутого текущего речевого/аудио кадра в качестве пост-обработанного параметра спектральной пары вышеупомянутого текущего речевого/аудио кадра, или получение пост-обработанного параметра спектральной пары вышеупомянутого текущего речевого/аудио кадра на основе параметра спектральной пары вышеупомянутого текущего речевого/аудио кадра; или
если вышеупомянутый текущий речевой/аудио кадр является обычным декодированным кадром, речевой/аудио кадр до вышеупомянутого текущего речевого/аудио кадра является избыточным декодированным кадром, классом сигнала вышеупомянутого текущего речевого/аудио кадра является «невокализованный», и классом сигнала речевого/аудио кадра, предыдущего для вышеупомянутого текущего речевого/аудио кадра, не является «невокализованный», получение пост-обработанного параметра спектральной пары вышеупомянутого текущего речевого/аудио кадра на основе параметра спектральной пары текущего речевого/аудио кадра и параметра спектральной пары речевого/аудио кадра, предыдущего для вышеупомянутого текущего речевого/аудио кадра; или
если вышеупомянутый текущий речевой/аудио кадр является избыточным декодированным кадром, классом сигнала вышеупомянутого текущего речевого/аудио кадра не является «невокализованный», и классом сигнала речевого/аудио кадра после вышеупомянутого текущего речевого/аудио кадра является «невокализованный», использование параметра спектральной пары речевого/аудио кадра, предыдущего для вышеупомянутого текущего речевого/аудио кадра, в качестве пост-обработанного параметра спектральной пары вышеупомянутого текущего речевого/аудио кадра, или получение пост-обработанного параметра спектральной пары вышеупомянутого текущего речевого/аудио кадра на основе параметра спектральной пары речевого/аудио кадра, предыдущего для вышеупомянутого текущего речевого/аудио кадра; или
если вышеупомянутый текущий речевой/аудио кадр является избыточным декодированным кадром, классом сигнала вышеупомянутого текущего речевого/аудио кадра не является «невокализованный», и классом сигнала речевого/аудио кадра после вышеупомянутого текущего речевого/аудио кадра является «невокализованный», получение пост-обработанного параметра спектральной пары вышеупомянутого текущего речевого/аудио кадра на основе параметра спектральной пары вышеупомянутого текущего речевого/аудио кадра и параметра спектральной пары речевого/аудио кадра, предыдущего для вышеупомянутого текущего речевого/аудио кадра; или
если вышеупомянутый текущий речевой/аудио кадр является избыточным декодированным кадром, классом сигнала вышеупомянутого текущего речевого/аудио кадра не является «невокализованный», максимальное значение коэффициента усиления адаптивной кодовой книги подкадра в речевом/аудио кадре после вышеупомянутого текущего речевого/аудио кадра меньше чем или равно первому пороговому значению, и коэффициент наклона спектра речевого/аудио кадра, предыдущего для вышеупомянутого текущего речевого/аудио кадра, меньше чем или равен второму пороговому значению, использование параметра спектральной пары речевого/аудио кадра, предыдущего для вышеупомянутого текущего речевого/аудио кадра, в качестве пост-обработанного параметра спектральной пары вышеупомянутого текущего речевого/аудио кадра, или получение пост-обработанного параметра спектральной пары вышеупомянутого текущего речевого/аудио кадра на основе параметра спектральной пары речевого/аудио кадра, предыдущего для вышеупомянутого текущего речевого/аудио кадра; или
если вышеупомянутый текущий речевой/аудио кадр является избыточным декодированным кадром, классом сигнала вышеупомянутого текущего речевого/аудио кадра не является «невокализованный», максимальное значение коэффициента усиления адаптивной кодовой книги подкадра в речевом/аудио кадре после вышеупомянутого текущего речевого/аудио кадра меньше чем или равно первому пороговому значению, и коэффициент наклона спектра речевого/аудио кадра, предыдущего для вышеупомянутого текущего речевого/аудио кадра, меньше чем или равен второму пороговому значению, получение пост-обработанного параметра спектральной пары вышеупомянутого текущего речевого/аудио кадра на основе параметра спектральной пары текущего речевого/аудио кадра и параметра спектральной пары речевого/аудио кадра, предыдущего для вышеупомянутого текущего речевого/аудио кадра; или
если вышеупомянутый текущий речевой/аудио кадр является избыточным декодированным кадром, классом сигнала вышеупомянутого текущего речевого/аудио кадра не является «невокализованный», речевым/аудио кадра после вышеупомянутого текущего речевого/аудио кадра является «невокализованный», максимальное значение коэффициента усиления адаптивной кодовой книги подкадра в речевом/аудио кадре после вышеупомянутого текущего речевого/аудио кадра меньше чем или равно третьему пороговому значению, и коэффициент наклона спектра речевого/аудио кадра, предыдущего для вышеупомянутого текущего речевого/аудио кадра, меньше чем или равен четвертому пороговому значению, использование параметра спектральной пары речевого/аудио кадра, предыдущего для вышеупомянутого текущего речевого/аудио кадра, в качестве пост-обработанного параметра спектральной пары вышеупомянутого текущего речевого/аудио кадра, или получение пост-обработанного параметра спектральной пары вышеупомянутого текущего речевого/аудио кадра на основе параметра спектральной пары речевого/аудио кадра, предыдущего для вышеупомянутого текущего речевого/аудио кадра; или
если вышеупомянутый текущий речевой/аудио кадр является избыточным декодированным кадром, классом сигнала вышеупомянутого текущего речевого/аудио кадра не является «невокализованный», классом сигнала речевого/аудио кадра после вышеупомянутого текущего речевого/аудио кадра является «невокализованный», максимальное значение коэффициента усиления адаптивной кодовой книги подкадра в речевом/аудио кадре после вышеупомянутого текущего речевого/аудио кадра меньше чем или равно третьему пороговому значению, и коэффициент наклона спектра речевого/аудио кадра, предыдущего для вышеупомянутого текущего речевого/аудио кадра, меньше чем или равен четвертому пороговому значению, получение пост-обработанного параметра спектральной пары вышеупомянутого текущего речевого/аудио кадра на основе параметра спектральной пары вышеупомянутого текущего речевого/аудио кадра и параметра спектральной пары речевого/аудио кадра, предыдущего для вышеупомянутого текущего речевого/аудио кадра.
[0046] Могут быть различные способы для получения пост-обработанного параметра спектральной пары вышеупомянутого текущего речевого/аудио кадра на основе параметра спектральной пары вышеупомянутого текущего речевого/аудио кадра и параметра спектральной пары речевого/аудио кадра, предыдущего для вышеупомянутого текущего речевого/аудио кадра.
[0047] Например, получение пост-обработанного параметра спектральной пары вышеупомянутого текущего речевого/аудио кадра на основе параметра спектральной пары вышеупомянутого текущего речевого/аудио кадра и параметра спектральной пары речевого/аудио кадра, предыдущего для вышеупомянутого текущего речевого/аудио кадра, может включать в себя: конкретно получение пост-обработанного параметра спектральной пары вышеупомянутого текущего речевого/аудио кадра на основе параметра спектральной пары вышеупомянутого текущего речевого/аудио кадра и параметра спектральной пары речевого/аудио кадра, предыдущего для вышеупомянутого текущего речевого/аудио кадра, и с использованием следующей формулы:
- пост-обработанный параметр спектральной пары вышеупомянутого текущего речевого/аудио кадра, - параметр спектральной пары речевого/аудио кадра, предыдущего для вышеупомянутого текущего речевого/аудио кадра, - среднее значение параметра спектральной пары вышеупомянутого текущего речевого/аудио кадра, - параметр спектральной пары вышеупомянутого текущего речевого/аудио кадра, L - порядок параметра спектральной пары, α - весовой коэффициент параметра спектральной пары речевого/аудио кадра, предыдущего для вышеупомянутого текущего речевого/аудио кадра, β - весовой коэффициент среднего значения параметра спектральной пары вышеупомянутого текущего речевого/аудио кадра, δ - весовой коэффициент параметра спектральной пары вышеупомянутого текущего речевого/аудио кадра, и , где
если вышеупомянутый текущий речевой/аудио кадр является обычным декодированным кадром, и речевой/аудио кадр до вышеупомянутого текущего речевого/аудио кадра является избыточным декодированным кадром, α равно 0 или α меньше чем или равно пятому пороговому значению; или если вышеупомянутый текущий речевой/аудио кадр является избыточным декодированным кадром, β равно 0 или β меньше чем или равно шестому пороговому значению; или если вышеупомянутый текущий речевой/аудио кадр является избыточным декодированным кадром, δ равно 0 или δ меньше чем или равно седьмому пороговому значению; или если вышеупомянутый текущий речевой/аудио кадр является избыточным декодированным кадром, β равно 0 или β меньше чем или равно шестому пороговому значению, и δ равно 0 или δ меньше чем или равно седьмому пороговому значению.
[0048] Для другого примера получение пост-обработанного параметра спектральной пары вышеупомянутого текущего речевого/аудио кадра на основе параметра спектральной пары вышеупомянутого текущего речевого/аудио кадра и параметра спектральной пары речевого/аудио кадра, предыдущего для вышеупомянутого текущего речевого/аудио кадра, может включать в себя: конкретно получение пост-обработанного параметра спектральной пары вышеупомянутого текущего речевого/аудио кадра на основе параметра спектральной пары вышеупомянутого текущего речевого/аудио кадра и параметра спектральной пары речевого/аудио кадра, предыдущего для вышеупомянутого текущего речевого/аудио кадра, и с использованием следующей формулы:
- пост-обработанный параметр спектральной пары вышеупомянутого текущего речевого/аудио кадра, - параметр спектральной пары речевого/аудио кадра, предыдущего для вышеупомянутого текущего речевого/аудио кадра, - параметр спектральной пары вышеупомянутого текущего речевого/аудио кадра, L - порядок параметра спектральной пары, α - весовой коэффициент параметра спектральной пары речевого/аудио кадра, предыдущего для вышеупомянутого текущего речевого/аудио кадра, δ - весовой коэффициент параметра спектральной пары речевого/аудио кадра, предыдущего для вышеупомянутого текущего речевого/аудио кадра, и , где
если вышеупомянутый текущий речевой/аудио кадр является обычным декодированным кадром, и речевой/аудио кадр до вышеупомянутого текущего речевого/аудио кадра является избыточным декодированным кадром, α равно 0 или α меньше чем или равно пятому пороговому значению; или если вышеупомянутый текущий речевой/аудио кадр является избыточным декодированным кадром, δ равно 0 или δ меньше чем или равно седьмому пороговому значению.
[0049] Каждый из пятого порога, шестого порога и седьмого порога может быть установлен в различные значения согласно различным средам или сценариям применения. Например, значение пятого порога может быть близким к 0, где например, пятый порог может быть равным 0,001, 0,002, 0,01, 0,1, или другим близким к 0 значением; значение шестого порога может быть близким к 0, где например, шестой порог может быть равным 0,001, 0,002, 0,01, 0,1, или другим близким к 0 значением; и значение седьмого порога может быть близким к 0, где например, седьмой порог может быть равным 0,001, 0,002, 0,01, 0,1, или другим близким к 0 значением.
[0050] Каждый из первого порога, второго порога, третьего порога и четвертого порога может быть установлен в различные значения согласно различным средам или сценариям применения.
[0051] Например, первый порог может быть установлен в 0,9, 0,8, 0,85, 0,7, 0,89 или 0,91.
[0052] Например, второй порог может быть установлен в 0,16, 0,15, 0,165, 0,1, 0,161 или 0,159.
[0053] Например, третий порог может быть установлен в 0,9, 0,8, 0,85, 0,7, 0,89 или 0,91.
[0054] Например, четвертый порог может быть установлен в 0,16, 0,15, 0,165, 0,1, 0,161 или 0,159.
[0055] Первый порог может быть равным или не равным третьему пороговому значению, и второй порог может быть равным или не равным четвертому пороговому значению.
[0056] В других вариантах осуществления настоящего изобретения параметр декодирования речи/аудио вышеупомянутого текущего речевого/аудио кадра включает в себя коэффициент усиления адаптивной кодовой книги вышеупомянутого текущего речевого/аудио кадра, и выполнение пост-обработки на параметре декодирования речи/аудио вышеупомянутого текущего речевого/аудио кадра согласно параметрам речи/аудио X речевых/аудио кадров, чтобы получать пост-обработанный параметр декодирования речи/аудио вышеупомянутого текущего речевого/аудио кадра, может включать в себя: выполнение пост-обработки на коэффициенте усиления адаптивной кодовой книги вышеупомянутого текущего речевого/аудио кадра согласно, по меньшей мере, одному из класса сигнала, коэффициента усиления алгебраической кодовой книги или коэффициента усиления адаптивной кодовой книги X речевых/аудио кадров, чтобы получить пост-обработанный коэффициент усиления адаптивной кодовой книги вышеупомянутого текущего речевого/аудио кадра.
[0057] Например, выполнение пост-обработки на коэффициенте усиления адаптивной кодовой книги вышеупомянутого текущего речевого/аудио кадра согласно, по меньшей мере, одному из класса сигнала, коэффициента усиления алгебраической кодовой книги или коэффициента усиления адаптивной кодовой книги X речевых/аудио кадров может включать в себя:
если вышеупомянутый текущий речевой/аудио кадр является избыточным декодированным кадром, классом сигнала вышеупомянутого текущего речевого/аудио кадра не является «невокализованный», классом сигнала, по меньшей мере, одного из двух речевых/аудио кадров после вышеупомянутого текущего речевого/аудио кадра является «невокализованный», и коэффициент усиления алгебраической кодовой книги для текущего подкадра вышеупомянутого текущего речевого/аудио кадра больше чем или равен коэффициенту усиления алгебраической кодовой книги из речевого/аудио кадра, предыдущего для вышеупомянутого текущего речевого/аудио кадра, (например, коэффициент усиления алгебраической кодовой книги для текущего подкадра вышеупомянутого текущего речевого/аудио кадра является 1 или больше чем в 1 раз, например, в 1, 1,5, 2, 2,5, 3, 3,4 или 4 раза, коэффициента усиления алгебраической кодовой книги речевого/аудио кадра, предыдущего для вышеупомянутого текущего речевого/аудио кадра, ослабление коэффициента усиления адаптивной кодовой книги вышеупомянутого текущего подкадра; или
если вышеупомянутый текущий речевой/аудио кадр является избыточным декодированным кадром, классом сигнала вышеупомянутого текущего речевого/аудио кадра не является «невокализованный», классом сигнала, по меньшей мере, одного из речевого/аудио кадра после вышеупомянутого текущего речевого/аудио кадра или речевой/аудио кадр после речевого/аудио кадра является «невокализованный», и коэффициент усиления алгебраической кодовой книги для текущего подкадра вышеупомянутого текущего речевого/аудио кадра больше чем или равен коэффициенту усиления алгебраической кодовой книги из подкадрадля вышеупомянутого текущего подкадра (например, коэффициент усиления алгебраической кодовой книги для текущего подкадра вышеупомянутого текущего речевого/аудио кадра является 1 или больше чем в 1 раз, например, в 1, 1,5, 2, 2,5, 3, 3,4 или 4 раза, коэффициента усиления алгебраической кодовой книги подкадра, предыдущего для вышеупомянутого текущего подкадра), ослабление коэффициента усиления адаптивной кодовой книги вышеупомянутого текущего подкадра; или
если вышеупомянутый текущий речевой/аудио кадр является избыточным декодированным кадром, или вышеупомянутый текущий речевой/аудио кадр является обычным декодированным кадром, и речевой/аудио кадр до вышеупомянутого текущего речевого/аудио кадра является избыточным декодированным кадром, и если классом сигнала вышеупомянутого текущего речевого/аудио кадра является «обобщенный», классом сигнала речевого/аудио кадра после вышеупомянутого текущего речевого/аудио кадра является «вокализованный», и коэффициент усиления алгебраической кодовой книги подкадра вышеупомянутого текущего речевого/аудио кадра больше чем или равен коэффициенту усиления алгебраической кодовой книги из подкадра, предыдущего для вышеупомянутого подкадра, (например, коэффициент усиления алгебраической кодовой книги подкадра вышеупомянутого текущего речевого/аудио кадра может быть 1 или больше чем в 1 раз, например, в 1, 1,5, 2, 2,5, 3, 3,4 или 4 раза, коэффициента усиления алгебраической кодовой книги подкадра, предыдущего для вышеупомянутого подкадра), регулировка (например, увеличение или ослабление) коэффициента усиления адаптивной кодовой книги для текущего подкадра вышеупомянутого текущего речевого/аудио кадра на основании, по меньшей мере, одного из отношения коэффициента усиления алгебраической кодовой книги текущего подкадра вышеупомянутого текущего речевого/аудио кадра к таковому из подкадра, смежного с вышеупомянутым текущим подкадром, отношения коэффициента усиления адаптивной кодовой книги текущего подкадра вышеупомянутого текущего речевого/аудио кадра к таковому из подкадра, смежного с вышеупомянутым текущим подкадром, или отношения коэффициента усиления алгебраической кодовой книги текущего подкадра вышеупомянутого текущего речевого/аудио кадра к таковому из речевого/аудио кадра, предыдущего для вышеупомянутого текущего речевого/аудио кадра (например, если отношение коэффициента усиления алгебраической кодовой книги из текущего подкадра вышеупомянутого текущего речевого/аудио кадра к таковому из подкадра, смежного с вышеупомянутым текущим подкадром, больше чем или равно одиннадцатому пороговому значению (где одиннадцатый порог может быть равным, например, 2, 2,1, 2,5, 3, или другим значением), отношение коэффициента усиления адаптивной кодовой книги из текущего подкадра вышеупомянутого текущего речевого/аудио кадра к таковому из подкадра, смежного с вышеупомянутым текущим подкадром, больше чем или равно двенадцатому пороговому значению (где двенадцатый порог может быть равным, например, 1, 1,1, 1,5, 2, 2,1, или другим значением), и отношение коэффициента усиления алгебраической кодовой книги из текущего подкадра вышеупомянутого текущего речевого/аудио кадра к таковому из речевого/аудио кадра до вышеупомянутого текущего речевого/аудио кадра меньше чем или равно тринадцатому пороговому значению (где тринадцатый порог может быть равным, например, 1, 1,1, 1,5, 2, или другим значением), коэффициент усиления адаптивной кодовой книги для текущего подкадра вышеупомянутого текущего речевого/аудио кадра может быть увеличен); или
если вышеупомянутый текущий речевой/аудио кадр является избыточным декодированным кадром, или вышеупомянутый текущий речевой/аудио кадр является обычным декодированным кадром, и речевой/аудио кадр до вышеупомянутого текущего речевого/аудио кадра является избыточным декодированным кадром, и если классом сигнала вышеупомянутого текущего речевого/аудио кадра является «обобщенный», классом сигнала речевого/аудио кадра после вышеупомянутого текущего речевого/аудио кадра является «вокализованный», и коэффициент усиления алгебраической кодовой книги для подкадра вышеупомянутого текущего речевого/аудио кадра больше чем или равен коэффициенту усиления алгебраической кодовой книги из речевого/аудио кадра, предыдущего для вышеупомянутого текущего речевого/аудио кадра, (где коэффициент усиления алгебраической кодовой книги для подкадра вышеупомянутого текущего речевого/аудио кадра является 1 или больше чем в 1 раз, например, в 1, 1,5, 2, 2,5, 3, 3,4 или 4 раза, коэффициента усиления алгебраической кодовой книги речевого/аудио кадра, предыдущего для вышеупомянутого текущего речевого/аудио кадра), регулировка (ослабление или увеличение) коэффициента усиления адаптивной кодовой книги для текущего подкадра вышеупомянутого текущего речевого/аудио кадра на основании, по меньшей мере, одного из отношения коэффициента усиления алгебраической кодовой книги текущего подкадра вышеупомянутого текущего речевого/аудио кадра к таковому из подкадра, смежного с вышеупомянутым текущим подкадром, отношения коэффициента усиления адаптивной кодовой книги текущего подкадра вышеупомянутого текущего речевого/аудио кадра к таковому из подкадра, смежного с вышеупомянутым текущим подкадром, или отношения коэффициента усиления алгебраической кодовой книги текущего подкадра вышеупомянутого текущего речевого/аудио кадра к таковому из речевого/аудио кадра, предыдущего для вышеупомянутого текущего речевого/аудио кадра (например, если отношение коэффициента усиления алгебраической кодовой книги из текущего подкадра вышеупомянутого текущего речевого/аудио кадра к таковому из подкадра, смежного с вышеупомянутым текущим подкадром, больше чем или равно одиннадцатому пороговому значению (где одиннадцатый порог может быть равным, например, 2, 2,1, 2,5, 3, или другим значением), отношение коэффициента усиления адаптивной кодовой книги из текущего подкадра вышеупомянутого текущего речевого/аудио кадра к таковому из подкадра, смежного с вышеупомянутым текущим подкадром, больше чем или равно двенадцатому пороговому значению (где двенадцатый порог может быть равным, например, 1, 1,1, 1,5, 2, 2,1, или другим значением), и отношение коэффициента усиления алгебраической кодовой книги из текущего подкадра вышеупомянутого текущего речевого/аудио кадра к таковому из речевого/аудио кадра до вышеупомянутого текущего речевого/аудио кадра меньше чем или равно тринадцатому пороговому значению (где тринадцатый порог может быть равным, например, 1, 1,1, 1,5, 2, или другим значением), коэффициент усиления адаптивной кодовой книги для текущего подкадра вышеупомянутого текущего речевого/аудио кадра может быть увеличен); или
если вышеупомянутый текущий речевой/аудио кадр является избыточным декодированным кадром, или вышеупомянутый текущий речевой/аудио кадр является обычным декодированным кадром, и речевой/аудио кадр до вышеупомянутого текущего речевого/аудио кадра является избыточным декодированным кадром, и если вышеупомянутый текущий речевой/аудио кадр является вокализованным, классом сигнала речевого/аудио кадра, предыдущего для вышеупомянутого текущего речевого/аудио кадра, является «обобщенный», и коэффициент усиления алгебраической кодовой книги для подкадра вышеупомянутого текущего речевого/аудио кадра больше чем или равен коэффициенту усиления алгебраической кодовой книги из подкадра, предыдущего для вышеупомянутого подкадра, (например, коэффициент усиления алгебраической кодовой книги для подкадра вышеупомянутого текущего речевого/аудио кадра может быть 1 или больше чем в 1 раз, например, в 1, 1,5, 2, 2,5, 3, 3,4 или 4 раза, коэффициента усиления алгебраической кодовой книги подкадра, предыдущего для вышеупомянутого подкадра), регулировка (ослабление или увеличение) коэффициента усиления адаптивной кодовой книги для текущего подкадра вышеупомянутого текущего речевого/аудио кадра на основании, по меньшей мере, одного из отношения коэффициента усиления алгебраической кодовой книги текущего подкадра вышеупомянутого текущего речевого/аудио кадра к таковому из подкадра, смежного с вышеупомянутым текущим подкадром, отношения коэффициента усиления адаптивной кодовой книги текущего подкадра вышеупомянутого текущего речевого/аудио кадра к таковому из подкадра, смежного с вышеупомянутым текущим подкадром, или отношения коэффициента усиления алгебраической кодовой книги текущего подкадра вышеупомянутого текущего речевого/аудио кадра к таковому из речевого/аудио кадра, предыдущего для вышеупомянутого текущего речевого/аудио кадра (например, если отношение коэффициента усиления алгебраической кодовой книги из текущего подкадра вышеупомянутого текущего речевого/аудио кадра к таковому из подкадра, смежного с вышеупомянутым текущим подкадром, больше чем или равно одиннадцатому пороговому значению (где одиннадцатый порог может быть равным, например, 2, 2,1, 2,5, 3, или другому значению), отношение коэффициента усиления адаптивной кодовой книги из текущего подкадра вышеупомянутого текущего речевого/аудио кадра к таковому из подкадра, смежного с вышеупомянутым текущим подкадром, больше чем или равно двенадцатому пороговому значению (где двенадцатый порог может быть равным, например, 1, 1,1, 1,5, 2, 2,1, или другим значением), и отношение коэффициента усиления алгебраической кодовой книги из текущего подкадра вышеупомянутого текущего речевого/аудио кадра к таковому из речевого/аудио кадра до вышеупомянутого текущего речевого/аудио кадра меньше чем или равно тринадцатому пороговому значению (где тринадцатый порог может быть равным, например, 1, 1,1, 1,5, 2, или другим значением), коэффициент усиления адаптивной кодовой книги для текущего подкадра вышеупомянутого текущего речевого/аудио кадра может быть увеличен; или
если вышеупомянутый текущий речевой/аудио кадр является избыточным декодированным кадром, или вышеупомянутый текущий речевой/аудио кадр является обычным декодированным кадром, и речевой/аудио кадр до вышеупомянутого текущего речевого/аудио кадра является избыточным декодированным кадром, и если классом сигнала вышеупомянутого текущего речевого/аудио кадра является «вокализованный», классом сигнала речевого/аудио кадра, предыдущего для вышеупомянутого текущего речевого/аудио кадра, является «обобщенный, и коэффициент усиления алгебраической кодовой книги подкадра вышеупомянутого текущего речевого/аудио кадра больше чем или равен коэффициенту усиления алгебраической кодовой книги из речевого/аудио кадра, предыдущего для вышеупомянутого текущего речевого/аудио кадра (например, коэффициент усиления алгебраической кодовой книги для подкадра вышеупомянутого текущего речевого/аудио кадра является 1 или больше чем в 1 раз, например, в 1, 1,5, 2, 2,5, 3, 3,4, или 4 раза, коэффициента усиления алгебраической кодовой книги речевого/аудио кадра, предыдущего для вышеупомянутого текущего речевого/аудио кадра), регулировка (ослабление или увеличение) коэффициента усиления адаптивной кодовой книги для текущего подкадра вышеупомянутого текущего речевого/аудио кадра на основании, по меньшей мере, одного из отношения коэффициента усиления алгебраической кодовой книги текущего подкадра вышеупомянутого текущего речевого/аудио кадра к таковому из подкадра, смежного с вышеупомянутым текущим подкадром, отношения коэффициента усиления адаптивной кодовой книги текущего подкадра вышеупомянутого текущего речевого/аудио кадра к таковому из подкадра, смежного с вышеупомянутым текущим подкадром, или отношения коэффициента усиления алгебраической кодовой книги текущего подкадра вышеупомянутого текущего речевого/аудио кадра к таковому из речевого/аудио кадра, предыдущего для вышеупомянутого текущего речевого/аудио кадра (например, если отношение коэффициента усиления алгебраической кодовой книги из текущего подкадра вышеупомянутого текущего речевого/аудио кадра к таковому из подкадра, смежного с вышеупомянутым текущим подкадром, больше чем или равно одиннадцатому пороговому значению (где одиннадцатый порог может быть равным, например, 2, 2,1, 2,5, 3, или другим значением), отношение коэффициента усиления адаптивной кодовой книги из текущего подкадра вышеупомянутого текущего речевого/аудио кадра к таковому из подкадра, смежного с вышеупомянутым текущим подкадром, больше чем или равно двенадцатому пороговому значению (где двенадцатый порог может быть равным, например, 1, 1,1, 1,5, 2, 2,1, или другим значением), и отношение коэффициента усиления алгебраической кодовой книги из текущего подкадра вышеупомянутого текущего речевого/аудио кадра к таковому из речевого/аудио кадра до вышеупомянутого текущего речевого/аудио кадра меньше чем или равно тринадцатому пороговому значению (где тринадцатый порог может быть равным, например, 1, 1,1, 1,5, 2, или другим значением), коэффициент усиления адаптивной кодовой книги для текущего подкадра вышеупомянутого текущего речевого/аудио кадра может быть увеличен.
[0058] В других вариантах осуществления настоящего изобретения параметр декодирования речи/аудио вышеупомянутого текущего речевого/аудио кадра включает в себя алгебраическую кодовую книгу для вышеупомянутого текущего речевого/аудио кадра, и выполнение пост-обработки на параметре декодирования речи/аудио вышеупомянутого текущего речевого/аудио кадра согласно параметрам речи/аудио X речевых/аудио кадров для получения пост-обработанного параметра декодирования речи/аудио вышеупомянутого текущего речевого/аудио кадра может включать в себя: выполнение пост-обработки на алгебраической кодовой книге вышеупомянутого текущего речевого/аудио кадра согласно, по меньшей мере, одному из класса сигнала, алгебраической кодовой книге или коэффициента наклона спектра X речевых/аудио кадров, чтобы получить пост-обработанную алгебраическую кодовую книгу для вышеупомянутого текущего речевого/аудио кадра.
[0059] Например, выполнение пост-обработки на алгебраической кодовой книге вышеупомянутого текущего речевого/аудио кадра согласно, по меньшей мере, одному из класса сигнала, алгебраической кодовой книге или коэффициенту наклона спектра X речевых/аудио кадров может включать в себя: если вышеупомянутый текущий речевой/аудио кадр является избыточным декодированным кадром, классом сигнала речевого/аудио кадра после вышеупомянутого текущего речевого/аудио кадра является «невокализованный», коэффициент наклона спектра речевого/аудио кадра, предыдущего для вышеупомянутого текущего речевого/аудио кадра, меньше чем или равен восьмому порогу, и алгебраическая кодовая книга подкадра вышеупомянутого текущего речевого/аудио кадра является 0 или меньше чем или равна девятому пороговому значению, использование алгебраической кодовой книги или случайного шума согласно подкадру до вышеупомянутого текущего речевого/аудио кадра в качестве алгебраической кодовой книги вышеупомянутого текущего подкадра.
[0060] Каждый из восьмого порога и девятого порога может быть установлен в различные значения согласно различным средам или сценариям применения.
[0061] Например, восьмой порог может быть установлен в 0,16, 0,15, 0,165, 0,1, 0,161 или 0,159.
[0062] Например, девятый порог может быть установлен в 0,1, 0,09, 0,11, 0,07, 0,101, 0,099 или другое близкое к 0 значение.
[0063] Восьмой порог может быть равным или не равным второму пороговому значению.
[0064] В других вариантах осуществления настоящего изобретения параметр декодирования речи/аудио вышеупомянутого текущего речевого/аудио кадра включает в себя огибающую расширения полосы частот для вышеупомянутого текущего речевого/аудио кадра, и выполнение пост-обработки на параметре декодирования речи/аудио вышеупомянутого текущего речевого/аудио кадра согласно параметрам речи/аудио X речевых/аудио кадров для получения пост-обработанного параметра декодирования речи/аудио вышеупомянутого текущего речевого/аудио кадра может включать в себя: выполнение пост-обработки на огибающей расширения полосы частот для вышеупомянутого текущего речевого/аудио кадра согласно, по меньшей мере, одному из класса сигнала, огибающей расширения полосы частот или коэффициента наклона спектра X речевых/аудио кадров, чтобы получить пост-обработанную огибающую расширения полосы частот вышеупомянутого текущего речевого/аудио кадра.
[0065] Например, выполнение пост-обработки на огибающей расширения полосы частот для вышеупомянутого текущего речевого/аудио кадра согласно, по меньшей мере, одному из класса сигнала, огибающей расширения полосы частот или коэффициента наклона спектра X речевых/аудио кадров, чтобы получать пост-обработанную огибающую расширения полосы частот вышеупомянутого текущего речевого/аудио кадра может включать в себя:
если речевой/аудио кадр до вышеупомянутого текущего речевого/аудио кадра является обычным декодированным кадром, и класс сигнала речевого/аудио кадра до вышеупомянутого текущего речевого/аудио кадра является таким же как таковой речевого/аудио кадра после текущего речевого/аудио кадра, получение пост-обработанной огибающей расширения полосы частот для вышеупомянутого текущего речевого/аудио кадра на основе огибающей расширения полосы частот речевого/аудио кадра, предыдущего для вышеупомянутого текущего речевого/аудио кадра, и огибающей расширения полосы частот вышеупомянутого текущего речевого/аудио кадра; или
если вышеупомянутый текущий речевой/аудио кадр является предсказанной формой декодирования с избыточностью, получение пост-обработанной огибающей расширения полосы частот для вышеупомянутого текущего речевого/аудио кадра на основе огибающей расширения полосы частот речевого/аудио кадра, предыдущего для вышеупомянутого текущего речевого/аудио кадра, и огибающей расширения полосы частот вышеупомянутого текущего речевого/аудио кадра; или
если классом сигнала вышеупомянутого текущего речевого/аудио кадра не является «невокализованный», классом сигнала речевого/аудио кадра после вышеупомянутого текущего речевого/аудио кадра является «невокализованный», коэффициент наклона спектра речевого/аудио кадра, предыдущего для вышеупомянутого текущего речевого/аудио кадра, меньше чем или равен десятому пороговому значению, коррекция огибающей расширения полосы частот для вышеупомянутого текущего речевого/аудио кадра согласно огибающей расширения полосы частот или коэффициенту наклона спектра речевого/аудио кадра, предыдущего для вышеупомянутого текущего речевого/аудио кадра, чтобы получить пост-обработанную огибающую расширения полосы частот вышеупомянутого текущего речевого/аудио кадра.
[0066] Десятый порог может быть установлен в различные значения согласно различным средам или сценариям применения. Например, десятый порог может быть установлен в 0,16, 0,15, 0,165, 0,1, 0,161 или 0,159.
[0067] Например, получение пост-обработанной огибающей расширения полосы частот для вышеупомянутого текущего речевого/аудио кадра на основе огибающей расширения полосы частот речевого/аудио кадра, предыдущего для вышеупомянутого текущего речевого/аудио кадра, и огибающей расширения полосы частот вышеупомянутого текущего речевого/аудио кадра может включать в себя: конкретно получение пост-обработанной огибающей расширения полосы частот для вышеупомянутого текущего речевого/аудио кадра на основе огибающей расширения полосы частот речевого/аудио кадра, предыдущего для вышеупомянутого текущего речевого/аудио кадра, и огибающей расширения полосы частот вышеупомянутого текущего речевого/аудио кадра, и с использованием следующей формулы:
- пост-обработанная огибающая расширения полосы частот для вышеупомянутого текущего речевого/аудио кадра, - огибающая расширения полосы частот речевого/аудио кадра, предыдущего для вышеупомянутого текущего речевого/аудио кадра, - огибающая расширения полосы частот вышеупомянутого текущего речевого/аудио кадра, - весовой коэффициент огибающей расширения полосы частот речевого/аудио кадра, предыдущего для вышеупомянутого текущего речевого/аудио кадра, - весовой коэффициент огибающей расширения полосы частот вышеупомянутого текущего речевого/аудио кадра, и .
[0068] Для другого примера поправочный множитель для коррекции огибающей расширения полосы частот вышеупомянутого текущего речевого/аудио кадра является обратно пропорциональным коэффициенту наклона спектра речевого/аудио кадра, предыдущего для вышеупомянутого текущего речевого/аудио кадра, и пропорциональным отношению огибающей расширения полосы частот речевого/аудио кадра, предыдущего для вышеупомянутого текущего речевого/аудио кадра, к огибающей расширения полосы частот вышеупомянутого текущего речевого/аудио кадра.
[0069] В других вариантах осуществления настоящего изобретения параметр декодирования речи/аудио вышеупомянутого текущего речевого/аудио кадра включает в себя период основного тона вышеупомянутого текущего речевого/аудио кадра, и выполнение пост-обработки на параметре декодирования речи/аудио вышеупомянутого текущего речевого/аудио кадра согласно параметрам речи/аудио X речевых/аудио кадров для получения пост-обработанного параметра декодирования речи/аудио вышеупомянутого текущего речевого/аудио кадра может включать в себя: выполнение пост-обработки на периоде основного тона вышеупомянутого текущего речевого/аудио кадра согласно классам сигнала и/или периодам основного тона X речевых/аудио кадров (например, пост-обработка, такая как увеличение или ослабление, может выполняться на периоде основного тона вышеупомянутого текущего речевого/аудио кадра согласно классам сигнала и/или периодам основного тона X речевых/аудио кадров), чтобы получить пост-обработанный период основного тона вышеупомянутого текущего речевого/аудио кадра.
[0070] Из вышеизложенного описания можно уяснить, что в некоторых вариантах осуществления настоящего изобретения, при переходе между «невокализованным» речевым/аудио кадром и не «невокализованным» речевым/аудио кадром (например, когда текущий речевой/аудио кадр представляет не «невокализованный» класс сигнала и является избыточным декодированным кадром, и речевой/аудио кадр до или после текущего речевого/аудио кадра представляет не «невокализованный» тип сигнала и является обычным декодированным кадром, или когда текущий речевой/аудио кадр представляет не «невокализованный» класс сигнала и является обычным декодированным кадром, и речевой/аудио кадр до или после текущего речевого/аудио кадра представляет не «невокализованный» класс сигнала и является избыточным декодированным кадром), пост-обработку выполняют на параметре декодирования речи/аудио текущего речевого/аудио кадра, каковое помогает избегать явления щелчка (click), вызываемого при межкадровом переходе между «невокализованным» речевым/аудио кадром и не «невокализованным» речевым/аудио кадром, посредством этого повышая качество выходного речевого/аудио сигнала.
[0071] В других вариантах осуществления настоящего изобретения при переходе между обобщенным речевым/аудио кадром и вокализованным речевым/аудио кадром речевой/аудио кадр (когда текущий речевой/аудио кадр представляет «обобщенный» кадр и является избыточным декодированным кадром, и речевой/аудио кадр до или после текущего речевого/аудио кадра представляет «вокализованный» класс сигнала и является обычным декодированным кадром, или когда текущий речевой/аудио кадр представляет «вокализованный» класс сигнала и является обычным декодированным кадром, и речевой/аудио кадр до или после текущего речевого/аудио кадра представляет «обобщенный» класс сигнала и является избыточным декодированным кадром), пост-обработку выполняют на параметре декодирования речи/аудио текущего речевого/аудио кадра, каковое помогает устранить явление энергетической нестабильности, вызываемое при переходе между обобщенным кадром и вокализованным кадром, посредством этого повышая качество выходного речевого/аудио сигнала.
[0072] В еще других вариантах осуществления настоящего изобретения, когда текущий речевой/аудио кадр является избыточным декодированным кадром, классом сигнала текущего речевого/аудио кадра не является «невокализованный», и классом сигнала речевого/аудио кадра после текущего речевого/аудио кадра является «невокализованный», огибающую расширения полосы частот текущего кадра корректируют, чтобы устранить явление энергетической нестабильности в расширении полосы частот во временной области и повысить качество выходного речевого/аудио сигнала.
[0073] Чтобы помочь лучшему пониманию и реализации вышеупомянутого решения в этом варианте осуществления настоящего изобретения, некоторые конкретные сценарии применения используются в качестве примеров в последующем описании.
[0100] Что касается Фиг.2, Фиг.2 является структурной схемой другого способа декодирования битового потока речи/аудио согласно другому варианту осуществления настоящего изобретения. Другой способ декодирования битового потока речи/аудио, обеспеченный в другом варианте осуществления настоящего изобретения, может включать в себя следующее содержание:
[0101] 201. Определить состояние декодирования текущего речевого/аудио кадра.
[0102] Конкретно, например, на основе алгоритма JBM или другого алгоритма может быть определено, что текущим речевым/аудио кадром является обычный декодированный кадр, избыточный декодированный кадр или FEC восстановленный кадр.
[0103] Если текущий речевой/аудио кадр является обычным декодированным кадром, и речевой/аудио кадр до текущего речевого/аудио кадра является избыточным декодированным кадром, исполняют этап 202.
[0104] Если текущий речевой/аудио кадр является избыточным декодированным кадром, исполняют этап 203.
[0105] Если текущий речевой/аудио кадр является FEC восстановленным кадром, и речевой/аудио кадр до вышеупомянутого текущего речевого/аудио кадра является избыточным декодированным кадром, исполняют этап 204.
[0106] 202. Получить параметр декодирования речи/аудио текущего речевого/аудио кадра на основании двоичного потока текущего речевого/аудио кадра и перейти на этап 205.
[0107] 203. Получить параметр декодирования речи/аудио вышеупомянутого текущего речевого/аудио кадра на основании избыточного двоичного потока, соответствующего текущему речевому/аудио кадру, и перейти на этап 205.
[0108] 204. Получить параметр декодирования речи/аудио текущего речевого/аудио кадра посредством предсказания на основе алгоритма FEC и перейти на этап 205.
[0109] 205. Выполнить пост-обработку на параметре декодирования речи/аудио вышеупомянутого текущего речевого/аудио кадра согласно параметрам речи/аудио X речевых/аудио кадров, чтобы получить пост-обработанный параметр декодирования речи/аудио вышеупомянутого текущего речевого/аудио кадра, где вышеупомянутые X речевых/аудио кадров включают M речевых/аудио кадров до вышеупомянутого текущего речевого/аудио кадра и/или N речевых/аудио кадров после вышеупомянутого текущего речевого/аудио кадра, и M и N - целые положительные числа.
[0110] 206. Восстановить речевой/аудио сигнал вышеупомянутого текущего речевого/аудио кадра путем использования пост-обработанного параметра декодирования речи/аудио из вышеупомянутого текущего речевого/аудио кадра.
[0111] Может выполняться различная пост-обработка на различных параметрах декодирования речи/аудио. Например, пост-обработка, выполняемая на параметре спектральной пары текущего речевого/аудио кадра, может быть адаптивным взвешиванием, выполняемым с использованием параметра спектральной пары текущего речевого/аудио кадра и параметра спектральной пары речевого/аудио кадра, предыдущего для текущего речевого/аудио кадра, чтобы получать пост-обработанный параметр спектральной пары текущего речевого/аудио кадра, и пост-обработка, выполняемая на коэффициенте усиления адаптивной кодовой книги текущего речевого/аудио кадра, может быть регулировкой, такой как ослабление, выполняемое на коэффициенте усиления адаптивной кодовой книги.
[0112] Следует понимать, что подробности выполнения пост-обработки на параметре декодирования речи/аудио в этом варианте осуществления могут ссылаться на соответствующие описания вышеизложенных осуществлений способа, и подробности здесь не описываются.
[0113] Из вышеизложенного описания можно уяснить, что в этом варианте осуществления в сценарии, в котором текущий речевой/аудио кадр является избыточным декодированным кадром, или речевой/аудио кадр до вышеупомянутого текущего речевого/аудио кадра является избыточным декодированным кадром, после получения параметра декодирования речи/аудио текущего речевого/аудио кадра декодер выполняет пост-обработку на параметре декодирования речи/аудио текущего речевого/аудио кадра согласно параметрам речи/аудио X речевых/аудио кадров, чтобы получить пост-обработанный параметр декодирования речи/аудио вышеупомянутого текущего речевого/аудио кадра, где вышеупомянутые X речевых/аудио кадров включают M речевых/аудио кадров до вышеупомянутого текущего речевого/аудио кадра и/или N речевых/аудио кадров после вышеупомянутого текущего речевого/аудио кадра, и восстанавливает речевой/аудио сигнал текущего речевого/аудио кадра путем использования пост-обработанного параметра декодирования речи/аудио текущего речевого/аудио кадра, каковое гарантирует стабильное качество декодированного сигнала при переходе между избыточным декодированным кадром и обычным декодированным кадром или между избыточным декодированным кадром и FEC восстановленным кадром, посредством этого повышая качество выходного речевого/аудио сигнала.
[0114] Из вышеизложенного описания можно уяснить, что в некоторых вариантах осуществления настоящего изобретения при переходе между «невокализованным» речевым/аудио кадром и не «невокализованным» речевым/аудио кадром (например, когда текущий речевой/аудио кадр представляет не «невокализованный» класс сигнала и является избыточным декодированным кадром, и речевой/аудио кадр до или после текущего речевого/аудио кадра представляет не «невокализованный» тип сигнала и является обычным декодированным кадром, или когда текущий речевой/аудио кадр представляет не «невокализованный» класс сигнала и является обычным декодированным кадром, и речевой/аудио кадр до или после текущего речевого/аудио кадра представляет не «невокализованный» класс сигнала и является избыточным декодированным кадром), пост-обработку выполняют на параметре декодирования речи/аудио текущего речевого/аудио кадра, каковое помогает избегать явления щелчка (click), вызываемого при межкадровом переходе между «невокализованным» речевым/аудио кадром и не «невокализованным» речевым/аудио кадром, посредством этого повышая качество выходного речевого/аудио сигнала.
[0115] В других вариантах осуществления настоящего изобретения, при переходе между обобщенным речевым/аудио кадром и вокализованным речевым/аудио кадром речевой/аудио кадр (когда текущий речевой/аудио кадр является «обобщенным» кадром и избыточным декодированным кадром, и речевой/аудио кадр до или после текущего речевого/аудио кадра представляет «вокализованный» класс сигнала и является обычным декодированным кадром, или когда текущий речевой/аудио кадр представляет «вокализованный» класс сигнала и является обычным декодированным кадром, и речевой/аудио кадр до или после текущего речевого/аудио кадра представляет «обобщенный» класс сигнала и является избыточным декодированным кадром), пост-обработку выполняют на параметре декодирования речи/аудио текущего речевого/аудио кадра, каковое помогает устранить явление энергетической нестабильности, вызываемое при переходе между обобщенным кадром и вокализованным кадром, посредством этого повышая качество выходного речевого/аудио сигнала.
[0116] В других вариантах осуществления настоящего изобретения, когда текущий речевой/аудио кадр является избыточным декодированным кадром, классом сигнала текущего речевого/аудио кадра не является «невокализованный», и классом сигнала речевого/аудио кадра после текущего речевого/аудио кадра является «невокализованный», огибающую расширения полосы частот текущего кадра корректируют, чтобы устранить явление энергетической нестабильности в расширении полосы частот во временной области и повысить качество выходного речевого/аудио сигнала.
[0117] Вариант осуществления настоящего изобретения дополнительно обеспечивает соответствующее устройство для реализации вышеупомянутого решения.
[0118] Что касается Фиг.3, вариант осуществления настоящего изобретения обеспечивает декодер 300 для декодирования битового потока речи/аудио, который может включать в себя: блок 310 извлечения параметра, блок 320 пост-обработки и блок 330 восстановления.
[0119] Блок 310 извлечения параметра сконфигурирован для извлечения параметра декодирования речи/аудио текущего речевого/аудио кадра, где вышеупомянутый текущий речевой/аудио кадр является избыточным декодированным кадром, или речевой/аудио кадр до вышеупомянутого текущего речевого/аудио кадра является избыточным декодированным кадром.
[0120] Когда речевой/аудио кадр до вышеупомянутого текущего речевого/аудио кадра является избыточным декодированным кадром, текущий речевой/аудио кадр может быть обычным декодированным кадром, избыточным декодированным кадром или кадром FEC восстановления.
[0121] Блок 320 пост-обработки сконфигурирован, чтобы выполнять пост-обработку на параметре декодирования речи/аудио вышеупомянутого текущего речевого/аудио кадра согласно параметрам речи/аудио X речевых/аудио кадров для получения пост-обработанного параметра декодирования речи/аудио вышеупомянутого текущего речевого/аудио кадра, где вышеупомянутые X речевых/аудио кадров включают M речевых/аудио кадров до вышеупомянутого текущего речевого/аудио кадра и/или N речевых/аудио кадров после вышеупомянутого текущего речевого/аудио кадра, и M и N - целые положительные числа.
[0122] Блок 330 восстановления сконфигурирован, чтобы восстанавливать речевой/аудио сигнал вышеупомянутого текущего речевого/аудио кадра путем использования пост-обработанного параметра декодирования речи/аудио из вышеупомянутого текущего речевого/аудио кадра.
[0123] То, что речевой/аудио кадр (например, текущий речевой/аудио кадр или речевой/аудио кадр до текущего речевого/аудио кадра) является обычным декодированным кадром, означает, что параметр речи/аудио и т.п., вышеупомянутого речевого/аудио кадра может быть непосредственно получен из двоичного потока речевого/аудио кадра посредством декодирования. То, что речевой/аудио кадр (например, текущий речевой/аудио кадр или речевой/аудио кадр до текущего речевого/аудио кадра) является избыточным декодированным кадром, означает, что параметр речи/аудио и т.п., речевого/аудио кадра не может быть непосредственно получен из двоичного потока речевого/аудио кадра посредством декодирования, но избыточная информация двоичного потока для речевого/аудио кадра может быть получена из двоичного потока другого речевого/аудио кадра.
[0124] M речевых/аудио кадров до текущего речевого/аудио кадра относятся к M речевым/аудио кадрам, предшествующим текущему речевому/аудио кадру и непосредственно смежным с текущим речевым/аудио кадром во временной области.
[0125] Например, M может быть равным 1, 2, 3, или другим значением. Когда M=1, M речевых/аудио кадров до текущего речевого/аудио кадра представляют речевые/аудио кадры до текущего речевого/аудио кадра, и речевой/аудио кадр до текущего речевого/аудио кадра и текущий речевой/аудио кадр представляют два непосредственно смежных речевых/аудио кадра; когда M=2, M речевых/аудио кадров до текущего речевого/аудио кадра являются речевыми/аудио кадрами до текущего речевого/аудио кадра, и речевой/аудио кадр до речевого/аудио кадра до текущего речевого/аудио кадра, и речевой/аудио кадр до текущего речевого/аудио кадра, речевой/аудио кадр до речевого/аудио кадра до текущего речевого/аудио кадра и текущий речевой/аудио кадр представляют три непосредственно смежных речевых/аудио кадра; и так далее.
[0126] N речевых/аудио кадров после текущего речевого/аудио относятся к N речевым/аудио кадрам, следующим после текущего речевого/аудио кадра и непосредственно смежным с текущим речевым/аудио кадром во временной области.
[0127] Например, N может быть равным 1, 2, 3, 4, или другим значением. Когда N=1, N речевых/аудио кадров после текущего речевого/аудио кадра представляют речевой/аудио кадр после текущего речевого/аудио кадра, и речевой/аудио кадр после текущего речевого/аудио кадра и текущий речевой/аудио кадр представляют два непосредственно смежных речевых/аудио кадра; когда N=2, N речевых/аудио кадров после текущего речевого/аудио кадра представляют речевой/аудио кадр после текущего речевого/аудио кадра и речевой/аудио кадр после речевого/аудио кадра после текущего речевого/аудио кадра, и речевой/аудио кадр после текущего речевого/аудио кадра, речевой/аудио кадр после речевого/аудио кадра после текущего речевого/аудио кадра и текущий речевой/аудио кадр представляют три непосредственно смежных речевых/аудио кадра; и так далее.
[0128] Параметр декодирования речи/аудио может включать в себя, по меньшей мере, один из следующих параметров:
огибающую расширения полосы частот, коэффициент усиления адаптивной кодовой книги (gain_pit), алгебраическую кодовую книгу, период основного тона, коэффициент наклона спектра, параметр спектральной пары и подобное.
[0129] Параметр речи/аудио может включать в себя параметр декодирования речи/аудио, класс сигнала и т.п.
[0130] Классом сигнала речевого/аудио кадра может быть «невокализованный», «вокализованный», «обобщенный», «переходный», «неактивный» или подобный.
[0131] Параметр спектральной пары может быть, например, по меньшей мере, одним из параметра пары спектральных линий (LSP) или параметра спектральной пары иммитанса (ISP).
[0132] Следует понимать, что в этом варианте осуществления настоящего изобретения блок 320 пост-обработки может выполнять пост-обработку, по меньшей мере, на одном параметре декодирования речи/аудио из огибающей расширения полосы частот, коэффициента усиления адаптивной кодовой книги, алгебраической кодовой книги, периода основного тона или параметра спектральной пары текущего речевого/аудио кадра. Конкретно, сколько параметров выбрано, и какие параметры выбраны для пост-обработки, может быть определено согласно сценарию применения и среде применения, каковое не ограничивается в этом варианте осуществления настоящего изобретения.
[0133] Блок 320 пост-обработки может выполнять различную пост-обработку на различных параметрах декодирования речи/аудио. Например, пост-обработка, выполняемая блоком 320 пост-обработки на параметре спектральной пары текущего речевого/аудио кадра, может быть адаптивным взвешиванием, выполняемым с использованием параметра спектральной пары текущего речевого/аудио кадра и параметра спектральной пары речевого/аудио кадра, предыдущего для текущего речевого/аудио кадра, чтобы получать пост-обработанный параметр спектральной пары текущего речевого/аудио кадра, и пост-обработка, выполняемая блоком 320 пост-обработки на коэффициенте усиления адаптивной кодовой книги текущего речевого/аудио кадра, может быть регулировкой, такой как ослабление, выполняемое на коэффициенте усиления адаптивной кодовой книги.
[0134] Следует понимать, что функции функциональных модулей декодера 300 в этом варианте осуществления могут быть конкретно реализованы согласно способу из вышеизложенного варианта осуществления способа. Относительно конкретного процесса реализации, можно обратиться к соответствующим описаниям вышеизложенного осуществления способа. Подробности здесь не описываются. Декодер 300 может быть любым устройством, которому необходимо выводить речевые сигналы, например, устройством, таким как портативный компьютер, планшетный компьютер или персональный компьютер, или мобильным телефоном.
[0135] Фиг.4 является схематичным представлением декодера 400 согласно варианту осуществления настоящего изобретения. Декодер 400 может включать в себя, по меньшей мере, одну шину 401, по меньшей мере, один процессор 402, соединенный с шиной 401, и, по меньшей мере, одну память 403, соединенную с шиной 401.
[0136] Путем запуска, с использованием шины 401, программного кода, сохраненного в памяти 403, процессор 402 конфигурируется, чтобы: выполнять этапы, как описано в предыдущих варианта осуществления способа, и конкретный процесс реализации процессора 402 может ссылаться на соответствующие описания вышеизложенных вариантов осуществления способа. Подробности здесь не описываются.
[0137] Следует понимать, что в этом варианте осуществления настоящего изобретения путем запуска программного кода, сохраненного в памяти 403, процессор 402 может быть сконфигурирован для выполнения пост-обработки, по меньшей мере, на одном параметре декодирования речи/аудио из огибающей расширения полосы частот, коэффициента усиления адаптивной кодовой книги, алгебраической кодовой книги, периода основного тона или параметра спектральной пары текущего речевого/аудио кадра. Конкретно, сколько параметров выбрано, и какие параметры выбраны для пост-обработки, может определяться в соответствии со сценарием практического применения и средой применения, каковое не ограничивается в этом варианте осуществления настоящего изобретения.
[0138] Может выполняться различная пост-обработка на различных параметрах декодирования речи/аудио. Например, пост-обработка, выполняемая на параметре спектральной пары текущего речевого/аудио кадра, может быть адаптивным взвешиванием, выполняемым с использованием параметра спектральной пары текущего речевого/аудио кадра и параметра спектральной пары из речевого/аудио кадра, предыдущего для текущего речевого/аудио кадра, для получения пост-обработанного параметра спектральной пары текущего речевого/аудио кадра, и пост-обработка, выполняемая на коэффициенте усиления адаптивной кодовой книги текущего речевого/аудио кадра, может быть регулировкой, такой как ослабление, выполняемое на коэффициенте усиления адаптивной кодовой книги.
[0139] Конкретный вид пост-обработки не ограничивается в этом варианте осуществления настоящего изобретения, и конкретная пост-обработка может задаваться в соответствии с техническим требованием или в соответствии со средой применения и в соответствии со сценарием применения.
[0140] Что касается Фиг.5, Фиг.5 является структурной блок-схемой декодера 500 согласно другому варианту осуществления настоящего изобретения. Декодер 500 может включать в себя, по меньшей мере, один процессор 501, по меньшей мере, один сетевой интерфейс 504 или пользовательский интерфейс 503, память 505, и, по меньшей мере, одну коммуникационную шину 502. Коммуникационная шина 502 сконфигурирована, чтобы реализовывать соединение и связь между этими компонентами. Декодер 500 может необязательно включать в себя пользовательский интерфейс 503, который включает в себя устройство отображения (например, сенсорный экран, жидкокристаллический экран, на основе электронно-лучевой трубки (CRT), голографическое устройство или проектор (Projector), устройство, использующее щелчок/касание (например, мышь, шаровой манипулятор (trackball), сенсорную панель или сенсорный экран), камеру и/или устройство съема сигнала и подобное.
[0141] Память 505 может включать в себя постоянную память и оперативную память, и предоставлять инструкцию и данные для процессора 501. Часть памяти 505 может дополнительно включать в себя энергонезависимую оперативную память (NVRAM).
[0142] В некоторых видах реализации, память 505 сохраняет следующие элементы, исполнимый модуль или структуру данных, или подмножество таковых, или расширенный набор таковых:
операционную систему 5051, включающую в себя различные системные программы, и используемую для реализации различных базовых услуг и обработки аппаратно-реализованных задач; и
модуль 5052 прикладных программ, включающий различные прикладные программы, и сконфигурированный для реализации услуг различных приложений.
[0143] Модуль 5052 прикладных программ включает в себя, но без ограничения указанным, блок 310 извлечения параметра, блок 320 пост-обработки, блок 330 восстановления, и подобное.
В этом варианте осуществления настоящего изобретения, путем запуска программы или инструкции, сохраненной в памяти 505, процессор 501 может быть сконфигурирован, чтобы выполнять этапы, как описано в предыдущих вариантах осуществления способа.
[0145] Следует понимать, что в этом варианте осуществления, путем запуска программы или инструкции, сохраненной в памяти 505, процессор 501 может выполнять пост-обработку, по меньшей мере, на одном параметре декодирования речи/аудио из огибающей расширения полосы частот, коэффициента усиления адаптивной кодовой книги, алгебраической кодовой книги, периода основного тона или параметра спектральной пары текущего речевого/аудио кадра. Конкретно, сколько параметров выбрано, и какие параметры выбраны для пост-обработки, может определяться в соответствии со сценарием практического применения и средой применения, каковое не ограничивается в этом варианте осуществления настоящего изобретения.
[0146] Может выполняться различная пост-обработка на различных параметрах декодирования речи/аудио. Например, пост-обработка, выполняемая на параметре спектральной пары текущего речевого/аудио кадра, может быть адаптивным взвешиванием, выполняемым с использованием параметра спектральной пары текущего речевого/аудио кадра и параметра спектральной пары речевого/аудио кадра, предыдущего для текущего речевого/аудио кадра, чтобы получать пост-обработанный параметр спектральной пары текущего речевого/аудио кадра, и пост-обработка, выполняемая на коэффициенте усиления адаптивной кодовой книги текущего речевого/аудио кадра, может быть регулировкой, такой как ослабление, выполняемое на коэффициенте усиления адаптивной кодовой книги. Конкретные подробности реализации относительно пост-обработки могут ссылаться на соответствующие описания вышеизложенных вариантов осуществления способа.
[0147] Вариант осуществления настоящего изобретения дополнительно обеспечивает носитель данных компьютера, где носитель данных компьютера может хранить программу. При исполнении, программа включает в себя некоторые или все этапы любого способа декодирования битового потока речи/аудио, описанного в вышеизложенных вариантах осуществления способа.
[0148] Следует отметить, что для обеспечения краткости описания, вышеизложенные варианты осуществления способа выражены в виде последовательности действий. Однако специалисты в данной области техники оценят, что настоящее изобретение не ограничивается описанной последовательностью действий, поскольку согласно данному изобретению, некоторые этапы могут выполняться в других последовательностях или выполняться одновременно. [0149] В вышеизложенных вариантах осуществления описание каждого варианта осуществления имеет соответственные точки внимания. Относительно части, которая не описана подробно в варианте осуществления, можно обратиться к соответствующим описаниям в других вариантах осуществления.
[0150] В нескольких вариантах осуществления, представленных в этой заявке, следует понять, что раскрываемое устройство может быть реализовано другим образом. Например, вариант осуществления описанного устройства является чисто иллюстративным. Например, деление на модули является просто делением на логические функции и может быть другим делением в фактической реализации. Например, множество блоков или компонентов могут комбинироваться или объединяться в другую систему, или некоторые признаки могут игнорироваться или не выполняться. Кроме того, изображенные или описанные взаимные связи, либо непосредственные соединения, либо коммуникационные соединения, могут быть реализованы через посредство некоторых интерфейсов. Косвенные связи или коммуникационные соединения между устройствоами или блоками могут быть реализованы в электронной или других формах.
[0151] Блоки, описанные как отдельные части, могут или не могут являться физически отдельными, и части, изображенные или описанные в виде блоков, могут или не могут являться физическими блоками, могут быть размещены в одной позиции, или могут быть распределены на множестве сетевых модулей. Некоторые или все из блоков могут быть выбраны согласно фактическим потребностям для достижения целей решений из вариантов осуществления.
[0152] Кроме того, функциональные блоки в вариантах осуществления настоящего изобретения могут быть объединены в один блок обработки, или каждый из блоков могут существовать отдельно физически, или два или более блоков могут быть объединены в один блок. Объединенный блок может быть реализован в форме аппаратных средств или может быть реализован в форме программно-реализованного функционального блока.
[0153] Когда объединенный блок реализован в форме программно-реализованного функционального блока и продается или используется в качестве независимого продукта, объединенный блок может быть сохранен в читаемом компьютером носителе данных. На основе такого понимания, технические решения настоящего изобретения по существу, или часть, вносящая вклад в известный уровню техники, или все технические решения или их часть могут быть реализованы в форме программного продукта. Программный продукт сохраняется в носителе данных и включает в себя несколько инструкций для предписания вычислительному устройству (которое может быть персональным компьютером, сервером или сетевым устройством, и конкретно может быть процессором в вычислительном устройстве) выполнять все или часть этапов вышеизложенных способов, описанных в вариантах осуществления настоящего изобретения. Вышеупомянутый носитель данных может включать в себя: любой носитель, который может сохранять программный код, такой как карта флэш-памяти с USB-интерфейсом, ЗУ на магнитном диске, оперативное запоминающее устройство (RAM, оперативная память), постоянное запоминающее устройство (ROM, постоянная память), съемный накопитель на жестком диске или ЗУ на оптическом диске.
Вышеизложенные варианты осуществления предназначены просто для описания технических решений настоящего изобретения, а не для ограничения настоящего изобретения. Хотя настоящее изобретение описано подробно со ссылкой на вышеизложенные варианты осуществления, обычные специалисты в данной области техники поймут, что они могут делать изменения технических решений, описанных в вышеизложенных вариантах осуществления, или делать эквивалентные замены некоторых технических характеристик в таковых без выхода за рамки объема технических решений из вариантов осуществления настоящего изобретения.
Claims (46)
1. Способ декодирования битового потока речи/аудио, содержащий:
извлечение параметра декодирования речи/аудио текущего речевого/аудио кадра, причем текущий речевой/аудио кадр является избыточным декодированным кадром, или речевой/аудио кадр до текущего речевого/аудио кадра является избыточным декодированным кадром;
выполнение пост-обработки на параметре декодирования речи/аудио текущего речевого/аудио кадра согласно параметрам речи/аудио X речевых/аудио кадров, чтобы получить пост-обработанный параметр декодирования речи/аудио текущего речевого/аудио кадра, причем X речевых/аудио кадров включают M речевых/аудио кадров до текущего речевого/аудио кадра и/или N речевых/аудио кадров после текущего речевого/аудио кадра, и M и N - целые положительные числа; и
восстановление речевого/аудио сигнала текущего речевого/аудио кадра путем использования пост-обработанного параметра декодирования речи/аудио, соответствующего текущему речевому/аудио кадру.
2. Способ по п.1, в котором параметр декодирования речи/аудио текущего речевого/аудио кадра содержит параметр спектральной пары текущего речевого/аудио кадра, и выполнение пост-обработки на параметре декодирования речи/аудио текущего речевого/аудио кадра согласно параметрам речи/аудио X речевых/аудио кадров содержит:
выполнение пост-обработки на параметре спектральной пары текущего речевого/аудио кадра согласно, по меньшей мере, одному из класса сигнала, коэффициента наклона спектра, коэффициента усиления адаптивной кодовой книги или параметра спектральной пары X речевых/аудио кадров, чтобы получить пост-обработанный параметр спектральной пары для текущего речевого/аудио кадра.
3. Способ по п.1, в котором
параметр декодирования речи/аудио текущего речевого/аудио кадра содержит коэффициент усиления адаптивной кодовой книги текущего речевого/аудио кадра, и выполнение пост-обработки на параметре декодирования речи/аудио текущего речевого/аудио кадра согласно параметрам речи/аудио X речевых/аудио кадров содержит:
выполнение пост-обработки на коэффициенте усиления адаптивной кодовой книги текущего речевого/аудио кадра согласно, по меньшей мере, одному из класса сигнала, коэффициента усиления алгебраической кодовой книги или коэффициента усиления адаптивной кодовой книги X речевых/аудио кадров, чтобы получить пост-обработанный коэффициент усиления адаптивной кодовой книги текущего речевого/аудио кадра.
4. Способ по п.3, в котором выполнение пост-обработки на коэффициенте усиления адаптивной кодовой книги текущего речевого/аудио кадра согласно, по меньшей мере, одному из класса сигнала, коэффициента усиления алгебраической кодовой книги или коэффициента усиления адаптивной кодовой книги X речевых/аудио кадров содержит:
в случае, когда текущий речевой/аудио кадр является избыточным декодированным кадром, классом сигнала текущего речевого/аудио кадра не является «невокализованный», классом сигнала, по меньшей мере, одного из двух речевых/аудио кадров после текущего речевого/аудио кадра является «невокализованный», и коэффициент усиления алгебраической кодовой книги текущего подкадра в текущем речевом/аудио кадре больше чем или равен коэффициенту усиления алгебраической кодовой книги речевого/аудио кадра, предыдущего для текущего речевого/аудио кадра, ослабление коэффициента усиления адаптивной кодовой книги текущего подкадра.
5. Способ по п.4, который дополнительно содержит:
в случае, когда текущий речевой/аудио кадр является избыточным декодированным кадром, классом сигнала текущего речевого/аудио кадра не является «невокализованный», классом сигнала, по меньшей мере, одного из двух речевых/аудио кадров после текущего речевого/аудио кадра является «невокализованный», и коэффициент усиления алгебраической кодовой книги текущего подкадра в текущем речевом/аудио кадре больше чем или равен коэффициенту усиления алгебраической кодовой книги подкадра, предыдущего для текущего подкадра, ослабление коэффициента усиления адаптивной кодовой книги текущего подкадра.
6. Способ по п.1, в котором параметр декодирования речи/аудио текущего речевого/аудио кадра, содержит алгебраическую кодовую книгу текущего речевого/аудио кадра, и выполнение пост-обработки на параметре декодирования речи/аудио текущего речевого/аудио кадра согласно параметрам речи/аудио X речевых/аудио кадров содержит:
выполнение пост-обработки на алгебраической кодовой книге текущего речевого/аудио кадра согласно, по меньшей мере, одному из класса сигнала, алгебраической кодовой книги или коэффициента наклона спектра X речевых/аудио кадров, чтобы получить пост-обработанную алгебраическую кодовую книгу для текущего речевого/аудио кадра.
7. Способ по п.1, в котором параметр декодирования речи/аудио текущего речевого/аудио кадра содержит огибающую расширения полосы частот текущего речевого/аудио кадра, и выполнение пост-обработки на параметре декодирования речи/аудио текущего речевого/аудио кадра согласно параметрам речи/аудио X речевых/аудио кадров содержит:
выполнение пост-обработки на огибающей расширения полосы частот текущего речевого/аудио кадра согласно, по меньшей мере, одному из класса сигнала, огибающей расширения полосы частот или коэффициента наклона спектра X речевых/аудио кадров, чтобы получить пост-обработанную огибающую расширения полосы частот текущего речевого/аудио кадра.
8. Способ по п.7, в котором выполнение пост-обработки на огибающей расширения полосы частот текущего речевого/аудио кадра согласно, по меньшей мере, одному из класса сигнала, огибающей расширения полосы частот или коэффициента наклона спектра X речевых/аудио кадров содержит:
в случае, когда речевой/аудио кадр до текущего речевого/аудио кадра является обычным декодированным кадром, и класс сигнала речевого/аудио кадра до текущего речевого/аудио кадра является таким же, как таковой речевого/аудио кадра после текущего речевого/аудио кадра, получение пост-обработанной огибающей расширения полосы частот текущего речевого/аудио кадра на основе огибающей расширения полосы частот речевого/аудио кадра, предыдущего для текущего речевого/аудио кадра, и огибающей расширения полосы частот текущего речевого/аудио кадра.
9. Способ по п.8, который дополнительно содержит:
в случае, когда текущий речевой/аудио кадр является предсказанной формой декодирования с избыточностью, получение пост-обработанной огибающей расширения полосы частот текущего речевого/аудио кадра на основе огибающей расширения полосы частот речевого/аудио кадра, предыдущего для текущего речевого/аудио кадра, и огибающей расширения полосы частот текущего речевого/аудио кадра.
10. Способ по п.8, который дополнительно содержит:
в случае, когда классом сигнала текущего речевого/аудио кадра не является «невокализованный», классом сигнала речевого/аудио кадра после текущего речевого/аудио кадра является «невокализованный», и коэффициент наклона спектра речевого/аудио кадра, предыдущего для текущего речевого/аудио кадра, меньше чем или равен десятому пороговому значению, коррекцию огибающей расширения полосы частот текущего речевого/аудио кадра согласно огибающей расширения полосы частот или коэффициенту наклона спектра речевого/аудио кадра, предыдущего для текущего речевого/аудио кадра, чтобы получить пост-обработанную огибающую расширения полосы частот текущего речевого/аудио кадра.
11. Способ по п.8, в котором поправочный множитель для коррекции огибающей расширения полосы частот текущего речевого/аудио кадра является обратно пропорциональным коэффициенту наклона спектра речевого/аудио кадра, предыдущего для текущего речевого/аудио кадра, и является пропорциональным отношению огибающей расширения полосы частот речевого/аудио кадра, предыдущего для текущего речевого/аудио кадра, к огибающей расширения полосы частот текущего речевого/аудио кадра.
12. Способ по п.1, в котором параметр декодирования речи/аудио текущего речевого/аудио кадра содержит период основного тона текущего речевого/аудио кадра, и выполнение пост-обработки на параметре декодирования речи/аудио текущего речевого/аудио кадра согласно параметрам речи/аудио X речевых/аудио кадров содержит:
выполнение пост-обработки на периоде основного тона текущего речевого/аудио кадра согласно классам сигнала и/или периодам основного тона X речевых/аудио кадров, чтобы получить пост-обработанный период основного тона текущего речевого/аудио кадра.
13. Декодер для декодирования битового потока речи/аудио, содержащий:
память, сохраняющую инструкции, и процессор, связанный с памятью, который исполняет инструкции, чтобы:
извлекать параметр декодирования речи/аудио текущего речевого/аудио кадра, причем текущий речевой/аудио кадр является избыточным декодированным кадром, или речевой/аудио кадр до текущего речевого/аудио кадра является избыточным декодированным кадром;
выполнять пост-обработку на параметре декодирования речи/аудио текущего речевого/аудио кадра согласно параметрам речи/аудио X речевых/аудио кадров, чтобы получать пост-обработанный параметр декодирования речи/аудио текущего речевого/аудио кадра, причем X речевых/аудио кадров включают M речевых/аудио кадров до текущего речевого/аудио кадра и/или N речевых/аудио кадров после текущего речевого/аудио кадра, и M и N - целые положительные числа; и
восстанавливать речевой/аудио сигнал текущего речевого/аудио кадра путем использования пост-обработанного параметра декодирования речи/аудио текущего речевого/аудио кадра.
14. Декодер по п.13, в котором параметр декодирования речи/аудио текущего речевого/аудио кадра содержит параметр спектральной пары текущего речевого/аудио кадра и
процессор сконфигурирован, чтобы:
выполнять пост-обработку на параметре спектральной пары текущего речевого/аудио кадра согласно, по меньшей мере, одному из параметра спектральной пары, коэффициента усиления адаптивной кодовой книги, коэффициента наклона спектра или класса сигнала X речевых/аудио кадров, чтобы получить пост-обработанный параметр спектральной пары текущего речевого/аудио кадра.
15. Декодер по п.13, в котором параметр декодирования речи/аудио текущего речевого/аудио кадра содержит коэффициент усиления адаптивной кодовой книги текущего речевого/аудио кадра;
процессор сконфигурирован, чтобы:
выполнять пост-обработку на коэффициенте усиления адаптивной кодовой книги текущего речевого/аудио кадра согласно, по меньшей мере, одному из класса сигнала, коэффициента усиления алгебраической кодовой книги или коэффициента усиления адаптивной кодовой книги X речевых/аудио кадров, чтобы получить пост-обработанный коэффициент усиления адаптивной кодовой книги для текущего речевого/аудио кадра.
16. Декодер по п.13, в котором параметр декодирования речи/аудио текущего речевого/аудио кадра содержит огибающую расширения полосы частот текущего речевого/аудио кадра, и процессор сконфигурирован, чтобы:
выполнять пост-обработку на огибающей расширения полосы частот текущего речевого/аудио кадра согласно, по меньшей мере, одному из класса сигнала, огибающей расширения полосы частот или коэффициента наклона спектра X речевых/аудио кадров, чтобы получить пост-обработанную огибающую расширения полосы частот текущего речевого/аудио кадра.
17. Декодер по п. 13, в котором процессор сконфигурирован, чтобы:
в случае, когда речевой/аудио кадр до текущего речевого/аудио кадра является обычным декодированным кадром, и класс сигнала речевого/аудио кадра до текущего речевого/аудио кадра является таким же, как таковой речевого/аудио кадра после текущего речевого/аудио кадра, получать пост-обработанную огибающую расширения полосы частот текущего речевого/аудио кадра на основе огибающей расширения полосы частот речевого/аудио кадра, предыдущего для текущего речевого/аудио кадра, и огибающей расширения полосы частот текущего речевого/аудио кадра.
18. Декодер по п.17, в котором процессор дополнительно сконфигурирован, чтобы
в случае, когда текущий речевой/аудио кадр является предсказанной формой декодирования с избыточностью, получать пост-обработанную огибающую расширения полосы частот текущего речевого/аудио кадра на основе огибающей расширения полосы частот речевого/аудио кадра, предыдущего для текущего речевого/аудио кадра, и огибающей расширения полосы частот текущего речевого/аудио кадра.
19. Декодер по п. 17, в котором поправочный множитель, используемый процессором для коррекции огибающей расширения полосы частот текущего речевого/аудио кадра, является обратно пропорциональным коэффициенту наклона спектра речевого/аудио кадра, предыдущего для текущего речевого/аудио кадра, и является пропорциональным отношению огибающей расширения полосы частот речевого/аудио кадра, предыдущего для текущего речевого/аудио кадра, к огибающей расширения полосы частот текущего речевого/аудио кадра.
20. Декодер по п.13, в котором параметр декодирования речи/аудио текущего речевого/аудио кадра содержит период основного тона текущего речевого/аудио кадра, и процессор конкретно сконфигурирован, чтобы:
выполнять пост-обработку на периоде основного тона текущего речевого/аудио кадра согласно, по меньшей мере, одному из класса сигнала или периода основного тона X речевых/аудио кадров, чтобы получить пост-обработанный период основного тона текущего речевого/аудио кадра.
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201410108478.6A CN104934035B (zh) | 2014-03-21 | 2014-03-21 | 语音频码流的解码方法及装置 |
CN201410108478.6 | 2014-03-21 | ||
PCT/CN2015/070594 WO2015139521A1 (zh) | 2014-03-21 | 2015-01-13 | 语音频码流的解码方法及装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
RU2644512C1 true RU2644512C1 (ru) | 2018-02-12 |
Family
ID=54121177
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
RU2016141282A RU2644512C1 (ru) | 2014-03-21 | 2015-01-13 | Способ и устройство декодирования битового потока речи/аудио |
Country Status (13)
Country | Link |
---|---|
US (2) | US10269357B2 (ru) |
EP (1) | EP3121812B1 (ru) |
JP (1) | JP6542345B2 (ru) |
KR (2) | KR101839571B1 (ru) |
CN (4) | CN107369455B (ru) |
AU (1) | AU2015234068B2 (ru) |
BR (1) | BR112016020082B1 (ru) |
CA (1) | CA2941540C (ru) |
MX (1) | MX360279B (ru) |
MY (1) | MY184187A (ru) |
RU (1) | RU2644512C1 (ru) |
SG (1) | SG11201607099TA (ru) |
WO (1) | WO2015139521A1 (ru) |
Families Citing this family (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104751849B (zh) | 2013-12-31 | 2017-04-19 | 华为技术有限公司 | 语音频码流的解码方法及装置 |
CN107369455B (zh) * | 2014-03-21 | 2020-12-15 | 华为技术有限公司 | 语音频码流的解码方法及装置 |
CN108011686B (zh) * | 2016-10-31 | 2020-07-14 | 腾讯科技(深圳)有限公司 | 信息编码帧丢失恢复方法和装置 |
US11024302B2 (en) * | 2017-03-14 | 2021-06-01 | Texas Instruments Incorporated | Quality feedback on user-recorded keywords for automatic speech recognition systems |
CN108510993A (zh) * | 2017-05-18 | 2018-09-07 | 苏州纯青智能科技有限公司 | 一种网络传输中实时音频数据丢包恢复的方法 |
CN107564533A (zh) * | 2017-07-12 | 2018-01-09 | 同济大学 | 基于信源先验信息的语音帧修复方法和装置 |
US11646042B2 (en) * | 2019-10-29 | 2023-05-09 | Agora Lab, Inc. | Digital voice packet loss concealment using deep learning |
CN111277864B (zh) | 2020-02-18 | 2021-09-10 | 北京达佳互联信息技术有限公司 | 直播数据的编码方法、装置、流转系统及电子设备 |
Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2000063885A1 (en) * | 1999-04-19 | 2000-10-26 | At & T Corp. | Method and apparatus for performing packet loss or frame erasure concealment |
WO2004038927A1 (en) * | 2002-10-23 | 2004-05-06 | Nokia Corporation | Packet loss recovery based on music signal classification and mixing |
WO2004059894A2 (en) * | 2002-12-31 | 2004-07-15 | Nokia Corporation | Method and device for compressed-domain packet loss concealment |
US7069208B2 (en) * | 2001-01-24 | 2006-06-27 | Nokia, Corp. | System and method for concealment of data loss in digital audio transmission |
CN101256774A (zh) * | 2007-03-02 | 2008-09-03 | 北京工业大学 | 用于嵌入式语音编码的帧擦除隐藏方法及系统 |
CN101894558A (zh) * | 2010-08-04 | 2010-11-24 | 华为技术有限公司 | 丢帧恢复方法、设备以及语音增强方法、设备和系统 |
RU2437172C1 (ru) * | 2007-11-04 | 2011-12-20 | Квэлкомм Инкорпорейтед | Способ кодирования/декодирования индексов кодовой книги для квантованного спектра мдкп в масштабируемых речевых и аудиокодеках |
RU2459282C2 (ru) * | 2007-10-22 | 2012-08-20 | Квэлкомм Инкорпорейтед | Масштабируемое кодирование речи и аудио с использованием комбинаторного кодирования mdct-спектра |
CN101189662B (zh) * | 2005-05-31 | 2012-09-05 | 微软公司 | 带多级码本和冗余编码的子带话音编解码器 |
Family Cites Families (66)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US4731846A (en) | 1983-04-13 | 1988-03-15 | Texas Instruments Incorporated | Voice messaging system with pitch tracking based on adaptively filtered LPC residual signal |
US5717824A (en) | 1992-08-07 | 1998-02-10 | Pacific Communication Sciences, Inc. | Adaptive speech coder having code excited linear predictor with multiple codebook searches |
US5615298A (en) | 1994-03-14 | 1997-03-25 | Lucent Technologies Inc. | Excitation signal synthesis during frame erasure or packet loss |
US5699478A (en) | 1995-03-10 | 1997-12-16 | Lucent Technologies Inc. | Frame erasure compensation technique |
JP3747492B2 (ja) * | 1995-06-20 | 2006-02-22 | ソニー株式会社 | 音声信号の再生方法及び再生装置 |
US5907822A (en) | 1997-04-04 | 1999-05-25 | Lincom Corporation | Loss tolerant speech decoder for telecommunications |
US6385576B2 (en) | 1997-12-24 | 2002-05-07 | Kabushiki Kaisha Toshiba | Speech encoding/decoding method using reduced subframe pulse positions having density related to pitch |
CN1494055A (zh) | 1997-12-24 | 2004-05-05 | ������������ʽ���� | 声音编码方法和声音译码方法以及声音编码装置和声音译码装置 |
US6973425B1 (en) | 1999-04-19 | 2005-12-06 | At&T Corp. | Method and apparatus for performing packet loss or Frame Erasure Concealment |
US6952668B1 (en) | 1999-04-19 | 2005-10-04 | At&T Corp. | Method and apparatus for performing packet loss or frame erasure concealment |
US6597961B1 (en) | 1999-04-27 | 2003-07-22 | Realnetworks, Inc. | System and method for concealing errors in an audio transmission |
US6757654B1 (en) * | 2000-05-11 | 2004-06-29 | Telefonaktiebolaget Lm Ericsson | Forward error correction in speech coding |
EP1199709A1 (en) | 2000-10-20 | 2002-04-24 | Telefonaktiebolaget Lm Ericsson | Error Concealment in relation to decoding of encoded acoustic signals |
US7031926B2 (en) * | 2000-10-23 | 2006-04-18 | Nokia Corporation | Spectral parameter substitution for the frame error concealment in a speech decoder |
JP3558031B2 (ja) * | 2000-11-06 | 2004-08-25 | 日本電気株式会社 | 音声復号化装置 |
DE60233283D1 (de) * | 2001-02-27 | 2009-09-24 | Texas Instruments Inc | Verschleierungsverfahren bei Verlust von Sprachrahmen und Dekoder dafer |
JP3582589B2 (ja) | 2001-03-07 | 2004-10-27 | 日本電気株式会社 | 音声符号化装置及び音声復号化装置 |
US7590525B2 (en) | 2001-08-17 | 2009-09-15 | Broadcom Corporation | Frame erasure concealment for predictive speech coding based on extrapolation of speech waveform |
US7047187B2 (en) | 2002-02-27 | 2006-05-16 | Matsushita Electric Industrial Co., Ltd. | Method and apparatus for audio error concealment using data hiding |
US20040002856A1 (en) * | 2002-03-08 | 2004-01-01 | Udaya Bhaskar | Multi-rate frequency domain interpolative speech CODEC system |
JP4215448B2 (ja) * | 2002-04-19 | 2009-01-28 | 日本電気株式会社 | 音声復号装置及び音声復号方法 |
CA2388439A1 (en) * | 2002-05-31 | 2003-11-30 | Voiceage Corporation | A method and device for efficient frame erasure concealment in linear predictive based speech codecs |
JP4438280B2 (ja) | 2002-10-31 | 2010-03-24 | 日本電気株式会社 | トランスコーダ及び符号変換方法 |
US7486719B2 (en) | 2002-10-31 | 2009-02-03 | Nec Corporation | Transcoder and code conversion method |
CA2457988A1 (en) * | 2004-02-18 | 2005-08-18 | Voiceage Corporation | Methods and devices for audio compression based on acelp/tcx coding and multi-rate lattice vector quantization |
US7668712B2 (en) * | 2004-03-31 | 2010-02-23 | Microsoft Corporation | Audio encoding and decoding with intra frames and adaptive forward error correction |
EP1775717B1 (en) | 2004-07-20 | 2013-09-11 | Panasonic Corporation | Speech decoding apparatus and compensation frame generation method |
US20060088093A1 (en) | 2004-10-26 | 2006-04-27 | Nokia Corporation | Packet loss compensation |
US7519535B2 (en) | 2005-01-31 | 2009-04-14 | Qualcomm Incorporated | Frame erasure concealment in voice communications |
CN100561576C (zh) | 2005-10-25 | 2009-11-18 | 芯晟(北京)科技有限公司 | 一种基于量化信号域的立体声及多声道编解码方法与系统 |
US8255207B2 (en) * | 2005-12-28 | 2012-08-28 | Voiceage Corporation | Method and device for efficient frame erasure concealment in speech codecs |
US8798172B2 (en) | 2006-05-16 | 2014-08-05 | Samsung Electronics Co., Ltd. | Method and apparatus to conceal error in decoded audio signal |
WO2008007698A1 (fr) | 2006-07-12 | 2008-01-17 | Panasonic Corporation | Procédé de compensation des pertes de blocs, appareil de codage audio et appareil de décodage audio |
WO2008056775A1 (fr) * | 2006-11-10 | 2008-05-15 | Panasonic Corporation | Dispositif de décodage de paramètre, dispositif de codage de paramètre et procédé de décodage de paramètre |
KR20080075050A (ko) | 2007-02-10 | 2008-08-14 | 삼성전자주식회사 | 오류 프레임의 파라미터 갱신 방법 및 장치 |
EP2128855A1 (en) | 2007-03-02 | 2009-12-02 | Panasonic Corporation | Voice encoding device and voice encoding method |
CN101325537B (zh) * | 2007-06-15 | 2012-04-04 | 华为技术有限公司 | 一种丢帧隐藏的方法和设备 |
WO2009008220A1 (ja) * | 2007-07-09 | 2009-01-15 | Nec Corporation | 音声パケット受信装置、音声パケット受信方法、およびプログラム |
CN100524462C (zh) * | 2007-09-15 | 2009-08-05 | 华为技术有限公司 | 对高带信号进行帧错误隐藏的方法及装置 |
KR100998396B1 (ko) * | 2008-03-20 | 2010-12-03 | 광주과학기술원 | 프레임 손실 은닉 방법, 프레임 손실 은닉 장치 및 음성송수신 장치 |
CN101261836B (zh) | 2008-04-25 | 2011-03-30 | 清华大学 | 基于过渡帧判决及处理的激励信号自然度提高方法 |
AU2009256551B2 (en) | 2008-06-13 | 2015-08-13 | Nokia Technologies Oy | Method and apparatus for error concealment of encoded audio data |
CA2871498C (en) * | 2008-07-11 | 2017-10-17 | Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. | Audio encoder and decoder for encoding and decoding audio samples |
EP2144230A1 (en) * | 2008-07-11 | 2010-01-13 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Low bitrate audio encoding/decoding scheme having cascaded switches |
WO2010003663A1 (en) * | 2008-07-11 | 2010-01-14 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Audio encoder and decoder for encoding frames of sampled audio signals |
MX2011000375A (es) * | 2008-07-11 | 2011-05-19 | Fraunhofer Ges Forschung | Codificador y decodificador de audio para codificar y decodificar tramas de una señal de audio muestreada. |
CN101751925B (zh) * | 2008-12-10 | 2011-12-21 | 华为技术有限公司 | 一种语音解码方法及装置 |
CN101866649B (zh) * | 2009-04-15 | 2012-04-04 | 华为技术有限公司 | 语音编码处理方法与装置、语音解码处理方法与装置、通信系统 |
US8428938B2 (en) * | 2009-06-04 | 2013-04-23 | Qualcomm Incorporated | Systems and methods for reconstructing an erased speech frame |
US8484020B2 (en) * | 2009-10-23 | 2013-07-09 | Qualcomm Incorporated | Determining an upperband signal from a narrowband signal |
CN101777963B (zh) | 2009-12-29 | 2013-12-11 | 电子科技大学 | 一种基于反馈模式的帧级别编码与译码方法 |
KR20120032444A (ko) * | 2010-09-28 | 2012-04-05 | 한국전자통신연구원 | 적응 코드북 업데이트를 이용한 오디오 신호 디코딩 방법 및 장치 |
RU2571561C2 (ru) | 2011-04-05 | 2015-12-20 | Ниппон Телеграф Энд Телефон Корпорейшн | Способ кодирования, способ декодирования, кодер, декодер, программа и носитель записи |
US9026434B2 (en) * | 2011-04-11 | 2015-05-05 | Samsung Electronic Co., Ltd. | Frame erasure concealment for a multi rate speech and audio codec |
CN103688306B (zh) | 2011-05-16 | 2017-05-17 | 谷歌公司 | 对被编码为连续帧序列的音频信号进行解码的方法和装置 |
WO2012161675A1 (en) * | 2011-05-20 | 2012-11-29 | Google Inc. | Redundant coding unit for audio codec |
CN102726034B (zh) | 2011-07-25 | 2014-01-08 | 华为技术有限公司 | 一种参数域回声控制装置和方法 |
CN102915737B (zh) * | 2011-07-31 | 2018-01-19 | 中兴通讯股份有限公司 | 一种浊音起始帧后丢帧的补偿方法和装置 |
CN102438152B (zh) | 2011-12-29 | 2013-06-19 | 中国科学技术大学 | 可伸缩视频编码容错传输方法、编码器、装置和系统 |
US9275644B2 (en) * | 2012-01-20 | 2016-03-01 | Qualcomm Incorporated | Devices for redundant frame coding and decoding |
CN103325373A (zh) | 2012-03-23 | 2013-09-25 | 杜比实验室特许公司 | 用于传送和接收音频信号的方法和设备 |
CN103366749B (zh) | 2012-03-28 | 2016-01-27 | 北京天籁传音数字技术有限公司 | 一种声音编解码装置及其方法 |
CN102760440A (zh) * | 2012-05-02 | 2012-10-31 | 中兴通讯股份有限公司 | 语音信号的发送、接收装置及方法 |
CN102968997A (zh) * | 2012-11-05 | 2013-03-13 | 深圳广晟信源技术有限公司 | 用于宽带语音解码中噪声增强后处理的方法及装置 |
CN104751849B (zh) * | 2013-12-31 | 2017-04-19 | 华为技术有限公司 | 语音频码流的解码方法及装置 |
CN107369455B (zh) | 2014-03-21 | 2020-12-15 | 华为技术有限公司 | 语音频码流的解码方法及装置 |
-
2014
- 2014-03-21 CN CN201710648938.8A patent/CN107369455B/zh active Active
- 2014-03-21 CN CN201410108478.6A patent/CN104934035B/zh active Active
- 2014-03-21 CN CN201710648937.3A patent/CN107369454B/zh active Active
- 2014-03-21 CN CN201710648936.9A patent/CN107369453B/zh active Active
-
2015
- 2015-01-13 CA CA2941540A patent/CA2941540C/en active Active
- 2015-01-13 KR KR1020167026153A patent/KR101839571B1/ko active IP Right Grant
- 2015-01-13 RU RU2016141282A patent/RU2644512C1/ru active
- 2015-01-13 MX MX2016012064A patent/MX360279B/es active IP Right Grant
- 2015-01-13 JP JP2017500113A patent/JP6542345B2/ja active Active
- 2015-01-13 AU AU2015234068A patent/AU2015234068B2/en active Active
- 2015-01-13 SG SG11201607099TA patent/SG11201607099TA/en unknown
- 2015-01-13 KR KR1020187007131A patent/KR101924767B1/ko active IP Right Grant
- 2015-01-13 MY MYPI2016703111A patent/MY184187A/en unknown
- 2015-01-13 BR BR112016020082A patent/BR112016020082B1/pt active IP Right Grant
- 2015-01-13 WO PCT/CN2015/070594 patent/WO2015139521A1/zh active Application Filing
- 2015-01-13 EP EP15765124.1A patent/EP3121812B1/en active Active
-
2016
- 2016-09-02 US US15/256,018 patent/US10269357B2/en active Active
-
2019
- 2019-03-19 US US16/358,237 patent/US11031020B2/en active Active
Patent Citations (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2000063885A1 (en) * | 1999-04-19 | 2000-10-26 | At & T Corp. | Method and apparatus for performing packet loss or frame erasure concealment |
US7069208B2 (en) * | 2001-01-24 | 2006-06-27 | Nokia, Corp. | System and method for concealment of data loss in digital audio transmission |
WO2004038927A1 (en) * | 2002-10-23 | 2004-05-06 | Nokia Corporation | Packet loss recovery based on music signal classification and mixing |
WO2004059894A2 (en) * | 2002-12-31 | 2004-07-15 | Nokia Corporation | Method and device for compressed-domain packet loss concealment |
US6985856B2 (en) * | 2002-12-31 | 2006-01-10 | Nokia Corporation | Method and device for compressed-domain packet loss concealment |
CN101189662B (zh) * | 2005-05-31 | 2012-09-05 | 微软公司 | 带多级码本和冗余编码的子带话音编解码器 |
CN101256774A (zh) * | 2007-03-02 | 2008-09-03 | 北京工业大学 | 用于嵌入式语音编码的帧擦除隐藏方法及系统 |
RU2459282C2 (ru) * | 2007-10-22 | 2012-08-20 | Квэлкомм Инкорпорейтед | Масштабируемое кодирование речи и аудио с использованием комбинаторного кодирования mdct-спектра |
RU2437172C1 (ru) * | 2007-11-04 | 2011-12-20 | Квэлкомм Инкорпорейтед | Способ кодирования/декодирования индексов кодовой книги для квантованного спектра мдкп в масштабируемых речевых и аудиокодеках |
CN101894558A (zh) * | 2010-08-04 | 2010-11-24 | 华为技术有限公司 | 丢帧恢复方法、设备以及语音增强方法、设备和系统 |
Also Published As
Publication number | Publication date |
---|---|
BR112016020082B1 (pt) | 2020-04-28 |
WO2015139521A1 (zh) | 2015-09-24 |
US20160372122A1 (en) | 2016-12-22 |
AU2015234068A1 (en) | 2016-09-15 |
CN107369454A (zh) | 2017-11-21 |
CN107369455B (zh) | 2020-12-15 |
KR20180029279A (ko) | 2018-03-20 |
MY184187A (en) | 2021-03-24 |
EP3121812B1 (en) | 2020-03-11 |
JP2017515163A (ja) | 2017-06-08 |
CN104934035A (zh) | 2015-09-23 |
CN107369454B (zh) | 2020-10-27 |
KR101924767B1 (ko) | 2019-02-20 |
SG11201607099TA (en) | 2016-10-28 |
EP3121812A4 (en) | 2017-03-15 |
CA2941540C (en) | 2020-08-18 |
JP6542345B2 (ja) | 2019-07-10 |
CA2941540A1 (en) | 2015-09-24 |
MX2016012064A (es) | 2017-01-19 |
KR20160124877A (ko) | 2016-10-28 |
MX360279B (es) | 2018-10-26 |
US20190214025A1 (en) | 2019-07-11 |
AU2015234068B2 (en) | 2017-11-02 |
CN104934035B (zh) | 2017-09-26 |
US10269357B2 (en) | 2019-04-23 |
KR101839571B1 (ko) | 2018-03-19 |
CN107369453A (zh) | 2017-11-21 |
US11031020B2 (en) | 2021-06-08 |
CN107369455A (zh) | 2017-11-21 |
CN107369453B (zh) | 2021-04-20 |
EP3121812A1 (en) | 2017-01-25 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
RU2644512C1 (ru) | Способ и устройство декодирования битового потока речи/аудио | |
US10121484B2 (en) | Method and apparatus for decoding speech/audio bitstream | |
JP5247878B2 (ja) | 階層型復号化構造におけるデジタル音声信号の伝送エラーの隠蔽 | |
JP6573178B2 (ja) | 復号方法および復号装置 | |
RU2707727C1 (ru) | Устройство обработки аудиосигнала, способ обработки аудиосигнала и программа обработки аудиосигнала | |
RU2705458C2 (ru) | Маскирование ошибок в кадрах | |
WO2015196837A1 (zh) | 一种音频编码方法和装置 | |
BR112015014956B1 (pt) | Método de codificação de sinal de áudio, método de decodificação de sinal de áudio, aparelho de codificação de sinal de áudio e aparelho de decodificação de sinal de áudio | |
RU2666471C2 (ru) | Способ и устройство для обработки потери кадра | |
KR101452635B1 (ko) | Lms 예측기를 이용한 패킷 손실 은닉 방법 및 이를 기록한 기록매체 | |
JP2018165824A (ja) | 音声信号処理方法及び音声信号処理装置 |