RU2018132859A - Классификация и кодирование аудиосигналов - Google Patents

Классификация и кодирование аудиосигналов Download PDF

Info

Publication number
RU2018132859A
RU2018132859A RU2018132859A RU2018132859A RU2018132859A RU 2018132859 A RU2018132859 A RU 2018132859A RU 2018132859 A RU2018132859 A RU 2018132859A RU 2018132859 A RU2018132859 A RU 2018132859A RU 2018132859 A RU2018132859 A RU 2018132859A
Authority
RU
Russia
Prior art keywords
decoding mode
stability
decoding
frame
paragraphs
Prior art date
Application number
RU2018132859A
Other languages
English (en)
Other versions
RU2018132859A3 (ru
RU2765985C2 (ru
Inventor
Эрик НОРВЕЛЛ
Стефан БРУН
Original Assignee
Телефонактиеболагет Лм Эрикссон (Пабл)
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Телефонактиеболагет Лм Эрикссон (Пабл) filed Critical Телефонактиеболагет Лм Эрикссон (Пабл)
Publication of RU2018132859A publication Critical patent/RU2018132859A/ru
Publication of RU2018132859A3 publication Critical patent/RU2018132859A3/ru
Application granted granted Critical
Publication of RU2765985C2 publication Critical patent/RU2765985C2/ru

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/16Vocoder architecture
    • G10L19/18Vocoders using multiple modes
    • G10L19/20Vocoders using multiple modes using sound class specific coding, hybrid encoders or object based coding
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/18Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being spectral information of each sub-band

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)

Claims (35)

1. Способ для декодирования аудиосигнала, при этом способ содержит этапы, на которых:
- определяют (201) значение D(m) стабильности на основе разности, в области преобразования, между диапазоном спектральной огибающей кадра m и соответствующим диапазоном спектральной огибающей смежного кадра m-1, причем каждый диапазон содержит набор квантованных значений спектральной огибающей, связанных с энергией в полосах спектра сегмента аудиосигнала;
- выбирают (204) режим декодирования из множества режимов декодирования на основе значения D(m) стабильности; и
- применяют (205) выбранный режим декодирования.
2. Способ по п. 1, дополнительно содержащий этапы, на которых:
- подвергают (202) фильтрации нижних частот значение D(m) стабильности, за счет этого достигая фильтрованного значения
Figure 00000001
стабильности;
- преобразуют (203) фильтрованное значение
Figure 00000002
стабильности в скалярный диапазон [0,1] посредством использования сигмоидальной функции, за счет этого достигая параметра S(m) стабильности; и
- при этом выбор режима декодирования основан на параметре S(m) стабильности.
3. Способ по п. 1 или 2, в котором выбор режима декодирования содержит этап, на котором определяют то, содержит сегмент аудиосигнала, представленного в кадре m, речь или музыку.
4. Способ по любому из предшествующих пунктов, в котором, по меньшей мере, один режим декодирования из множества режимов декодирования является более подходящим для речи, чем для музыки, и, по меньшей мере, один режим декодирования является более подходящим для музыки, чем для речи.
5. Способ по любому из предшествующих пунктов, в котором выбор режима декодирования из множества режимов декодирования связан с маскированием ошибок.
6. Способ по любому из предшествующих пунктов, в котором выбор режима декодирования дополнительно основан на модели Маркова, задающей вероятности перехода состояния, связанные с переходами между различными свойствами сигнала в аудиосигнале.
7. Способ по любому из предшествующих пунктов, в котором выбор режима декодирования дополнительно основан на модели Маркова, задающей вероятности перехода состояния, связанные с переходами между речью и музыкой в аудиосигнале.
8. Способ по любому из пп. 1-4, в котором выбор режима декодирования дополнительно основан на показателе переходных частей, указывающем структуру переходных частей спектрального контента кадра m.
9. Способ по любому из предшествующих пунктов, в котором значение D(m) стабильности определяется следующим образом:
Figure 00000003
,
где bi обозначает полосу спектра в кадре m, и E(m,b) обозначает показатель энергии для полосы b частот в кадре m.
10. Декодер для декодирования аудиосигнала, причем декодер выполнен с возможностью:
- определять значение D(m) стабильности на основе разности, в области преобразования, между диапазоном спектральной огибающей кадра m и соответствующим диапазоном спектральной огибающей смежного кадра m-1, причем каждый диапазон содержит набор квантованных значений спектральной огибающей, связанных с энергией в полосах спектра сегмента аудиосигнала;
- выбирать режим декодирования из множества режимов декодирования на основе значения D(m) стабильности; и
- применять выбранный режим декодирования.
11. Декодер по п. 10, дополнительно выполненный с возможностью:
- подвергать фильтрации нижних частот значение D(m) стабильности, за счет этого достигая фильтрованного значения
Figure 00000001
стабильности; и
- преобразовывать (203) фильтрованное значение
Figure 00000002
стабильности в скалярный диапазон [0,1] посредством использования сигмоидальной функции, за счет этого достигая параметра S(m) стабильности; и
- при этом выбор режима декодирования основан на параметре S(m) стабильности.
12. Декодер по п. 10 или 11, в котором выбор режима декодирования выполнен с возможностью содержать определение того, содержит сегмент аудиосигнала, представленного в кадре m, речь или музыку.
13. Декодер по любому из пп. 10-12, в котором, по меньшей мере, один режим декодирования из множества режимов декодирования является более подходящим для речи, чем для музыки, и, по меньшей мере, один режим декодирования является более подходящим для музыки, чем для речи.
14. Декодер по любому из пп. 10-13, в котором выбор режима декодирования из множества режимов декодирования связан с маскированием ошибок.
15. Декодер по любому из пп. 10-14, в котором выбор режима декодирования выполнен с возможностью быть основанным на модели Маркова, задающей вероятности перехода состояния, связанные с переходами между речью и музыкой в аудиосигнале.
16. Декодер по любому из пп. 10-13, выполненный с возможностью дополнительно основывать выбор режима декодирования на показателе переходных частей, указывающем структуру переходных частей спектрального контента кадра m.
17. Декодер по любому из пп. 10-16, выполненный с возможностью определять значение D(m) стабильности следующим образом:
Figure 00000004
,
где bi обозначает полосу спектра в кадре m, и E(m,b) обозначает показатель энергии для полосы b частот в кадре m.
18. Хост-устройство, содержащее декодер по любому из пп. 10-17.
19. Машиночитаемый носитель хранения данных, содержащий инструкции, которые при выполнении, по меньшей мере, на одном процессоре инструктируют, по меньшей мере, одному процессору осуществлять способ по любому из пп. 1-9.
RU2018132859A 2014-05-15 2015-05-12 Классификация и кодирование аудиосигналов RU2765985C2 (ru)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US201461993639P 2014-05-15 2014-05-15
US61/993,639 2014-05-15

Related Parent Applications (1)

Application Number Title Priority Date Filing Date
RU2016148874A Division RU2668111C2 (ru) 2014-05-15 2015-05-12 Классификация и кодирование аудиосигналов

Publications (3)

Publication Number Publication Date
RU2018132859A true RU2018132859A (ru) 2018-12-06
RU2018132859A3 RU2018132859A3 (ru) 2021-09-09
RU2765985C2 RU2765985C2 (ru) 2022-02-07

Family

ID=53276234

Family Applications (2)

Application Number Title Priority Date Filing Date
RU2018132859A RU2765985C2 (ru) 2014-05-15 2015-05-12 Классификация и кодирование аудиосигналов
RU2016148874A RU2668111C2 (ru) 2014-05-15 2015-05-12 Классификация и кодирование аудиосигналов

Family Applications After (1)

Application Number Title Priority Date Filing Date
RU2016148874A RU2668111C2 (ru) 2014-05-15 2015-05-12 Классификация и кодирование аудиосигналов

Country Status (8)

Country Link
US (4) US9666210B2 (ru)
EP (1) EP3143620A1 (ru)
KR (2) KR20180095123A (ru)
CN (2) CN106415717B (ru)
AR (1) AR105147A1 (ru)
MX (2) MX368572B (ru)
RU (2) RU2765985C2 (ru)
WO (1) WO2015174912A1 (ru)

Families Citing this family (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101291193B1 (ko) 2006-11-30 2013-07-31 삼성전자주식회사 프레임 오류은닉방법
RU2765985C2 (ru) * 2014-05-15 2022-02-07 Телефонактиеболагет Лм Эрикссон (Пабл) Классификация и кодирование аудиосигналов
WO2016017238A1 (ja) * 2014-07-28 2016-02-04 日本電信電話株式会社 符号化方法、装置、プログラム及び記録媒体
EP3230980B1 (en) * 2014-12-09 2018-11-28 Dolby International AB Mdct-domain error concealment
TWI569263B (zh) * 2015-04-30 2017-02-01 智原科技股份有限公司 聲頻訊號的訊號擷取方法與裝置
CN107731223B (zh) * 2017-11-22 2022-07-26 腾讯科技(深圳)有限公司 语音活性检测方法、相关装置和设备
CN108123786B (zh) * 2017-12-18 2020-11-06 中国电子科技集团公司第五十四研究所 基于交织多址的tdcs多址接入方法
JP7130878B2 (ja) * 2019-01-13 2022-09-05 華為技術有限公司 高分解能オーディオコーディング
CN112634920B (zh) * 2020-12-18 2024-01-02 平安科技(深圳)有限公司 基于域分离的语音转换模型的训练方法及装置

Family Cites Families (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6256487B1 (en) * 1998-09-01 2001-07-03 Telefonaktiebolaget Lm Ericsson (Publ) Multiple mode transmitter using multiple speech/channel coding modes wherein the coding mode is conveyed to the receiver with the transmitted signal
CA2388439A1 (en) * 2002-05-31 2003-11-30 Voiceage Corporation A method and device for efficient frame erasure concealment in linear predictive based speech codecs
WO2005086138A1 (ja) * 2004-03-05 2005-09-15 Matsushita Electric Industrial Co., Ltd. エラー隠蔽装置およびエラー隠蔽方法
US7596491B1 (en) * 2005-04-19 2009-09-29 Texas Instruments Incorporated Layered CELP system and method
KR100647336B1 (ko) * 2005-11-08 2006-11-23 삼성전자주식회사 적응적 시간/주파수 기반 오디오 부호화/복호화 장치 및방법
JP5451394B2 (ja) * 2006-09-29 2014-03-26 韓國電子通信研究院 多様なチャネルから構成されたマルチオブジェクトオーディオ信号の符号化および復号化装置、並びにその方法
CN101025918B (zh) * 2007-01-19 2011-06-29 清华大学 一种语音/音乐双模编解码无缝切换方法
US8160872B2 (en) * 2007-04-05 2012-04-17 Texas Instruments Incorporated Method and apparatus for layered code-excited linear prediction speech utilizing linear prediction excitation corresponding to optimal gains
US9653088B2 (en) * 2007-06-13 2017-05-16 Qualcomm Incorporated Systems, methods, and apparatus for signal encoding using pitch-regularizing and non-pitch-regularizing coding
US8209190B2 (en) * 2007-10-25 2012-06-26 Motorola Mobility, Inc. Method and apparatus for generating an enhancement layer within an audio coding system
WO2010003521A1 (en) * 2008-07-11 2010-01-14 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Method and discriminator for classifying different segments of a signal
WO2010031003A1 (en) * 2008-09-15 2010-03-18 Huawei Technologies Co., Ltd. Adding second enhancement layer to celp based core layer
US20110320193A1 (en) * 2009-03-13 2011-12-29 Panasonic Corporation Speech encoding device, speech decoding device, speech encoding method, and speech decoding method
CN101661749A (zh) * 2009-09-23 2010-03-03 清华大学 一种语音和音乐双模切换编/解码的方法
MX2012004116A (es) * 2009-10-08 2012-05-22 Fraunhofer Ges Forschung Decodificador multimodo para señal de audio, codificador multimodo para señal de audio, metodo y programa de computacion que usan un modelado de ruido en base a linealidad-prediccion-codi ficacion.
CA2827000C (en) * 2011-02-14 2016-04-05 Jeremie Lecomte Apparatus and method for error concealment in low-delay unified speech and audio coding (usac)
RU2765985C2 (ru) * 2014-05-15 2022-02-07 Телефонактиеболагет Лм Эрикссон (Пабл) Классификация и кодирование аудиосигналов

Also Published As

Publication number Publication date
CN111192595B (zh) 2023-09-22
EP3143620A1 (en) 2017-03-22
WO2015174912A1 (en) 2015-11-19
US10121486B2 (en) 2018-11-06
RU2018132859A3 (ru) 2021-09-09
US20190057708A1 (en) 2019-02-21
US9666210B2 (en) 2017-05-30
US20170221497A1 (en) 2017-08-03
MX2019011956A (es) 2019-10-30
AR105147A1 (es) 2017-09-13
US9837095B2 (en) 2017-12-05
RU2016148874A3 (ru) 2018-06-18
RU2765985C2 (ru) 2022-02-07
KR20180095123A (ko) 2018-08-24
KR20160146910A (ko) 2016-12-21
MX368572B (es) 2019-10-08
CN111192595A (zh) 2020-05-22
CN106415717B (zh) 2020-03-13
US10297264B2 (en) 2019-05-21
US20160260444A1 (en) 2016-09-08
CN106415717A (zh) 2017-02-15
RU2668111C2 (ru) 2018-09-26
US20180047404A1 (en) 2018-02-15
RU2016148874A (ru) 2018-06-18

Similar Documents

Publication Publication Date Title
RU2018132859A (ru) Классификация и кодирование аудиосигналов
ES2909183T3 (es) Procedimientos y aparatos de clasificación de señales de audio
RU2019137625A (ru) Способ и устройство для предоставления компенсационных смещений для набора восстановленных выборок изображения
JP6364518B2 (ja) オーディオ信号符号化及び復号化方法並びにオーディオ信号符号化及び復号化装置
RU2017103905A (ru) Улучшение классификации между кодированием во временной области и кодированием в частотной области
RU2012115551A (ru) Кодирующее устройство, декодирующее устройство и способ
JP6616470B2 (ja) 符号化方法、復号化方法、符号化装置及び復号化装置
DE602005006551D1 (de) Kodierungs-, dekodierungsvorrichtung und methode dafür
JP2005242363A5 (ru)
RU2015136540A (ru) Усовершенствованная коррекция потери кадров во время декодирования сигналов
RU2013146688A (ru) Устройство и способ для выполнения кодирования методом хаффмана
RU2017108839A (ru) Концепция переключения частот дискретизации в устройствах обработки аудиосигналов
RU2637885C2 (ru) Способ и устройство предсказания сигнала возбуждения верхней полосы
RU2017143404A (ru) Устройство кодирования, способ кодирования, устройство декодирования, способ декодирования и программа
RU2015136789A (ru) Декодер для формирования аудиосигнала с улучшенной частотной характеристикой, способ декодирования, кодер для формирования кодированного сигнала и способ кодирования с использованием компактной дополнительной информации для выбора
RU2016136008A (ru) Улучшенное расширение диапазона частот в декодере звукового сигнала
ES2807241T3 (es) Método de codificación, codificador, programa y medio de grabación
JP2017509915A5 (ja) オーディオ周波数信号の周波数帯域を拡張する方法及び装置
JP6439804B2 (ja) 損失フレームを処理するための方法および装置
ES2703565T3 (es) Aparato, método, programa y soporte de registro de análisis predictivo lineal
CA2935084C (en) Signal processing method and device
RU2016146916A (ru) Усовершенствованная коррекция потери кадров с помощью речевой информации
CA2912477A1 (en) Signal encoding and decoding methods and devices
JP6264673B2 (ja) ロストフレームを処理するための方法および復号器
JP2011170259A (ja) 音声符号化装置、方法及びプログラム、並びに、コードブックデータ分類集計装置、方法及びプログラム