RU2012143323A

RU2012143323A - Декодер звукового сигнала, кодирующее устройство звукового сигнала, способ декодирования звукового сигнала, способ кодирования звукового сигнала и компьютерная программа, использующая зависящую от высоты звука адаптацию кодируемого контекста

Info

Publication number: RU2012143323A
Application number: RU2012143323/08A
Authority: RU
Inventors: Стефан БАЙЕР; Том БАЕКСТРОЕМ; Ралф ГЕЙГЕР; Бернд ЭДЛЕР; Саша ДИШ; Ларс ВИЛЛЕМОЕС
Original assignee: Долби Интернейшнл АБ; Фраунхофер-Гезелльшафт цур Фёрдерунг дер ангевандтен Форшунг Е.Ф.
Priority date: 2010-03-10
Filing date: 2011-03-09
Publication date: 2014-04-20
Also published as: JP2013521540A; US20130117015A1; US9524726B2; CN102884572B; TW201207846A; US20130073296A1; CA2792504C; CN102884573B; AR084465A1; PL2532001T3; EP2532001A1; US9129597B2; JP5625076B2; BR112012022741B1; KR20120128156A; PL2539893T3; RU2607264C2; KR101445296B1; ES2458354T3; BR112012022744A2

Abstract

1. Декодер звукового сигнала (150; 240) для обеспечения декодированного представления звукового сигнала (154) на основе кодированного представления звукового сигнала (152), включающего кодированное представление спектра (ac_spectral_data []) и кодированную информацию о деформации времени (tw_data []); декодер звукового сигнала включает:декодер контекст-ориентированного спектрального значения (160), сконфигурированный, чтобы декодировать кодовое слово (acod_m), описывающее одно или более спектральных значений или, по крайней мере, часть (m) представления чисел одного или более спектральных значений в зависимости от состояния контекста, чтобы получить декодированные спектральные значения (162, 297, x_ac_dec []);определитель состояния контекста (170; 400), сконфигурированный, чтобы определить текущее состояние контекста (164, с) в зависимости от одного или более ранее декодированных спектральных значений (162, 297);преобразователь частотной области во временную область с деформацией времени (180), сконфигурированный, чтобы обеспечить представление временной области с деформацией времени (182) данного звукового фрейма на основе набора декодированных спектральных значений (162, 297), связанных с данным звуковым фреймом и предоставленных декодером контекст-ориентированных спектральных значений и в зависимости от информации о деформации времени;где определитель состояния контекста (170; 400) сконфигурирован, чтобы адаптировать определение состояния контекста к изменению основной частоты между последующими звуковыми фреймами.2. Декодер звукового сигнала по п.1, в котором информация о деформации времени (tw_data) описывает изменение (p) высоты (звука) с течением врем

Claims

1. Декодер звукового сигнала (150; 240) для обеспечения декодированного представления звукового сигнала (154) на основе кодированного представления звукового сигнала (152), включающего кодированное представление спектра (ac_spectral_data []) и кодированную информацию о деформации времени (tw_data []); декодер звукового сигнала включает:

декодер контекст-ориентированного спектрального значения (160), сконфигурированный, чтобы декодировать кодовое слово (acod_m), описывающее одно или более спектральных значений или, по крайней мере, часть (m) представления чисел одного или более спектральных значений в зависимости от состояния контекста, чтобы получить декодированные спектральные значения (162, 297, x_ac_dec []);

определитель состояния контекста (170; 400), сконфигурированный, чтобы определить текущее состояние контекста (164, с) в зависимости от одного или более ранее декодированных спектральных значений (162, 297);

преобразователь частотной области во временную область с деформацией времени (180), сконфигурированный, чтобы обеспечить представление временной области с деформацией времени (182) данного звукового фрейма на основе набора декодированных спектральных значений (162, 297), связанных с данным звуковым фреймом и предоставленных декодером контекст-ориентированных спектральных значений и в зависимости от информации о деформации времени;

где определитель состояния контекста (170; 400) сконфигурирован, чтобы адаптировать определение состояния контекста к изменению основной частоты между последующими звуковыми фреймами.

2. Декодер звукового сигнала по п.1, в котором информация о деформации времени (tw_data) описывает изменение (p_rel) высоты (звука) с течением времени; и

где определитель состояния контекст (170; 400) сконфигурирован, чтобы получить информацию о растяжении частоты (s; m_ContextUpdateRatio) из информации о деформации времени (tw_data); и

где определитель состояния контекста сконфигурирован, чтобы растянуть или сжать прошлый контекст (432, q [0] [], 450), связанный с предыдущим звуковым фреймом, вдоль оси частоты в зависимости от информации о растяжении частоты, (s, m_ContextUpdateRatio), чтобы получить адаптированный контекст (440, q [0] [], 452) для декодирования контекст-ориентированного одного или более спектральных значений текущего звукового фрейма.

3. Декодер звукового сигнала по п.2, в котором определитель состояния контекста (170, 400) сконфигурирован, чтобы получить информацию о первой средней частоте (f_{rel, mean, k-1}) в первом звуковом фрейме из информации о деформации времени (tw_data, p_rel, warp_contour []), и чтобы получить информацию о второй средней частоте (f_{rel, mean, k}) во втором звуковом фрейме, следующем за первым звуковым фреймом, из информации о деформации времени; и

где определитель состояния контекста сконфигурирован, чтобы вычислить соотношение между информацией о второй средней частоте (f_{rel, mean, k}) во втором звуковом фрейме и информацией о первой средней частоте (f_{rel, mean, k-1}) в первом звуковом фрейме, чтобы определить информацию о растяжении частоты (s, m_ContextUpdateRatio).

4. Декодер звукового сигнала по п.2, в котором определитель состояния контекста (170; 400) сконфигурирован, чтобы определить информацию о первом среднем контуре с деформацией времени (p_{rel, mean, k-1}) в первом звуковом фрейме из информации о деформации времени (tw_data, p_rel, warp_contour []), и

где определитель состояния контекста сконфигурирован, чтобы получить информацию о втором среднем контуре деформации времени (p_{rel, mean, k}) во втором звуковом фрейме, следующем за первым звуковым фреймом, из информации о деформации времени (252, tw_data, p_rel, warp_contour []), и

где определитель состояния контекста сконфигурирован, чтобы вычислить соотношение между информацией о первом среднем контуре деформации времени (p_{rel, mean, k-1}) в первом звуковом фрейме и информацией о втором среднем контуре деформации времени (p_{rel, mean, k}) во втором звуковом фрейме для определения информации о растяжении частоты (s, m_ContextUpdateRatio).

5. Декодер звукового сигнала по п.3, где определитель состояния контекста (170, 400) сконфигурирован, чтобы получить информацию о первой и второй средней частоте или информацию о первом и втором среднем контуре деформации времени из общего контура деформации времени (warp_contour []), простирающегося по множеству последовательных звуковых фреймов.

6. Декодер звукового сигнала по п.3, где декодер звукового сигнала включает вычислитель деформации времени (250), сконфигурированный, чтобы вычислить информацию о контуре деформации времени (p_rel[], warp_contour [], 258), описывающую временную эволюцию относительной высоты (звука) по множеству последовательных звуковых фреймов на основе информации о деформации времени (tw_data, 252), и

где определитель состояния контекста (170, 400) сконфигурирован, чтобы использовать информацию о контуре деформации времени для получения информации о растяжении частоты.

7. Декодер звукового сигнала по п.6, где декодер звукового сигнала включает вычислитель положения повторной выборки (1801),

где вычислитель положения повторной выборки (1801) сконфигурирован, чтобы вычислить положения выборки для использования ресэмплером с деформацией времени (1801) на основе информации о контуре деформации времени (p_rel[], warp_contour [], 258), таким образом, что временное изменение положений повторной выборки определяется информацией о контуре деформации времени.

8. Декодер звукового сигнала по п.1, в котором определитель состояния контекста (170, 400) сконфигурирован, чтобы получить числовое значение текущего контекста (164, с), которое описывает состояние контекста в зависимости от множества ранее декодированных спектральных значений, и чтобы выбрать правило отображения (cum_freq []), описывающее отображение кодового значения (acod_m) на коде символа, представляющем одно или более спектральных значений, или часть (m) представления чисел одного или более спектральных значений в зависимости от числового значения текущего контекста,

где декодер контекст-ориентированного спектрального значения (160) сконфигурирован, чтобы декодировать кодовое значение (acod_m), описывающее одно или более спектральных значений, или, по крайней мере, часть (m) представления чисел одного или более спектральных значений, посредством использования правила отображения (cum_freq []), выбранного определителем состояния контекста.

9. Декодер звукового сигнала по п.8, в котором определитель состояния контекста (170, 400) сконфигурирован, чтобы настроить и обновить предварительную структуру памяти контекста (432, m_qbuf) таким образом, что входы предварительной структуры памяти контекста описывали одно или более спектральных значений (162, 297) первого звукового фрейма, где коэффициенты входа входов предварительной структуры памяти контекста указывают на элемент расрешения по частоте или набор смежных элементов разрешения по частоте преобразователя частотной области во временную область (180е), с которым связаны соответствующие входы;

где определитель состояния контекста сконфигурирован, чтобы получить частотно-масштабированную структуру памяти контекста (440; m_qbuf) для декодирования второго звукового фрейма, следующего за первым звуковым фреймом, на основе предварительной структуры памяти контекста таким образом, что данный вход (450а, 450с, self->base.m_qbuf[n Warp TupleIdx]) или под вход (self->base.m_qbuf[n WarpTupleIdx].a) предварительной структуры памяти контекста, имеющей первый коэффициент частотности (i1+1, i2+2, nWarpTupleIdx), отображаются на соответствующем входе (452а, 452с, self->base.m_qbuf[nLinTupleIdx]) или под входе (self->base.m_qbuf[nLinTupleIdx].a) частотно-масштабированной структуры памяти контекста (440, m_qbuf, 452), имеющей второй коэффициент частотности (i1, i2-1, nLinTupleIdx), где второй коэффициент частотности связывается с иным элементом разрешения по частоте или набором смежных элементов разрешения по частоте преобразователя частотной области во временную область (180е), чем первый коэффициент частотности.

10. Декодер звукового сигнала по п.9, в котором определитель состояния контекста (170, 400) сконфигурирован, чтобы получить значение состояния контекста (164 420), описывающее текущее состояние контекста для декодирования кодового слова (acod_m), описывающего одно или более спектральных значений второго звукового фрейма, или, по крайней мере, часть (m) представления чисел одного или более спектральных значений второго звукового фрейма, имеющую третий коэффициент частотности (i1), посредством использования значений частотно-масштабированной структуры памяти контекста (440, m_qbuf, 452), коэффициенты частотности (i1-1, i1, i1+1) значений частотно-масштабированной структуры памяти контекста которых находятся в предварительно определенных отношениях с третьим коэффициентом частотности (i1),

где третий коэффициент частотности (i1) обозначает элемент разрешения по частоте или набор смежных элементов разрешения по частоте преобразователя частотной области во временную область (180е), с которым связано одно или более спектральных значений второго звукового фрейма, подлежащих декодированию, посредством использования текущего состояния контекста.

11. Декодер звукового сигнала по п.9, в котором определитель состояния контекста (170; 400) сконфигурирован, чтобы установить каждое множество входов (452а, 452с, self->base.m_qbuf[nLinTupleIdx]) частотно-масштабированной структуры памяти контекста (440 452, m_qbuf), имеющей соответствующий целевой коэффициент частотности (i1, i2-1, nLinTupleIdx), назначение соответствующего входа (450а, 450с, self->base.m_qbuf[nWarpTupleIdx]) предварительной структуры памяти контекста (432 450, m_qbuf), имеющего соответствующий исходный коэффициент частотности (i1+1, i2+2, nWarpTupleIdx),

где определитель состояния контекста сконфигурирован, чтобы определить соответствующие коэффициенты частотности (i1, i1+1; i2-1, i2+2; nLinTupleIdx, nWarpTupleIdx) входа частотно-масштабированной структуры памяти контекста и соответствующего входа предварительной структуры памяти контекста таким образом, что соотношение между указанными соответствующими коэффициентами частотности (nLinTupleIdx, nWarpTupleIdx) определяется изменением основной частоты между текущим звуковым фреймом, с которым связаны входы предварительной структуры памяти контекста, и последующим звуковым фреймом, декодируемый контекст которого определяется входами частотно-масштабированной структуры памяти контекста.

12. Декодер звукового сигнала по п.9, в котором определитель состояния контекста (170, 400) сконфигурирован, чтобы настроить предварительную структуру памяти контекста (432, m_qbuf, 450) таким образом, что каждое множество входов (450а, 450с, self->base.m_qbuf[nWarpTupleIdx]) предварительной структуры памяти контекста основывается на множестве спектральных значений (а, b, с, d) первого звукового фрейма, где коэффициенты входа (i1+1, i2+2, nWarpTupleIdx) входов предварительной структуры памяти контекста (432 450, m_qbuf) указывают на набор смежных элементов разрешения по частоте преобразователя частотной области во временную область (180е), с которым связаны соответствующие входы;

где определитель состояния контекста сконфигурирован, чтобы извлечь предварительные значения индивидуальных элементов разрешения по частоте контекста (lineReorderBuf [(curTuple-1) *4+0], …, lineReorderBuf [(curTuple-1) *4+3]), имеющие связанные индивидуальные коэффициенты элементов разрешения по частоте, из входов (self->base.m_qbuf[curTuple[][]) предварительной структуры памяти контекста;

где определитель состояния контекста сконфигурирован, чтобы получить частотно-масштабированные значения индивидуальных элементов разрешения по частоте контекста (lineTmpBuf[linLineIdx]), имеющие связанные индивидуальные коэффициенты разрешения по частоте (linLineIdx), таким образом, что данное предварительное значение индивидуального элемента разрешения по частоте контекста (lineReorderBuf [warpLineIdx]), имеющее первый коэффициент элемента разрешения по частоте (warpLineIdx), отображается на соответствующем значении частотно-масштабированного индивидуального элемента разрешения по частоте контекста (lineTmpBuf [linLineIdx]),имеющем второй коэффициент элемента разрешения по частоте (linLineIdx), таким образом, что получается отображение индивидуального элемента разрешения по частоте предварительного значения индивидуального элемента разрешения по частоте контекста; и

где определитель состояния контекста сконфигурирован, чтобы объединить множество частотно-масштабированных значений индивидуальных элементов разрешения по частоте контекста (lineTmpBuf [(curTuple-1) *4+0, …, lineTmpBuf [(curTuple-1) *4+3] в объединенный вход (self->base.m_qbuf[curTuple][]) частотно-масштабированной структуры памяти контекста.

13. Кодирующее устройство звукового сигнала (100; 200) для обеспечения кодированного представления (112) входного звукового сигнала (110), включающего кодированное представление спектра (132) и кодированную информацию о деформации времени (226); кодирующее устройство звукового сигнала включает:

поставщик представления частотной области (120), сконфигурированный для обеспечения представления частотной области (124), представляющего версию входного звукового сигнала с деформацией времени; деформация времени в соответствии с информацией о деформации времени (122);

кодирующее устройство контекст-ориентированного спектрального значения (130), сконфигурированное, чтобы обеспечить кодовое слово (acod_m), описывающее одно или более спектральных значений представления частотной области (124), или, по крайней мере, часть (m) представления чисел одного или более спектральных значений представления частотной области (124), в зависимости от состояния контекста (134), чтобы получить кодированные спектральные значения (acod_m) кодированного представления спектра (132); и

определитель состояния контекста (140), сконфигурированный, чтобы определить текущее состояние контекста (134) в зависимости от одного или более ранее закодированных спектральных значений, где определитель состояния контекста (140) сконфигурирован, чтобы адаптировать определение состояния контекста к изменению основной частоты между последующими звуковыми фреймами.

14. Кодирующее устройство звукового сигнала по п.13, в котором определитель состояния контекста сконфигурирован, чтобы получить числовое значение текущего контекста (134, с) в зависимости от множества ранее закодированных спектральных значений, и выбрать правило отображения, описывающее отображение одного или более спектральных значений, или части (m) представления чисел одного или более спектральных значений, на кодовое значение (acod_m) в зависимости от числового значения текущего контекста,

где кодирующее устройство контекст-ориентированного спектрального значения сконфигурировано, чтобы обеспечить кодовое значение, описывающее одно или более спектральных значений, или, по крайней мере, часть представления чисел одного или более спектральных значений посредством использования правила отображения, выбранного определителем состояния контекста.

15. Способ обеспечения декодированного представления звукового сигнала (154) на основе кодированного представления звукового сигнала (152), включающего кодированное представление спектра (ac_spectral_data []) и кодированную информацию о деформации времени (tw_data []); способ включает:

декодирование кодового слова (acod_m), описывающего одно или более спектральных значений или, по крайней мере, часть (m) представления чисел одного или более спектральных значений в зависимости от состояния контекста, чтобы получить декодированные спектральные значения (162, 297, x_ac_dec []);

определение текущего состояния контекста (164, с) в зависимости от одного или более ранних декодированных спектральных значений (162, 297);

обеспечение представления временной области с деформацией времени (182) данного звукового фрейма на основе набора декодированных спектральных значений (162, 297), связанных с данным звуковым фреймом и предоставленных декодером контекст-ориентированных спектральных значений и в зависимости от информации о деформации времени;

где определение состояния контекста адаптируется к изменению основной частоты между последующими звуковыми фреймами.

16. Способ обеспечения кодированного представления (112) входного звукового сигнала (110), включающего кодированное представление спектра (132) и кодированную информацию о деформации времени (226); способ включает:

обеспечение представления частотной области (124), представляющего версию входного звукового сигнала с деформацией времени; деформация времени в соответствии с информацией о деформации времени (122);

обеспечение кодового слова (acod_m), описывающего одно или более спектральных значений представления частотной области (124), или, по крайней мере, часть (m) представления чисел одного или более спектральных значений представления частотной области (124), в зависимости от состояния контекста (134), чтобы получить кодированные спектральные значения (acod_m) кодированного представления спектра (132); и

определение текущего состояния контекста (134) в зависимости от одного или более ранних закодированных спектральных значений,

17. Компьютерная программа для выполнения способа по п.15 или 16, когда компьютерная программа запущена на компьютере.