RU2005113877A - Способы управляемого источником широкополосного кодирования речи с переменной скоростью в битах - Google Patents

Способы управляемого источником широкополосного кодирования речи с переменной скоростью в битах Download PDF

Info

Publication number
RU2005113877A
RU2005113877A RU2005113877/09A RU2005113877A RU2005113877A RU 2005113877 A RU2005113877 A RU 2005113877A RU 2005113877/09 A RU2005113877/09 A RU 2005113877/09A RU 2005113877 A RU2005113877 A RU 2005113877A RU 2005113877 A RU2005113877 A RU 2005113877A
Authority
RU
Russia
Prior art keywords
current frame
energy
frame
measure
speech
Prior art date
Application number
RU2005113877/09A
Other languages
English (en)
Other versions
RU2331933C2 (ru
Inventor
Милан ЖЕЛИНЕК (CA)
Милан ЖЕЛИНЕК
Original Assignee
Нокиа Корпорейшн (Fi)
Нокиа Корпорейшн
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Нокиа Корпорейшн (Fi), Нокиа Корпорейшн filed Critical Нокиа Корпорейшн (Fi)
Publication of RU2005113877A publication Critical patent/RU2005113877A/ru
Application granted granted Critical
Publication of RU2331933C2 publication Critical patent/RU2331933C2/ru

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/16Vocoder architecture
    • G10L19/173Transcoding, i.e. converting between two coded representations avoiding cascaded coding-decoding
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/16Vocoder architecture
    • G10L19/18Vocoders using multiple modes
    • G10L19/24Variable rate codecs, e.g. for generating different qualities using a scalable representation such as hierarchical encoding or layered encoding
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/93Discriminating between voiced and unvoiced parts of speech signals
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/012Comfort noise or silence coding

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Computational Linguistics (AREA)
  • Acoustics & Sound (AREA)
  • Signal Processing (AREA)
  • Quality & Reliability (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)
  • Transmission Systems Not Characterized By The Medium Used For Transmission (AREA)
  • Filters That Use Time-Delay Elements (AREA)
  • Signal Processing For Digital Recording And Reproducing (AREA)
  • Studio Devices (AREA)

Claims (84)

1. Способ кодирования дискретизированного речевого сигнала, содержащего речевые кадры, заключающийся в том, что определяют, является ли текущий кадр дискретизированного речевого сигнала активным речевым кадром или неактивным речевым кадром, если упомянутый кадр сигнала является активным речевым кадром, то проводят процедуру классификации, чтобы определить, является ли текущий кадр невокализованным кадром, причем упомянутая процедура классификации предусматривает проверку, по меньшей мере, трех из следующих параметров, чтобы определить, является ли текущий кадр невокализованным кадром:
а) меры (rx,
Figure 00000001
) звучания,
б) меры (еtilt, еt) спектрального наклона,
в) вариации (dE) энергии в пределах текущего кадра, и
г) относительной энергии (Еrel) текущего кадра,
а когда текущий кадр классифицирован как невокализованный кадр посредством упомянутой процедуры классификации, кодируют этот текущий кадр с помощью алгоритма кодирования невокализованных сигналов.
2. Способ по п.1, в котором меру (
Figure 00000002
) звучания определяют как
Figure 00000003
где rx(0), rx(1) и rx(2) соответственно представляют собой нормализованную корреляцию первой половины упомянутого текущего кадра, нормализованную корреляцию второй половины упомянутого текущего кадра и нормализованную корреляцию первой половины кадра, следующего за упомянутым текущим кадром.
3. Способ по п.2, дополнительно предусматривающий прибавление поправки (re) на шум к упомянутой мере (
Figure 00000004
) звучания.
4. Способ по п.1, предусматривающий определение количества перцепционных критических полос, характеризующих диапазоны частот в пределах спектра энергии текущего кадра, упорядоченных в соответствии с увеличением частоты от первой перцепционной критической полосы, соответствующей диапазону самых низких частот, до последней перцепционной критической полосы, соответствующей диапазону самых высоких частот, и проведение спектрального анализа текущего кадра для определения распределения энергии по перцепционным критическим полосам.
5. Способ по п.1, в котором спектральный наклон пропорционален отношению между энергией текущего кадра на низких частотах и энергией текущего кадра на высоких частотах.
6. Способ по п.4, предусматривающий вычисление меры (
Figure 00000005
), характеризующей энергию текущего кадра на высоких частотах, путем вычисления средней из энергий последних двух перцепционных критических полос.
7. Способ по п.4, предусматривающий вычисление меры (
Figure 00000006
), характеризующей энергию текущего кадра на низких частотах, путем вычисления средней из энергий первых i перцепционных критических полос.
8. Способ по п.4, предусматривающий вычисление меры (
Figure 00000006
), характеризующей энергию текущего кадра на низких частотах, путем вычисления средней из энергий первых i перцепционных критических полос, за исключением первой перцепционной критической полосы.
9. Способ по п.7, дополнительно предусматривающий определение периода основного тона речи, а для периодов основного тона речи, которые меньше, чем предварительно определенное значение, - вычисление меры (
Figure 00000006
) энергии на низких частотах путем суммирования в пределах интервалов дискретизации по частоте, получаемых в результате спектрального анализа текущего кадра, и учета только интервалов дискретизации по частоте, достаточно близких к гармоникам речи, при суммировании по формуле
Figure 00000007
где EBIN(k) - энергии в пределах интервалов дискретизации, Kmin - индекс первого интервала дискретизации по частоте, учитываемый при суммировании, cnt - количество ненулевых членов при суммировании, а wh(k) задают равным 1, если расстояние между интервалом дискретизации по частоте и ближайшей гармоникой не превышает предварительно определенный порог частоты, и задают wh(k) равным нулю в противном случае.
10. Способ по п.7, дополнительно предусматривающий определение периода основного тона речи, а для периодов основного тона речи, которые больше, чем предварительно определенное значение, - вычисление меры (
Figure 00000008
) энергии на низких частотах по формуле
Figure 00000009
где EСВ(k) - энергия перцепционной критической полосы k.
11. Способ по п.7, дополнительно предусматривающий определение априори невокализованного звука, когда
rx(0)+rx(1)+re<0,6,
и вычисление меры (
Figure 00000010
) энергии на низких частотах по формуле
Figure 00000011
где EСВ(k) - энергия перцепционной критической полосы k.
12. Способ по любому из пп.6-11, дополнительно предусматривающий вычисление меры (Nh), характеризующей энергию шума текущего кадра на высоких частотах, путем вычисления средней из энергий последних двух перцепционных критических полос, вычисление меры (Nl), характеризующей энергию шума текущего кадра на низких частотах, путем вычисления средней из энергий первых i перцепционных критических полос, вычитание меры (Nh) шума на высоких частотах из меры (
Figure 00000012
) энергии на высоких частотах для получения энергии (Eh) на высоких частотах, вычитание меры (Nl) шума на низких частотах из меры (
Figure 00000010
) энергии на низких частотах для получения энергии (El) на низких частотах, и вычисление меры (etilt) спектрального наклона как отношения, представляющего собой энергию (El) на низких частотах, деленную на энергию (Eh) на высоких частотах.
13. Способ по п.12, предусматривающий проведение спектрального анализа по п.4 дважды за текущий кадр, один раз - для первой половины текущего кадра и один раз - для второй половины текущего кадра, и дополнительно предусматривающий вычисление меры (etilt) спектрального наклона дважды за текущий кадр, по одному разу для каждого спектрального анализа, чтобы получить первую меру (etilt(0)) спектрального наклона для первой половины текущего кадра и вторую меру (etilt(1)) спектрального наклона для второй половины текущего кадра.
14. Способ по п.13, дополнительно предусматривающий вычисление среднего спектрального наклона (e-t) по формуле
Figure 00000013
где eold - мера спектрального наклона, полученная в результате спектрального анализа второй половины предыдущего кадра.
15. Способ по п.1, предусматривающий вычисление относительной энергии (Erel) текущего кадра как разности между энергией (Et) кадра в дБ и значения (
Figure 00000014
) долгосрочной средней энергии кадра.
16. Способ по п.15, предусматривающий вычисление энергии (Et) кадра по формуле
Figure 00000015
где EСВ(i) - средние энергии, приходящиеся на критическую полосу.
17. Способ по п.15, предусматривающий вычисление значения долгосрочной средней энергии по формуле
Figure 00000016
= 0,99
Figure 00000016
+ 0,01Et,
где
Figure 00000016
имеет начальное значение 45 дБ.
18. Способ по п.1, дополнительно предусматривающий выбор скорости кодирования в битах из набора доступных скоростей кодирования в битах и кодирование текущего кадра в соответствии с выбранной скоростью кодирования в битах.
19. Способ по п.18, в котором набор доступных скоростей кодирования в битах включает в себя полную скорость кодирования в битах, половинную скорость кодирования в битах, четвертную скорость кодирования в битах и одну восьмую скорости кодирования в битах.
20. Способ по п.19, в котором, когда текущий кадр классифицирован как невокализованный кадр, кодируют этот текущий кадр с упомянутой половинной скоростью кодирования в битах помощью алгоритма кодирования невокализованных сигналов с половинной скоростью.
21. Способ по п.19, в котором упомянутая процедура классификации, проводимая, чтобы определить, является ли текущий кадр невокализованным кадром, дополнительно включает в себя определение того, является ли текущий кадр переходным между вокализованной речью и невокализованной речью, и когда текущий кадр является переходным между вокализованной речью и невокализованной речью, кодируют этот текущий кадр с упомянутой половинной скоростью кодирования в битах с помощью алгоритма кодирования невокализованных сигналов с половинной скоростью, а когда текущий кадр классифицирован как невокализованная речь и не является переходным между вокализованной речью и невокализованной речью, кодируют этот текущий кадр с упомянутой четвертной скоростью кодирования в битах с помощью алгоритма кодирования невокализованных сигналов с четвертной скоростью.
22. Способ по п.1, предусматривающий использование алгоритма генерирования комфортного шума, когда определено, что текущий кадр является неактивным речевым кадром.
23. Способ по п.1, предусматривающий использование режима прерывистой передачи, когда определено, что текущий кадр является неактивным речевым кадром.
24. Способ по п.19, предусматривающий определение набора рабочих режимов, причем каждый рабочий режим обеспечивает предварительно определенную среднюю скорость в битах, выбор рабочего режима и кодирование дискретизированного речевого сигнала в соответствии с выбранным рабочим режимом.
25. Способ по п.24, в котором набор рабочих режимов содержит высококачественный режим, имеющий самую высокую среднюю скорость в битах, стандартный режим, имеющий промежуточную среднюю скорость в битах, и экономичный режим, имеющий самую низкую среднюю скорость в битах.
26. Способ по п.25, в котором, когда дискретизированный речевой сигнал кодируют в высококачественном режиме, а текущий кадр классифицирован как невокализованный кадр, этот текущий кадр кодируют с упомянутой половинной скоростью кодирования в битах, когда удовлетворяются следующие условия: упомянутая мера звучания меньше, чем предварительно определенное первое пороговое значение, и упомянутая мера спектрального наклона меньше, чем предварительно определенное второе пороговое значение, и упомянутая вариация энергии меньше, чем предварительно определенное третье пороговое значение.
27. Способ по п.25, в котором, когда дискретизированный речевой сигнал кодируют в стандартном режиме, а текущий кадр классифицирован как невокализованный кадр, этот текущий кадр кодируют с упомянутой половинной скоростью кодирования в битах, когда удовлетворяются следующие условия: упомянутая мера звучания меньше, чем предварительно определенное четвертое пороговое значение, и упомянутая мера спектрального наклона меньше, чем предварительно определенное пятое пороговое значение, и упомянутая вариация энергии меньше, чем предварительно определенное шестое пороговое значение, или упомянутая относительная энергия меньше, чем предварительно определенное седьмое пороговое значение.
28. Способ по п.27, в котором упомянутое четвертое пороговое значение составляет 0,695, упомянутое пятое пороговое значение составляет 4, упомянутое шестое пороговое значение составляет 40, а упомянутое седьмое пороговое значение составляет -14.
29. Способ по п.25, в котором, когда дискретизированный речевой сигнал кодируют в экономичном режиме, а текущий кадр классифицирован как невокализованный кадр, этот текущий кадр кодируют с упомянутой половинной скоростью кодирования в битах, когда удовлетворяются следующие условия: упомянутая мера звучания меньше, чем предварительно определенное восьмое пороговое значение, и упомянутая мера спектрального наклона меньше, чем предварительно определенное девятое пороговое значение, и упомянутая вариация энергии меньше, чем предварительно определенное десятое пороговое значение, или упомянутая относительная энергия меньше, чем предварительно определенное одиннадцатое пороговое значение.
30. Способ по п.29, в котором упомянутое восьмое пороговое значение составляет 0,695, упомянутое девятое пороговое значение составляет 4, упомянутое десятое пороговое значение составляет 60, а упомянутое одиннадцатое пороговое значение составляет -14.
31. Способ по п.25, в котором, когда дискретизированный речевой сигнал кодируют в экономичном режиме, а текущий кадр классифицирован как невокализованный кадр, этот текущий кадр кодируют с упомянутой четвертной скоростью кодирования в битах, когда удовлетворяются следующие дополнительные условия: нормализованная корреляция (rx(2)) в кадре упреждающей выборки меньше, чем предварительно определенное двенадцатое пороговое значение, и вторая мера (etilt(1)) спектрального наклона для второй половины текущего кадра меньше, чем предварительно определенное тринадцатое пороговое значение.
32. Способ по п.31, в котором упомянутое двенадцатое пороговое значение составляет 0,73, а упомянутое тринадцатое пороговое значение составляет 3.
33. Устройство для кодирования дискретизированного речевого сигнала, содержащего речевые кадры, содержащее детектор речевой активности для определения того, являются ли кадры дискретизированного речевого сигнала активными речевыми кадрами или неактивными речевыми кадрами, блок классификации, выполненный с возможностью проведения процедуры классификации на активных речевых кадрах для определения того, являются ли упомянутые активные речевые кадры невокализованными кадрами, причем упомянутая процедура классификации предусматривает проверку, по меньшей мере, трех из следующих параметров, чтобы определить, является ли текущий кадр невокализованным кадром:
а) меры (rx,
Figure 00000017
) звучания,
б) меры (еtilt, еt) спектрального наклона,
в) вариации (dE) энергии в пределах текущего кадра, и
г) относительной энергии (Еrel) текущего кадра,
при этом упомянутое устройство выполнено с возможностью кодирования текущего кадра с помощью алгоритма кодирования невокализованных сигналов, когда блок классификации классифицирует текущий кадр как невокализованный кадр.
34. Устройство по п.33, в котором меру (
Figure 00000017
) звучания определяют как
Figure 00000003
где rx(0), rx(1) и rx(2) соответственно представляют собой нормализованную корреляцию первой половины упомянутого текущего кадра, нормализованную корреляцию второй половины упомянутого текущего кадра и нормализованную корреляцию первой половины кадра, следующего за упомянутым текущим кадром.
35. Устройство по п.34, выполненное с дополнительной возможностью прибавления поправки (re) на шум к упомянутой мере (
Figure 00000018
x) звучания.
36. Устройство по п.33, выполненное с возможностью определения количества перцепционных критических полос, характеризующих диапазоны частот в пределах спектра энергии текущего кадра, упорядоченных в соответствии с увеличением частоты от первой перцепционной критической полосы, соответствующей диапазону самых низких частот, до последней перцепционной критической полосы, соответствующей диапазону самых высоких частот, и проведения спектрального анализа текущего кадра для определения распределения энергии по перцепционным критическим полосам.
37. Устройство по п.33, в котором спектральный наклон пропорционален отношению между энергией текущего кадра на низких частотах и энергией текущего кадра на высоких частотах.
38. Устройство по п.36, выполненное с возможностью вычисления меры (
Figure 00000019
), характеризующей энергию текущего кадра на высоких частотах, путем вычисления средней из энергий последних двух перцепционных критических полос.
39. Устройство по п.36, выполненное с возможностью вычисления меры (
Figure 00000020
), характеризующей энергию текущего кадра на низких частотах, путем вычисления средней из энергий первых i перцепционных критических полос.
40. Устройство по п.36, выполненное с возможностью вычисления меры (
Figure 00000020
), характеризующей энергию текущего кадра на низких частотах, путем вычисления средней из энергий первых i перцепционных критических полос, за исключением первой перцепционной критической полосы.
41. Устройство по п.39, выполненное с возможностью определения периода основного тона речи, а для периодов основного тона речи, которые меньше, чем предварительно определенное значение, - с возможностью вычисления меры (
Figure 00000006
) энергии на низких частотах путем суммирования в пределах интервалов дискретизации по частоте, получаемых в результате спектрального анализа текущего кадра, и учета только интервалов дискретизации по частоте, достаточно близких к гармоникам речи, при суммировании по формуле
Figure 00000021
где EBIN(k) - энергии в пределах интервалов дискретизации, kmin - индекс первого интервала дискретизации по частоте, учитываемый при суммировании, cnt - количество ненулевых членов при суммировании, а wh(k) задают равным 1, если расстояние между интервалом дискретизации по частоте и ближайшей гармоникой не превышает предварительно определенный порог частоты, и задают wh(k) равным нулю в противном случае.
42. Устройство по п.39, выполненное с дополнительной возможностью определения периода основного тона речи, а для периодов основного тона речи, которые больше, чем предварительно определенное значение, - с возможностью вычисления меры (
Figure 00000022
) энергии на низких частотах по формуле
Figure 00000023
где EСВ(k) - энергия перцепционной критической полосы k.
43. Устройство по п.39, выполненное с дополнительной возможностью определения априори невокализованного звука, когда
rx(0)+rx(1)+re<0,6,
и вычисления меры (
Figure 00000024
) энергии на низких частотах по формуле
Figure 00000025
где EСВ(k) - энергия перцепционной критической полосы k.
44. Устройство по любому из пп.38-43, выполненное с дополнительными возможностями вычисления меры (Nh), характеризующей энергию шума текущего кадра на высоких частотах, путем вычисления средней из энергий последних двух перцепционных критических полос, вычисления меры (Nl), характеризующей энергию шума текущего кадра на низких частотах, путем вычисления средней из энергий первых i перцепционных критических полос, вычитания меры (Nh) шума на высоких частотах из меры (
Figure 00000026
) энергии на высоких частотах для получения энергии (Eh) на высоких частотах, вычитания меры (Nl) шума на низких частотах из меры (
Figure 00000027
) энергии на низких частотах для получения энергии (El) на низких частотах, и вычисления меры (etilt) спектрального наклона как отношения, представляющего собой энергию (El) на низких частотах, деленную на энергию (Eh) на высоких частотах.
45. Устройство по п.44, выполненное с возможностью проведения спектрального анализа по п.36 дважды за текущий кадр, один раз - для первой половины текущего кадра и один раз - для второй половины текущего кадра, а также с возможностью вычисления меры (etilt) спектрального наклона дважды за текущий кадр, по одному разу для каждого спектрального анализа, чтобы получить первую меру (etilt(0)) спектрального наклона для первой половины текущего кадра и вторую меру (etilt(1)) спектрального наклона для второй половины текущего кадра.
46. Устройство по п.45, выполненное с дополнительной возможностью вычисления среднего спектрального наклона (e-t) по формуле
Figure 00000013
где eold - мера спектрального наклона, полученная в результате спектрального анализа второй половины предыдущего кадра.
47. Устройство по п.33, выполненное с возможностью вычисления относительной энергии (E-rel) текущего кадра как разности между энергией (Et) кадра в дБ и значения (
Figure 00000014
) долгосрочной средней энергии кадра.
48. Устройство по п.47, выполненное с возможностью вычисления энергии (E-t) кадра по формуле
Figure 00000015
где EСВ(i) - средние энергии, приходящиеся на критическую полосу.
49. Устройство по п.47, выполненное с возможностью вычисления значения долгосрочной средней энергии по формуле
Figure 00000028
= 0,99
Figure 00000029
+ 0,01Et,
где
Figure 00000029
имеет начальное значение 45 дБ.
50. Устройство по п.33, выполненное с возможностью выбора скорости кодирования в битах из набора доступных скоростей кодирования в битах, и кодирования текущего кадра в соответствии с выбранной скоростью кодирования в битах.
51. Устройство по п.50, в котором набор доступных скоростей кодирования в битах включает в себя полную скорость кодирования в битах, половинную скорость кодирования в битах, четвертную скорость кодирования в битах и одну восьмую скорости кодирования в битах.
52. Устройство по п.51, выполненное с возможностью кодирования текущего кадра c с упомянутой половинной скоростью кодирования в битах с помощью алгоритма кодирования невокализованных сигналов с половинной скоростью, когда этот текущий кадр классифицирован как невокализованный кадр.
53. Устройство по п.51, выполненное с дополнительной возможностью определения того, является ли текущий кадр переходным между вокализованной речью и невокализованной речью, и когда текущий кадр является переходным между вокализованной речью и невокализованной речью, - с возможностью кодирования этого текущего кадра с упомянутой половинной скоростью кодирования в битах с помощью алгоритма кодирования невокализованных сигналов с половинной скоростью, а когда текущий кадр классифицирован как невокализованная речь и не является переходным между вокализованной речью и невокализованной речью, - с возможностью кодирования этого текущего кадра с упомянутой четвертной скоростью кодирования в битах с помощью алгоритма кодирования невокализованных сигналов с четвертной скоростью.
54. Устройство по п.33, выполненное с возможностью использования алгоритма генерирования комфортного шума, когда определено, что текущий кадр является неактивным речевым кадром.
55. Устройство по п.33, выполненное с возможностью использования режима прерывистой передачи, когда определено, что текущий кадр является неактивным речевым кадром.
56. Устройство по п.51, выполненное с возможностью определения набора рабочих режимов, причем каждый рабочий режим обеспечивает предварительно определенную среднюю скорость в битах, а также с возможностью выбора рабочего режима и кодирования дискретизированного речевого сигнала в соответствии с выбранным рабочим режимом.
57. Устройство по п.56, в котором набор рабочих режимов содержит высококачественный режим, имеющий самую высокую среднюю скорость в битах, стандартный режим, имеющий промежуточную среднюю скорость в битах, и экономичный режим, имеющий самую низкую среднюю скорость в битах.
58. Устройство по п.57, выполненное с возможностью кодирования текущего кадра с упомянутой половинной скоростью кодирования в битах, когда дискретизированный речевой сигнал кодируют в высококачественном режиме, а текущий кадр классифицирован как невокализованный кадр, и удовлетворяются следующие условия: упомянутая мера звучания меньше, чем предварительно определенное первое пороговое значение, и упомянутая мера спектрального наклона меньше, чем предварительно определенное второе пороговое значение, и упомянутая вариация энергии меньше, чем предварительно определенное третье пороговое значение.
59. Устройство по п.57, выполненное с возможностью кодирования текущего кадра с упомянутой половинной скоростью кодирования в битах, когда дискретизированный речевой сигнал кодируют в стандартном режиме, а текущий кадр классифицирован как невокализованный кадр, и удовлетворяются следующие условия: упомянутая мера звучания меньше, чем предварительно определенное четвертое пороговое значение, и упомянутая мера спектрального наклона меньше, чем предварительно определенное пятое пороговое значение, и упомянутая вариация энергии меньше, чем предварительно определенное шестое пороговое значение, или упомянутая относительная энергия меньше, чем предварительно определенное седьмое пороговое значение.
60. Устройство по п.59, в котором упомянутое четвертое пороговое значение составляет 0,695, упомянутое пятое пороговое значение составляет 4, упомянутое шестое пороговое значение составляет 40, а упомянутое седьмое пороговое значение составляет -14.
61. Устройство по п.57, выполненное с возможностью кодирования текущего кадра с упомянутой половинной скоростью кодирования в битах, когда дискретизированный речевой сигнал кодируют в экономичном режиме, а текущий кадр классифицирован как невокализованный кадр, и удовлетворяются следующие условия: упомянутая мера звучания меньше, чем предварительно определенное восьмое пороговое значение, и упомянутая мера спектрального наклона меньше, чем предварительно определенное девятое пороговое значение, и упомянутая вариация энергии меньше, чем предварительно определенное десятое пороговое значение, или упомянутая относительная энергия меньше, чем предварительно определенное одиннадцатое пороговое значение.
62. Устройство по п.61, в котором упомянутое восьмое пороговое значение составляет 0,695, упомянутое девятое пороговое значение составляет 4, упомянутое десятое пороговое значение составляет 60, а упомянутое одиннадцатое пороговое значение составляет -14.
63. Устройство по п.57, выполненное с возможностью кодирования текущего кадра с упомянутой четвертной скоростью кодирования в битах, когда дискретизированный речевой сигнал кодируют в экономичном режиме, а текущий кадр классифицирован как невокализованный кадр, и удовлетворяются следующие дополнительные условия: нормализованная корреляция (rx(2)) в кадре упреждающей выборки меньше, чем предварительно определенное двенадцатое пороговое значение, и вторая мера (etilt(1)) спектрального наклона для второй половины текущего кадра меньше, чем предварительно определенное тринадцатое пороговое значение.
64. Устройство по п.63, в котором упомянутое двенадцатое пороговое значение составляет 0,73, а упомянутое тринадцатое пороговое значение составляет 3.
65. Устройство для кодирования дискретизированного речевого сигнала, содержащего речевые кадры, содержащее средство для определения того, является ли текущий кадр дискретизированного речевого сигнала активным речевым кадром или неактивным речевым кадром, средство, реагирующее на упомянутый текущий кадр, являющийся активным речевым кадром, для проведения процедуры классификации для определения того, являются ли текущий кадр невокализованным кадром, причем упомянутая процедура классификации предусматривает проверку, по меньшей мере, трех из следующих параметров, чтобы определить, является ли текущий кадр невокализованным кадром:
а) меры (rx,
Figure 00000030
) звучания,
б) меры (еtilt, еt) спектрального наклона,
в) вариации (dE) энергии в пределах текущего кадра, и
г) относительной энергии (Еrel) текущего кадра,
и средство для кодирования текущего кадра с помощью алгоритма кодирования невокализованных сигналов, когда текущий кадр классифицирован как невокализованный кадр посредством упомянутой процедуры классификации.
66. Речевой кодер, реагирующий на текущий кадр, классифицируемый как активный речевой кадр, для кодирования упомянутого текущего кадра с помощью алгоритма кодирования невокализованных сигналов, в котором активный речевой кадр также классифицируется как активный невокализованный речевой кадр путем проверки, по меньшей мере, трех параметров, выбранных из такого набора: мера (rx,
Figure 00000031
) звучания, мера (еtilt, еt) спектрального наклона, вариация (dE) энергии в пределах текущего кадра, и относительная энергия (Еrel) текущего кадра.
67. Программа машиночитаемых команд, материально воплощенная на носителе информации и выполняемая цифровым процессором данных, для проведения действий, направленных на кодирование дискретизированного речевого сигнала, содержащего речевые кадры, причем эти действия заключаются в том, что определяют, является ли текущий кадр дискретизированного речевого сигнала активным речевым кадром или неактивным речевым кадром, проводят процедуру классификации на активном речевом кадре, чтобы определить, является ли текущий кадр невокализованным кадром, причем упомянутая процедура классификации предусматривает проверку, по меньшей мере, трех из следующих параметров, чтобы определить, является ли текущий кадр невокализованным кадром:
а) меры (rx,
Figure 00000031
) звучания,
б) меры (еtilt, еt) спектрального наклона,
в) вариации (dE) энергии в пределах текущего кадра, и
г) относительной энергии (Еrel) текущего кадра,
и кодируют этот текущий кадр с помощью алгоритма кодирования невокализованных сигналов, когда текущий кадр классифицирован как невокализованный кадр посредством упомянутой процедуры классификации.
68. Программа по п.67, в которой меру (
Figure 00000031
) звучания определяют как
Figure 00000003
где rx(0), rx(1) и rx(2) соответственно представляют собой нормализованную корреляцию первой половины упомянутого текущего кадра, нормализованную корреляцию второй половины упомянутого текущего кадра и нормализованную корреляцию первой половины кадра, следующего за упомянутым текущим кадром.
69. Программа по п.68, в которой упомянутые действия дополнительно предусматривают прибавление поправки (re) на шум к упомянутой мере (
Figure 00000031
) звучания.
70. Программа по п.67, в которой упомянутые действия дополнительно предусматривают определение количества перцепционных критических полос, характеризующих диапазоны частот в пределах спектра энергии текущего кадра, упорядоченных в соответствии с увеличением частоты от первой перцепционной критической полосы, соответствующей диапазону самых низких частот, до последней перцепционной критической полосы, соответствующей диапазону самых высоких частот, и проведение спектрального анализа текущего кадра для определения распределения энергии по перцепционным критическим полосам.
71. Программа по п.67, в которой спектральный наклон пропорционален отношению между энергией текущего кадра на низких частотах и энергией текущего кадра на высоких частотах.
72. Программа по п.70, в которой упомянутые действия дополнительно предусматривают вычисление меры (
Figure 00000032
), характеризующей энергию текущего кадра на высоких частотах, путем вычисления средней из энергий последних двух перцепционных критических полос.
73. Программа по п.70, в которой упомянутые действия дополнительно предусматривают вычисление меры (
Figure 00000033
), характеризующей энергию текущего кадра на низких частотах, путем вычисления средней из энергий первых i перцепционных критических полос.
74. Программа по п.70, в которой упомянутые действия дополнительно предусматривают вычисление меры (
Figure 00000033
), характеризующей энергию текущего кадра на низких частотах, путем вычисления средней из энергий первых i перцепционных критических полос, за исключением первой перцепционной критической полосы.
75. Программа по п.73, дополнительно предусматривающая определение периода основного тона речи, а для периодов основного тона речи, которые меньше, чем предварительно определенное значение, - вычисление меры (
Figure 00000033
) энергии на низких частотах путем суммирования в пределах интервалов дискретизации по частоте, получаемых в результате спектрального анализа текущего кадра, и учета только интервалов дискретизации по частоте, достаточно близких к гармоникам речи, при суммировании по формуле
Figure 00000034
где EBIN(k) - энергии в пределах интервалов дискретизации, kmin - индекс первого интервала дискретизации по частоте, учитываемый при суммировании, cnt - количество ненулевых членов при суммировании, а wh(k) задают равным 1, если расстояние между интервалом дискретизации по частоте и ближайшей гармоникой не превышает предварительно определенный порог частоты, и задают wh(k) равным нулю в противном случае.
76. Программа по п.73, дополнительно предусматривающая определение периода основного тона речи, а для периодов основного тона речи, которые больше, чем предварительно определенное значение, - вычисление меры (
Figure 00000022
) энергии на низких частотах по формуле
Figure 00000035
где EСВ(k) - энергия перцепционной критической полосы k.
77. Программа по п.73, в которой упомянутые действия дополнительно предусматривают определение априори невокализованного звука, когда
rx(0)+rx(1)+re<0,6,
и вычисление меры (
Figure 00000033
) энергии на низких частотах по формуле
Figure 00000036
где EСВ(k) - энергия перцепционной критической полосы k.
78. Программа по любому из пп.72-77, в которой упомянутые действия дополнительно предусматривают вычисление меры (Nh), характеризующей энергию шума текущего кадра на высоких частотах, путем вычисления средней из энергий последних двух перцепционных критических полос, вычисление меры (Nl), характеризующей энергию шума текущего кадра на низких частотах, путем вычисления средней из энергий первых i перцепционных критических полос, вычитание меры (Nh) шума на высоких частотах из меры (
Figure 00000037
) энергии на высоких частотах для получения энергии (Eh) на высоких частотах, вычитание меры (Nl) шума на низких частотах из меры (
Figure 00000033
) энергии на низких частотах для получения энергии (El) на низких частотах, и вычисление меры (etilt) спектрального наклона как отношения, представляющего собой энергию (El) на низких частотах, деленную на энергию (Eh) на высоких частотах.
79. Программа по п.78, в которой упомянутые действия дополнительно предусматривают проведение спектрального анализа по п.36 дважды за текущий кадр, один раз - для первой половины текущего кадра и один раз - для второй половины текущего кадра, и дополнительно предусматривающая вычисление меры (etilt) спектрального наклона дважды за текущий кадр, по одному разу для каждого спектрального анализа, чтобы получить первую меру (etilt(0)) спектрального наклона для первой половины текущего кадра и вторую меру (etilt(1)) спектрального наклона для второй половины текущего кадра.
80. Программа по п.79, в которой упомянутые действия дополнительно предусматривают вычисление среднего спектрального наклона (et) по формуле
Figure 00000038
где eold - мера спектрального наклона, полученная в результате спектрального анализа второй половины предыдущего кадра.
81. Программа по п.67, в которой упомянутые действия дополнительно предусматривают вычисление относительной энергии (Erel) текущего кадра как разности между энергией (Et) кадра в дБ и значения (
Figure 00000014
) долгосрочной средней энергии кадра.
82. Программа по п.81, в которой упомянутые действия дополнительно предусматривают вычисление энергии (Et) кадра по формуле
Figure 00000039
где EСВ(i) - средние энергии, приходящиеся на критическую полосу.
83. Программа по п.81, в которой упомянутые действия предусматривают вычисление значения долгосрочной средней энергии по формуле
Figure 00000028
= 0,99
Figure 00000040
+ 0,01Et,
где
Figure 00000041
имеет начальное значение 45 дБ.
84. Программа по п.67, в которой упомянутый носитель информации и цифровой процессор данных размещены внутри мобильной станции.
RU2005113877/09A 2002-10-11 2003-10-09 Способы и устройства управляемого источником широкополосного кодирования речи с переменной скоростью в битах RU2331933C2 (ru)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US41766702P 2002-10-11 2002-10-11
US60/417,667 2002-10-11

Publications (2)

Publication Number Publication Date
RU2005113877A true RU2005113877A (ru) 2005-10-10
RU2331933C2 RU2331933C2 (ru) 2008-08-20

Family

ID=32094059

Family Applications (2)

Application Number Title Priority Date Filing Date
RU2005113877/09A RU2331933C2 (ru) 2002-10-11 2003-10-09 Способы и устройства управляемого источником широкополосного кодирования речи с переменной скоростью в битах
RU2005113876/09A RU2351907C2 (ru) 2002-10-11 2003-10-10 Способ осуществления взаимодействия между адаптивным многоскоростным широкополосным кодеком (amr-wb-кодеком) и многорежимным широкополосным кодеком с переменной скоростью в битах (vbr-wb-кодеком)

Family Applications After (1)

Application Number Title Priority Date Filing Date
RU2005113876/09A RU2351907C2 (ru) 2002-10-11 2003-10-10 Способ осуществления взаимодействия между адаптивным многоскоростным широкополосным кодеком (amr-wb-кодеком) и многорежимным широкополосным кодеком с переменной скоростью в битах (vbr-wb-кодеком)

Country Status (15)

Country Link
US (1) US7203638B2 (ru)
EP (2) EP1550108A2 (ru)
JP (2) JP2006502426A (ru)
KR (2) KR100711280B1 (ru)
CN (2) CN1703736A (ru)
AT (1) ATE505786T1 (ru)
AU (2) AU2003278013A1 (ru)
BR (2) BR0315179A (ru)
CA (2) CA2501368C (ru)
DE (1) DE60336744D1 (ru)
EG (1) EG23923A (ru)
ES (1) ES2361154T3 (ru)
MY (2) MY134085A (ru)
RU (2) RU2331933C2 (ru)
WO (2) WO2004034379A2 (ru)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
RU2483366C2 (ru) * 2008-07-11 2013-05-27 Фраунхофер-Гезелльшафт цур Фёрдерунг дер ангевандтен Устройство и способ декодирования кодированного звукового сигнала
RU2486484C2 (ru) * 2008-07-11 2013-06-27 Фраунхофер-Гезелльшафт цур Фёрдерунг дер ангевандтен Вычислитель контура временной деформации, кодера аудиосигнала, кодированное представление аудиосигнала, способы и программное обеспечение
RU2491726C2 (ru) * 2008-05-19 2013-08-27 Квэлкомм Инкорпорейтед Управление обнаружением в одноранговой беспроводной сети
US8612214B2 (en) 2008-07-11 2013-12-17 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Apparatus and a method for generating bandwidth extension output data
US9015041B2 (en) 2008-07-11 2015-04-21 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Time warp activation signal provider, audio signal encoder, method for providing a time warp activation signal, method for encoding an audio signal and computer programs
US9198017B2 (en) 2008-05-19 2015-11-24 Qualcomm Incorporated Infrastructure assisted discovery in a wireless peer-to-peer network

Families Citing this family (93)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7023880B2 (en) * 2002-10-28 2006-04-04 Qualcomm Incorporated Re-formatting variable-rate vocoder frames for inter-system transmissions
US7406096B2 (en) * 2002-12-06 2008-07-29 Qualcomm Incorporated Tandem-free intersystem voice communication
US8254372B2 (en) 2003-02-21 2012-08-28 Genband Us Llc Data communication apparatus and method
WO2004090870A1 (ja) 2003-04-04 2004-10-21 Kabushiki Kaisha Toshiba 広帯域音声を符号化または復号化するための方法及び装置
US20060034481A1 (en) * 2003-11-03 2006-02-16 Farhad Barzegar Systems, methods, and devices for processing audio signals
US7450570B1 (en) 2003-11-03 2008-11-11 At&T Intellectual Property Ii, L.P. System and method of providing a high-quality voice network architecture
US8019449B2 (en) 2003-11-03 2011-09-13 At&T Intellectual Property Ii, Lp Systems, methods, and devices for processing audio signals
FR2867648A1 (fr) * 2003-12-10 2005-09-16 France Telecom Transcodage entre indices de dictionnaires multi-impulsionnels utilises en codage en compression de signaux numeriques
US8027265B2 (en) 2004-03-19 2011-09-27 Genband Us Llc Providing a capability list of a predefined format in a communications network
WO2005089055A2 (en) 2004-03-19 2005-09-29 Nortel Networks Limited Communicating processing capabilites along a communications path
US7830864B2 (en) 2004-09-18 2010-11-09 Genband Us Llc Apparatus and methods for per-session switching for multiple wireline and wireless data types
US7729346B2 (en) 2004-09-18 2010-06-01 Genband Inc. UMTS call handling methods and apparatus
US8102872B2 (en) 2005-02-01 2012-01-24 Qualcomm Incorporated Method for discontinuous transmission and accurate reproduction of background noise information
US7983906B2 (en) * 2005-03-24 2011-07-19 Mindspeed Technologies, Inc. Adaptive voice mode extension for a voice activity detector
US20060262851A1 (en) * 2005-05-19 2006-11-23 Celtro Ltd. Method and system for efficient transmission of communication traffic
JP4948401B2 (ja) * 2005-05-31 2012-06-06 パナソニック株式会社 スケーラブル符号化装置およびスケーラブル符号化方法
US8483173B2 (en) 2005-05-31 2013-07-09 Genband Us Llc Methods and systems for unlicensed mobile access realization in a media gateway
JP2008546341A (ja) * 2005-06-18 2008-12-18 ノキア コーポレイション 非連続音声送信の際の擬似背景ノイズパラメータ適応送信のためのシステム及び方法
US7991272B2 (en) * 2005-07-11 2011-08-02 Lg Electronics Inc. Apparatus and method of processing an audio signal
KR101116363B1 (ko) 2005-08-11 2012-03-09 삼성전자주식회사 음성신호 분류방법 및 장치, 및 이를 이용한 음성신호부호화방법 및 장치
US7792150B2 (en) 2005-08-19 2010-09-07 Genband Us Llc Methods, systems, and computer program products for supporting transcoder-free operation in media gateway
US7835346B2 (en) * 2006-01-17 2010-11-16 Genband Us Llc Methods, systems, and computer program products for providing transcoder free operation (TrFO) and interworking between unlicensed mobile access (UMA) and universal mobile telecommunications system (UMTS) call legs using a media gateway
KR100790110B1 (ko) * 2006-03-18 2008-01-02 삼성전자주식회사 모폴로지 기반의 음성 신호 코덱 방법 및 장치
US8032370B2 (en) * 2006-05-09 2011-10-04 Nokia Corporation Method, apparatus, system and software product for adaptation of voice activity detection parameters based on the quality of the coding modes
US8260609B2 (en) 2006-07-31 2012-09-04 Qualcomm Incorporated Systems, methods, and apparatus for wideband encoding and decoding of inactive frames
US8725499B2 (en) * 2006-07-31 2014-05-13 Qualcomm Incorporated Systems, methods, and apparatus for signal change detection
US8135047B2 (en) * 2006-07-31 2012-03-13 Qualcomm Incorporated Systems and methods for including an identifier with a packet associated with a speech signal
US8848618B2 (en) * 2006-08-22 2014-09-30 Qualcomm Incorporated Semi-persistent scheduling for traffic spurts in wireless communication
EP2108193B1 (en) 2006-12-28 2018-08-15 Genband US LLC Methods, systems, and computer program products for silence insertion descriptor (sid) conversion
US8279889B2 (en) * 2007-01-04 2012-10-02 Qualcomm Incorporated Systems and methods for dimming a first packet associated with a first bit rate to a second packet associated with a second bit rate
CN101246688B (zh) * 2007-02-14 2011-01-12 华为技术有限公司 一种对背景噪声信号进行编解码的方法、系统和装置
EP2118885B1 (en) 2007-02-26 2012-07-11 Dolby Laboratories Licensing Corporation Speech enhancement in entertainment audio
ES2529292T3 (es) 2007-04-29 2015-02-18 Huawei Technologies Co., Ltd. Método de codificación y de decodificación
CN101320559B (zh) 2007-06-07 2011-05-18 华为技术有限公司 一种声音激活检测装置及方法
PL2165328T3 (pl) 2007-06-11 2018-06-29 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Kodowanie i dekodowanie sygnału audio zawierającego część impulsową i część stacjonarną
US8090588B2 (en) * 2007-08-31 2012-01-03 Nokia Corporation System and method for providing AMR-WB DTX synchronization
DE102008009719A1 (de) * 2008-02-19 2009-08-20 Siemens Enterprise Communications Gmbh & Co. Kg Verfahren und Mittel zur Enkodierung von Hintergrundrauschinformationen
CN101527140B (zh) * 2008-03-05 2011-07-20 上海摩波彼克半导体有限公司 第三代移动通信系统amr计算量化平均对数帧能量的方法
JP2011518345A (ja) * 2008-03-14 2011-06-23 ドルビー・ラボラトリーズ・ライセンシング・コーポレーション スピーチライク信号及びノンスピーチライク信号のマルチモードコーディング
US20090319263A1 (en) * 2008-06-20 2009-12-24 Qualcomm Incorporated Coding of transitional speech frames for low-bit-rate applications
US20090319261A1 (en) * 2008-06-20 2009-12-24 Qualcomm Incorporated Coding of transitional speech frames for low-bit-rate applications
US8768690B2 (en) 2008-06-20 2014-07-01 Qualcomm Incorporated Coding scheme selection for low-bit-rate applications
WO2010070187A1 (en) * 2008-12-19 2010-06-24 Nokia Corporation An apparatus, a method and a computer program for coding
CN101599272B (zh) * 2008-12-30 2011-06-08 华为技术有限公司 基音搜索方法及装置
EP2237269B1 (en) 2009-04-01 2013-02-20 Motorola Mobility LLC Apparatus and method for processing an encoded audio data signal
CN101931414B (zh) 2009-06-19 2013-04-24 华为技术有限公司 脉冲编码方法及装置、脉冲解码方法及装置
US8908541B2 (en) 2009-08-04 2014-12-09 Genband Us Llc Methods, systems, and computer readable media for intelligent optimization of digital signal processor (DSP) resource utilization in a media gateway
FR2954640B1 (fr) 2009-12-23 2012-01-20 Arkamys Procede d'optimisation de la reception stereo pour radio analogique et recepteur de radio analogique associe
US8423355B2 (en) * 2010-03-05 2013-04-16 Motorola Mobility Llc Encoder for audio signal including generic audio and speech frames
CN102299760B (zh) 2010-06-24 2014-03-12 华为技术有限公司 脉冲编解码方法及脉冲编解码器
KR101826331B1 (ko) 2010-09-15 2018-03-22 삼성전자주식회사 고주파수 대역폭 확장을 위한 부호화/복호화 장치 및 방법
EP2645366A4 (en) 2010-11-22 2014-05-07 Ntt Docomo Inc AUDIO CODING DEVICE, METHOD AND PROGRAM, AND AUDIO CODING DEVICE, METHOD AND PROGRAM
CA2827000C (en) 2011-02-14 2016-04-05 Jeremie Lecomte Apparatus and method for error concealment in low-delay unified speech and audio coding (usac)
MX2013009304A (es) 2011-02-14 2013-10-03 Fraunhofer Ges Forschung Aparato y metodo para codificar una porcion de una señal de audio utilizando deteccion de un transiente y resultado de calidad.
TWI488177B (zh) 2011-02-14 2015-06-11 Fraunhofer Ges Forschung 使用頻譜域雜訊整形之基於線性預測的編碼方案
ES2639646T3 (es) 2011-02-14 2017-10-27 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Codificación y decodificación de posiciones de impulso de pistas de una señal de audio
CA2827335C (en) * 2011-02-14 2016-08-30 Fraunhofer-Gesellschaft Zur Forderung Der Angewandten Forschung E.V. Audio codec using noise synthesis during inactive phases
SG185519A1 (en) 2011-02-14 2012-12-28 Fraunhofer Ges Forschung Information signal representation using lapped transform
ES2529025T3 (es) 2011-02-14 2015-02-16 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Aparato y método para procesar una señal de audio decodificada en un dominio espectral
CN102737636B (zh) * 2011-04-13 2014-06-04 华为技术有限公司 一种音频编码方法及装置
US20140114653A1 (en) * 2011-05-06 2014-04-24 Nokia Corporation Pitch estimator
KR20140085453A (ko) * 2011-10-27 2014-07-07 엘지전자 주식회사 음성 신호 부호화 방법 및 복호화 방법과 이를 이용하는 장치
CN102543090B (zh) * 2011-12-31 2013-12-04 深圳市茂碧信息科技有限公司 一种应用于变速率语音和音频编码的码率自动控制系统
CN103200635B (zh) 2012-01-05 2016-06-29 华为技术有限公司 用户设备在无线网络控制器之间迁移的方法、装置及系统
US9236053B2 (en) * 2012-07-05 2016-01-12 Panasonic Intellectual Property Management Co., Ltd. Encoding and decoding system, decoding apparatus, encoding apparatus, encoding and decoding method
JP6127143B2 (ja) * 2012-08-31 2017-05-10 テレフオンアクチーボラゲット エルエム エリクソン(パブル) 音声アクティビティ検出のための方法及び装置
US8982702B2 (en) 2012-10-30 2015-03-17 Cisco Technology, Inc. Control of rate adaptive endpoints
CN108074579B (zh) * 2012-11-13 2022-06-24 三星电子株式会社 用于确定编码模式的方法以及音频编码方法
CN111145767B (zh) 2012-12-21 2023-07-25 弗劳恩霍夫应用研究促进协会 解码器及用于产生和处理编码频比特流的系统
BR112015014212B1 (pt) * 2012-12-21 2021-10-19 Fraunhofer-Gesellschaft Zur Forderung Der Angewandten Forschung E.V. Geração de um ruído de conforto com alta resolução espectro-temporal em transmissão descontínua de sinais de audio
CN103915097B (zh) * 2013-01-04 2017-03-22 中国移动通信集团公司 一种语音信号处理方法、装置和系统
US9208775B2 (en) * 2013-02-21 2015-12-08 Qualcomm Incorporated Systems and methods for determining pitch pulse period signal boundaries
US9263054B2 (en) 2013-02-21 2016-02-16 Qualcomm Incorporated Systems and methods for controlling an average encoding rate for speech signal encoding
CN105453173B (zh) 2013-06-21 2019-08-06 弗朗霍夫应用科学研究促进协会 利用改进的脉冲再同步化的似acelp隐藏中的自适应码本的改进隐藏的装置及方法
SG11201510463WA (en) 2013-06-21 2016-01-28 Fraunhofer Ges Forschung Apparatus and method for improved concealment of the adaptive codebook in acelp-like concealment employing improved pitch lag estimation
CN104347067B (zh) 2013-08-06 2017-04-12 华为技术有限公司 一种音频信号分类方法和装置
US9570093B2 (en) * 2013-09-09 2017-02-14 Huawei Technologies Co., Ltd. Unvoiced/voiced decision for speech processing
CN104517612B (zh) * 2013-09-30 2018-10-12 上海爱聊信息科技有限公司 基于amr-nb语音信号的可变码率编码器和解码器及其编码和解码方法
US10083708B2 (en) 2013-10-11 2018-09-25 Qualcomm Incorporated Estimation of mixing factors to generate high-band excitation signal
EP2980790A1 (en) 2014-07-28 2016-02-03 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus and method for comfort noise generation mode selection
US9953655B2 (en) * 2014-09-29 2018-04-24 Qualcomm Incorporated Optimizing frequent in-band signaling in dual SIM dual active devices by comparing signal level (RxLev) and quality (RxQual) against predetermined thresholds
CN104299384A (zh) * 2014-10-13 2015-01-21 浙江大学 一种基于Zigbee异质传感器网络的环境监控系统
US20160323425A1 (en) * 2015-04-29 2016-11-03 Qualcomm Incorporated Enhanced voice services (evs) in 3gpp2 network
CN106328169B (zh) * 2015-06-26 2018-12-11 中兴通讯股份有限公司 一种激活音修正帧数的获取方法、激活音检测方法和装置
US10568143B2 (en) * 2017-03-28 2020-02-18 Cohere Technologies, Inc. Windowed sequence for random access method and apparatus
CN108737826B (zh) * 2017-04-18 2023-06-30 中兴通讯股份有限公司 一种视频编码的方法和装置
BR112020004883A2 (pt) * 2017-09-20 2020-09-15 Voiceage Corporation método e dispositivo para alocar um bit-budget entre subquadros em um codec celp
RU2670469C1 (ru) * 2017-10-19 2018-10-23 Акционерное общество "ОДК-Авиадвигатель" Способ защиты газотурбинного двигателя от многократных помпажей компрессора
CN113826161A (zh) * 2019-05-07 2021-12-21 沃伊斯亚吉公司 用于检测待编解码的声音信号中的起音以及对检测到的起音进行编解码的方法和设备
CN110619881B (zh) * 2019-09-20 2022-04-15 北京百瑞互联技术有限公司 一种语音编码方法、装置及设备
CN113519023A (zh) 2019-10-29 2021-10-19 苹果公司 具有压缩环境的音频编码
JP7332518B2 (ja) * 2020-03-30 2023-08-23 本田技研工業株式会社 会話支援装置、会話支援システム、会話支援方法およびプログラム
CN113611325B (zh) * 2021-04-26 2023-07-04 珠海市杰理科技股份有限公司 基于清浊音实现的语音信号变速方法、装置和音频设备

Family Cites Families (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
TW271524B (ru) * 1994-08-05 1996-03-01 Qualcomm Inc
FI991605A (fi) * 1999-07-14 2001-01-15 Nokia Networks Oy Menetelmä puhekodaukseen ja puhekoodaukseen tarvittavan laskentakapasi teetin vähentämiseksi ja verkkoelementti
JP2001067807A (ja) * 1999-08-25 2001-03-16 Sanyo Electric Co Ltd 音声再生装置
US6604070B1 (en) * 1999-09-22 2003-08-05 Conexant Systems, Inc. System of encoding and decoding speech signals
US6782360B1 (en) * 1999-09-22 2004-08-24 Mindspeed Technologies, Inc. Gain quantization for a CELP speech coder
US20020083461A1 (en) * 2000-11-22 2002-06-27 Hutcheson Stewart Douglas Method and system for providing interactive services over a wireless communications network
US6631139B2 (en) * 2001-01-31 2003-10-07 Qualcomm Incorporated Method and apparatus for interoperability between voice transmission systems during speech inactivity
JP4518714B2 (ja) * 2001-08-31 2010-08-04 富士通株式会社 音声符号変換方法

Cited By (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9198017B2 (en) 2008-05-19 2015-11-24 Qualcomm Incorporated Infrastructure assisted discovery in a wireless peer-to-peer network
US9848314B2 (en) 2008-05-19 2017-12-19 Qualcomm Incorporated Managing discovery in a wireless peer-to-peer network
RU2491726C2 (ru) * 2008-05-19 2013-08-27 Квэлкомм Инкорпорейтед Управление обнаружением в одноранговой беспроводной сети
US9263057B2 (en) 2008-07-11 2016-02-16 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Time warp activation signal provider, audio signal encoder, method for providing a time warp activation signal, method for encoding an audio signal and computer programs
US9015041B2 (en) 2008-07-11 2015-04-21 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Time warp activation signal provider, audio signal encoder, method for providing a time warp activation signal, method for encoding an audio signal and computer programs
US9025777B2 (en) 2008-07-11 2015-05-05 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Audio signal decoder, audio signal encoder, encoded multi-channel audio signal representation, methods and computer program
US9043216B2 (en) 2008-07-11 2015-05-26 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Audio signal decoder, time warp contour data provider, method and computer program
US8612214B2 (en) 2008-07-11 2013-12-17 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Apparatus and a method for generating bandwidth extension output data
RU2483366C2 (ru) * 2008-07-11 2013-05-27 Фраунхофер-Гезелльшафт цур Фёрдерунг дер ангевандтен Устройство и способ декодирования кодированного звукового сигнала
US9293149B2 (en) 2008-07-11 2016-03-22 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Time warp activation signal provider, audio signal encoder, method for providing a time warp activation signal, method for encoding an audio signal and computer programs
US9299363B2 (en) 2008-07-11 2016-03-29 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Time warp contour calculator, audio signal encoder, encoded audio signal representation, methods and computer program
US9431026B2 (en) 2008-07-11 2016-08-30 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Time warp activation signal provider, audio signal encoder, method for providing a time warp activation signal, method for encoding an audio signal and computer programs
US9466313B2 (en) 2008-07-11 2016-10-11 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Time warp activation signal provider, audio signal encoder, method for providing a time warp activation signal, method for encoding an audio signal and computer programs
US9502049B2 (en) 2008-07-11 2016-11-22 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Time warp activation signal provider, audio signal encoder, method for providing a time warp activation signal, method for encoding an audio signal and computer programs
US9646632B2 (en) 2008-07-11 2017-05-09 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Time warp activation signal provider, audio signal encoder, method for providing a time warp activation signal, method for encoding an audio signal and computer programs
RU2486484C2 (ru) * 2008-07-11 2013-06-27 Фраунхофер-Гезелльшафт цур Фёрдерунг дер ангевандтен Вычислитель контура временной деформации, кодера аудиосигнала, кодированное представление аудиосигнала, способы и программное обеспечение

Also Published As

Publication number Publication date
MY138212A (en) 2009-05-29
AU2003278014A1 (en) 2004-05-04
CA2501369A1 (en) 2004-04-22
US20050267746A1 (en) 2005-12-01
KR100711280B1 (ko) 2007-04-25
EP1554718A2 (en) 2005-07-20
US7203638B2 (en) 2007-04-10
CN1703737B (zh) 2013-05-15
RU2331933C2 (ru) 2008-08-20
WO2004034376A2 (en) 2004-04-22
JP2006502427A (ja) 2006-01-19
RU2351907C2 (ru) 2009-04-10
AU2003278013A8 (en) 2004-05-04
BR0315216A (pt) 2005-08-16
KR20050049537A (ko) 2005-05-25
DE60336744D1 (de) 2011-05-26
EP1554718B1 (en) 2011-04-13
EG23923A (en) 2007-12-30
MY134085A (en) 2007-11-30
CN1703736A (zh) 2005-11-30
EP1550108A2 (en) 2005-07-06
CN1703737A (zh) 2005-11-30
AU2003278014A8 (en) 2004-05-04
WO2004034379A2 (en) 2004-04-22
CA2501368C (en) 2013-06-25
CA2501368A1 (en) 2004-04-22
WO2004034376A3 (en) 2004-06-10
RU2005113876A (ru) 2005-10-10
WO2004034379A3 (en) 2004-12-23
KR20050049538A (ko) 2005-05-25
ATE505786T1 (de) 2011-04-15
JP2006502426A (ja) 2006-01-19
BR0315179A (pt) 2005-08-23
ES2361154T3 (es) 2011-06-14
AU2003278013A1 (en) 2004-05-04

Similar Documents

Publication Publication Date Title
RU2005113877A (ru) Способы управляемого источником широкополосного кодирования речи с переменной скоростью в битах
RU2441286C2 (ru) Способ и устройство для обнаружения звуковой активности и классификации звуковых сигналов
Bessette et al. The adaptive multirate wideband speech codec (AMR-WB)
US8438019B2 (en) Classification of audio signals
EP2176860B1 (en) Processing of frames of an audio signal
JP4112027B2 (ja) 再生成位相情報を用いた音声合成
JP3611858B2 (ja) 減少レート、可変レートの音声分析合成を実行する方法及び装置
US8260609B2 (en) Systems, methods, and apparatus for wideband encoding and decoding of inactive frames
RU2421828C2 (ru) Системы и способы для включения идентификатора в пакет, ассоциативно связанный с речевым сигналом
US8532984B2 (en) Systems, methods, and apparatus for wideband encoding and decoding of active frames
CA2673492C (en) Pitch lag estimation
US20050177364A1 (en) Methods and devices for source controlled variable bit-rate wideband speech coding
JP4907826B2 (ja) 閉ループのマルチモードの混合領域の線形予測音声コーダ
AU2005236596A1 (en) Signal encoding
JP2017097367A (ja) Celpコーデックにおける励振信号の適応寄与分および固定寄与分の利得を量子化するための装置および方法
Jelinek et al. Wideband speech coding advances in VMR-WB standard
Yeldener et al. Multiband linear predictive speech coding at very low bit rates
Villette et al. A 2.4/1.2 kbps SB-LPC based speech coder: the Turkish NATO STANAG candidate
McClellan et al. Efficient pitch filter encoding for variable rate speech processing
Yu et al. Variable bit rate MBELP speech coding via v/uv distribution dependent spectral quantization
JP2011090311A (ja) 閉ループのマルチモードの混合領域の線形予測音声コーダ
Paksoy et al. Speech Coding Standards in Mobile Communications
Li et al. Phonetic classification for a novel Mandarin vocoder
Stefanovic et al. Source-Dependent Variable Rate Speech Coding below 3 KBPS
Paksoy et al. Speech Coding Standards in