RU2371784C2 - Изменение масштаба времени кадров в вокодере посредством изменения остатка - Google Patents

Изменение масштаба времени кадров в вокодере посредством изменения остатка Download PDF

Info

Publication number
RU2371784C2
RU2371784C2 RU2007137643/09A RU2007137643A RU2371784C2 RU 2371784 C2 RU2371784 C2 RU 2371784C2 RU 2007137643/09 A RU2007137643/09 A RU 2007137643/09A RU 2007137643 A RU2007137643 A RU 2007137643A RU 2371784 C2 RU2371784 C2 RU 2371784C2
Authority
RU
Russia
Prior art keywords
speech
tone
segments
vocoder
residual
Prior art date
Application number
RU2007137643/09A
Other languages
English (en)
Other versions
RU2007137643A (ru
Inventor
Рохит КАПУР (US)
Рохит КАПУР
СПИНДОЛА Серафин ДИАС (US)
Спиндола Серафин Диас
Original Assignee
Квэлкомм Инкорпорейтед
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Family has litigation
First worldwide family litigation filed litigation Critical https://patents.darts-ip.com/?family=36575961&utm_source=google_patent&utm_medium=platform_link&utm_campaign=public_patent_search&patent=RU2371784(C2) "Global patent litigation dataset” by Darts-ip is licensed under a Creative Commons Attribution 4.0 International License.
Application filed by Квэлкомм Инкорпорейтед filed Critical Квэлкомм Инкорпорейтед
Publication of RU2007137643A publication Critical patent/RU2007137643A/ru
Application granted granted Critical
Publication of RU2371784C2 publication Critical patent/RU2371784C2/ru

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/16Vocoder architecture
    • G10L19/18Vocoders using multiple modes
    • G10L19/20Vocoders using multiple modes using sound class specific coding, hybrid encoders or object based coding
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/08Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters
    • G10L19/12Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters the excitation function being a code excitation, e.g. in code excited linear prediction [CELP] vocoders
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/003Changing voice quality, e.g. pitch or formants
    • G10L21/007Changing voice quality, e.g. pitch or formants characterised by the process used
    • G10L21/01Correction of time axis

Landscapes

  • Engineering & Computer Science (AREA)
  • Human Computer Interaction (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Quality & Reliability (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)
  • Electric Clocks (AREA)
  • Transmission Systems Not Characterized By The Medium Used For Transmission (AREA)

Abstract

Изобретение относится к передаче речи, в частности, к способу изменения масштаба времени вокодерных кадров в вокодере. Технический результат - повышение точности кодирования речевых данных. Изобретение содержит вокодер, имеющий, по меньшей мере, один вход и, по меньшей мере, один выход, кодер, содержащий фильтр, имеющий, по меньшей мере, один вход, функционально связанный с входом вокодера, и, по меньшей мере, один выход, декодер, содержащий синтезатор, имеющий, по меньшей мере, один вход, функционально связанный с, по меньшей мере, одним выходом кодера, и, по меньшей мере, один выход, функционально связанный с, по меньшей мере, одним выходом вокодера, при этом кодер содержит память и кодер выполнен с возможностью выполнения команд, сохраненных в памяти, содержащих классификацию речевых сегментов и кодирование речевых сегментов, и декодер содержит память, и декодер выполнен с возможностью выполнения команд, сохраненных в памяти, содержащих изменение масштаба времени остаточного речевого сигнала к расширенному или сжатому виду остаточного речевого сигнала. 4 н. и 41 з.п. ф-лы, 17 ил.

Description

Заявление на приоритет
Эта заявка заявляет приоритет по предварительной заявке № 60/660,824, названной «Изменение масштаба времени кадров в вокодере посредством изменения остатка», поданной 11 марта 2005, полное описание этой заявки считается частью описания этой заявки и включено сюда в качестве ссылки.
Область техники
Настоящее изобретение относится в целом к способу изменения масштаба времени (расширения или сжатия) вокодерных кадров в вокодере. Изменение масштаба времени имеет ряд применений в сетях с переключением пакетов, где пакеты вокодера могут поступать асинхронно. Пока может выполняться изменение масштаба времени в вокодере или вне вокодера, выполняя его в вокодере, предоставляется ряд преимуществ, таких как лучшее качество кадров, подвергшихся изменению масштаба времени, и уменьшение вычислительной нагрузки. Способы, представленные в документах, могут применяться в любом вокодере, который использует похожие методы, о которых идет речь в этой заявке на патент для вокодерных голосовых данных.
Уровень техники
Настоящее изобретение содержит устройство и способ для изменения масштаба времени речевых кадров посредством манипуляции речевым сигналом. В одном варианте осуществления настоящий способ и устройство используются в, но не ограничивая, Четвертом Генерирующем Вокодере (4ГВ) (4GV). Описанные варианты осуществления содержат способы и устройства для расширения/сжатия различных типов речевых сегментов.
Сущность изобретения
В связи с вышеизложенным описанные признаки настоящего изобретения в целом относятся к одной или более улучшенным системам, способам и/или устройствам для передачи речи.
В одном варианте осуществления настоящее изобретение содержит способ передачи речи, содержащий этапы на которых классифицируют речевые сегменты, кодируют речевые сегменты, используя линейное предсказание с кодовым возбуждением, и изменяют масштаб времени остаточного речевого сигнала к расширенному или сжатому виду остаточного речевого сигнала.
В другом варианте осуществления способ передачи речи дополнительно содержит отправку речевого сигнала через кодирующий фильтр с линейным предсказанием, посредством чего фильтруя кратковременные корреляции в речевом сигнале и выдавая коэффициенты кодирования с линейным предсказанием и остаточный сигнал.
В другом варианте осуществления кодирование является кодированием с линейным предсказанием с кодовым возбуждением и этап изменения масштаба времени содержит оценку задержки тона, разделение речевого кадра на периоды тона, при этом границы периодов тона определяются с использованием задержки тона в различных точках речевого кадра, совмещение периодов тона, если сжимается остаточный речевой сигнал, и добавление периодов тона, если расширяется остаточный речевой сигнал.
В другом варианте осуществления кодирование является кодированием периода тона образца и этап изменения масштаба времени содержит оценку по меньшей мере одного периода тона, интерполяцию по меньшей мере одного периода тона, добавление по меньшей мере одного периода тона, когда расширяют остаточный речевой сигнал, и выделение по меньшей мере одного периода тона, когда сжимают остаточный речевой сигнал.
В другом варианте осуществления кодированием является кодирование с линейным предсказанием с шумовым возбуждением и этап изменения масштаба времени содержит применение возможных различных коэффициентов усилений к различным частям речевого сегмента до его синтеза.
В другом варианте осуществления настоящее изобретение содержит вокодер, имеющий по меньшей мере один вход и по меньшей мере один выход, кодер включает в себя фильтр, имеющий по меньшей мере один вход, функционально связанный с входом вокодера, и по меньшей мере один выход, декодер, включающий в себя синтезатор, имеющий по меньшей мере один вход, функционально связанный с по меньшей мере одним выходом упомянутого кодера, и по меньшей мере один выход, функционально связанный с по меньшей мере одним выходом упомянутого вокодера.
В другом варианте осуществления кодер содержит память, при этом кодер выполнен с возможностью исполнения команд, сохраненных в памяти, содержащих классификацию речевых сегментов по 1/8 кадра, период тона образца, линейное предсказание с кодовым возбуждением или линейное предсказание с шумовым возбуждением.
В другом варианте осуществления декодер содержит память и декодер выполнен с возможностью исполнения команд, сохраненных в памяти, содержащих изменение масштаба времени остаточного сигнала к расширенному или сжатому виду остаточного сигнала.
Кроме того, объем применения настоящего изобретения станет очевидным из последующего подробного описания, формулы и чертежей. Однако будет понятно, что подробное описание и конкретные примеры, несмотря на то, что показывают предпочтительные варианты осуществления изобретения, даются только для иллюстрации, поскольку различные изменения и модификации в сущности и объеме изобретения станут очевидными для специалиста в уровне техники.
Краткое описание чертежей
Настоящее изобретение станет более понятным из подробного описания, данного здесь ниже, приложенной формулы и сопровождающих чертежей, на которых:
Фиг.1 - блок-схема Кодирующего вокодера с Линейным Предсказанием (КЛП) (LPC);
Фиг.2а - речевой сигнал, содержащий вокализированную речь.
Фиг.2в - речевой сигнал, содержащий невокализированную речь.
Фиг.2с - речевой сигнал, содержащий изменяющуюся речь.
Фиг.3 - блок-схема, показывающая Фильтрацию с LPC речи, следующей за Кодированием Остатка.
Фиг.4а - кривая Первоначальной Речи.
Фиг.4в - кривая Остаточного Речевого Сигнала после Фильтрации c LPC.
Фиг.5 показывает генерацию форм колебаний сигнала, используя Интерполяцию между Предыдущим и Текущим Периодами Тона Образца.
Фиг.6а показывает определение Задержек Тона при помощи Интерполяции.
Фиг.6в показывает идентификацию периодов тона.
Фиг.7а представляет первоначальный речевой сигнал в форме периодов тона.
Фиг.7в представляет расширенный речевой сигнал, используя совмещение-добавление.
Фиг.7с представляет речевой сигнал, сжатый, используя совмещение-добавление.
Фиг.7d представляет, как используется взвешивание для сжатия остаточного сигнала.
Фиг.7е представляет речевой сигнал, сжатый без использования совмещения-добавления.
Фиг.7f представляет, как используется взвешивание для расширения остаточного сигнала; и
Фиг.8 содержит два выражения, используемые в способе добавления-совмещения.
Подробное раскрытие
Слово «иллюстративный» используется здесь для обозначения «служащий в качестве примера, образца или иллюстрации». Любой вариант осуществления, описанный здесь как «иллюстративный», необязательно интерпретируется как предпочтительный или преимущественный над другими вариантами осуществления.
Признаки использования изменения масштаба времени в вокодере
Человеческие голоса состоят из двух компонентов. Один компонент содержит основные гармоники, которые являются чувствительными к тону, и другой является фиксированными гармониками, которые не являются чувствительными к тону. Воспринимаемый тон звука является частотой, воспринимаемой ухом, т.е. для большинства конкретных целей тон является частотой. Компоненты гармоники добавляют отличительные характеристики к персональному голосу. Они изменяют также голосовые связки и физическую форму вокального тракта и называются формантами.
Человеческий голос может представляться цифровым сигналом s(n) 10. Представление s(n) 10 является цифровым речевым сигналом, полученным во время обычного разговора, включающего в себя различные голосовые звуки и периоды молчания. Речевой сигнал s(n) 10 предпочтительно разделяется на кадры 20. В одном варианте осуществления s(n) 10 квантуется по 8 кГц.
Текущие схемы кодирования сжимают цифровой речевой сигнал 10 в сигнал с низкой битовой скоростью посредством удаления всех естественных избыточностей (т.е. коррелированные элементы), присущих речи. Речь обычно представляет собой временные избыточности, получающиеся из механического действия губ и языка, и долговременные избыточности, получающиеся из вибрации голосовых связок. Кодирование с линейным предсказанием (КЛП) (LPC) фильтрует речевой сигнал 10 посредством удаления избыточностей, создавая остаточный речевой сигнал 30. Он затем моделирует итоговый остаточный сигнал 30 в качестве белого шума Гаусса. Эталонное значение формы колебания речевого сигнала может прогнозироваться посредством взвешивания суммы числа предыдущих эталонов 40, каждый из которых умножается на коэффициент 50 линейного предсказания. Поэтому кодеры с линейным предсказанием обеспечивают уменьшенную битовую скорость посредством передачи коэффициентов 50 фильтра и квантованного шума вместо речевого сигнала 10 полного диапазона. Остаточный сигнал 30 кодируется посредством выделения периода 100 образца из текущего кадра 20 остаточного сигнала 30.
Блок-схему в одном варианте осуществления вокодера 70 LPC, используемого настоящим способом, и устройство, можно увидеть на Фиг.1. Функция LPC предназначена для минимизации суммы квадрата разности между первоначальным речевым сигналом и оцененным речевым сигналом за определенный промежуток времени. Это может создавать уникальный набор коэффициентов 50 средства предсказания, которые обычно оценивают каждый кадр 20. Кадр 20 обычно равен 20 мс. Функция передачи цифрового фильтра 75 с временным изменением выражается:
Figure 00000001
где коэффициенты 50 средства предсказания представляются как ak и коэффициент усиления как G.
Сумма вычисляется от k=1 до k=p. Если используется способ LPC-10, тогда p=10. Это означает, что только первые 10 коэффициентов передаются на синтезатор 80 LPC. Два наиболее обычно используемых способа для вычисления коэффициентов являются, но не ограничивая, ковариационным способом и автокорреляционным способом.
Говорить с разной скоростью является общим для разных говорящих. Время сжатия является одним способом уменьшения эффекта изменения скорости для индивидуальных говорящих. Временные разницы между двумя образцами речи могут быть уменьшены посредством изменения масштаба временной оси одного с тем, чтобы достигнуть максимального совпадения с другим. Этот метод временного сжатия известен как изменение масштаба времени. Кроме того, изменение масштаба времени сжимает или расширяет голосовые сигналы без изменения их тона.
Обычно вокодеры создают кадры 20 с продолжительностью 20 мсек, включая в себя 160 эталонов 90 с предпочтительной скоростью 8 кГц. Сжатый вид изменения масштаба времени этого кадра 20 имеет продолжительность менее, чем 20 мсек, в то время как расширенный вид изменения масштаба времени имеет продолжительность более, чем 20 мсек. Изменение масштаба времени голосовых данных имеет значительные преимущества, когда отправляют голосовые данные через сети с переключением пакетов, которые представляют флуктуации времени задержки в передаче голосовых пакетов. В таких сетях изменение масштаба времени может использоваться для уменьшения эффектов такой флуктуации временной задержки и создания «синхронно» просматриваемого голосового потока.
Варианты осуществления изобретения относятся к устройству и способу изменения масштаба времени кадров 20 в вокодере 70 посредством манипулирования речевым остатком 30. В одном варианте осуществления настоящий способ и устройство используются в 4GV. Описанные варианты осуществления содержат способы и устройства или системы для расширения/сжатия различных типов 4GV речевых сегментов 110, кодированных с помощью Периода Тона Образца (ПТО) (PPP), кодирования с Линейным Предсказанием С Кодовым Возбуждением (ЛПВК) (CELP) или (Линейным Предсказанием С Шумовым Возбужденнием (ЛПВШ) (NELP).
Термином «вокодер» 70 обычно называется устройство, которое сжимает вокализированную речь посредством извлечения параметров на основе модели генерации человеческой речи. Вокодеры 70 включают в себя кодер 204 и декодер 206. Кодер 204 анализирует входящую речь и извлекает релевантные параметры. В одном варианте осуществления кодер содержит фильтр 75. Декодер 206 синтезирует речь, используя параметры, которые он принимает от кодера 204 по каналу 208 передачи. В одном варианте осуществления декодер содержит синтезатор 80. Речевой сигнал 10 часто разделяют на кадры 20 данных и блок обрабатывается вокодером 70.
Специалисту в уровне техники будет понятно, что человеческая речь может классифицироваться различными путями. Тремя обычными классификациями речи являются вокализированные, невокализированные звуки и неустойчивая речь. Фиг.2а показывает вокализированный речевой сигнал s(n) 402. Фиг.2а показывает измеряемое общее свойство вокализированной речи, известное как период 100 тона.
Фиг.2в - невокализированный речевой сигнал s(n) 404. Невокализированный речевой сигнал 404 напоминает цветной шум.
Фиг.2с показывает неустойчивый речевой сигнал s(n) 406 (т.е. речь, которая является ни вокализированой, ни невокализированой). Пример неустойчивой речи 406, показанный на Фиг.2с, может представлять переход s(n) между невокализированной речью и вокализированной речью. Эти три классификации не все включают в себя. Есть много различных классификаций речи, которые могут использоваться в соответствии со способами, описанными здесь, для достижения сопоставимых результатов.
4GV Вокодер Использует 4 Разных Типа Кадра
Четвертый генерирующий вокодер (4ГВ) (4GV) 70, используемый в одном из вариантов осуществления изобретения, обеспечивает эффективные признаки для использования в беспроводных сетях. Некоторые из этих признаков включают в себя способность в соотношении качества в сравнении с битовой скоростью, более гибкое кодирование речевых сигналов несмотря на увеличенную скорость пакетных ошибок (СПО) (PER), лучшее маскирование стираний и т.д. 4GV вокодер 70 может использовать любые четыре разных кодера 204 и декодера 206. Разные кодеры 204 и декодеры 206 работают в соответствии с разными схемами кодирования. Некоторые кодеры 204 более эффективны в частях кодирования речевого сигнала s(n) 10, представляя определенные свойства. Поэтому в одном варианте осуществления режимы кодеров 204 и декодеров 206 могут выбираться на основе классификации текущего кадра 20.
4GV кодер 204 кодирует каждый фрейм 20 голосовых данных в одном из четырех различных типов кадров 20: Интерполяция Формы Колебания Сигнала Периода Тона Образца (ИФКСПТО) (PPPWI), Линейное предсказание с кодовым возбуждением (ЛПВК) (CELP), Линейное предсказание с шумовым возбуждением (ЛПВШ) (NELP) или кадр 1/8 скорости молчания. CELP используется для кодирования речи с малой периодичностью или речи, которая включает в себя изменение от одного периодического сегмента 110 к другому. Так режим CELP обычно выбирается для кодирования кадров, проклассифицированных как неустойчивая речь. Так как такие сегменты 110 не могут быть точно восстановлены только из одного периода тона образца, CELP кодирует характеристики завершенного речевого сегмента 110. Режим CELP вызывает модель линейного предсказания голосового тракта с квантованным видом остаточного сигнала 30 линейного предсказания. Из всех кодеров 204 и декодеров 206, описанных здесь, CELP обычно создает более точное речевое восстановление, но требует высокой битовой скорости.
Режим периода тона образца (ПТО) (PPP) может выбираться для кодовых фреймов 20, проклассифицированных как вокализированная речь. Вокализированная речь содержит медленно изменяющиеся во времени периодические компоненты, которые используются режимом PPP. Режим PPP кодирует поднабор периодов 100 тона в каждом кадре 20. Остальные периоды 100 речевого сигнала 10 восстанавливаются посредством интерполяции между этими периодами 100 образца. При использовании периодичности вокализированной речи PPP способен достигать битовой скорости ниже, чем CELP, и еще воспроизводить речевой сигнал 10 в перцепционно точной манере.
PPPWI используется для кодирования речевых данных, которые являются периодичными по природе. Такая речь характеризуется различными периодами 100 тона, схожими с периодом тона «образца» (ПТО) (PPP). Этот PPP является только голосовой информацией, которая необходима кодеру 204 для кодирования. Декодер может использовать этот PPP для восстановления других периодов 100 тона в речевом сегменте 110.
Кодер 204 с «Линейным Предсказанием С Шумовым Возбуждением» (ЛПВШ) (NELP) выбирается для кодовых фреймов 20, проклассифицированных как невокализированная речь. Кодирование NELP работает эффективно в терминах восстановления сигнала, где речевой сигнал 10 имеет малую или не малую структуру тона. Более конкретно, NELP используется для кодирования речи, которая имеет характер подобный шуму, такой как невокализированная речь или фон. NELP использует фильтрованные сигналы псевдослучайного шума в модели невокализированной речи. Шумовой характер таких речевых сегментов 110 может восстанавливаться посредством генерирования случайных сигналов в декодере 206 и применения к ним назначенных коэффициентов усилений. NELP использует наипростейшую модель для кодирования речи и поэтому достигает низкую битовую скорость.
Кадры 1/8 скорости используются для кодирования молчания, например периодов, когда пользователь не разговаривает.
Все из четырех схем кодирования речевых сигналов, описанных выше, совместно используют начальную процедуру фильтрации LPC, как показано на Фиг.3. После классификации речи по четырем категориям речевой сигнал 10 отправляется через кодирующий фильтр 80 с линейным предсказанием (КЛП) (LPC), который фильтрует кратковременные корреляции в речи, используя линейное предсказание. Выходные сигналы этого блока являются коэффициентами 50 LPC и «остаточным» сигналом 30, который в основном является начальным речевым сигналом 10 с кратковременными корреляциями, удаленными из него. Затем остаточный сигнал 30 кодируется, используя конкретные способы, используемые способами кодирования речевого сигнала, выбранными для кадра 20.
Фиг.4а-4в показывают пример начального речевого сигнала 10 и остаточного сигнала 30 после блока 80 LPC. Можно видеть, что остаточный сигнал 30 показывает периоды 100 тона более отчетливо, чем начальная речь 10. Понятно, таким образом, что остаточный сигнал 30 может использоваться для определения периода 100 тона речевого сигнала более точно, чем начальный сигнал 10 (который также содержит кратковременные корреляции).
Изменение масштаба остаточного времени
Как установлено выше, изменение масштаба времени может использоваться для расширения или сжатия речевого сигнала 10. Хотя ряд способов может использоваться для достижения этого, многие из них основываются на добавлении или удалении периодов 100 тона из сигнала 10. Добавление или удаление периодов 100 тона могут выполняться в декодере 206 после приема остаточного сигнала 30, но до синтеза сигнала 30. Для речевых данных, которые кодируются с помощью CELP или PPP (не NELP), сигнал включает в себя ряд периодов 100 тонов. Таким образом, наименьший блок, который может добавляться или удаляться из речевого сигнала 10, является периодом 100 тона, т.к. любой блок меньший, чем этот, будет приводить к фазовому разрыву в представлении заметного речевого артефакта. Так одним шагом в способах изменения масштаба времени, применяемых для речи CELP или PPP, является оценка периода 100 тона. Такой период 100 тона уже известен для декодера 206 для речевых кадров 20 CELP/PPP. В случае PPP и CELP информация тона вычисляется кодером 204 с помощью автокорреляционных способов и передается на декодер 206. Таким образом, декодер 206 имеет точные знания о периоде 100 тона. Это создает простоту применения способа изменения масштаба времени настоящего изобретения в декодере 206.
Кроме того, как установлено выше, проще изменить масштаб времени сигнала 10 до синтеза сигнала 10. Если такие способы изменения масштаба времени были применены после декодирования сигнала 10, необходимо будет оценить период 100 тона сигнала 10. Это требует не только дополнительного вычисления, но также оценки периода 100 тона могут не быть точными, т.к. остаточный сигнал 30 также содержит информацию 170 LPC.
С другой стороны, если дополнительные оценки периода 100 тона тоже не являются комплексными, тогда выполнение изменения масштаба времени после декодирования не требует изменений в декодере 206 и поэтому может выполняться только один раз для всех вокодеров 80.
Другая причина выполнения изменения масштаба времени в декодере 206 до синтеза сигнала, используя кодирующий синтез LPC, заключается в том, что сжатие/расширение может применяться к остаточному сигналу 30. Это позволяет синтезу кодирования с линейным предсказанием (LPC) применяться для остаточного сигнала 30, подвергшегося изменению масштаба времени. Коэффициенты 50 LPC играют роль в том, как речевые звуки и применение синтеза после изменения масштаба гарантируют, что поддерживается корректная информация 170 LPC в сигнале 10.
Если, с одной стороны, изменение масштаба времени выполняется после декодирования остаточного сигнала 30, синтез LPC уже выполнен до изменения масштаба времени. Таким образом, процедура изменения масштаба может изменять информацию 170 LPC сигнала 10, особенно, если предсказание периода 100 тона после декодирования не было очень точным. В одном варианте осуществления этапы, выполняемые способами изменения масштаба времени, описанные в настоящей заявке, сохраняются в качестве команд, расположенных в программном обеспечении или встроенной программе 81, расположенной в памяти 82. На Фиг.1 память показывается расположенной в декодере 206. Память 82 может также располагаться вне декодера 206.
Кодер 204 (такой как один из 4GV) может классифицировать речевые кадры 20 как PPP (периодичные), CELP (слабо периодичные) или NELP (шумовые) в зависимости от того, представляют ли кадры 20 вокализированную, невокализированную или неустойчивую речь. Используя информацию о типе речевого кадра, декодер 206 может изменять масштаб времени разных типов кадров 20, используя различные способы. Например, речевой кадр 20 NELP не имеет понятия о периодах тона и его остаточный сигнал 30 генерируется в декодере 206, используя «случайную» информацию. Таким образом, оценка периода 100 тона CELP/PPP не применяется к NELP и в целом кадры 20 NELP могут изменять масштаб времени (расширяться/сжиматься) на менее, чем период 100 тона. Такая информация не является пригодной, если изменение масштаба времени выполняется после декодирования остаточного сигнала 30 в декодере 206. В целом изменение масштаба времени кадров 20, подобных NELP, после декодирования приводит к артефактам. Изменение масштаба времени кадров 20 NELP в декодере 206, с другой стороны, создает более лучшее качество.
Таким образом, есть два преимущества выполнения изменения масштаба времени в декодере 206 (т.е. до синтеза остаточного сигнала 30) против пост-декодера (т.е. после синтеза остаточного сигнала 30): (i) уменьшение дополнительных расчетов (например, избежание поиска периода 100 тона) и (ii) улучшенное качество изменения масштаба времени вследствие а) знания типа кадра 20, b) выполнения синтеза LPC сигнала, подвергшегося изменению масштаба времени, и с) более точная оценка/знание периода тона.
Способы изменения масштаба времени остатка
Последующее описание вариантов осуществления, в которых настоящие способ и устройство изменяют масштаб времени речевого остатка 30 в декодерах PPP, CELP и NELP. Следующие два этапа выполняются в каждом декодере 206: (i) изменение масштаба времени остаточного сигнала 30 к расширенному или сжатому виду; и (ii) отправка остатка 30, подвергшегося изменению масштаба времени, через фильтр 80 LPC. Кроме того, этап (i) по-разному выполняется для речевых сегментов 110 PPP, CELP и NELP. Варианты осуществления будут описаны ниже.
Изменение Масштаба Времени Остаточного сигнала, когда речевой сегмент является PPP
Как установлено выше, когда речевой сегмент 110 является PPP, наименьшим блоком, который может добавляться или удаляться из сигнала, является период 100 тона. До того, как сигнал 10 может декодироваться (и восстановлен остаток 30) из периода 100 тона образца, декодер 206 интерполирует сигнал 10 из предыдущего периода 100 тона образца (который сохраняется) в период 100 тона образца в текущем кадре 20, добавляя недостающие периоды 100 тона в процесс. Этот процесс показан на Фиг.5. Такая интерполяция придает простоту в изменении масштаба времени посредством создания менее или более интерполированных периодов 100 тона. Это будет приводить к сжатию или расширению остаточных сигналов 30, которые затем отправляются через синтез LPC.
Изменение Масштаба Времени Остаточного Сигнала, когда речевой сегмент 110 является CELP
Как установлено ранее, когда речевой сегмент 110 является PPP, наименьшим блоком, который может добавляться или удаляться из сигнала, является период 100 тона. С другой стороны, в случае CELP, изменение масштаба времени также не является непосредственным для PPP. Для изменения масштаба времени остатка 30 декодер 206 использует информацию о задержке 180 тона, содержащейся в кодированном кадре 20. Эта задержка 180 тона действительно является задержкой 180 тона в конце кадра 20. Следует отметить, что даже в периодическом кадре 20, задержка 180 тона может немного изменяться. Задержки 180 тона в любой точке в кадре могут оцениваться интерполяцией между задержкой 180 тона в конце последнего кадра 20 и в конце текущего кадра 20. Это показано на Фиг.6. Как только известны задержки 180 тона во всех точках кадра 20, кадр может разделяться на периоды 100 тона. Границы периодов 100 тона определяются, используя задержки 100 тона в различных точках в кадре 20.
Фиг.6а показывает пример того, как разделяют кадр 20 на его периоды 100 тона. Например, количество эталонов 70 имеет задержку 70 тона, равную приблизительно 70, и количество эталонов 142 имеет задержку 190 приблизительно 72. Таким образом, периоды 100 тона получаются из числа эталонов [1-70] и из числа эталонов [71-142]. См. Фиг.6в.
Один кадр 20 разделен на периоды 100 тона, эти периоды 100 тона могут затем совмещаться-добавляться для увеличения/уменьшения размера остатка 30. См. Фиг.7в-7f. В синтезе совмещения и добавления, измененный сигнал получается посредством удаления сегментов 110 из входного сигнала 10, перемещения их вдоль временной оси и выполнения взвешенного совмещенного суммирования для создания синтезированного сигнала 150. В одном варианте осуществления сегмент 110 может равняться периоду 100 тона. Способ совмещения-добавления заменяет два различных речевых сегмента 110 на один речевой сегмент 110 посредством «объединения» сегментов 110 речи. Объединение речи выполняется способом сохранения, на сколько возможно, большего качества речи. Качество защиты речи и минимизации представления артефактов в речи выполняется посредством тщательного выбора сегментов 110 для объединения. (Артефакты являются нежелательными объектами подобно щелчку, хлопку и т.д.). Выбор речевых сегментов 110 базируется на «сходстве» сегментов. Близость «сходства» речевых сегментов 110, лучшее результирующее речевое качество и низкая вероятность представления речевого артефакта, когда два сегмента 110 речи совмещаются для уменьшения/увеличения размера речевого остатка 30. Правилом полезности для определения, должны ли периоды тона совмещаться-добавляться, является, если схожи задержки тона двух (как например, если задержки тона различаются менее чем 15 эталонам, которые соответствуют около 1,8 мсек).
Фиг.7с показывает, как используется совмещение-добавление для сжатия остатка 30. Первым этапом способа совмещения/добавления является сегментирование входных эталонных последовательностей s(n) 10 на их периоды тона, как объяснено выше. На Фиг.7а показан начальный речевой сигнал 10, включающий 4 периода 100 (ПТ) (PP) тона. Следующий этап включает в себя удаление периодов 100 тона сигнала 10, показанных на Фиг.7а, и замену этих периодов 100 тона на объединенные периоды 100 тона. Например на Фиг.7с, периоды PP2 и PP3 тона удаляются и затем заменяются одним периодом 100 тона, в котором PP2 и PP3 совмещаются-суммируются. Более конкретно, на Фиг.7с, периоды 100 PP2 и PP3 тона совмещаются-добавляются таким образом, что доля второго периода 100 (PP2) тона уменьшается и что PP3 увеличивается. Способ добавления-совмещения создает один речевой сегмент 110 из двух разных речевых сегментов 110. В одном варианте осуществления добавление-совмещение выполняется, используя взвешенные эталоны. Это показывается выражениями а) и b), показанными на Фиг.8. Взвешивание используется для обеспечения сглаживания перехода между первым эталоном PMC (ИКМ) (Импульсно-Кодовой Модуляции) Сегмента1 (110) и последним эталоном PMC Сегмента2 (110).
Фиг.7d является другой графической иллюстрацией совмещенных-добавленных PP2 и PP3. Плавное микширование улучшает качество времени сигнала 10, сжатого этим способом, по сравнению с простым удалением одного сегмента 110 и соединения оставшихся соседних сегментов 110 (как показано на Фиг.7е).
В случае, когда период 100 тона изменяется, способ совмещения-добавления может объединять два периода 110 тона неравной длины. В этом случае лучшее объединение может достигаться посредством выравнивания пиков двух периодов 100 тона до их совмещения-добавления. Расширенный/сжатый остаток затем отправляется через синтез LPC.
Речевое расширение
Простым подходом в расширении речи является выполнение множества повторений одинаковых эталонов PMC. Однако повторение одинаковых эталонов PMC более чем один раз может создать области с ровными тонами, которые являются артефактами, которые легко определяются людьми (например, речь может звучать немного роботизировано). Для сохранения качества речи может использоваться способ добавления-совмещения.
Фиг.7в показывает, как этот речевой сигнал 10 может расширяться, используя способ совмещения-добавления настоящего изобретения. На Фиг.7в добавляется дополнительный период 100 тона, созданный из периодов 100 PP1 и PP2 тона. В дополнительном периоде 100 тона периоды 100 PP2 и PP1 тона совмещаются-добавляются таким образом, что доля второго периода 100 (PP2) тона уменьшается и что PP1 увеличивается. Фиг.7f является другой графической иллюстрацией совмещенных добавленных PP2 и PP3.
Изменение Масштаба Времени Остаточного Сигнала, когда речевой сегмент является NELP
Для речевых сегментов NELP кодер кодирует информацию LPC, а также коэффициенты усиления для различных частей речевого сегмента 110. Необходимо кодировать любую другую информацию, т.к. речь по природе очень подобна шуму. В одном варианте осуществления коэффициенты усиления кодируются в наборе из 16 эталонов PMC. Так, например, кадр из 160 эталонов может представляться 10 кодированными значениями коэффициента усиления, один для каждых 16 эталонов речи. Декодер 206 генерирует остаточный сигнал 30 посредством генерирования случайных значений и затем применяя к ним соответствующие коэффициенты усиления. В этом случае здесь не может быть понятия период 100 тона и по существу расширение/сжатие не может выполняться, не имея неравномерности периода 100 тона.
Для расширения или сжатия NEL сегмента, декодер 206 генерирует количество сегментов (110) больше или меньше, чем 160, в зависимости от того, расширяется или сужается сегмент 110. 10 декодированных коэффициентов усиления затем применяются к эталонам для генерирования расширенного или сжатого остатка 30. Так как эти 10 декодированных коэффициентов усиления соответствуют начальным 160 эталонам, они прямо не применяются для расширения/сжатия эталонов. Различные способы могут использоваться для применения этих коэффициентов усиления. Некоторые из этих способов описываются ниже.
Если количество генерируемых эталонов меньше, чем 160, тогда нет необходимости в применении всех 10 коэффициентов усиления. Например, если количество эталонов равно 144, могут применяться первые 9 коэффициентов усилений. В этом примере первый коэффициент усиления применяется к первым 16 эталонам, эталоны 1-16, второй коэффициент усиления применяется к следующим 16 эталонам, эталоны 17-32, и т.д. Аналогично, если эталонов больше, чем 160, тогда 10-й коэффициент усиления может применяться более чем один раз. Например, если количество эталонов равно 192, 10-й коэффициент усиления может применяться к эталонам 145-160, 161-176 и 177-192.
Альтернативно, эталоны могут разделяться на 10 наборов из одинакового количества, каждый набор имеет одинаковое количество эталонов, и 10 коэффициентов усиления могут применяться к 10 наборам. Например, если количество эталонов равно 140, 10 коэффициентов усилений могут применяться к наборам из 14 эталонов в каждом. В этом примере первый коэффициент усиления применяется к первым 14 эталонам, эталоны 1-14, второй коэффициент усиления применяется к следующим 14 эталонам, эталоны 14-28, и т.д.
Если количество эталонов полностью не делится на 10, тогда 10-й коэффициент усиления может применяться к оставшимся эталонам, полученным после разделения на 10. Например, если количество эталонов равно 145, 10 коэффициентов усиления может применяться к наборам из 14 эталонов в каждом. Дополнительно, 10-й коэффициент усиления применяется к эталонам 141-145.
После изменения масштаба времени расширенный/сжатый остаток 30 отправляется через синтез LPC, где используются любые перечисленные выше способы кодирования.
Специалисту в уровне техники будет понятно, что информация и сигналы могут представляться, используя любой из множества различных технологий и методов. Например, данные, инструкции, команды, информация, сигналы, биты, символы и чипы, которые могут ссылаться по упомянутому выше описанию, могут представляться напряжениями, токами, электромагнитными волнами, магнитными полями или частицами, оптическими полями или частицами или любой их комбинацией.
Специалисту в уровне техники будет очевидно, что различные иллюстративные логические блоки, модули, схемы и этапы алгоритма, описанные в связке с вариантами осуществления, описанными здесь, могут выполняться в качестве электронной аппаратуры, компьютерного программного обеспечения или их комбинации. Для ясности иллюстрации этой равноценности аппаратуры и программного обеспечения различные иллюстративные компоненты, блоки, модули, схемы и этапы описаны выше в терминах их функциональности. Любая такая функциональность выполняется аппаратно или программно в зависимости от конкретного применения и ограничений конструкции, заданных на всю систему. Специалист может выполнить описанную функциональность различными способами для каждого конкретного применения, но такие решения выполнения не следует интерпретировать как отход от объема настоящего изобретения.
Различные иллюстративные логические блоки, модули и схемы, описанные в связке с вариантами осуществления, описанными здесь, могут воплощаться или выполняться в процессоре общего назначения, Процессоре Цифровых Сигналов (ПЦС) (DSP), Специализированной Интегральной схеме (СИС) (ASIC), Программируемой Пользователем Вентильной Матрице (ППВМ) (FPGA) или других программно-логических устройствах, логическом элементе на дискретных компонентах или транзисторной логике, дискретных аппаратных компонентах или любой их комбинации, предназначенной для выполнения функций, описанных здесь. Процессором общего назначения может быть микропроцессор, но в альтернативе, процессором может быть любой обычный процессор, контроллер, микроконтроллер или конечный автомат. Процессор может также выполняться как комбинация вычислительных устройств, например комбинация DSP и микропроцессора, множество микропроцессоров, один или более микропроцессоров в связке с ядром DSP или любая другая такая конфигурация.
Этапы способа или алгоритма, описанные в связке с вариантами осуществления, описанными здесь, могут выполняться прямо в аппаратуре, в программном модуле, выполняемом процессором, или в комбинации этих двух. Программный модуль может располагаться в Оперативной памяти (RAM), флэш-памяти, Постоянной Памяти (ROM), Электрически Программируемой ROM (EPROM), Электрически Стираемой Программируемой ROM (EEPROM), регистрах, жестком диске, сменном диске, CD-ROM или любой другой форме запоминающего носителя, известного из уровня техники. Иллюстративный носитель подключается к процессору так, чтобы процессор мог считывать информацию с и записывать информацию на запоминающий носитель. В альтернативе запоминающий носитель может встраиваться в процессор. Процессор и запоминающий носитель могут располагаться в ASIC. ASIC может располагаться в пользовательском терминале. В альтернативе, процессор и запоминающий носитель могут располагаться как дискретные компоненты в пользовательском терминале. Предыдущее описание раскрытых вариантов осуществления приспособлено для создания или использования настоящего изобретения любым специалистом в уровне технике. Различные модификации этих вариантов осуществления будут без труда очевидны специалисту в уровне техники и общие принципы, определенные здесь, могут применяться для других вариантов осуществления без отхода от сущности или объема изобретения. Таким образом, настоящее изобретение не подлежит ограничению вариантами осуществления, показанными здесь, но подлежит согласованию с широким объемом, согласующимся с принципами и новыми признаками, описанными здесь.

Claims (45)

1. Способ передачи речи, содержащий этапы, на которых:
классифицируют речевые сегменты;
кодируют упомянутые речевые сегменты;
изменяют масштаб времени остаточного речевого сигнала путем добавления или выделения, по меньшей мере, одного эталона к остаточному речевому сигналу, используя способ изменения масштаба времени, основанный на классификации; и
синтезируют упомянутый остаточный речевой сигнал, подвергшийся изменению масштаба времени.
2. Способ передачи речи по п.1, в котором упомянутый этап кодирования речевых сегментов содержит использование периодов тона образца, линейное предсказание с кодовым возбуждением, линейное предсказание с шумовым возбуждением или 1/8 кадрового кодирования.
3. Способ передачи по речи п.1, дополнительно содержащий этапы, на которых:
отправляют упомянутый речевой сигнал через кодирующий фильтр с линейным предсказанием, посредством чего фильтруя кратковременные корреляции в упомянутом речевом сигнале; и
выдают коэффициенты кодирования с линейным предсказанием и остаточный сигнал.
4. Способ передачи речи по п.1, в котором упомянутый этап классифицирования речевых сегментов содержит классификацию речевых кадров на периодические, слабопериодические или шумовые в зависимости от того, представляют ли кадры вокализированную, невокализированную или неустойчивую речь.
5. Способ передачи речи по п.1, в котором упомянутое кодирование является кодированием с линейным предсказанием с кодовым возбуждением.
6. Способ передачи речи по п.1, в котором упомянутое кодирование является кодированием периода тона образца.
7. Способ передачи речи по п.1, в котором упомянутое кодирование является кодированием с линейным предсказанием с шумовым возбуждением.
8. Способ по п.5, в котором упомянутый этап изменения масштаба времени содержит
оценку периода тона.
9. Способ по п.5, в котором этап изменения масштаба времени содержит:
оценку задержки тона;
разделение речевого кадра на периоды тона, при этом границы упомянутых периодов тона определяют, используя упомянутую задержку тона в различных точках упомянутого речевого кадра;
совмещение упомянутых периодов тона, если уменьшается упомянутый остаточный речевой сигнал; и
добавление упомянутых периодов тона, если увеличивается упомянутый остаточный речевой сигнал.
10. Способ по п.6, в котором упомянутый этап изменения масштаба времени содержит этапы, на которых:
оценивают по меньшей мере один период тона;
интерполируют упомянутый по меньшей мере один период тона;
добавляют упомянутый по меньшей мере один период тона, когда добавляют, по меньшей мере, один эталон; и
выделяют упомянутый по меньшей мере один период тона, когда выделяют, по меньшей мере, один эталон.
11. Способ по п.7, в котором упомянутый этап кодирования содержит кодирование информации кодирования с линейным предсказанием в качестве коэффициентов усиления разных частей речевого сегмента.
12. Способ по п.9, в котором упомянутый этап совмещения упомянутых периодов тона, если уменьшается упомянутый речевой остаточной сигнал, содержит:
сегментирование входной эталонной последовательности в блоки эталонов;
удаление сегментов упомянутого остаточного сигнала за постоянные интервалы времени;
объединение упомянутых удаленных сегментов и замену упомянутых удаленных сегментов на объединенный сегмент.
13. Способ по п.9, в котором упомянутый этап оценки задержки тона содержит интерполяцию между задержкой тона конца последнего кадра и конца текущего кадра.
14. Способ по п.9, в котором упомянутый этап добавления упомянутых периодов тона содержит объединение речевых сегментов.
15. Способ по п.9, в котором упомянутый этап добавления упомянутых периодов тона, если увеличивается упомянутый остаточный речевой сигнал, содержит добавление дополнительного периода тона, созданного из первого сегмента периода тона и второго сегмента периода тона.
16. Способ по п.11, в котором упомянутые коэффициенты усиления кодируются для наборов речевых эталонов.
17. Способ по п.12, в котором упомянутый этап объединения упомянутых удаленных сегментов содержит увеличение доли первого сегмента периода тона и уменьшение доли второго сегмента периода тона.
18. Способ по п.14, дополнительно содержащий этап выбора схожих речевых сегментов, при этом объединяют упомянутые схожие речевые сегменты.
19. Способ по п.14, дополнительно содержащий этап корреляции речевых сегментов, посредством чего выбирают схожие речевые сегменты.
20. Способ по п.15, в котором упомянутый этап добавления дополнительного периода тона, созданного из первого сегмента периода тона и второго сегмента периода тона, содержит сложение упомянутого первого и упомянутого второго сегментов периода тона таким образом, что увеличивается доля упомянутого первого сегмента периода тона и уменьшается доля упомянутого второго сегмента периода тона.
21. Способ по п.16, дополнительно содержащий этап генерирования остаточного сигнала посредством генерирования случайных значений и последующего применения упомянутых коэффициентов усиления к упомянутым случайным значениям.
22. Способ по п.16, дополнительно содержащий этап представления упомянутой информации кодирования с линейным предсказанием в качестве 10 кодированных значений коэффициентов усиления, при этом каждое кодированное значение коэффициента усиления представляет 16 эталонов речи.
23. Вокодер, имеющий по меньшей мере один вход и по меньшей мере один выход, содержащий:
кодер, содержащий фильтр, имеющий по меньшей мере один вход, функционально связанный с входом вокодера, и по меньшей мере один выход; и
декодер, содержащий синтезатор, имеющий по меньшей мере один вход, функционально связанный с упомянутым по меньшей мере одним выходом упомянутого кодера, и по меньшей мере один выход, функционально связанный с упомянутым по меньшей мере одним выходом вокодера, и память, причем декодер выполнен с возможностью выходом вокодера, и память, причем декодер выполнен с возможностью исполнения программных команд в памяти, которые исполняются для изменения масштаба времени остаточного речевого сигнала путем добавления или выделения, по меньшей мере, одного эталона к остаточному речевому сигналу, используя способ изменения масштаба времени, основанный на классификации речевых сегментов.
24. Вокодер по п.23, в котором упомянутый кодер содержит память и упомянутый кодер выполнен с возможностью выполнения программных команд, сохраненных в упомянутой памяти, содержащих классификацию речевых сегментов по 1/8 кадра, периоды тона образца, линейное предсказание с кодовым возбуждением или линейное предсказание с шумовым возбуждением.
25. Вокодер по п.24, в котором упомянутый фильтр является кодирующим фильтром с линейным предсказанием, который выполнен с возможностью:
фильтрации кратковременных корреляций в речевом сигнале и
выдачи коэффициентов кодирования с линейным предсказанием и остаточного сигнала.
26. Вокодер по п.24, в котором, упомянутый кодер содержит:
память и упомянутый кодер выполнен с возможностью выполнения
программных команд, сохраненных в упомянутой памяти, содержащих кодирование упомянутых речевых сегментов, используя кодирование с линейным предсказанием с кодовым возбуждением.
27. Вокодер по п.24, в котором упомянутый кодер содержит:
память и упомянутый кодер выполнен с возможностью выполнения программных команд, сохраненных в упомянутой памяти, содержащих кодирование упомянутых речевых сегментов, используя кодирование периода тона образца.
28. Вокодер по п.24, в котором упомянутый кодер содержит:
память и упомянутый кодер выполнен с возможностью выполнения программных команд, сохраненных в упомянутой памяти, содержащих кодирование упомянутых речевых сегментов, используя кодирование с линейным предсказанием с шумовым возбуждением.
29. Вокодер по п.26, в котором упомянутая программная команда изменения масштаба времени содержит
оценку, по меньшей мере, одного периода тона.
30. Вокодер по п.26, в котором упомянутая программная команда изменения масштаба времени содержит
оценку задержки тона;
разделение речевого кадра на периоды тона, при этом границы упомянутых периодов тона определяют, используя упомянутую задержку тона в различных точках упомянутого речевого кадра;
совмещение упомянутых периодов тона, если уменьшается упомянутый остаточный речевой сигнал; и
добавление упомянутых периодов тона, если увеличивается остаточный речевой сигнал.
31. Вокодер по п.27, в котором упомянутая программная команда изменения масштаба времени содержит
оценку, по меньшей мере, одного период тона; интерполяцию упомянутого, по меньшей мере, одного периода тона;
добавление упомянутого, по меньшей мере, одного периода тона, когда добавляют, по меньшей мере, один эталон; и
выделение упомянутого, по меньшей мере, одного периода тона, когда выделяют, по меньшей мере, один эталон.
32. Вокодер по п.28, в котором упомянутое кодирование упомянутых речевых сегментов, используя программную команду кодирования с линейным предсказанием с шумовым возбуждением, содержит кодирование информации кодирования с линейным предсказанием в качестве коэффициентов усиления различных частей речевых сегментов.
33. Вокодер по п.30, в котором упомянутое совмещение упомянутых периодов тона, если уменьшается упомянутый речевой остаточный сигнал, содержит
сегментацию входной эталонной последовательности на блоки эталонов;
удаление сегментов упомянутого остаточного сигнала в постоянные интервалы времени;
объединение упомянутых объединенных сегментов и
замену упомянутых удаленных сегментов на объединенный сегмент.
34. Вокодер по п.30, в котором упомянутая команда оценки задержки тона содержит интерполяцию между задержкой тона конца последнего кадра и конца текущего кадра.
35. Вокодер по п.30, в котором упомянутая команда суммирования упомянутых периодов тона содержит объединение речевых сегментов.
36. Вокодер по п.30, в котором упомянутая команда добавления упомянутых периодов тона, если увеличивается упомянутый речевой остаточный сигнал, содержит добавление дополнительного периода тона, созданного из первого сегмента периода тона и второго сегмента периода тона.
37. Вокодер по п.32, в котором упомянутые коэффициенты усиления кодируются для наборов речевых эталонов.
38. Вокодер по п.33, в котором упомянутая команда объединения упомянутых удаленных сегментов содержит увеличение доли первого сегмента периода тона и уменьшение доли второго сегмента периода тона.
39. Вокодер по п.35, дополнительно содержащий этап выбора схожих речевых сегментов, при этом объединяются упомянутые схожие речевые сегменты.
40. Вокодер по п.35, в котором упомянутая команда изменения масштаба времени дополнительно содержит корреляцию речевых сегментов, посредством чего выбираются схожие речевые сегменты.
41. Вокодер по п.36, в котором упомянутая команда дополнения дополнительного периода тона, созданного из первого сегмента периода тона и второго сегмента периода тона, содержит добавление упомянутого первого и второго сегментов периода тона таким образом, что увеличивается упомянутая доля первого сегмента периода тона и уменьшается доля второго сегмента периода тона.
42. Вокодер по п.37, в котором упомянутая команда изменения масштаба времени дополнительно содержит генерирование остаточного сигнала посредством генерирования случайных значений с последующим применением упомянутых коэффициентов усиления к упомянутым случайным значениям.
43. Вокодер по п.37, в котором упомянутая команда изменения масштаба времени дополнительно содержит представление упомянутой информации кодирования с линейным предсказанием в качестве 10 кодированных значений коэффициента усиления, при этом каждое кодированное значение коэффициента усиления представляет 16 эталонов речи.
44. Вокодер, содержащий:
средства для классифицирования речевых сегментов;
средства для кодирования упомянутых речевых сегментов;
средства для изменения масштаба времени остаточного речевого сигнала путем добавления или выделения, по меньшей мере, одного эталона к остаточному речевому сигналу, используя способ изменения масштаба времени, основанный на классификации речевых сегментов; и
средства для синтезирования упомянутого остаточного речевого сигнала, подвергшегося изменению масштаба времени.
45. Считываемый процессором носитель для передачи речи, содержащий команды для
классифицирования речевых сегментов;
кодирования упомянутых речевых сегментов;
изменения масштаба времени остаточного речевого сигнала путем добавления или выделения, по меньшей мере, одного эталона к остаточному речевому сигналу, используя способ изменения масштаба времени, основанный на классификации речевых сегментов; и
синтезирования упомянутого остаточного речевого сигнала, подвергшегося изменению масштаба времени.
RU2007137643/09A 2005-03-11 2006-03-13 Изменение масштаба времени кадров в вокодере посредством изменения остатка RU2371784C2 (ru)

Applications Claiming Priority (4)

Application Number Priority Date Filing Date Title
US66082405P 2005-03-11 2005-03-11
US60/660,824 2005-03-11
US11/123,467 2005-05-05
US11/123,467 US8155965B2 (en) 2005-03-11 2005-05-05 Time warping frames inside the vocoder by modifying the residual

Publications (2)

Publication Number Publication Date
RU2007137643A RU2007137643A (ru) 2009-04-20
RU2371784C2 true RU2371784C2 (ru) 2009-10-27

Family

ID=36575961

Family Applications (1)

Application Number Title Priority Date Filing Date
RU2007137643/09A RU2371784C2 (ru) 2005-03-11 2006-03-13 Изменение масштаба времени кадров в вокодере посредством изменения остатка

Country Status (14)

Country Link
US (1) US8155965B2 (ru)
EP (1) EP1856689A1 (ru)
JP (1) JP5203923B2 (ru)
KR (2) KR100956623B1 (ru)
AU (1) AU2006222963C1 (ru)
BR (1) BRPI0607624B1 (ru)
CA (1) CA2600713C (ru)
IL (1) IL185935A (ru)
MX (1) MX2007011102A (ru)
NO (1) NO20075180L (ru)
RU (1) RU2371784C2 (ru)
SG (1) SG160380A1 (ru)
TW (1) TWI389099B (ru)
WO (1) WO2006099529A1 (ru)

Families Citing this family (38)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6691084B2 (en) * 1998-12-21 2004-02-10 Qualcomm Incorporated Multiple mode variable rate speech coding
WO2006026635A2 (en) * 2004-08-30 2006-03-09 Qualcomm Incorporated Adaptive de-jitter buffer for voice over ip
US7674096B2 (en) * 2004-09-22 2010-03-09 Sundheim Gregroy S Portable, rotary vane vacuum pump with removable oil reservoir cartridge
US8085678B2 (en) * 2004-10-13 2011-12-27 Qualcomm Incorporated Media (voice) playback (de-jitter) buffer adjustments based on air interface
US8355907B2 (en) * 2005-03-11 2013-01-15 Qualcomm Incorporated Method and apparatus for phase matching frames in vocoders
CA2603255C (en) * 2005-04-01 2015-06-23 Qualcomm Incorporated Systems, methods, and apparatus for wideband speech coding
EP1875464B9 (en) * 2005-04-22 2020-10-28 Qualcomm Incorporated Method, storage medium and apparatus for gain factor attenuation
US8259840B2 (en) * 2005-10-24 2012-09-04 General Motors Llc Data communication via a voice channel of a wireless communication network using discontinuities
US7720677B2 (en) * 2005-11-03 2010-05-18 Coding Technologies Ab Time warped modified transform coding of audio signals
US8239190B2 (en) * 2006-08-22 2012-08-07 Qualcomm Incorporated Time-warping frames of wideband vocoder
US8279889B2 (en) * 2007-01-04 2012-10-02 Qualcomm Incorporated Systems and methods for dimming a first packet associated with a first bit rate to a second packet associated with a second bit rate
US9653088B2 (en) 2007-06-13 2017-05-16 Qualcomm Incorporated Systems, methods, and apparatus for signal encoding using pitch-regularizing and non-pitch-regularizing coding
US8401865B2 (en) 2007-07-18 2013-03-19 Nokia Corporation Flexible parameter update in audio/speech coded signals
US20090319261A1 (en) * 2008-06-20 2009-12-24 Qualcomm Incorporated Coding of transitional speech frames for low-bit-rate applications
US20090319263A1 (en) * 2008-06-20 2009-12-24 Qualcomm Incorporated Coding of transitional speech frames for low-bit-rate applications
US8768690B2 (en) * 2008-06-20 2014-07-01 Qualcomm Incorporated Coding scheme selection for low-bit-rate applications
KR101400535B1 (ko) 2008-07-11 2014-05-28 프라운호퍼 게젤샤프트 쭈르 푀르데룽 데어 안겐반텐 포르슝 에. 베. 시간 워프 활성 신호의 제공 및 이를 이용한 오디오 신호의 인코딩
MY154452A (en) 2008-07-11 2015-06-15 Fraunhofer Ges Forschung An apparatus and a method for decoding an encoded audio signal
EP2144230A1 (en) 2008-07-11 2010-01-13 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Low bitrate audio encoding/decoding scheme having cascaded switches
US8798776B2 (en) * 2008-09-30 2014-08-05 Dolby International Ab Transcoding of audio metadata
US20100191534A1 (en) * 2009-01-23 2010-07-29 Qualcomm Incorporated Method and apparatus for compression or decompression of digital signals
US8428938B2 (en) * 2009-06-04 2013-04-23 Qualcomm Incorporated Systems and methods for reconstructing an erased speech frame
EP2491555B1 (en) 2009-10-20 2014-03-05 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Multi-mode audio codec
US8996364B2 (en) * 2010-04-12 2015-03-31 Smule, Inc. Computational techniques for continuous pitch correction and harmony generation
TWI409802B (zh) * 2010-04-14 2013-09-21 Univ Da Yeh 音頻特徵處理方法及其裝置
MY160265A (en) 2011-02-14 2017-02-28 Fraunhofer-Gesellschaft Zur Forderung Der Angewandten Forschung E V Apparatus and Method for Encoding and Decoding an Audio Signal Using an Aligned Look-Ahead Portion
SG185519A1 (en) 2011-02-14 2012-12-28 Fraunhofer Ges Forschung Information signal representation using lapped transform
EP2676264B1 (en) 2011-02-14 2015-01-28 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Audio encoder estimating background noise during active phases
SG192734A1 (en) 2011-02-14 2013-09-30 Fraunhofer Ges Forschung Apparatus and method for error concealment in low-delay unified speech and audio coding (usac)
JP5625126B2 (ja) 2011-02-14 2014-11-12 フラウンホーファー−ゲゼルシャフト・ツール・フェルデルング・デル・アンゲヴァンテン・フォルシュング・アインゲトラーゲネル・フェライン スペクトル領域ノイズ整形を使用する線形予測ベースコーディングスキーム
JP5800915B2 (ja) 2011-02-14 2015-10-28 フラウンホッファー−ゲゼルシャフト ツァ フェルダールング デァ アンゲヴァンテン フォアシュンク エー.ファオ オーディオ信号のトラックのパルス位置の符号化および復号化
BR112013020482B1 (pt) 2011-02-14 2021-02-23 Fraunhofer Ges Forschung aparelho e método para processar um sinal de áudio decodificado em um domínio espectral
MY159444A (en) 2011-02-14 2017-01-13 Fraunhofer-Gesellschaft Zur Forderung Der Angewandten Forschung E V Encoding and decoding of pulse positions of tracks of an audio signal
ES2623291T3 (es) 2011-02-14 2017-07-10 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Codificación de una porción de una señal de audio utilizando una detección de transitorios y un resultado de calidad
CN103092330B (zh) * 2011-10-27 2015-11-25 宏碁股份有限公司 电子装置及其语音辨识方法
TWI584269B (zh) * 2012-07-11 2017-05-21 Univ Nat Central Unsupervised language conversion detection method
FR3024582A1 (fr) * 2014-07-29 2016-02-05 Orange Gestion de la perte de trame dans un contexte de transition fd/lpd
WO2016142002A1 (en) * 2015-03-09 2016-09-15 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Audio encoder, audio decoder, method for encoding an audio signal and method for decoding an encoded audio signal

Family Cites Families (96)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS5643800A (en) 1979-09-19 1981-04-22 Fujitsu Ltd Multilayer printed board
JPS57158247A (en) 1981-03-24 1982-09-30 Tokuyama Soda Co Ltd Flame retardant polyolefin composition
JPS59153346A (ja) * 1983-02-21 1984-09-01 Nec Corp 音声符号化・復号化装置
JPS61156949A (ja) 1984-12-27 1986-07-16 Matsushita Electric Ind Co Ltd 音声パケツト通信方式
BE1000415A7 (nl) 1987-03-18 1988-11-22 Bell Telephone Mfg Asynchroon op basis van tijdsverdeling werkend communicatiesysteem.
JPS6429141A (en) 1987-07-24 1989-01-31 Nec Corp Packet exchange system
JP2760810B2 (ja) 1988-09-19 1998-06-04 株式会社日立製作所 音声パケット処理方法
SE462277B (sv) 1988-10-05 1990-05-28 Vme Ind Sweden Ab Hydrauliskt styrsystem
JPH04113744A (ja) 1990-09-04 1992-04-15 Fujitsu Ltd 可変速度パケット伝送方式
AU642540B2 (en) * 1990-09-19 1993-10-21 Philips Electronics N.V. Record carrier on which a main data file and a control file have been recorded, method of and device for recording the main data file and the control file, and device for reading the record carrier
JP2846443B2 (ja) 1990-10-09 1999-01-13 三菱電機株式会社 パケット組立分解装置
US5283811A (en) * 1991-09-03 1994-02-01 General Electric Company Decision feedback equalization for digital cellular radio
US5371853A (en) * 1991-10-28 1994-12-06 University Of Maryland At College Park Method and system for CELP speech coding and codebook for use therewith
US5317604A (en) * 1992-12-30 1994-05-31 Gte Government Systems Corporation Isochronous interface method
JP3186315B2 (ja) * 1993-02-27 2001-07-11 ソニー株式会社 信号圧縮装置、信号伸張装置、信号送信装置、信号受信装置及び信号送受信装置
US5490479A (en) * 1993-05-10 1996-02-13 Shalev; Matti Method and a product resulting from the use of the method for elevating feed storage bins
US5440562A (en) * 1993-12-27 1995-08-08 Motorola, Inc. Communication through a channel having a variable propagation delay
WO1996005697A1 (en) * 1994-08-12 1996-02-22 Sony Corporation Video signal editing device
NL9401696A (nl) 1994-10-14 1996-05-01 Nederland Ptt Bufferuitleesbesturing van ATM ontvanger.
US5602959A (en) * 1994-12-05 1997-02-11 Motorola, Inc. Method and apparatus for characterization and reconstruction of speech excitation waveforms
US5699478A (en) 1995-03-10 1997-12-16 Lucent Technologies Inc. Frame erasure compensation technique
US5929921A (en) 1995-03-16 1999-07-27 Matsushita Electric Industrial Co., Ltd. Video and audio signal multiplex sending apparatus, receiving apparatus and transmitting apparatus
JP3286110B2 (ja) 1995-03-16 2002-05-27 松下電器産業株式会社 音声パケット補間装置
KR0164827B1 (ko) * 1995-03-31 1999-03-20 김광호 프로그램 가이드신호 수신기
JPH09127995A (ja) 1995-10-26 1997-05-16 Sony Corp 信号復号化方法及び信号復号化装置
US5640388A (en) * 1995-12-21 1997-06-17 Scientific-Atlanta, Inc. Method and apparatus for removing jitter and correcting timestamps in a packet stream
JPH09261613A (ja) 1996-03-26 1997-10-03 Mitsubishi Electric Corp データ受信再生装置
US5940479A (en) * 1996-10-01 1999-08-17 Northern Telecom Limited System and method for transmitting aural information between a computer and telephone equipment
JPH10190735A (ja) 1996-12-27 1998-07-21 Secom Co Ltd 通話システム
US6073092A (en) * 1997-06-26 2000-06-06 Telogy Networks, Inc. Method for speech coding based on a code excited linear prediction (CELP) model
US6240386B1 (en) * 1998-08-24 2001-05-29 Conexant Systems, Inc. Speech codec employing noise classification for noise compensation
US6259677B1 (en) * 1998-09-30 2001-07-10 Cisco Technology, Inc. Clock synchronization and dynamic jitter management for voice over IP and real-time data
US6370125B1 (en) * 1998-10-08 2002-04-09 Adtran, Inc. Dynamic delay compensation for packet-based voice network
US6456964B2 (en) * 1998-12-21 2002-09-24 Qualcomm, Incorporated Encoding of periodic speech using prototype waveforms
US6922669B2 (en) * 1998-12-29 2005-07-26 Koninklijke Philips Electronics N.V. Knowledge-based strategies applied to N-best lists in automatic speech recognition systems
EP1088302B1 (en) 1999-04-19 2008-07-23 AT & T Corp. Method for performing packet loss concealment
US7117156B1 (en) * 1999-04-19 2006-10-03 At&T Corp. Method and apparatus for performing packet loss or frame erasure concealment
GB9911737D0 (en) * 1999-05-21 1999-07-21 Philips Electronics Nv Audio signal time scale modification
US6785230B1 (en) * 1999-05-25 2004-08-31 Matsushita Electric Industrial Co., Ltd. Audio transmission apparatus
JP4218186B2 (ja) 1999-05-25 2009-02-04 パナソニック株式会社 音声伝送装置
JP4895418B2 (ja) 1999-08-24 2012-03-14 ソニー株式会社 音声再生方法および音声再生装置
EP1221694B1 (en) 1999-09-14 2006-07-19 Fujitsu Limited Voice encoder/decoder
US6377931B1 (en) * 1999-09-28 2002-04-23 Mindspeed Technologies Speech manipulation for continuous speech playback over a packet network
US6859460B1 (en) * 1999-10-22 2005-02-22 Cisco Technology, Inc. System and method for providing multimedia jitter buffer adjustment for packet-switched networks
US6665317B1 (en) 1999-10-29 2003-12-16 Array Telecom Corporation Method, system, and computer program product for managing jitter
US6496794B1 (en) * 1999-11-22 2002-12-17 Motorola, Inc. Method and apparatus for seamless multi-rate speech coding
US6366880B1 (en) * 1999-11-30 2002-04-02 Motorola, Inc. Method and apparatus for suppressing acoustic background noise in a communication system by equaliztion of pre-and post-comb-filtered subband spectral energies
US6693921B1 (en) * 1999-11-30 2004-02-17 Mindspeed Technologies, Inc. System for use of packet statistics in de-jitter delay adaption in a packet network
GB2360178B (en) * 2000-03-06 2004-04-14 Mitel Corp Sub-packet insertion for packet loss compensation in Voice Over IP networks
US6813274B1 (en) * 2000-03-21 2004-11-02 Cisco Technology, Inc. Network switch and method for data switching using a crossbar switch fabric with output port groups operating concurrently and independently
AU2001247578A1 (en) 2000-04-03 2001-10-15 Ericsson Inc. Method and apparatus for efficient handover in packet data communication system
US6584438B1 (en) * 2000-04-24 2003-06-24 Qualcomm Incorporated Frame erasure compensation method in a variable rate speech coder
EP2040253B1 (en) 2000-04-24 2012-04-11 Qualcomm Incorporated Predictive dequantization of voiced speech
US7246057B1 (en) * 2000-05-31 2007-07-17 Telefonaktiebolaget Lm Ericsson (Publ) System for handling variations in the reception of a speech signal consisting of packets
US7016970B2 (en) * 2000-07-06 2006-03-21 Matsushita Electric Industrial Co., Ltd. System for transmitting stream data from server to client based on buffer and transmission capacities and delay time of the client
US7155518B2 (en) * 2001-01-08 2006-12-26 Interactive People Unplugged Ab Extranet workgroup formation across multiple mobile virtual private networks
US20020133334A1 (en) * 2001-02-02 2002-09-19 Geert Coorman Time scale modification of digitally sampled waveforms in the time domain
US20040204935A1 (en) * 2001-02-21 2004-10-14 Krishnasamy Anandakumar Adaptive voice playout in VOP
US7212517B2 (en) * 2001-04-09 2007-05-01 Lucent Technologies Inc. Method and apparatus for jitter and frame erasure correction in packetized voice communication systems
WO2002087137A2 (en) 2001-04-24 2002-10-31 Nokia Corporation Methods for changing the size of a jitter buffer and for time alignment, communications system, receiving end, and transcoder
US7006511B2 (en) 2001-07-17 2006-02-28 Avaya Technology Corp. Dynamic jitter buffering for voice-over-IP and other packet-based communication systems
US7266127B2 (en) * 2002-02-08 2007-09-04 Lucent Technologies Inc. Method and system to compensate for the effects of packet delays on speech quality in a Voice-over IP system
US7079486B2 (en) * 2002-02-13 2006-07-18 Agere Systems Inc. Adaptive threshold based jitter buffer management for packetized data
US7158572B2 (en) * 2002-02-14 2007-01-02 Tellabs Operations, Inc. Audio enhancement communication techniques
US7126957B1 (en) * 2002-03-07 2006-10-24 Utstarcom, Inc. Media flow method for transferring real-time data between asynchronous and synchronous networks
US7263109B2 (en) * 2002-03-11 2007-08-28 Conexant, Inc. Clock skew compensation for a jitter buffer
US20030187663A1 (en) 2002-03-28 2003-10-02 Truman Michael Mead Broadband frequency translation for high frequency regeneration
JP3761486B2 (ja) * 2002-03-29 2006-03-29 Necインフロンティア株式会社 無線lanシステム、主装置およびプログラム
AU2002307884A1 (en) * 2002-04-22 2003-11-03 Nokia Corporation Method and device for obtaining parameters for parametric speech coding of frames
US7496086B2 (en) * 2002-04-30 2009-02-24 Alcatel-Lucent Usa Inc. Techniques for jitter buffer delay management
US7280510B2 (en) * 2002-05-21 2007-10-09 Nortel Networks Limited Controlling reverse channel activity in a wireless communications system
WO2003107591A1 (en) * 2002-06-14 2003-12-24 Nokia Corporation Enhanced error concealment for spatial audio
US7336678B2 (en) * 2002-07-31 2008-02-26 Intel Corporation State-based jitter buffer and method of operation
US8520519B2 (en) * 2002-09-20 2013-08-27 Broadcom Corporation External jitter buffer in a packet voice system
JP3796240B2 (ja) 2002-09-30 2006-07-12 三洋電機株式会社 ネットワーク電話機および音声復号化装置
JP4146708B2 (ja) 2002-10-31 2008-09-10 京セラ株式会社 通信システム、無線通信端末、データ配信装置及び通信方法
US6996626B1 (en) * 2002-12-03 2006-02-07 Crystalvoice Communications Continuous bandwidth assessment and feedback for voice-over-internet-protocol (VoIP) comparing packet's voice duration and arrival rate
KR100517237B1 (ko) 2002-12-09 2005-09-27 한국전자통신연구원 직교 주파수 분할 다중화 무선 통신 시스템에서의채널품질 추정과 링크적응 방법 및 그 장치
US7525918B2 (en) * 2003-01-21 2009-04-28 Broadcom Corporation Using RTCP statistics for media system control
US7394833B2 (en) * 2003-02-11 2008-07-01 Nokia Corporation Method and apparatus for reducing synchronization delay in packet switched voice terminals using speech decoder modification
JP2004266724A (ja) 2003-03-04 2004-09-24 Matsushita Electric Ind Co Ltd リアルタイム音声用バッファ制御装置
JP3825007B2 (ja) * 2003-03-11 2006-09-20 沖電気工業株式会社 ジッタバッファの制御方法
US7551671B2 (en) * 2003-04-16 2009-06-23 General Dynamics Decision Systems, Inc. System and method for transmission of video signals using multiple channels
JP2005057504A (ja) 2003-08-05 2005-03-03 Matsushita Electric Ind Co Ltd データ通信装置及びデータ通信方法
CA2446469A1 (en) * 2003-08-15 2005-02-15 M-Stack Limited Apparatus, and an associated method, for preserving communication service quality levels during hand-off of communications in a radio communication system
US7596488B2 (en) 2003-09-15 2009-09-29 Microsoft Corporation System and method for real-time jitter control and packet-loss concealment in an audio signal
US7505764B2 (en) * 2003-10-28 2009-03-17 Motorola, Inc. Method for retransmitting a speech packet
US7272400B1 (en) * 2003-12-19 2007-09-18 Core Mobility, Inc. Load balancing between users of a wireless base station
US7424026B2 (en) * 2004-04-28 2008-09-09 Nokia Corporation Method and apparatus providing continuous adaptive control of voice packet buffer at receiver terminal
JP4076981B2 (ja) 2004-08-09 2008-04-16 Kddi株式会社 通信端末装置およびバッファ制御方法
US8085678B2 (en) * 2004-10-13 2011-12-27 Qualcomm Incorporated Media (voice) playback (de-jitter) buffer adjustments based on air interface
SG124307A1 (en) * 2005-01-20 2006-08-30 St Microelectronics Asia Method and system for lost packet concealment in high quality audio streaming applications
US8102872B2 (en) * 2005-02-01 2012-01-24 Qualcomm Incorporated Method for discontinuous transmission and accurate reproduction of background noise information
US20060187970A1 (en) * 2005-02-22 2006-08-24 Minkyu Lee Method and apparatus for handling network jitter in a Voice-over IP communications network using a virtual jitter buffer and time scale modification
US8355907B2 (en) 2005-03-11 2013-01-15 Qualcomm Incorporated Method and apparatus for phase matching frames in vocoders
CA2603255C (en) * 2005-04-01 2015-06-23 Qualcomm Incorporated Systems, methods, and apparatus for wideband speech coding

Also Published As

Publication number Publication date
AU2006222963B2 (en) 2010-04-08
CA2600713A1 (en) 2006-09-21
JP5203923B2 (ja) 2013-06-05
KR100957265B1 (ko) 2010-05-12
MX2007011102A (es) 2007-11-22
IL185935A (en) 2013-09-30
JP2008533529A (ja) 2008-08-21
US8155965B2 (en) 2012-04-10
NO20075180L (no) 2007-10-31
TWI389099B (zh) 2013-03-11
RU2007137643A (ru) 2009-04-20
KR100956623B1 (ko) 2010-05-11
BRPI0607624A2 (pt) 2009-09-22
KR20090119936A (ko) 2009-11-20
US20060206334A1 (en) 2006-09-14
AU2006222963A1 (en) 2006-09-21
EP1856689A1 (en) 2007-11-21
TW200638336A (en) 2006-11-01
KR20070112832A (ko) 2007-11-27
BRPI0607624B1 (pt) 2019-03-26
CA2600713C (en) 2012-05-22
SG160380A1 (en) 2010-04-29
AU2006222963C1 (en) 2010-09-16
WO2006099529A1 (en) 2006-09-21
IL185935A0 (en) 2008-01-06

Similar Documents

Publication Publication Date Title
RU2371784C2 (ru) Изменение масштаба времени кадров в вокодере посредством изменения остатка
RU2414010C2 (ru) Трансформация шкалы времени кадров в широкополосном вокодере
CN100369112C (zh) 可变速率语音编码
US7930176B2 (en) Packet loss concealment for block-independent speech codecs
JP5203929B2 (ja) スペクトルエンベロープ表示のベクトル量子化方法及び装置
US8386246B2 (en) Low-complexity frame erasure concealment
KR100956526B1 (ko) 보코더에서 프레임을 위상 매칭하는 방법 및 장치
US8670990B2 (en) Dynamic time scale modification for reduced bit rate audio coding
JP2010501896A5 (ru)
US9779741B2 (en) Generation of comfort noise
CN101171626B (zh) 通过修改残余对声码器内的帧进行时间扭曲
US20090055171A1 (en) Buzz reduction for low-complexity frame erasure concealment
JP2001147700A (ja) 音声信号の後処理方法および装置並びにプログラムを記録した記録媒体
Yaghmaie Prototype waveform interpolation based low bit rate speech coding