RU2371784C2 - Изменение масштаба времени кадров в вокодере посредством изменения остатка - Google Patents
Изменение масштаба времени кадров в вокодере посредством изменения остатка Download PDFInfo
- Publication number
- RU2371784C2 RU2371784C2 RU2007137643/09A RU2007137643A RU2371784C2 RU 2371784 C2 RU2371784 C2 RU 2371784C2 RU 2007137643/09 A RU2007137643/09 A RU 2007137643/09A RU 2007137643 A RU2007137643 A RU 2007137643A RU 2371784 C2 RU2371784 C2 RU 2371784C2
- Authority
- RU
- Russia
- Prior art keywords
- speech
- tone
- segments
- vocoder
- residual
- Prior art date
Links
- 230000008859 change Effects 0.000 claims abstract description 30
- 238000000034 method Methods 0.000 claims description 73
- 230000005540 biological transmission Effects 0.000 claims description 9
- 230000005284 excitation Effects 0.000 claims description 8
- 230000000737 periodic effect Effects 0.000 claims description 8
- 230000007423 decrease Effects 0.000 claims description 7
- 238000001914 filtration Methods 0.000 claims description 6
- 230000002194 synthesizing effect Effects 0.000 claims description 4
- 230000003247 decreasing effect Effects 0.000 claims 2
- 230000011218 segmentation Effects 0.000 claims 2
- 239000013589 supplement Substances 0.000 claims 1
- 230000000694 effects Effects 0.000 abstract description 3
- 238000005516 engineering process Methods 0.000 abstract description 2
- 239000000126 substance Substances 0.000 abstract 1
- 230000015572 biosynthetic process Effects 0.000 description 13
- 238000003786 synthesis reaction Methods 0.000 description 13
- 230000001934 delay Effects 0.000 description 6
- 230000006835 compression Effects 0.000 description 4
- 238000007906 compression Methods 0.000 description 4
- 238000010586 diagram Methods 0.000 description 3
- 238000004364 calculation method Methods 0.000 description 2
- 230000006870 function Effects 0.000 description 2
- 230000014509 gene expression Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 239000002245 particle Substances 0.000 description 2
- 230000008569 process Effects 0.000 description 2
- 238000011084 recovery Methods 0.000 description 2
- 230000009467 reduction Effects 0.000 description 2
- 230000007704 transition Effects 0.000 description 2
- 210000001260 vocal cord Anatomy 0.000 description 2
- 101100247669 Quaranfil virus (isolate QrfV/Tick/Afghanistan/EG_T_377/1968) PB1 gene Proteins 0.000 description 1
- 101100242901 Quaranfil virus (isolate QrfV/Tick/Afghanistan/EG_T_377/1968) PB2 gene Proteins 0.000 description 1
- 101150025928 Segment-1 gene Proteins 0.000 description 1
- 101150082826 Segment-2 gene Proteins 0.000 description 1
- 101100242902 Thogoto virus (isolate SiAr 126) Segment 1 gene Proteins 0.000 description 1
- 101100194052 Thogoto virus (isolate SiAr 126) Segment 2 gene Proteins 0.000 description 1
- 230000009471 action Effects 0.000 description 1
- 230000003321 amplification Effects 0.000 description 1
- 230000008602 contraction Effects 0.000 description 1
- 230000002596 correlated effect Effects 0.000 description 1
- 230000000875 corresponding effect Effects 0.000 description 1
- 239000000284 extract Substances 0.000 description 1
- 230000007774 longterm Effects 0.000 description 1
- 230000000873 masking effect Effects 0.000 description 1
- 238000003199 nucleic acid amplification method Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000010355 oscillation Effects 0.000 description 1
- 230000001755 vocal effect Effects 0.000 description 1
- 238000005303 weighing Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/04—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
- G10L19/16—Vocoder architecture
- G10L19/18—Vocoders using multiple modes
- G10L19/20—Vocoders using multiple modes using sound class specific coding, hybrid encoders or object based coding
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/04—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
- G10L19/08—Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters
- G10L19/12—Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters the excitation function being a code excitation, e.g. in code excited linear prediction [CELP] vocoders
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/003—Changing voice quality, e.g. pitch or formants
- G10L21/007—Changing voice quality, e.g. pitch or formants characterised by the process used
- G10L21/01—Correction of time axis
Landscapes
- Engineering & Computer Science (AREA)
- Human Computer Interaction (AREA)
- Computational Linguistics (AREA)
- Signal Processing (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Quality & Reliability (AREA)
- Compression, Expansion, Code Conversion, And Decoders (AREA)
- Electric Clocks (AREA)
- Transmission Systems Not Characterized By The Medium Used For Transmission (AREA)
Abstract
Изобретение относится к передаче речи, в частности, к способу изменения масштаба времени вокодерных кадров в вокодере. Технический результат - повышение точности кодирования речевых данных. Изобретение содержит вокодер, имеющий, по меньшей мере, один вход и, по меньшей мере, один выход, кодер, содержащий фильтр, имеющий, по меньшей мере, один вход, функционально связанный с входом вокодера, и, по меньшей мере, один выход, декодер, содержащий синтезатор, имеющий, по меньшей мере, один вход, функционально связанный с, по меньшей мере, одним выходом кодера, и, по меньшей мере, один выход, функционально связанный с, по меньшей мере, одним выходом вокодера, при этом кодер содержит память и кодер выполнен с возможностью выполнения команд, сохраненных в памяти, содержащих классификацию речевых сегментов и кодирование речевых сегментов, и декодер содержит память, и декодер выполнен с возможностью выполнения команд, сохраненных в памяти, содержащих изменение масштаба времени остаточного речевого сигнала к расширенному или сжатому виду остаточного речевого сигнала. 4 н. и 41 з.п. ф-лы, 17 ил.
Description
Заявление на приоритет
Эта заявка заявляет приоритет по предварительной заявке № 60/660,824, названной «Изменение масштаба времени кадров в вокодере посредством изменения остатка», поданной 11 марта 2005, полное описание этой заявки считается частью описания этой заявки и включено сюда в качестве ссылки.
Область техники
Настоящее изобретение относится в целом к способу изменения масштаба времени (расширения или сжатия) вокодерных кадров в вокодере. Изменение масштаба времени имеет ряд применений в сетях с переключением пакетов, где пакеты вокодера могут поступать асинхронно. Пока может выполняться изменение масштаба времени в вокодере или вне вокодера, выполняя его в вокодере, предоставляется ряд преимуществ, таких как лучшее качество кадров, подвергшихся изменению масштаба времени, и уменьшение вычислительной нагрузки. Способы, представленные в документах, могут применяться в любом вокодере, который использует похожие методы, о которых идет речь в этой заявке на патент для вокодерных голосовых данных.
Уровень техники
Настоящее изобретение содержит устройство и способ для изменения масштаба времени речевых кадров посредством манипуляции речевым сигналом. В одном варианте осуществления настоящий способ и устройство используются в, но не ограничивая, Четвертом Генерирующем Вокодере (4ГВ) (4GV). Описанные варианты осуществления содержат способы и устройства для расширения/сжатия различных типов речевых сегментов.
Сущность изобретения
В связи с вышеизложенным описанные признаки настоящего изобретения в целом относятся к одной или более улучшенным системам, способам и/или устройствам для передачи речи.
В одном варианте осуществления настоящее изобретение содержит способ передачи речи, содержащий этапы на которых классифицируют речевые сегменты, кодируют речевые сегменты, используя линейное предсказание с кодовым возбуждением, и изменяют масштаб времени остаточного речевого сигнала к расширенному или сжатому виду остаточного речевого сигнала.
В другом варианте осуществления способ передачи речи дополнительно содержит отправку речевого сигнала через кодирующий фильтр с линейным предсказанием, посредством чего фильтруя кратковременные корреляции в речевом сигнале и выдавая коэффициенты кодирования с линейным предсказанием и остаточный сигнал.
В другом варианте осуществления кодирование является кодированием с линейным предсказанием с кодовым возбуждением и этап изменения масштаба времени содержит оценку задержки тона, разделение речевого кадра на периоды тона, при этом границы периодов тона определяются с использованием задержки тона в различных точках речевого кадра, совмещение периодов тона, если сжимается остаточный речевой сигнал, и добавление периодов тона, если расширяется остаточный речевой сигнал.
В другом варианте осуществления кодирование является кодированием периода тона образца и этап изменения масштаба времени содержит оценку по меньшей мере одного периода тона, интерполяцию по меньшей мере одного периода тона, добавление по меньшей мере одного периода тона, когда расширяют остаточный речевой сигнал, и выделение по меньшей мере одного периода тона, когда сжимают остаточный речевой сигнал.
В другом варианте осуществления кодированием является кодирование с линейным предсказанием с шумовым возбуждением и этап изменения масштаба времени содержит применение возможных различных коэффициентов усилений к различным частям речевого сегмента до его синтеза.
В другом варианте осуществления настоящее изобретение содержит вокодер, имеющий по меньшей мере один вход и по меньшей мере один выход, кодер включает в себя фильтр, имеющий по меньшей мере один вход, функционально связанный с входом вокодера, и по меньшей мере один выход, декодер, включающий в себя синтезатор, имеющий по меньшей мере один вход, функционально связанный с по меньшей мере одним выходом упомянутого кодера, и по меньшей мере один выход, функционально связанный с по меньшей мере одним выходом упомянутого вокодера.
В другом варианте осуществления кодер содержит память, при этом кодер выполнен с возможностью исполнения команд, сохраненных в памяти, содержащих классификацию речевых сегментов по 1/8 кадра, период тона образца, линейное предсказание с кодовым возбуждением или линейное предсказание с шумовым возбуждением.
В другом варианте осуществления декодер содержит память и декодер выполнен с возможностью исполнения команд, сохраненных в памяти, содержащих изменение масштаба времени остаточного сигнала к расширенному или сжатому виду остаточного сигнала.
Кроме того, объем применения настоящего изобретения станет очевидным из последующего подробного описания, формулы и чертежей. Однако будет понятно, что подробное описание и конкретные примеры, несмотря на то, что показывают предпочтительные варианты осуществления изобретения, даются только для иллюстрации, поскольку различные изменения и модификации в сущности и объеме изобретения станут очевидными для специалиста в уровне техники.
Краткое описание чертежей
Настоящее изобретение станет более понятным из подробного описания, данного здесь ниже, приложенной формулы и сопровождающих чертежей, на которых:
Фиг.1 - блок-схема Кодирующего вокодера с Линейным Предсказанием (КЛП) (LPC);
Фиг.2а - речевой сигнал, содержащий вокализированную речь.
Фиг.2в - речевой сигнал, содержащий невокализированную речь.
Фиг.2с - речевой сигнал, содержащий изменяющуюся речь.
Фиг.3 - блок-схема, показывающая Фильтрацию с LPC речи, следующей за Кодированием Остатка.
Фиг.4а - кривая Первоначальной Речи.
Фиг.4в - кривая Остаточного Речевого Сигнала после Фильтрации c LPC.
Фиг.5 показывает генерацию форм колебаний сигнала, используя Интерполяцию между Предыдущим и Текущим Периодами Тона Образца.
Фиг.6а показывает определение Задержек Тона при помощи Интерполяции.
Фиг.6в показывает идентификацию периодов тона.
Фиг.7а представляет первоначальный речевой сигнал в форме периодов тона.
Фиг.7в представляет расширенный речевой сигнал, используя совмещение-добавление.
Фиг.7с представляет речевой сигнал, сжатый, используя совмещение-добавление.
Фиг.7d представляет, как используется взвешивание для сжатия остаточного сигнала.
Фиг.7е представляет речевой сигнал, сжатый без использования совмещения-добавления.
Фиг.7f представляет, как используется взвешивание для расширения остаточного сигнала; и
Фиг.8 содержит два выражения, используемые в способе добавления-совмещения.
Подробное раскрытие
Слово «иллюстративный» используется здесь для обозначения «служащий в качестве примера, образца или иллюстрации». Любой вариант осуществления, описанный здесь как «иллюстративный», необязательно интерпретируется как предпочтительный или преимущественный над другими вариантами осуществления.
Признаки использования изменения масштаба времени в вокодере
Человеческие голоса состоят из двух компонентов. Один компонент содержит основные гармоники, которые являются чувствительными к тону, и другой является фиксированными гармониками, которые не являются чувствительными к тону. Воспринимаемый тон звука является частотой, воспринимаемой ухом, т.е. для большинства конкретных целей тон является частотой. Компоненты гармоники добавляют отличительные характеристики к персональному голосу. Они изменяют также голосовые связки и физическую форму вокального тракта и называются формантами.
Человеческий голос может представляться цифровым сигналом s(n) 10. Представление s(n) 10 является цифровым речевым сигналом, полученным во время обычного разговора, включающего в себя различные голосовые звуки и периоды молчания. Речевой сигнал s(n) 10 предпочтительно разделяется на кадры 20. В одном варианте осуществления s(n) 10 квантуется по 8 кГц.
Текущие схемы кодирования сжимают цифровой речевой сигнал 10 в сигнал с низкой битовой скоростью посредством удаления всех естественных избыточностей (т.е. коррелированные элементы), присущих речи. Речь обычно представляет собой временные избыточности, получающиеся из механического действия губ и языка, и долговременные избыточности, получающиеся из вибрации голосовых связок. Кодирование с линейным предсказанием (КЛП) (LPC) фильтрует речевой сигнал 10 посредством удаления избыточностей, создавая остаточный речевой сигнал 30. Он затем моделирует итоговый остаточный сигнал 30 в качестве белого шума Гаусса. Эталонное значение формы колебания речевого сигнала может прогнозироваться посредством взвешивания суммы числа предыдущих эталонов 40, каждый из которых умножается на коэффициент 50 линейного предсказания. Поэтому кодеры с линейным предсказанием обеспечивают уменьшенную битовую скорость посредством передачи коэффициентов 50 фильтра и квантованного шума вместо речевого сигнала 10 полного диапазона. Остаточный сигнал 30 кодируется посредством выделения периода 100 образца из текущего кадра 20 остаточного сигнала 30.
Блок-схему в одном варианте осуществления вокодера 70 LPC, используемого настоящим способом, и устройство, можно увидеть на Фиг.1. Функция LPC предназначена для минимизации суммы квадрата разности между первоначальным речевым сигналом и оцененным речевым сигналом за определенный промежуток времени. Это может создавать уникальный набор коэффициентов 50 средства предсказания, которые обычно оценивают каждый кадр 20. Кадр 20 обычно равен 20 мс. Функция передачи цифрового фильтра 75 с временным изменением выражается:
где коэффициенты 50 средства предсказания представляются как ak и коэффициент усиления как G.
Сумма вычисляется от k=1 до k=p. Если используется способ LPC-10, тогда p=10. Это означает, что только первые 10 коэффициентов передаются на синтезатор 80 LPC. Два наиболее обычно используемых способа для вычисления коэффициентов являются, но не ограничивая, ковариационным способом и автокорреляционным способом.
Говорить с разной скоростью является общим для разных говорящих. Время сжатия является одним способом уменьшения эффекта изменения скорости для индивидуальных говорящих. Временные разницы между двумя образцами речи могут быть уменьшены посредством изменения масштаба временной оси одного с тем, чтобы достигнуть максимального совпадения с другим. Этот метод временного сжатия известен как изменение масштаба времени. Кроме того, изменение масштаба времени сжимает или расширяет голосовые сигналы без изменения их тона.
Обычно вокодеры создают кадры 20 с продолжительностью 20 мсек, включая в себя 160 эталонов 90 с предпочтительной скоростью 8 кГц. Сжатый вид изменения масштаба времени этого кадра 20 имеет продолжительность менее, чем 20 мсек, в то время как расширенный вид изменения масштаба времени имеет продолжительность более, чем 20 мсек. Изменение масштаба времени голосовых данных имеет значительные преимущества, когда отправляют голосовые данные через сети с переключением пакетов, которые представляют флуктуации времени задержки в передаче голосовых пакетов. В таких сетях изменение масштаба времени может использоваться для уменьшения эффектов такой флуктуации временной задержки и создания «синхронно» просматриваемого голосового потока.
Варианты осуществления изобретения относятся к устройству и способу изменения масштаба времени кадров 20 в вокодере 70 посредством манипулирования речевым остатком 30. В одном варианте осуществления настоящий способ и устройство используются в 4GV. Описанные варианты осуществления содержат способы и устройства или системы для расширения/сжатия различных типов 4GV речевых сегментов 110, кодированных с помощью Периода Тона Образца (ПТО) (PPP), кодирования с Линейным Предсказанием С Кодовым Возбуждением (ЛПВК) (CELP) или (Линейным Предсказанием С Шумовым Возбужденнием (ЛПВШ) (NELP).
Термином «вокодер» 70 обычно называется устройство, которое сжимает вокализированную речь посредством извлечения параметров на основе модели генерации человеческой речи. Вокодеры 70 включают в себя кодер 204 и декодер 206. Кодер 204 анализирует входящую речь и извлекает релевантные параметры. В одном варианте осуществления кодер содержит фильтр 75. Декодер 206 синтезирует речь, используя параметры, которые он принимает от кодера 204 по каналу 208 передачи. В одном варианте осуществления декодер содержит синтезатор 80. Речевой сигнал 10 часто разделяют на кадры 20 данных и блок обрабатывается вокодером 70.
Специалисту в уровне техники будет понятно, что человеческая речь может классифицироваться различными путями. Тремя обычными классификациями речи являются вокализированные, невокализированные звуки и неустойчивая речь. Фиг.2а показывает вокализированный речевой сигнал s(n) 402. Фиг.2а показывает измеряемое общее свойство вокализированной речи, известное как период 100 тона.
Фиг.2в - невокализированный речевой сигнал s(n) 404. Невокализированный речевой сигнал 404 напоминает цветной шум.
Фиг.2с показывает неустойчивый речевой сигнал s(n) 406 (т.е. речь, которая является ни вокализированой, ни невокализированой). Пример неустойчивой речи 406, показанный на Фиг.2с, может представлять переход s(n) между невокализированной речью и вокализированной речью. Эти три классификации не все включают в себя. Есть много различных классификаций речи, которые могут использоваться в соответствии со способами, описанными здесь, для достижения сопоставимых результатов.
4GV Вокодер Использует 4 Разных Типа Кадра
Четвертый генерирующий вокодер (4ГВ) (4GV) 70, используемый в одном из вариантов осуществления изобретения, обеспечивает эффективные признаки для использования в беспроводных сетях. Некоторые из этих признаков включают в себя способность в соотношении качества в сравнении с битовой скоростью, более гибкое кодирование речевых сигналов несмотря на увеличенную скорость пакетных ошибок (СПО) (PER), лучшее маскирование стираний и т.д. 4GV вокодер 70 может использовать любые четыре разных кодера 204 и декодера 206. Разные кодеры 204 и декодеры 206 работают в соответствии с разными схемами кодирования. Некоторые кодеры 204 более эффективны в частях кодирования речевого сигнала s(n) 10, представляя определенные свойства. Поэтому в одном варианте осуществления режимы кодеров 204 и декодеров 206 могут выбираться на основе классификации текущего кадра 20.
4GV кодер 204 кодирует каждый фрейм 20 голосовых данных в одном из четырех различных типов кадров 20: Интерполяция Формы Колебания Сигнала Периода Тона Образца (ИФКСПТО) (PPPWI), Линейное предсказание с кодовым возбуждением (ЛПВК) (CELP), Линейное предсказание с шумовым возбуждением (ЛПВШ) (NELP) или кадр 1/8 скорости молчания. CELP используется для кодирования речи с малой периодичностью или речи, которая включает в себя изменение от одного периодического сегмента 110 к другому. Так режим CELP обычно выбирается для кодирования кадров, проклассифицированных как неустойчивая речь. Так как такие сегменты 110 не могут быть точно восстановлены только из одного периода тона образца, CELP кодирует характеристики завершенного речевого сегмента 110. Режим CELP вызывает модель линейного предсказания голосового тракта с квантованным видом остаточного сигнала 30 линейного предсказания. Из всех кодеров 204 и декодеров 206, описанных здесь, CELP обычно создает более точное речевое восстановление, но требует высокой битовой скорости.
Режим периода тона образца (ПТО) (PPP) может выбираться для кодовых фреймов 20, проклассифицированных как вокализированная речь. Вокализированная речь содержит медленно изменяющиеся во времени периодические компоненты, которые используются режимом PPP. Режим PPP кодирует поднабор периодов 100 тона в каждом кадре 20. Остальные периоды 100 речевого сигнала 10 восстанавливаются посредством интерполяции между этими периодами 100 образца. При использовании периодичности вокализированной речи PPP способен достигать битовой скорости ниже, чем CELP, и еще воспроизводить речевой сигнал 10 в перцепционно точной манере.
PPPWI используется для кодирования речевых данных, которые являются периодичными по природе. Такая речь характеризуется различными периодами 100 тона, схожими с периодом тона «образца» (ПТО) (PPP). Этот PPP является только голосовой информацией, которая необходима кодеру 204 для кодирования. Декодер может использовать этот PPP для восстановления других периодов 100 тона в речевом сегменте 110.
Кодер 204 с «Линейным Предсказанием С Шумовым Возбуждением» (ЛПВШ) (NELP) выбирается для кодовых фреймов 20, проклассифицированных как невокализированная речь. Кодирование NELP работает эффективно в терминах восстановления сигнала, где речевой сигнал 10 имеет малую или не малую структуру тона. Более конкретно, NELP используется для кодирования речи, которая имеет характер подобный шуму, такой как невокализированная речь или фон. NELP использует фильтрованные сигналы псевдослучайного шума в модели невокализированной речи. Шумовой характер таких речевых сегментов 110 может восстанавливаться посредством генерирования случайных сигналов в декодере 206 и применения к ним назначенных коэффициентов усилений. NELP использует наипростейшую модель для кодирования речи и поэтому достигает низкую битовую скорость.
Кадры 1/8 скорости используются для кодирования молчания, например периодов, когда пользователь не разговаривает.
Все из четырех схем кодирования речевых сигналов, описанных выше, совместно используют начальную процедуру фильтрации LPC, как показано на Фиг.3. После классификации речи по четырем категориям речевой сигнал 10 отправляется через кодирующий фильтр 80 с линейным предсказанием (КЛП) (LPC), который фильтрует кратковременные корреляции в речи, используя линейное предсказание. Выходные сигналы этого блока являются коэффициентами 50 LPC и «остаточным» сигналом 30, который в основном является начальным речевым сигналом 10 с кратковременными корреляциями, удаленными из него. Затем остаточный сигнал 30 кодируется, используя конкретные способы, используемые способами кодирования речевого сигнала, выбранными для кадра 20.
Фиг.4а-4в показывают пример начального речевого сигнала 10 и остаточного сигнала 30 после блока 80 LPC. Можно видеть, что остаточный сигнал 30 показывает периоды 100 тона более отчетливо, чем начальная речь 10. Понятно, таким образом, что остаточный сигнал 30 может использоваться для определения периода 100 тона речевого сигнала более точно, чем начальный сигнал 10 (который также содержит кратковременные корреляции).
Изменение масштаба остаточного времени
Как установлено выше, изменение масштаба времени может использоваться для расширения или сжатия речевого сигнала 10. Хотя ряд способов может использоваться для достижения этого, многие из них основываются на добавлении или удалении периодов 100 тона из сигнала 10. Добавление или удаление периодов 100 тона могут выполняться в декодере 206 после приема остаточного сигнала 30, но до синтеза сигнала 30. Для речевых данных, которые кодируются с помощью CELP или PPP (не NELP), сигнал включает в себя ряд периодов 100 тонов. Таким образом, наименьший блок, который может добавляться или удаляться из речевого сигнала 10, является периодом 100 тона, т.к. любой блок меньший, чем этот, будет приводить к фазовому разрыву в представлении заметного речевого артефакта. Так одним шагом в способах изменения масштаба времени, применяемых для речи CELP или PPP, является оценка периода 100 тона. Такой период 100 тона уже известен для декодера 206 для речевых кадров 20 CELP/PPP. В случае PPP и CELP информация тона вычисляется кодером 204 с помощью автокорреляционных способов и передается на декодер 206. Таким образом, декодер 206 имеет точные знания о периоде 100 тона. Это создает простоту применения способа изменения масштаба времени настоящего изобретения в декодере 206.
Кроме того, как установлено выше, проще изменить масштаб времени сигнала 10 до синтеза сигнала 10. Если такие способы изменения масштаба времени были применены после декодирования сигнала 10, необходимо будет оценить период 100 тона сигнала 10. Это требует не только дополнительного вычисления, но также оценки периода 100 тона могут не быть точными, т.к. остаточный сигнал 30 также содержит информацию 170 LPC.
С другой стороны, если дополнительные оценки периода 100 тона тоже не являются комплексными, тогда выполнение изменения масштаба времени после декодирования не требует изменений в декодере 206 и поэтому может выполняться только один раз для всех вокодеров 80.
Другая причина выполнения изменения масштаба времени в декодере 206 до синтеза сигнала, используя кодирующий синтез LPC, заключается в том, что сжатие/расширение может применяться к остаточному сигналу 30. Это позволяет синтезу кодирования с линейным предсказанием (LPC) применяться для остаточного сигнала 30, подвергшегося изменению масштаба времени. Коэффициенты 50 LPC играют роль в том, как речевые звуки и применение синтеза после изменения масштаба гарантируют, что поддерживается корректная информация 170 LPC в сигнале 10.
Если, с одной стороны, изменение масштаба времени выполняется после декодирования остаточного сигнала 30, синтез LPC уже выполнен до изменения масштаба времени. Таким образом, процедура изменения масштаба может изменять информацию 170 LPC сигнала 10, особенно, если предсказание периода 100 тона после декодирования не было очень точным. В одном варианте осуществления этапы, выполняемые способами изменения масштаба времени, описанные в настоящей заявке, сохраняются в качестве команд, расположенных в программном обеспечении или встроенной программе 81, расположенной в памяти 82. На Фиг.1 память показывается расположенной в декодере 206. Память 82 может также располагаться вне декодера 206.
Кодер 204 (такой как один из 4GV) может классифицировать речевые кадры 20 как PPP (периодичные), CELP (слабо периодичные) или NELP (шумовые) в зависимости от того, представляют ли кадры 20 вокализированную, невокализированную или неустойчивую речь. Используя информацию о типе речевого кадра, декодер 206 может изменять масштаб времени разных типов кадров 20, используя различные способы. Например, речевой кадр 20 NELP не имеет понятия о периодах тона и его остаточный сигнал 30 генерируется в декодере 206, используя «случайную» информацию. Таким образом, оценка периода 100 тона CELP/PPP не применяется к NELP и в целом кадры 20 NELP могут изменять масштаб времени (расширяться/сжиматься) на менее, чем период 100 тона. Такая информация не является пригодной, если изменение масштаба времени выполняется после декодирования остаточного сигнала 30 в декодере 206. В целом изменение масштаба времени кадров 20, подобных NELP, после декодирования приводит к артефактам. Изменение масштаба времени кадров 20 NELP в декодере 206, с другой стороны, создает более лучшее качество.
Таким образом, есть два преимущества выполнения изменения масштаба времени в декодере 206 (т.е. до синтеза остаточного сигнала 30) против пост-декодера (т.е. после синтеза остаточного сигнала 30): (i) уменьшение дополнительных расчетов (например, избежание поиска периода 100 тона) и (ii) улучшенное качество изменения масштаба времени вследствие а) знания типа кадра 20, b) выполнения синтеза LPC сигнала, подвергшегося изменению масштаба времени, и с) более точная оценка/знание периода тона.
Способы изменения масштаба времени остатка
Последующее описание вариантов осуществления, в которых настоящие способ и устройство изменяют масштаб времени речевого остатка 30 в декодерах PPP, CELP и NELP. Следующие два этапа выполняются в каждом декодере 206: (i) изменение масштаба времени остаточного сигнала 30 к расширенному или сжатому виду; и (ii) отправка остатка 30, подвергшегося изменению масштаба времени, через фильтр 80 LPC. Кроме того, этап (i) по-разному выполняется для речевых сегментов 110 PPP, CELP и NELP. Варианты осуществления будут описаны ниже.
Изменение Масштаба Времени Остаточного сигнала, когда речевой сегмент является PPP
Как установлено выше, когда речевой сегмент 110 является PPP, наименьшим блоком, который может добавляться или удаляться из сигнала, является период 100 тона. До того, как сигнал 10 может декодироваться (и восстановлен остаток 30) из периода 100 тона образца, декодер 206 интерполирует сигнал 10 из предыдущего периода 100 тона образца (который сохраняется) в период 100 тона образца в текущем кадре 20, добавляя недостающие периоды 100 тона в процесс. Этот процесс показан на Фиг.5. Такая интерполяция придает простоту в изменении масштаба времени посредством создания менее или более интерполированных периодов 100 тона. Это будет приводить к сжатию или расширению остаточных сигналов 30, которые затем отправляются через синтез LPC.
Изменение Масштаба Времени Остаточного Сигнала, когда речевой сегмент 110 является CELP
Как установлено ранее, когда речевой сегмент 110 является PPP, наименьшим блоком, который может добавляться или удаляться из сигнала, является период 100 тона. С другой стороны, в случае CELP, изменение масштаба времени также не является непосредственным для PPP. Для изменения масштаба времени остатка 30 декодер 206 использует информацию о задержке 180 тона, содержащейся в кодированном кадре 20. Эта задержка 180 тона действительно является задержкой 180 тона в конце кадра 20. Следует отметить, что даже в периодическом кадре 20, задержка 180 тона может немного изменяться. Задержки 180 тона в любой точке в кадре могут оцениваться интерполяцией между задержкой 180 тона в конце последнего кадра 20 и в конце текущего кадра 20. Это показано на Фиг.6. Как только известны задержки 180 тона во всех точках кадра 20, кадр может разделяться на периоды 100 тона. Границы периодов 100 тона определяются, используя задержки 100 тона в различных точках в кадре 20.
Фиг.6а показывает пример того, как разделяют кадр 20 на его периоды 100 тона. Например, количество эталонов 70 имеет задержку 70 тона, равную приблизительно 70, и количество эталонов 142 имеет задержку 190 приблизительно 72. Таким образом, периоды 100 тона получаются из числа эталонов [1-70] и из числа эталонов [71-142]. См. Фиг.6в.
Один кадр 20 разделен на периоды 100 тона, эти периоды 100 тона могут затем совмещаться-добавляться для увеличения/уменьшения размера остатка 30. См. Фиг.7в-7f. В синтезе совмещения и добавления, измененный сигнал получается посредством удаления сегментов 110 из входного сигнала 10, перемещения их вдоль временной оси и выполнения взвешенного совмещенного суммирования для создания синтезированного сигнала 150. В одном варианте осуществления сегмент 110 может равняться периоду 100 тона. Способ совмещения-добавления заменяет два различных речевых сегмента 110 на один речевой сегмент 110 посредством «объединения» сегментов 110 речи. Объединение речи выполняется способом сохранения, на сколько возможно, большего качества речи. Качество защиты речи и минимизации представления артефактов в речи выполняется посредством тщательного выбора сегментов 110 для объединения. (Артефакты являются нежелательными объектами подобно щелчку, хлопку и т.д.). Выбор речевых сегментов 110 базируется на «сходстве» сегментов. Близость «сходства» речевых сегментов 110, лучшее результирующее речевое качество и низкая вероятность представления речевого артефакта, когда два сегмента 110 речи совмещаются для уменьшения/увеличения размера речевого остатка 30. Правилом полезности для определения, должны ли периоды тона совмещаться-добавляться, является, если схожи задержки тона двух (как например, если задержки тона различаются менее чем 15 эталонам, которые соответствуют около 1,8 мсек).
Фиг.7с показывает, как используется совмещение-добавление для сжатия остатка 30. Первым этапом способа совмещения/добавления является сегментирование входных эталонных последовательностей s(n) 10 на их периоды тона, как объяснено выше. На Фиг.7а показан начальный речевой сигнал 10, включающий 4 периода 100 (ПТ) (PP) тона. Следующий этап включает в себя удаление периодов 100 тона сигнала 10, показанных на Фиг.7а, и замену этих периодов 100 тона на объединенные периоды 100 тона. Например на Фиг.7с, периоды PP2 и PP3 тона удаляются и затем заменяются одним периодом 100 тона, в котором PP2 и PP3 совмещаются-суммируются. Более конкретно, на Фиг.7с, периоды 100 PP2 и PP3 тона совмещаются-добавляются таким образом, что доля второго периода 100 (PP2) тона уменьшается и что PP3 увеличивается. Способ добавления-совмещения создает один речевой сегмент 110 из двух разных речевых сегментов 110. В одном варианте осуществления добавление-совмещение выполняется, используя взвешенные эталоны. Это показывается выражениями а) и b), показанными на Фиг.8. Взвешивание используется для обеспечения сглаживания перехода между первым эталоном PMC (ИКМ) (Импульсно-Кодовой Модуляции) Сегмента1 (110) и последним эталоном PMC Сегмента2 (110).
Фиг.7d является другой графической иллюстрацией совмещенных-добавленных PP2 и PP3. Плавное микширование улучшает качество времени сигнала 10, сжатого этим способом, по сравнению с простым удалением одного сегмента 110 и соединения оставшихся соседних сегментов 110 (как показано на Фиг.7е).
В случае, когда период 100 тона изменяется, способ совмещения-добавления может объединять два периода 110 тона неравной длины. В этом случае лучшее объединение может достигаться посредством выравнивания пиков двух периодов 100 тона до их совмещения-добавления. Расширенный/сжатый остаток затем отправляется через синтез LPC.
Речевое расширение
Простым подходом в расширении речи является выполнение множества повторений одинаковых эталонов PMC. Однако повторение одинаковых эталонов PMC более чем один раз может создать области с ровными тонами, которые являются артефактами, которые легко определяются людьми (например, речь может звучать немного роботизировано). Для сохранения качества речи может использоваться способ добавления-совмещения.
Фиг.7в показывает, как этот речевой сигнал 10 может расширяться, используя способ совмещения-добавления настоящего изобретения. На Фиг.7в добавляется дополнительный период 100 тона, созданный из периодов 100 PP1 и PP2 тона. В дополнительном периоде 100 тона периоды 100 PP2 и PP1 тона совмещаются-добавляются таким образом, что доля второго периода 100 (PP2) тона уменьшается и что PP1 увеличивается. Фиг.7f является другой графической иллюстрацией совмещенных добавленных PP2 и PP3.
Изменение Масштаба Времени Остаточного Сигнала, когда речевой сегмент является NELP
Для речевых сегментов NELP кодер кодирует информацию LPC, а также коэффициенты усиления для различных частей речевого сегмента 110. Необходимо кодировать любую другую информацию, т.к. речь по природе очень подобна шуму. В одном варианте осуществления коэффициенты усиления кодируются в наборе из 16 эталонов PMC. Так, например, кадр из 160 эталонов может представляться 10 кодированными значениями коэффициента усиления, один для каждых 16 эталонов речи. Декодер 206 генерирует остаточный сигнал 30 посредством генерирования случайных значений и затем применяя к ним соответствующие коэффициенты усиления. В этом случае здесь не может быть понятия период 100 тона и по существу расширение/сжатие не может выполняться, не имея неравномерности периода 100 тона.
Для расширения или сжатия NEL сегмента, декодер 206 генерирует количество сегментов (110) больше или меньше, чем 160, в зависимости от того, расширяется или сужается сегмент 110. 10 декодированных коэффициентов усиления затем применяются к эталонам для генерирования расширенного или сжатого остатка 30. Так как эти 10 декодированных коэффициентов усиления соответствуют начальным 160 эталонам, они прямо не применяются для расширения/сжатия эталонов. Различные способы могут использоваться для применения этих коэффициентов усиления. Некоторые из этих способов описываются ниже.
Если количество генерируемых эталонов меньше, чем 160, тогда нет необходимости в применении всех 10 коэффициентов усиления. Например, если количество эталонов равно 144, могут применяться первые 9 коэффициентов усилений. В этом примере первый коэффициент усиления применяется к первым 16 эталонам, эталоны 1-16, второй коэффициент усиления применяется к следующим 16 эталонам, эталоны 17-32, и т.д. Аналогично, если эталонов больше, чем 160, тогда 10-й коэффициент усиления может применяться более чем один раз. Например, если количество эталонов равно 192, 10-й коэффициент усиления может применяться к эталонам 145-160, 161-176 и 177-192.
Альтернативно, эталоны могут разделяться на 10 наборов из одинакового количества, каждый набор имеет одинаковое количество эталонов, и 10 коэффициентов усиления могут применяться к 10 наборам. Например, если количество эталонов равно 140, 10 коэффициентов усилений могут применяться к наборам из 14 эталонов в каждом. В этом примере первый коэффициент усиления применяется к первым 14 эталонам, эталоны 1-14, второй коэффициент усиления применяется к следующим 14 эталонам, эталоны 14-28, и т.д.
Если количество эталонов полностью не делится на 10, тогда 10-й коэффициент усиления может применяться к оставшимся эталонам, полученным после разделения на 10. Например, если количество эталонов равно 145, 10 коэффициентов усиления может применяться к наборам из 14 эталонов в каждом. Дополнительно, 10-й коэффициент усиления применяется к эталонам 141-145.
После изменения масштаба времени расширенный/сжатый остаток 30 отправляется через синтез LPC, где используются любые перечисленные выше способы кодирования.
Специалисту в уровне техники будет понятно, что информация и сигналы могут представляться, используя любой из множества различных технологий и методов. Например, данные, инструкции, команды, информация, сигналы, биты, символы и чипы, которые могут ссылаться по упомянутому выше описанию, могут представляться напряжениями, токами, электромагнитными волнами, магнитными полями или частицами, оптическими полями или частицами или любой их комбинацией.
Специалисту в уровне техники будет очевидно, что различные иллюстративные логические блоки, модули, схемы и этапы алгоритма, описанные в связке с вариантами осуществления, описанными здесь, могут выполняться в качестве электронной аппаратуры, компьютерного программного обеспечения или их комбинации. Для ясности иллюстрации этой равноценности аппаратуры и программного обеспечения различные иллюстративные компоненты, блоки, модули, схемы и этапы описаны выше в терминах их функциональности. Любая такая функциональность выполняется аппаратно или программно в зависимости от конкретного применения и ограничений конструкции, заданных на всю систему. Специалист может выполнить описанную функциональность различными способами для каждого конкретного применения, но такие решения выполнения не следует интерпретировать как отход от объема настоящего изобретения.
Различные иллюстративные логические блоки, модули и схемы, описанные в связке с вариантами осуществления, описанными здесь, могут воплощаться или выполняться в процессоре общего назначения, Процессоре Цифровых Сигналов (ПЦС) (DSP), Специализированной Интегральной схеме (СИС) (ASIC), Программируемой Пользователем Вентильной Матрице (ППВМ) (FPGA) или других программно-логических устройствах, логическом элементе на дискретных компонентах или транзисторной логике, дискретных аппаратных компонентах или любой их комбинации, предназначенной для выполнения функций, описанных здесь. Процессором общего назначения может быть микропроцессор, но в альтернативе, процессором может быть любой обычный процессор, контроллер, микроконтроллер или конечный автомат. Процессор может также выполняться как комбинация вычислительных устройств, например комбинация DSP и микропроцессора, множество микропроцессоров, один или более микропроцессоров в связке с ядром DSP или любая другая такая конфигурация.
Этапы способа или алгоритма, описанные в связке с вариантами осуществления, описанными здесь, могут выполняться прямо в аппаратуре, в программном модуле, выполняемом процессором, или в комбинации этих двух. Программный модуль может располагаться в Оперативной памяти (RAM), флэш-памяти, Постоянной Памяти (ROM), Электрически Программируемой ROM (EPROM), Электрически Стираемой Программируемой ROM (EEPROM), регистрах, жестком диске, сменном диске, CD-ROM или любой другой форме запоминающего носителя, известного из уровня техники. Иллюстративный носитель подключается к процессору так, чтобы процессор мог считывать информацию с и записывать информацию на запоминающий носитель. В альтернативе запоминающий носитель может встраиваться в процессор. Процессор и запоминающий носитель могут располагаться в ASIC. ASIC может располагаться в пользовательском терминале. В альтернативе, процессор и запоминающий носитель могут располагаться как дискретные компоненты в пользовательском терминале. Предыдущее описание раскрытых вариантов осуществления приспособлено для создания или использования настоящего изобретения любым специалистом в уровне технике. Различные модификации этих вариантов осуществления будут без труда очевидны специалисту в уровне техники и общие принципы, определенные здесь, могут применяться для других вариантов осуществления без отхода от сущности или объема изобретения. Таким образом, настоящее изобретение не подлежит ограничению вариантами осуществления, показанными здесь, но подлежит согласованию с широким объемом, согласующимся с принципами и новыми признаками, описанными здесь.
Claims (45)
1. Способ передачи речи, содержащий этапы, на которых:
классифицируют речевые сегменты;
кодируют упомянутые речевые сегменты;
изменяют масштаб времени остаточного речевого сигнала путем добавления или выделения, по меньшей мере, одного эталона к остаточному речевому сигналу, используя способ изменения масштаба времени, основанный на классификации; и
синтезируют упомянутый остаточный речевой сигнал, подвергшийся изменению масштаба времени.
классифицируют речевые сегменты;
кодируют упомянутые речевые сегменты;
изменяют масштаб времени остаточного речевого сигнала путем добавления или выделения, по меньшей мере, одного эталона к остаточному речевому сигналу, используя способ изменения масштаба времени, основанный на классификации; и
синтезируют упомянутый остаточный речевой сигнал, подвергшийся изменению масштаба времени.
2. Способ передачи речи по п.1, в котором упомянутый этап кодирования речевых сегментов содержит использование периодов тона образца, линейное предсказание с кодовым возбуждением, линейное предсказание с шумовым возбуждением или 1/8 кадрового кодирования.
3. Способ передачи по речи п.1, дополнительно содержащий этапы, на которых:
отправляют упомянутый речевой сигнал через кодирующий фильтр с линейным предсказанием, посредством чего фильтруя кратковременные корреляции в упомянутом речевом сигнале; и
выдают коэффициенты кодирования с линейным предсказанием и остаточный сигнал.
отправляют упомянутый речевой сигнал через кодирующий фильтр с линейным предсказанием, посредством чего фильтруя кратковременные корреляции в упомянутом речевом сигнале; и
выдают коэффициенты кодирования с линейным предсказанием и остаточный сигнал.
4. Способ передачи речи по п.1, в котором упомянутый этап классифицирования речевых сегментов содержит классификацию речевых кадров на периодические, слабопериодические или шумовые в зависимости от того, представляют ли кадры вокализированную, невокализированную или неустойчивую речь.
5. Способ передачи речи по п.1, в котором упомянутое кодирование является кодированием с линейным предсказанием с кодовым возбуждением.
6. Способ передачи речи по п.1, в котором упомянутое кодирование является кодированием периода тона образца.
7. Способ передачи речи по п.1, в котором упомянутое кодирование является кодированием с линейным предсказанием с шумовым возбуждением.
8. Способ по п.5, в котором упомянутый этап изменения масштаба времени содержит
оценку периода тона.
оценку периода тона.
9. Способ по п.5, в котором этап изменения масштаба времени содержит:
оценку задержки тона;
разделение речевого кадра на периоды тона, при этом границы упомянутых периодов тона определяют, используя упомянутую задержку тона в различных точках упомянутого речевого кадра;
совмещение упомянутых периодов тона, если уменьшается упомянутый остаточный речевой сигнал; и
добавление упомянутых периодов тона, если увеличивается упомянутый остаточный речевой сигнал.
оценку задержки тона;
разделение речевого кадра на периоды тона, при этом границы упомянутых периодов тона определяют, используя упомянутую задержку тона в различных точках упомянутого речевого кадра;
совмещение упомянутых периодов тона, если уменьшается упомянутый остаточный речевой сигнал; и
добавление упомянутых периодов тона, если увеличивается упомянутый остаточный речевой сигнал.
10. Способ по п.6, в котором упомянутый этап изменения масштаба времени содержит этапы, на которых:
оценивают по меньшей мере один период тона;
интерполируют упомянутый по меньшей мере один период тона;
добавляют упомянутый по меньшей мере один период тона, когда добавляют, по меньшей мере, один эталон; и
выделяют упомянутый по меньшей мере один период тона, когда выделяют, по меньшей мере, один эталон.
оценивают по меньшей мере один период тона;
интерполируют упомянутый по меньшей мере один период тона;
добавляют упомянутый по меньшей мере один период тона, когда добавляют, по меньшей мере, один эталон; и
выделяют упомянутый по меньшей мере один период тона, когда выделяют, по меньшей мере, один эталон.
11. Способ по п.7, в котором упомянутый этап кодирования содержит кодирование информации кодирования с линейным предсказанием в качестве коэффициентов усиления разных частей речевого сегмента.
12. Способ по п.9, в котором упомянутый этап совмещения упомянутых периодов тона, если уменьшается упомянутый речевой остаточной сигнал, содержит:
сегментирование входной эталонной последовательности в блоки эталонов;
удаление сегментов упомянутого остаточного сигнала за постоянные интервалы времени;
объединение упомянутых удаленных сегментов и замену упомянутых удаленных сегментов на объединенный сегмент.
сегментирование входной эталонной последовательности в блоки эталонов;
удаление сегментов упомянутого остаточного сигнала за постоянные интервалы времени;
объединение упомянутых удаленных сегментов и замену упомянутых удаленных сегментов на объединенный сегмент.
13. Способ по п.9, в котором упомянутый этап оценки задержки тона содержит интерполяцию между задержкой тона конца последнего кадра и конца текущего кадра.
14. Способ по п.9, в котором упомянутый этап добавления упомянутых периодов тона содержит объединение речевых сегментов.
15. Способ по п.9, в котором упомянутый этап добавления упомянутых периодов тона, если увеличивается упомянутый остаточный речевой сигнал, содержит добавление дополнительного периода тона, созданного из первого сегмента периода тона и второго сегмента периода тона.
16. Способ по п.11, в котором упомянутые коэффициенты усиления кодируются для наборов речевых эталонов.
17. Способ по п.12, в котором упомянутый этап объединения упомянутых удаленных сегментов содержит увеличение доли первого сегмента периода тона и уменьшение доли второго сегмента периода тона.
18. Способ по п.14, дополнительно содержащий этап выбора схожих речевых сегментов, при этом объединяют упомянутые схожие речевые сегменты.
19. Способ по п.14, дополнительно содержащий этап корреляции речевых сегментов, посредством чего выбирают схожие речевые сегменты.
20. Способ по п.15, в котором упомянутый этап добавления дополнительного периода тона, созданного из первого сегмента периода тона и второго сегмента периода тона, содержит сложение упомянутого первого и упомянутого второго сегментов периода тона таким образом, что увеличивается доля упомянутого первого сегмента периода тона и уменьшается доля упомянутого второго сегмента периода тона.
21. Способ по п.16, дополнительно содержащий этап генерирования остаточного сигнала посредством генерирования случайных значений и последующего применения упомянутых коэффициентов усиления к упомянутым случайным значениям.
22. Способ по п.16, дополнительно содержащий этап представления упомянутой информации кодирования с линейным предсказанием в качестве 10 кодированных значений коэффициентов усиления, при этом каждое кодированное значение коэффициента усиления представляет 16 эталонов речи.
23. Вокодер, имеющий по меньшей мере один вход и по меньшей мере один выход, содержащий:
кодер, содержащий фильтр, имеющий по меньшей мере один вход, функционально связанный с входом вокодера, и по меньшей мере один выход; и
декодер, содержащий синтезатор, имеющий по меньшей мере один вход, функционально связанный с упомянутым по меньшей мере одним выходом упомянутого кодера, и по меньшей мере один выход, функционально связанный с упомянутым по меньшей мере одним выходом вокодера, и память, причем декодер выполнен с возможностью выходом вокодера, и память, причем декодер выполнен с возможностью исполнения программных команд в памяти, которые исполняются для изменения масштаба времени остаточного речевого сигнала путем добавления или выделения, по меньшей мере, одного эталона к остаточному речевому сигналу, используя способ изменения масштаба времени, основанный на классификации речевых сегментов.
кодер, содержащий фильтр, имеющий по меньшей мере один вход, функционально связанный с входом вокодера, и по меньшей мере один выход; и
декодер, содержащий синтезатор, имеющий по меньшей мере один вход, функционально связанный с упомянутым по меньшей мере одним выходом упомянутого кодера, и по меньшей мере один выход, функционально связанный с упомянутым по меньшей мере одним выходом вокодера, и память, причем декодер выполнен с возможностью выходом вокодера, и память, причем декодер выполнен с возможностью исполнения программных команд в памяти, которые исполняются для изменения масштаба времени остаточного речевого сигнала путем добавления или выделения, по меньшей мере, одного эталона к остаточному речевому сигналу, используя способ изменения масштаба времени, основанный на классификации речевых сегментов.
24. Вокодер по п.23, в котором упомянутый кодер содержит память и упомянутый кодер выполнен с возможностью выполнения программных команд, сохраненных в упомянутой памяти, содержащих классификацию речевых сегментов по 1/8 кадра, периоды тона образца, линейное предсказание с кодовым возбуждением или линейное предсказание с шумовым возбуждением.
25. Вокодер по п.24, в котором упомянутый фильтр является кодирующим фильтром с линейным предсказанием, который выполнен с возможностью:
фильтрации кратковременных корреляций в речевом сигнале и
выдачи коэффициентов кодирования с линейным предсказанием и остаточного сигнала.
фильтрации кратковременных корреляций в речевом сигнале и
выдачи коэффициентов кодирования с линейным предсказанием и остаточного сигнала.
26. Вокодер по п.24, в котором, упомянутый кодер содержит:
память и упомянутый кодер выполнен с возможностью выполнения
программных команд, сохраненных в упомянутой памяти, содержащих кодирование упомянутых речевых сегментов, используя кодирование с линейным предсказанием с кодовым возбуждением.
память и упомянутый кодер выполнен с возможностью выполнения
программных команд, сохраненных в упомянутой памяти, содержащих кодирование упомянутых речевых сегментов, используя кодирование с линейным предсказанием с кодовым возбуждением.
27. Вокодер по п.24, в котором упомянутый кодер содержит:
память и упомянутый кодер выполнен с возможностью выполнения программных команд, сохраненных в упомянутой памяти, содержащих кодирование упомянутых речевых сегментов, используя кодирование периода тона образца.
память и упомянутый кодер выполнен с возможностью выполнения программных команд, сохраненных в упомянутой памяти, содержащих кодирование упомянутых речевых сегментов, используя кодирование периода тона образца.
28. Вокодер по п.24, в котором упомянутый кодер содержит:
память и упомянутый кодер выполнен с возможностью выполнения программных команд, сохраненных в упомянутой памяти, содержащих кодирование упомянутых речевых сегментов, используя кодирование с линейным предсказанием с шумовым возбуждением.
память и упомянутый кодер выполнен с возможностью выполнения программных команд, сохраненных в упомянутой памяти, содержащих кодирование упомянутых речевых сегментов, используя кодирование с линейным предсказанием с шумовым возбуждением.
29. Вокодер по п.26, в котором упомянутая программная команда изменения масштаба времени содержит
оценку, по меньшей мере, одного периода тона.
оценку, по меньшей мере, одного периода тона.
30. Вокодер по п.26, в котором упомянутая программная команда изменения масштаба времени содержит
оценку задержки тона;
разделение речевого кадра на периоды тона, при этом границы упомянутых периодов тона определяют, используя упомянутую задержку тона в различных точках упомянутого речевого кадра;
совмещение упомянутых периодов тона, если уменьшается упомянутый остаточный речевой сигнал; и
добавление упомянутых периодов тона, если увеличивается остаточный речевой сигнал.
оценку задержки тона;
разделение речевого кадра на периоды тона, при этом границы упомянутых периодов тона определяют, используя упомянутую задержку тона в различных точках упомянутого речевого кадра;
совмещение упомянутых периодов тона, если уменьшается упомянутый остаточный речевой сигнал; и
добавление упомянутых периодов тона, если увеличивается остаточный речевой сигнал.
31. Вокодер по п.27, в котором упомянутая программная команда изменения масштаба времени содержит
оценку, по меньшей мере, одного период тона; интерполяцию упомянутого, по меньшей мере, одного периода тона;
добавление упомянутого, по меньшей мере, одного периода тона, когда добавляют, по меньшей мере, один эталон; и
выделение упомянутого, по меньшей мере, одного периода тона, когда выделяют, по меньшей мере, один эталон.
оценку, по меньшей мере, одного период тона; интерполяцию упомянутого, по меньшей мере, одного периода тона;
добавление упомянутого, по меньшей мере, одного периода тона, когда добавляют, по меньшей мере, один эталон; и
выделение упомянутого, по меньшей мере, одного периода тона, когда выделяют, по меньшей мере, один эталон.
32. Вокодер по п.28, в котором упомянутое кодирование упомянутых речевых сегментов, используя программную команду кодирования с линейным предсказанием с шумовым возбуждением, содержит кодирование информации кодирования с линейным предсказанием в качестве коэффициентов усиления различных частей речевых сегментов.
33. Вокодер по п.30, в котором упомянутое совмещение упомянутых периодов тона, если уменьшается упомянутый речевой остаточный сигнал, содержит
сегментацию входной эталонной последовательности на блоки эталонов;
удаление сегментов упомянутого остаточного сигнала в постоянные интервалы времени;
объединение упомянутых объединенных сегментов и
замену упомянутых удаленных сегментов на объединенный сегмент.
сегментацию входной эталонной последовательности на блоки эталонов;
удаление сегментов упомянутого остаточного сигнала в постоянные интервалы времени;
объединение упомянутых объединенных сегментов и
замену упомянутых удаленных сегментов на объединенный сегмент.
34. Вокодер по п.30, в котором упомянутая команда оценки задержки тона содержит интерполяцию между задержкой тона конца последнего кадра и конца текущего кадра.
35. Вокодер по п.30, в котором упомянутая команда суммирования упомянутых периодов тона содержит объединение речевых сегментов.
36. Вокодер по п.30, в котором упомянутая команда добавления упомянутых периодов тона, если увеличивается упомянутый речевой остаточный сигнал, содержит добавление дополнительного периода тона, созданного из первого сегмента периода тона и второго сегмента периода тона.
37. Вокодер по п.32, в котором упомянутые коэффициенты усиления кодируются для наборов речевых эталонов.
38. Вокодер по п.33, в котором упомянутая команда объединения упомянутых удаленных сегментов содержит увеличение доли первого сегмента периода тона и уменьшение доли второго сегмента периода тона.
39. Вокодер по п.35, дополнительно содержащий этап выбора схожих речевых сегментов, при этом объединяются упомянутые схожие речевые сегменты.
40. Вокодер по п.35, в котором упомянутая команда изменения масштаба времени дополнительно содержит корреляцию речевых сегментов, посредством чего выбираются схожие речевые сегменты.
41. Вокодер по п.36, в котором упомянутая команда дополнения дополнительного периода тона, созданного из первого сегмента периода тона и второго сегмента периода тона, содержит добавление упомянутого первого и второго сегментов периода тона таким образом, что увеличивается упомянутая доля первого сегмента периода тона и уменьшается доля второго сегмента периода тона.
42. Вокодер по п.37, в котором упомянутая команда изменения масштаба времени дополнительно содержит генерирование остаточного сигнала посредством генерирования случайных значений с последующим применением упомянутых коэффициентов усиления к упомянутым случайным значениям.
43. Вокодер по п.37, в котором упомянутая команда изменения масштаба времени дополнительно содержит представление упомянутой информации кодирования с линейным предсказанием в качестве 10 кодированных значений коэффициента усиления, при этом каждое кодированное значение коэффициента усиления представляет 16 эталонов речи.
44. Вокодер, содержащий:
средства для классифицирования речевых сегментов;
средства для кодирования упомянутых речевых сегментов;
средства для изменения масштаба времени остаточного речевого сигнала путем добавления или выделения, по меньшей мере, одного эталона к остаточному речевому сигналу, используя способ изменения масштаба времени, основанный на классификации речевых сегментов; и
средства для синтезирования упомянутого остаточного речевого сигнала, подвергшегося изменению масштаба времени.
средства для классифицирования речевых сегментов;
средства для кодирования упомянутых речевых сегментов;
средства для изменения масштаба времени остаточного речевого сигнала путем добавления или выделения, по меньшей мере, одного эталона к остаточному речевому сигналу, используя способ изменения масштаба времени, основанный на классификации речевых сегментов; и
средства для синтезирования упомянутого остаточного речевого сигнала, подвергшегося изменению масштаба времени.
45. Считываемый процессором носитель для передачи речи, содержащий команды для
классифицирования речевых сегментов;
кодирования упомянутых речевых сегментов;
изменения масштаба времени остаточного речевого сигнала путем добавления или выделения, по меньшей мере, одного эталона к остаточному речевому сигналу, используя способ изменения масштаба времени, основанный на классификации речевых сегментов; и
синтезирования упомянутого остаточного речевого сигнала, подвергшегося изменению масштаба времени.
классифицирования речевых сегментов;
кодирования упомянутых речевых сегментов;
изменения масштаба времени остаточного речевого сигнала путем добавления или выделения, по меньшей мере, одного эталона к остаточному речевому сигналу, используя способ изменения масштаба времени, основанный на классификации речевых сегментов; и
синтезирования упомянутого остаточного речевого сигнала, подвергшегося изменению масштаба времени.
Applications Claiming Priority (4)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US66082405P | 2005-03-11 | 2005-03-11 | |
US60/660,824 | 2005-03-11 | ||
US11/123,467 | 2005-05-05 | ||
US11/123,467 US8155965B2 (en) | 2005-03-11 | 2005-05-05 | Time warping frames inside the vocoder by modifying the residual |
Publications (2)
Publication Number | Publication Date |
---|---|
RU2007137643A RU2007137643A (ru) | 2009-04-20 |
RU2371784C2 true RU2371784C2 (ru) | 2009-10-27 |
Family
ID=36575961
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
RU2007137643/09A RU2371784C2 (ru) | 2005-03-11 | 2006-03-13 | Изменение масштаба времени кадров в вокодере посредством изменения остатка |
Country Status (14)
Country | Link |
---|---|
US (1) | US8155965B2 (ru) |
EP (1) | EP1856689A1 (ru) |
JP (1) | JP5203923B2 (ru) |
KR (2) | KR100956623B1 (ru) |
AU (1) | AU2006222963C1 (ru) |
BR (1) | BRPI0607624B1 (ru) |
CA (1) | CA2600713C (ru) |
IL (1) | IL185935A (ru) |
MX (1) | MX2007011102A (ru) |
NO (1) | NO20075180L (ru) |
RU (1) | RU2371784C2 (ru) |
SG (1) | SG160380A1 (ru) |
TW (1) | TWI389099B (ru) |
WO (1) | WO2006099529A1 (ru) |
Families Citing this family (38)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6691084B2 (en) * | 1998-12-21 | 2004-02-10 | Qualcomm Incorporated | Multiple mode variable rate speech coding |
WO2006026635A2 (en) * | 2004-08-30 | 2006-03-09 | Qualcomm Incorporated | Adaptive de-jitter buffer for voice over ip |
US7674096B2 (en) * | 2004-09-22 | 2010-03-09 | Sundheim Gregroy S | Portable, rotary vane vacuum pump with removable oil reservoir cartridge |
US8085678B2 (en) * | 2004-10-13 | 2011-12-27 | Qualcomm Incorporated | Media (voice) playback (de-jitter) buffer adjustments based on air interface |
US8355907B2 (en) * | 2005-03-11 | 2013-01-15 | Qualcomm Incorporated | Method and apparatus for phase matching frames in vocoders |
CA2603255C (en) * | 2005-04-01 | 2015-06-23 | Qualcomm Incorporated | Systems, methods, and apparatus for wideband speech coding |
EP1875464B9 (en) * | 2005-04-22 | 2020-10-28 | Qualcomm Incorporated | Method, storage medium and apparatus for gain factor attenuation |
US8259840B2 (en) * | 2005-10-24 | 2012-09-04 | General Motors Llc | Data communication via a voice channel of a wireless communication network using discontinuities |
US7720677B2 (en) * | 2005-11-03 | 2010-05-18 | Coding Technologies Ab | Time warped modified transform coding of audio signals |
US8239190B2 (en) * | 2006-08-22 | 2012-08-07 | Qualcomm Incorporated | Time-warping frames of wideband vocoder |
US8279889B2 (en) * | 2007-01-04 | 2012-10-02 | Qualcomm Incorporated | Systems and methods for dimming a first packet associated with a first bit rate to a second packet associated with a second bit rate |
US9653088B2 (en) | 2007-06-13 | 2017-05-16 | Qualcomm Incorporated | Systems, methods, and apparatus for signal encoding using pitch-regularizing and non-pitch-regularizing coding |
US8401865B2 (en) | 2007-07-18 | 2013-03-19 | Nokia Corporation | Flexible parameter update in audio/speech coded signals |
US20090319261A1 (en) * | 2008-06-20 | 2009-12-24 | Qualcomm Incorporated | Coding of transitional speech frames for low-bit-rate applications |
US20090319263A1 (en) * | 2008-06-20 | 2009-12-24 | Qualcomm Incorporated | Coding of transitional speech frames for low-bit-rate applications |
US8768690B2 (en) * | 2008-06-20 | 2014-07-01 | Qualcomm Incorporated | Coding scheme selection for low-bit-rate applications |
KR101400535B1 (ko) | 2008-07-11 | 2014-05-28 | 프라운호퍼 게젤샤프트 쭈르 푀르데룽 데어 안겐반텐 포르슝 에. 베. | 시간 워프 활성 신호의 제공 및 이를 이용한 오디오 신호의 인코딩 |
MY154452A (en) | 2008-07-11 | 2015-06-15 | Fraunhofer Ges Forschung | An apparatus and a method for decoding an encoded audio signal |
EP2144230A1 (en) | 2008-07-11 | 2010-01-13 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Low bitrate audio encoding/decoding scheme having cascaded switches |
US8798776B2 (en) * | 2008-09-30 | 2014-08-05 | Dolby International Ab | Transcoding of audio metadata |
US20100191534A1 (en) * | 2009-01-23 | 2010-07-29 | Qualcomm Incorporated | Method and apparatus for compression or decompression of digital signals |
US8428938B2 (en) * | 2009-06-04 | 2013-04-23 | Qualcomm Incorporated | Systems and methods for reconstructing an erased speech frame |
EP2491555B1 (en) | 2009-10-20 | 2014-03-05 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Multi-mode audio codec |
US8996364B2 (en) * | 2010-04-12 | 2015-03-31 | Smule, Inc. | Computational techniques for continuous pitch correction and harmony generation |
TWI409802B (zh) * | 2010-04-14 | 2013-09-21 | Univ Da Yeh | 音頻特徵處理方法及其裝置 |
MY160265A (en) | 2011-02-14 | 2017-02-28 | Fraunhofer-Gesellschaft Zur Forderung Der Angewandten Forschung E V | Apparatus and Method for Encoding and Decoding an Audio Signal Using an Aligned Look-Ahead Portion |
SG185519A1 (en) | 2011-02-14 | 2012-12-28 | Fraunhofer Ges Forschung | Information signal representation using lapped transform |
EP2676264B1 (en) | 2011-02-14 | 2015-01-28 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Audio encoder estimating background noise during active phases |
SG192734A1 (en) | 2011-02-14 | 2013-09-30 | Fraunhofer Ges Forschung | Apparatus and method for error concealment in low-delay unified speech and audio coding (usac) |
JP5625126B2 (ja) | 2011-02-14 | 2014-11-12 | フラウンホーファー−ゲゼルシャフト・ツール・フェルデルング・デル・アンゲヴァンテン・フォルシュング・アインゲトラーゲネル・フェライン | スペクトル領域ノイズ整形を使用する線形予測ベースコーディングスキーム |
JP5800915B2 (ja) | 2011-02-14 | 2015-10-28 | フラウンホッファー−ゲゼルシャフト ツァ フェルダールング デァ アンゲヴァンテン フォアシュンク エー.ファオ | オーディオ信号のトラックのパルス位置の符号化および復号化 |
BR112013020482B1 (pt) | 2011-02-14 | 2021-02-23 | Fraunhofer Ges Forschung | aparelho e método para processar um sinal de áudio decodificado em um domínio espectral |
MY159444A (en) | 2011-02-14 | 2017-01-13 | Fraunhofer-Gesellschaft Zur Forderung Der Angewandten Forschung E V | Encoding and decoding of pulse positions of tracks of an audio signal |
ES2623291T3 (es) | 2011-02-14 | 2017-07-10 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Codificación de una porción de una señal de audio utilizando una detección de transitorios y un resultado de calidad |
CN103092330B (zh) * | 2011-10-27 | 2015-11-25 | 宏碁股份有限公司 | 电子装置及其语音辨识方法 |
TWI584269B (zh) * | 2012-07-11 | 2017-05-21 | Univ Nat Central | Unsupervised language conversion detection method |
FR3024582A1 (fr) * | 2014-07-29 | 2016-02-05 | Orange | Gestion de la perte de trame dans un contexte de transition fd/lpd |
WO2016142002A1 (en) * | 2015-03-09 | 2016-09-15 | Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. | Audio encoder, audio decoder, method for encoding an audio signal and method for decoding an encoded audio signal |
Family Cites Families (96)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPS5643800A (en) | 1979-09-19 | 1981-04-22 | Fujitsu Ltd | Multilayer printed board |
JPS57158247A (en) | 1981-03-24 | 1982-09-30 | Tokuyama Soda Co Ltd | Flame retardant polyolefin composition |
JPS59153346A (ja) * | 1983-02-21 | 1984-09-01 | Nec Corp | 音声符号化・復号化装置 |
JPS61156949A (ja) | 1984-12-27 | 1986-07-16 | Matsushita Electric Ind Co Ltd | 音声パケツト通信方式 |
BE1000415A7 (nl) | 1987-03-18 | 1988-11-22 | Bell Telephone Mfg | Asynchroon op basis van tijdsverdeling werkend communicatiesysteem. |
JPS6429141A (en) | 1987-07-24 | 1989-01-31 | Nec Corp | Packet exchange system |
JP2760810B2 (ja) | 1988-09-19 | 1998-06-04 | 株式会社日立製作所 | 音声パケット処理方法 |
SE462277B (sv) | 1988-10-05 | 1990-05-28 | Vme Ind Sweden Ab | Hydrauliskt styrsystem |
JPH04113744A (ja) | 1990-09-04 | 1992-04-15 | Fujitsu Ltd | 可変速度パケット伝送方式 |
AU642540B2 (en) * | 1990-09-19 | 1993-10-21 | Philips Electronics N.V. | Record carrier on which a main data file and a control file have been recorded, method of and device for recording the main data file and the control file, and device for reading the record carrier |
JP2846443B2 (ja) | 1990-10-09 | 1999-01-13 | 三菱電機株式会社 | パケット組立分解装置 |
US5283811A (en) * | 1991-09-03 | 1994-02-01 | General Electric Company | Decision feedback equalization for digital cellular radio |
US5371853A (en) * | 1991-10-28 | 1994-12-06 | University Of Maryland At College Park | Method and system for CELP speech coding and codebook for use therewith |
US5317604A (en) * | 1992-12-30 | 1994-05-31 | Gte Government Systems Corporation | Isochronous interface method |
JP3186315B2 (ja) * | 1993-02-27 | 2001-07-11 | ソニー株式会社 | 信号圧縮装置、信号伸張装置、信号送信装置、信号受信装置及び信号送受信装置 |
US5490479A (en) * | 1993-05-10 | 1996-02-13 | Shalev; Matti | Method and a product resulting from the use of the method for elevating feed storage bins |
US5440562A (en) * | 1993-12-27 | 1995-08-08 | Motorola, Inc. | Communication through a channel having a variable propagation delay |
WO1996005697A1 (en) * | 1994-08-12 | 1996-02-22 | Sony Corporation | Video signal editing device |
NL9401696A (nl) | 1994-10-14 | 1996-05-01 | Nederland Ptt | Bufferuitleesbesturing van ATM ontvanger. |
US5602959A (en) * | 1994-12-05 | 1997-02-11 | Motorola, Inc. | Method and apparatus for characterization and reconstruction of speech excitation waveforms |
US5699478A (en) | 1995-03-10 | 1997-12-16 | Lucent Technologies Inc. | Frame erasure compensation technique |
US5929921A (en) | 1995-03-16 | 1999-07-27 | Matsushita Electric Industrial Co., Ltd. | Video and audio signal multiplex sending apparatus, receiving apparatus and transmitting apparatus |
JP3286110B2 (ja) | 1995-03-16 | 2002-05-27 | 松下電器産業株式会社 | 音声パケット補間装置 |
KR0164827B1 (ko) * | 1995-03-31 | 1999-03-20 | 김광호 | 프로그램 가이드신호 수신기 |
JPH09127995A (ja) | 1995-10-26 | 1997-05-16 | Sony Corp | 信号復号化方法及び信号復号化装置 |
US5640388A (en) * | 1995-12-21 | 1997-06-17 | Scientific-Atlanta, Inc. | Method and apparatus for removing jitter and correcting timestamps in a packet stream |
JPH09261613A (ja) | 1996-03-26 | 1997-10-03 | Mitsubishi Electric Corp | データ受信再生装置 |
US5940479A (en) * | 1996-10-01 | 1999-08-17 | Northern Telecom Limited | System and method for transmitting aural information between a computer and telephone equipment |
JPH10190735A (ja) | 1996-12-27 | 1998-07-21 | Secom Co Ltd | 通話システム |
US6073092A (en) * | 1997-06-26 | 2000-06-06 | Telogy Networks, Inc. | Method for speech coding based on a code excited linear prediction (CELP) model |
US6240386B1 (en) * | 1998-08-24 | 2001-05-29 | Conexant Systems, Inc. | Speech codec employing noise classification for noise compensation |
US6259677B1 (en) * | 1998-09-30 | 2001-07-10 | Cisco Technology, Inc. | Clock synchronization and dynamic jitter management for voice over IP and real-time data |
US6370125B1 (en) * | 1998-10-08 | 2002-04-09 | Adtran, Inc. | Dynamic delay compensation for packet-based voice network |
US6456964B2 (en) * | 1998-12-21 | 2002-09-24 | Qualcomm, Incorporated | Encoding of periodic speech using prototype waveforms |
US6922669B2 (en) * | 1998-12-29 | 2005-07-26 | Koninklijke Philips Electronics N.V. | Knowledge-based strategies applied to N-best lists in automatic speech recognition systems |
EP1088302B1 (en) | 1999-04-19 | 2008-07-23 | AT & T Corp. | Method for performing packet loss concealment |
US7117156B1 (en) * | 1999-04-19 | 2006-10-03 | At&T Corp. | Method and apparatus for performing packet loss or frame erasure concealment |
GB9911737D0 (en) * | 1999-05-21 | 1999-07-21 | Philips Electronics Nv | Audio signal time scale modification |
US6785230B1 (en) * | 1999-05-25 | 2004-08-31 | Matsushita Electric Industrial Co., Ltd. | Audio transmission apparatus |
JP4218186B2 (ja) | 1999-05-25 | 2009-02-04 | パナソニック株式会社 | 音声伝送装置 |
JP4895418B2 (ja) | 1999-08-24 | 2012-03-14 | ソニー株式会社 | 音声再生方法および音声再生装置 |
EP1221694B1 (en) | 1999-09-14 | 2006-07-19 | Fujitsu Limited | Voice encoder/decoder |
US6377931B1 (en) * | 1999-09-28 | 2002-04-23 | Mindspeed Technologies | Speech manipulation for continuous speech playback over a packet network |
US6859460B1 (en) * | 1999-10-22 | 2005-02-22 | Cisco Technology, Inc. | System and method for providing multimedia jitter buffer adjustment for packet-switched networks |
US6665317B1 (en) | 1999-10-29 | 2003-12-16 | Array Telecom Corporation | Method, system, and computer program product for managing jitter |
US6496794B1 (en) * | 1999-11-22 | 2002-12-17 | Motorola, Inc. | Method and apparatus for seamless multi-rate speech coding |
US6366880B1 (en) * | 1999-11-30 | 2002-04-02 | Motorola, Inc. | Method and apparatus for suppressing acoustic background noise in a communication system by equaliztion of pre-and post-comb-filtered subband spectral energies |
US6693921B1 (en) * | 1999-11-30 | 2004-02-17 | Mindspeed Technologies, Inc. | System for use of packet statistics in de-jitter delay adaption in a packet network |
GB2360178B (en) * | 2000-03-06 | 2004-04-14 | Mitel Corp | Sub-packet insertion for packet loss compensation in Voice Over IP networks |
US6813274B1 (en) * | 2000-03-21 | 2004-11-02 | Cisco Technology, Inc. | Network switch and method for data switching using a crossbar switch fabric with output port groups operating concurrently and independently |
AU2001247578A1 (en) | 2000-04-03 | 2001-10-15 | Ericsson Inc. | Method and apparatus for efficient handover in packet data communication system |
US6584438B1 (en) * | 2000-04-24 | 2003-06-24 | Qualcomm Incorporated | Frame erasure compensation method in a variable rate speech coder |
EP2040253B1 (en) | 2000-04-24 | 2012-04-11 | Qualcomm Incorporated | Predictive dequantization of voiced speech |
US7246057B1 (en) * | 2000-05-31 | 2007-07-17 | Telefonaktiebolaget Lm Ericsson (Publ) | System for handling variations in the reception of a speech signal consisting of packets |
US7016970B2 (en) * | 2000-07-06 | 2006-03-21 | Matsushita Electric Industrial Co., Ltd. | System for transmitting stream data from server to client based on buffer and transmission capacities and delay time of the client |
US7155518B2 (en) * | 2001-01-08 | 2006-12-26 | Interactive People Unplugged Ab | Extranet workgroup formation across multiple mobile virtual private networks |
US20020133334A1 (en) * | 2001-02-02 | 2002-09-19 | Geert Coorman | Time scale modification of digitally sampled waveforms in the time domain |
US20040204935A1 (en) * | 2001-02-21 | 2004-10-14 | Krishnasamy Anandakumar | Adaptive voice playout in VOP |
US7212517B2 (en) * | 2001-04-09 | 2007-05-01 | Lucent Technologies Inc. | Method and apparatus for jitter and frame erasure correction in packetized voice communication systems |
WO2002087137A2 (en) | 2001-04-24 | 2002-10-31 | Nokia Corporation | Methods for changing the size of a jitter buffer and for time alignment, communications system, receiving end, and transcoder |
US7006511B2 (en) | 2001-07-17 | 2006-02-28 | Avaya Technology Corp. | Dynamic jitter buffering for voice-over-IP and other packet-based communication systems |
US7266127B2 (en) * | 2002-02-08 | 2007-09-04 | Lucent Technologies Inc. | Method and system to compensate for the effects of packet delays on speech quality in a Voice-over IP system |
US7079486B2 (en) * | 2002-02-13 | 2006-07-18 | Agere Systems Inc. | Adaptive threshold based jitter buffer management for packetized data |
US7158572B2 (en) * | 2002-02-14 | 2007-01-02 | Tellabs Operations, Inc. | Audio enhancement communication techniques |
US7126957B1 (en) * | 2002-03-07 | 2006-10-24 | Utstarcom, Inc. | Media flow method for transferring real-time data between asynchronous and synchronous networks |
US7263109B2 (en) * | 2002-03-11 | 2007-08-28 | Conexant, Inc. | Clock skew compensation for a jitter buffer |
US20030187663A1 (en) | 2002-03-28 | 2003-10-02 | Truman Michael Mead | Broadband frequency translation for high frequency regeneration |
JP3761486B2 (ja) * | 2002-03-29 | 2006-03-29 | Necインフロンティア株式会社 | 無線lanシステム、主装置およびプログラム |
AU2002307884A1 (en) * | 2002-04-22 | 2003-11-03 | Nokia Corporation | Method and device for obtaining parameters for parametric speech coding of frames |
US7496086B2 (en) * | 2002-04-30 | 2009-02-24 | Alcatel-Lucent Usa Inc. | Techniques for jitter buffer delay management |
US7280510B2 (en) * | 2002-05-21 | 2007-10-09 | Nortel Networks Limited | Controlling reverse channel activity in a wireless communications system |
WO2003107591A1 (en) * | 2002-06-14 | 2003-12-24 | Nokia Corporation | Enhanced error concealment for spatial audio |
US7336678B2 (en) * | 2002-07-31 | 2008-02-26 | Intel Corporation | State-based jitter buffer and method of operation |
US8520519B2 (en) * | 2002-09-20 | 2013-08-27 | Broadcom Corporation | External jitter buffer in a packet voice system |
JP3796240B2 (ja) | 2002-09-30 | 2006-07-12 | 三洋電機株式会社 | ネットワーク電話機および音声復号化装置 |
JP4146708B2 (ja) | 2002-10-31 | 2008-09-10 | 京セラ株式会社 | 通信システム、無線通信端末、データ配信装置及び通信方法 |
US6996626B1 (en) * | 2002-12-03 | 2006-02-07 | Crystalvoice Communications | Continuous bandwidth assessment and feedback for voice-over-internet-protocol (VoIP) comparing packet's voice duration and arrival rate |
KR100517237B1 (ko) | 2002-12-09 | 2005-09-27 | 한국전자통신연구원 | 직교 주파수 분할 다중화 무선 통신 시스템에서의채널품질 추정과 링크적응 방법 및 그 장치 |
US7525918B2 (en) * | 2003-01-21 | 2009-04-28 | Broadcom Corporation | Using RTCP statistics for media system control |
US7394833B2 (en) * | 2003-02-11 | 2008-07-01 | Nokia Corporation | Method and apparatus for reducing synchronization delay in packet switched voice terminals using speech decoder modification |
JP2004266724A (ja) | 2003-03-04 | 2004-09-24 | Matsushita Electric Ind Co Ltd | リアルタイム音声用バッファ制御装置 |
JP3825007B2 (ja) * | 2003-03-11 | 2006-09-20 | 沖電気工業株式会社 | ジッタバッファの制御方法 |
US7551671B2 (en) * | 2003-04-16 | 2009-06-23 | General Dynamics Decision Systems, Inc. | System and method for transmission of video signals using multiple channels |
JP2005057504A (ja) | 2003-08-05 | 2005-03-03 | Matsushita Electric Ind Co Ltd | データ通信装置及びデータ通信方法 |
CA2446469A1 (en) * | 2003-08-15 | 2005-02-15 | M-Stack Limited | Apparatus, and an associated method, for preserving communication service quality levels during hand-off of communications in a radio communication system |
US7596488B2 (en) | 2003-09-15 | 2009-09-29 | Microsoft Corporation | System and method for real-time jitter control and packet-loss concealment in an audio signal |
US7505764B2 (en) * | 2003-10-28 | 2009-03-17 | Motorola, Inc. | Method for retransmitting a speech packet |
US7272400B1 (en) * | 2003-12-19 | 2007-09-18 | Core Mobility, Inc. | Load balancing between users of a wireless base station |
US7424026B2 (en) * | 2004-04-28 | 2008-09-09 | Nokia Corporation | Method and apparatus providing continuous adaptive control of voice packet buffer at receiver terminal |
JP4076981B2 (ja) | 2004-08-09 | 2008-04-16 | Kddi株式会社 | 通信端末装置およびバッファ制御方法 |
US8085678B2 (en) * | 2004-10-13 | 2011-12-27 | Qualcomm Incorporated | Media (voice) playback (de-jitter) buffer adjustments based on air interface |
SG124307A1 (en) * | 2005-01-20 | 2006-08-30 | St Microelectronics Asia | Method and system for lost packet concealment in high quality audio streaming applications |
US8102872B2 (en) * | 2005-02-01 | 2012-01-24 | Qualcomm Incorporated | Method for discontinuous transmission and accurate reproduction of background noise information |
US20060187970A1 (en) * | 2005-02-22 | 2006-08-24 | Minkyu Lee | Method and apparatus for handling network jitter in a Voice-over IP communications network using a virtual jitter buffer and time scale modification |
US8355907B2 (en) | 2005-03-11 | 2013-01-15 | Qualcomm Incorporated | Method and apparatus for phase matching frames in vocoders |
CA2603255C (en) * | 2005-04-01 | 2015-06-23 | Qualcomm Incorporated | Systems, methods, and apparatus for wideband speech coding |
-
2005
- 2005-05-05 US US11/123,467 patent/US8155965B2/en active Active
-
2006
- 2006-03-10 TW TW095108057A patent/TWI389099B/zh active
- 2006-03-13 RU RU2007137643/09A patent/RU2371784C2/ru active
- 2006-03-13 EP EP06738524A patent/EP1856689A1/en not_active Withdrawn
- 2006-03-13 CA CA2600713A patent/CA2600713C/en active Active
- 2006-03-13 BR BRPI0607624-6A patent/BRPI0607624B1/pt active IP Right Grant
- 2006-03-13 WO PCT/US2006/009472 patent/WO2006099529A1/en active Application Filing
- 2006-03-13 SG SG201001616-0A patent/SG160380A1/en unknown
- 2006-03-13 JP JP2008501073A patent/JP5203923B2/ja active Active
- 2006-03-13 KR KR1020077022667A patent/KR100956623B1/ko active IP Right Grant
- 2006-03-13 MX MX2007011102A patent/MX2007011102A/es active IP Right Grant
- 2006-03-13 KR KR1020097022915A patent/KR100957265B1/ko active IP Right Grant
- 2006-03-13 AU AU2006222963A patent/AU2006222963C1/en active Active
-
2007
- 2007-09-11 IL IL185935A patent/IL185935A/en not_active IP Right Cessation
- 2007-10-10 NO NO20075180A patent/NO20075180L/no not_active Application Discontinuation
Also Published As
Publication number | Publication date |
---|---|
AU2006222963B2 (en) | 2010-04-08 |
CA2600713A1 (en) | 2006-09-21 |
JP5203923B2 (ja) | 2013-06-05 |
KR100957265B1 (ko) | 2010-05-12 |
MX2007011102A (es) | 2007-11-22 |
IL185935A (en) | 2013-09-30 |
JP2008533529A (ja) | 2008-08-21 |
US8155965B2 (en) | 2012-04-10 |
NO20075180L (no) | 2007-10-31 |
TWI389099B (zh) | 2013-03-11 |
RU2007137643A (ru) | 2009-04-20 |
KR100956623B1 (ko) | 2010-05-11 |
BRPI0607624A2 (pt) | 2009-09-22 |
KR20090119936A (ko) | 2009-11-20 |
US20060206334A1 (en) | 2006-09-14 |
AU2006222963A1 (en) | 2006-09-21 |
EP1856689A1 (en) | 2007-11-21 |
TW200638336A (en) | 2006-11-01 |
KR20070112832A (ko) | 2007-11-27 |
BRPI0607624B1 (pt) | 2019-03-26 |
CA2600713C (en) | 2012-05-22 |
SG160380A1 (en) | 2010-04-29 |
AU2006222963C1 (en) | 2010-09-16 |
WO2006099529A1 (en) | 2006-09-21 |
IL185935A0 (en) | 2008-01-06 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
RU2371784C2 (ru) | Изменение масштаба времени кадров в вокодере посредством изменения остатка | |
RU2414010C2 (ru) | Трансформация шкалы времени кадров в широкополосном вокодере | |
CN100369112C (zh) | 可变速率语音编码 | |
US7930176B2 (en) | Packet loss concealment for block-independent speech codecs | |
JP5203929B2 (ja) | スペクトルエンベロープ表示のベクトル量子化方法及び装置 | |
US8386246B2 (en) | Low-complexity frame erasure concealment | |
KR100956526B1 (ko) | 보코더에서 프레임을 위상 매칭하는 방법 및 장치 | |
US8670990B2 (en) | Dynamic time scale modification for reduced bit rate audio coding | |
JP2010501896A5 (ru) | ||
US9779741B2 (en) | Generation of comfort noise | |
CN101171626B (zh) | 通过修改残余对声码器内的帧进行时间扭曲 | |
US20090055171A1 (en) | Buzz reduction for low-complexity frame erasure concealment | |
JP2001147700A (ja) | 音声信号の後処理方法および装置並びにプログラムを記録した記録媒体 | |
Yaghmaie | Prototype waveform interpolation based low bit rate speech coding |