RU2146394C1 - Способ и устройство вокодирования переменной скорости при пониженной скорости кодирования - Google Patents
Способ и устройство вокодирования переменной скорости при пониженной скорости кодирования Download PDFInfo
- Publication number
- RU2146394C1 RU2146394C1 RU96110286A RU96110286A RU2146394C1 RU 2146394 C1 RU2146394 C1 RU 2146394C1 RU 96110286 A RU96110286 A RU 96110286A RU 96110286 A RU96110286 A RU 96110286A RU 2146394 C1 RU2146394 C1 RU 2146394C1
- Authority
- RU
- Russia
- Prior art keywords
- frame
- speech
- speech signal
- speed
- energy
- Prior art date
Links
- 238000000034 method Methods 0.000 title claims description 46
- 230000002829 reductive effect Effects 0.000 title description 9
- 238000004891 communication Methods 0.000 claims abstract description 14
- 238000005311 autocorrelation function Methods 0.000 claims description 21
- 230000005540 biological transmission Effects 0.000 claims description 17
- 230000008859 change Effects 0.000 claims description 9
- 238000005259 measurement Methods 0.000 claims description 4
- 230000000694 effects Effects 0.000 abstract description 18
- 238000004364 calculation method Methods 0.000 abstract description 13
- 230000005284 excitation Effects 0.000 abstract description 5
- 238000001514 detection method Methods 0.000 abstract description 3
- 230000003321 amplification Effects 0.000 abstract 2
- 238000003199 nucleic acid amplification method Methods 0.000 abstract 2
- 238000005314 correlation function Methods 0.000 abstract 1
- 239000000126 substance Substances 0.000 abstract 1
- 101150049692 THR4 gene Proteins 0.000 description 11
- 230000007423 decrease Effects 0.000 description 7
- 230000006870 function Effects 0.000 description 7
- 238000012546 transfer Methods 0.000 description 6
- 230000008901 benefit Effects 0.000 description 5
- 230000000873 masking effect Effects 0.000 description 4
- 230000009467 reduction Effects 0.000 description 4
- 101000712600 Homo sapiens Thyroid hormone receptor beta Proteins 0.000 description 3
- 102100033451 Thyroid hormone receptor beta Human genes 0.000 description 3
- 230000015572 biosynthetic process Effects 0.000 description 3
- 238000007906 compression Methods 0.000 description 3
- 230000006835 compression Effects 0.000 description 3
- 230000003247 decreasing effect Effects 0.000 description 3
- 238000013461 design Methods 0.000 description 3
- 238000001914 filtration Methods 0.000 description 3
- 230000000737 periodic effect Effects 0.000 description 3
- 230000008569 process Effects 0.000 description 3
- 238000012545 processing Methods 0.000 description 3
- 238000005070 sampling Methods 0.000 description 3
- 230000007704 transition Effects 0.000 description 3
- 239000013598 vector Substances 0.000 description 3
- 238000004458 analytical method Methods 0.000 description 2
- 230000006872 improvement Effects 0.000 description 2
- 230000007774 longterm Effects 0.000 description 2
- 230000003595 spectral effect Effects 0.000 description 2
- 238000003786 synthesis reaction Methods 0.000 description 2
- 210000001260 vocal cord Anatomy 0.000 description 2
- 230000001755 vocal effect Effects 0.000 description 2
- 238000005303 weighing Methods 0.000 description 2
- 230000003044 adaptive effect Effects 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 239000006227 byproduct Substances 0.000 description 1
- 230000001413 cellular effect Effects 0.000 description 1
- 238000013144 data compression Methods 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000013383 initial experiment Methods 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 230000000670 limiting effect Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000008447 perception Effects 0.000 description 1
- 239000000047 product Substances 0.000 description 1
- 238000001228 spectrum Methods 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
- 230000002123 temporal effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L13/00—Speech synthesis; Text to speech systems
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/04—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
- G10L19/16—Vocoder architecture
- G10L19/18—Vocoders using multiple modes
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/002—Dynamic bit allocation
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Signal Processing (AREA)
- Compression, Expansion, Code Conversion, And Decoders (AREA)
- Reduction Or Emphasis Of Bandwidth Of Signals (AREA)
- Transmission Systems Not Characterized By The Medium Used For Transmission (AREA)
Abstract
Изобретение относится к системе связи и предназначено для выполнения кодирования с линейным предсказанием, возбуждаемого кодом переменной скорости. Технический результат - обеспечение оптимизированного выбора режима кодирования для эффективного кодирования скорости входного речевого сигнала. Логическая схема 14 определения скорости выбирает скорость, при которой осуществляется кодирование речевого сигнала. Выбор скорости основан на согласующемся по заданному значению сигнал/шум, определенному элементом 12 определения режимов, нормализованной функции автокорреляции, вычисленной элементом 4 вычисления нормализованной автокорреляции, отсчете пересечений нулевого уровня, определенном счетчиком пересечений нулевого уровня 6, прогнозируемом дифференциале усиления, вычисляемом вычислительным элементом 8 прогнозируемого дифференциала усиления и энергетическом дифференциале между кадрами, вычисляемом элементом вычисления энергетического дифференциала кадров 10. 4 c. и 18 з.п. ф-лы, 2 ил.
Description
Изобретение относится к системам связи. Более конкретно, настоящее изобретение относится к новым, усовершенствованным способу и устройству, предназначенным для выполнения кодирования с линейным предсказанием, возбуждаемого кодом переменной скорости.
Передача речевых сигналов средствами цифровой техники получила широкое распространение, в частности, в системах большой дальности действия и в цифровых радиотелефонных системах. Это, в свою очередь, вызвало интерес в определении наименьшего объема информации, передаваемой по каналу, сохраняющему возможность различения воспроизводимой речи. Если речь передают с использованием дискретизации и преобразования в цифровую форму, для достижения качества речи обычного аналогового телефона требуется скорость передачи данных порядка 64 кбит/с. Однако, путем использования анализа речи с последующим соответствующим кодированием, передачей и повторным синтезом в приемном устройстве можно достичь значительного снижения скорости передачи данных.
Устройства, использующие способы сжатия вокализированной речи путем выделения параметров, относящихся к модели формирования человеческой речи, обычно называют вокодерами (устройствами кодирования речи). Такие устройства состоят из кодирующего устройства, которое анализирует поступающую речь для выделения соответствующих параметров, и декодирующего устройства, которое восстанавливает речь, используя параметры, которые оно принимает по каналу передачи. Для того, чтобы модель была точной, ее необходимо постоянно изменять. Таким образом, речь делится на временные блоки или анализируемые кадры, в течение которых рассчитываются параметры. Затем параметры обновляются для каждого нового кадра.
К одному из различных классов средств кодирования относятся возбуждаемое кодом кодирование с линейным предсказанием, стохастическое кодирование или кодирование речи с векторным возбуждением. Пример алгоритма кодирования для этого конкретного класса описан в работе "Возбуждаемое кодом устройство кодирования с линейным предсказанием со скоростью 4,8 кбит/с", Томаса И., Тремейна и др. , опубликованной в трудах Конференции по подвижным спутникам, 1988 г.
Функция вокодера заключается в сжатии преобразованного в цифровую форму речевого сигнала в сигнал с низкой скоростью передачи битов путем исключения всех естественных избыточностей, присущих речи. Речь обычно имеет кратковременную избыточность, обусловленную главным образом операцией фильтрации речевого тракта, и долговременную избыточность, обусловленную возбуждением речевого тракта голосовыми связками. В возбуждаемом кодом кодирующем устройстве с линейным предсказанием эти операции моделируются двумя фильтрами, формантным фильтром с малой постоянной времени и фильтром основного тона с большой постоянной времени. После того, как эти избыточности удалены, полученный в результате остаточный сигнал можно моделировать как белый гауссов шум, который также можно кодировать. Основа этого метода заключается в вычислении n параметров фильтра, называемого фильтром линейного кодирования с предсказанием (фильтром ЛКП), который осуществляет кратковременное предсказание речевого сигнала, используя модель тракта человеческого голоса. Кроме того, долговременные эффекты, связанные с основным тоном речи, моделируют путем расчета параметров фильтра основного тона, который главным образом моделирует голосовые связки человека. И наконец, эти фильтры должны возбуждаться, и это делается посредством определения того, какой из числа случайных сигналов возбуждения в кодовом словаре наиболее точно аппроксимирует первоначальную речь при возбуждении таким сигналом двух упомянутых фильтров. Таким образом, передаваемые параметры относятся к трем объектам: 1) фильтра ЛКП, 2) фильтра основного тона и 3) возбуждения кодового словаря.
Хотя использование методов кодирования речевых сигналов способствует снижению объема информации, посылаемой по каналу при сохранении качества восстанавливаемой речи, для достижения снижения необходимо применять другие методы. Одним из ранее использовавшихся методов снижения объема передаваемой информации является стробирование речевой активности. При этом методе во время пауз в речи информация не передается. Хотя этот метод позволяет уменьшить объем передаваемых данных, однако ему присущ ряд недостатков.
Во многих случаях качество речи снижается из-за отсечки начальных частей слова. Другая проблема, связанная со стробированием отключенного канала при отсутствии речевой активности, заключается в том, что пользователи системы ощущают отсутствие фонового шума, который обычно сопровождает речь, и оценивают качество канала как более низкое, чем при обычном телефонном разговоре. Следующая проблема, связанная со стробированием речевой активности, состоит в том, что внезапно появляющиеся время от времени шумы фона могут запускать передающее устройство при отсутствии речи, в результате чего в приемном устройстве появляются неприятные всплески шума.
При попытке улучшить качество синтезированной речи в системе стробирования речевой активности, в процессе декодирования добавляется синтезированный комфортный шум. Хотя от добавления комфортного шума достигается некоторое улучшение качества, это по существу не улучшает общего качества, поскольку комфортный шум не моделирует действительного фонового шума в кодирующем устройстве.
Предпочтительный способ осуществления сжатия данных для уменьшения количества информации, которую необходимо передать, заключается в осуществлении кодирования речевых сигналов с переменной скоростью. Поскольку речи внутренне присущи периоды молчания, то есть паузы, количество данных, требуемое для воспроизведения этих периодов, можно снизить. При кодировании речевых сигналов (вокодировании) переменной скорости данный факт используют наиболее эффективно посредством снижения скорости передачи данных в такие периоды молчания. Снижение скорости передачи данных, в противоположность полной остановке передачи данных в периоды молчания, преодолевает проблемы, связанные со стробированием речевой активности, способствуя тем самым уменьшению объема передаваемой информации.
В совместно поданной заявке на патент США сер. N 08/004.484 от 14 января 1993 г. на "Устройство кодирования речевых сигналов с переменной скоростью", принадлежащей тому же правопреемнику, что и настоящее изобретение, подробно описан алгоритм кодирования речевых сигналов упомянутого выше класса устройств кодирования речевых сигналов, в том числе возбуждаемого кодом линейного кодирования с предсказанием (ВКЛКП), стохастического кодирования или кодирования речи с векторным возбуждением. Метод ВКЛКП сам по себе обеспечивает значительное снижение объема данных, которые необходимы для представления речи таким образом, чтобы при восстановлении обеспечивалась речь высокого качества. Как упоминалось выше, параметры устройства кодирования речевых сигналов обновляют для каждого кадра. Вокодер, описанный в упомянутой заявке, обеспечивает переменную скорость выходных данных путем изменения частоты параметров модели. Алгоритм кодирования речевых сигналов, раскрытый в упомянутой выше заявке на патент, отличается наиболее заметно от прежних способов ВКЛКП тем, что обеспечивает переменную скорость выходных данных на основании речевой активности. Структура определяется таким образом, что параметры корректируются реже или с меньшей точностью во время пауз в речи. Этот метод позволяет еще больше снизить объем передаваемой информации. Явление, которое используется для снижения скорости передачи данных, представляет собой показатель речевой активности, который определяется средним процентом времени для данного абонента, в течение которого абонент действительно говорит во время разговора. Для обычных двусторонних телефонных переговоров средняя скорость передачи данных снижается в два или больше раз. Во время пауз в речи устройством кодирования речевых сигналов кодируется только фоновый шум. В эти периоды времени нет необходимости передавать некоторые параметры, относящиеся к модели речевого тракта человека.
Как упоминалось выше, известный подход для ограничения объема информации, передаваемой во время молчания, называется стробированием речевой активности. Это способ, при котором информация не передается в периоды времени молчания. На принимающей стороне эти периоды можно заполнять синтезированным "комфортным шумом". В противоположность этому, устройство кодирования речевых сигналов с переменной скоростью непрерывно передает данные, которые в раскрытом в упомянутой заявке варианте осуществления передаются при скоростях в пределах примерно от 8 кбит/с до 1 кбит/с. Устройство кодирования речевых сигналов, которое обеспечивает непрерывную передачу данных, исключает необходимость синтезирования "комфортного шума" при кодировании фонового шума, обеспечивающего более естественные характеристики для синтезируемой речи. Следовательно, изобретение, раскрытое в упомянутой выше заявке, обеспечивает существенное улучшение качества синтезируемой речи по сравнению с качеством стробирования речевой активности, благодаря обеспечению плавного перехода между речью и фоном.
Алгоритм кодирования речевых сигналов согласно вышеупомянутой заявке дает возможность детектировать короткие паузы в речи, реализуя снижение эффективного коэффициента речевой активности. Решение о скорости передачи можно принимать на покадровой основе без "затягивания", так что скорость передачи данных можно снижать в паузах в речи на величину длительности кадра, обычно равную 20 мс, следовательно - выделять паузы типа пауз между слогами. Этот способ снижает коэффициент речевой активности в большей степени, чем это имело место традиционно, поэтому можно кодировать при пониженных скоростях не только паузы больших длительностей между фразами, но также более короткие паузы.
Поскольку выбор скорости осуществляют на кадровой основе, не происходит отсечки начальной части слова, как это имеет место в системе стробирования речевой активности. Отсечка такого характера происходит в системе стробирования речевой активности из-за задержки между обнаружением речи и повторным запуском передачи данных. Принятие решения о выборе скорости на кадровой основе приводит в результате к восстановлению речи, в которой все переходы имеют естественное звучание.
В случае непрерывной передачи устройством кодирования речевых сигналов окружающий абонента фоновый шум будет непрерывно слышен на приемном конце, создавая таким образом более естественное звучание во время пауз в речи. Таким образом, настоящее изобретение обеспечивает плавный переход к фоновому шуму. То, что слышит слушатель как фон во время речи, внезапно не меняется на синтезируемый комфортный шум во время пауз, как в системе стробирования речевой активности.
Поскольку фоновый шум непрерывно кодируется для передачи, можно с полной ясностью передавать интересные события в фоне. В некоторых случаях интересующий фоновый шум можно даже кодировать на самой высокой скорости. Кодирование с максимальной скоростью может происходить, например, при наличии громкого разговора в составе фона или если автомашина скорой помощи проезжает мимо пользователя, стоящего на углу улицы. Однако, постоянный или медленно меняющийся фоновый шум должен кодироваться при низких скоростях.
Использование вокодирования переменной скорости позволяет более чем в два раза увеличить пропускную способность в системе цифровой сотовой телефонной связи с многостанционным доступом с кодовым разделением каналов (МДКРК). Режим МДКРК и вокодирование переменной скорости исключительно хорошо согласуется, поскольку в режиме МДКРК радиопомехи между каналами автоматически падают по мере уменьшения скорости передачи данных по какому-либо каналу. В противоположность этому рассмотрим системы с выделением интервалов передачи, такие как системы многостанционного доступа с временным разделением каналов (МДВРК) или многостанционного доступа с частотным разделением каналов (МДЧРК). Для того, чтобы такая система получила преимущество от уменьшения скорости передачи данных, требуется внешнее вмешательство для координирования нового назначения неиспользуемых временных интервалов другим пользователям. Внутренне присущая такой схеме задержка означает, что канал можно переназначить только во время длительных пауз в речи. Следовательно, нельзя в полной мере получить выгоды от использования показателя активности речи. Однако, при внешней координации функционирования системы кодирование речевых сигналов с переменной скоростью полезно и в системах, иных чем системы МДКРК, хотя и по другим упоминавшимся причинам.
В системе МДКРК качество речи может слегка снижаться в моменты времени, когда требуется дополнительная пропускная способность системы. Отвлеченно говоря, можно считать, что устройство кодирования речевых сигналов как бы состоит из множества вокодеров, которые работают на разных скоростях с разными результирующими качествами речи. Поэтому качества речи можно смешивать для дальнейшего понижения средней скорости передачи данных. Первоначальные эксперименты показали, что путем смешивания, например, кодированной при полной и половинной скорости речи, максимально допустимая скорость передачи данных изменяется на покадровой основе в пределах от 8 кбит/с до 4 кбит/с; полученная в результате речь имеет качество, которое лучше, чем при переменной половинной скорости, составляющей максимум 4 кбит/с, но не настолько хорошее, как при переменной полной скорости, составляющей 8 кбит/с.
Хорошо известно, что при большинстве телефонных разговоров одновременно говорит только один человек. В качестве дополнительной функции для полностью двусторонних телефонных линий связи можно обеспечить ведомую синхронизацию скорости. Если в одном направлении линии связи передача осуществляется при самой высокой скорости, то в другом направлении линии связи передача обеспечивается на самой низкой скорости. Такая синхронизация между двумя направлениями линии связи может гарантировать среднее использование каждого направления линии связи не более 50%. Тем не менее, когда канал отключен, например, при ведомой синхронизации в режиме стробирования активности, слушающий абонент не имеет возможности прервать говорящего абонента, чтобы взять на себя роль говорящего в разговоре. Соответствующий вышеупомянутой заявке на патент способ кодирования речевых сигналов легко обеспечивает возможность адаптивной синхронизации скорости с помощью управляющих сигналов, которые устанавливают скорость вокодирования.
В вышеупомянутой заявке на патент устройство кодирования речевых сигналов (вокодер) работает либо при полной скорости, когда присутствует речь, либо при восьмой части скорости, когда речь отсутствует. Работа алгоритма кодирования речевых сигналов при половинной скорости и четвертой части скорости резервируется для специальных условий перегруженной пропускной способности, или когда параллельно с речевыми данными следует передавать другие данные.
В совместно поданной заявке на патент США сер. N 08/118.473 от 8 сентября 1993 г. на "Способ и устройство, предназначенные для определения скорости передачи данных в системе связи коллективного пользования", принадлежащей тому же правопреемнику, что и настоящее изобретение, подробно описан способ, с помощью которого система связи в соответствии с измерениями пропускной способности системы ограничивает среднюю скорость передачи данных в кадрах, кодируемых с помощью вокодера переменной скорости. Система снижает скорость передачи данных, обеспечивая кодирование заранее определенных кадров в полноскоростной последовательности кадров при более низкой скорости, то есть при половинной скорости. Связанная со снижением скорости кодирования для кадров активной речи этим способом проблема заключается в том, что ограничение не соответствует каким-либо характеристикам входной речи и, таким образом, не оптимизирована в отношении качества сжатия речи.
Кроме того, в совместно поданной заявке на патент США сер. N 07/984.602 от 2 декабря 1992 г. на "Усовершенствованный способ определения скорости кодирования речи в вокодере переменной скорости", по которой выдан патент США N 5.341.456 23 августа 1994 г., принадлежащий тому же правопреемнику, что и настоящее изобретение, раскрыт способ отделения невокализированной речи от вокализированной речи. В раскрытом способе исследуется энергия речи и изменение уровня спектральных составляющих речи и используется упомянутое изменение уровня спектральных составляющих для отличия невокализированной речи от фонового шума.
Вокодеры переменной скорости, которые меняют скорость кодирования полностью на основании голосовой активности входной речи, не в состоянии реализовать эффективность сжатия кодирующего устройства с переменной скоростью, которое изменяет скорость кодирования на основании сложности или объема информации, который динамически изменяется при активной речи. За счет согласования скоростей кодирования со сложностью входного сигнала можно создать более эффективные устройства кодирования речи. Кроме того, системы, которые стремятся динамически регулировать скорость передачи выходных данных вокодеров переменной скорости, должны изменять скорости передачи данных в соответствии с характеристиками входной речи для достижения оптимального качества голоса для требуемой средней скорости передачи данных.
Настоящее изобретение относится к новым и усовершенствованным способу и устройству кодирования кадров активной речи при сниженной скорости передачи данных посредством кодирования речевых кадров при скоростях в диапазоне от заранее установленной максимальной скорости до заранее установленной минимальной скорости. Настоящее изобретение определяет набор режимов работы с активной речью. В примере осуществления настоящего изобретения имеются четыре режима работы с активной речью, в том числе речи при полной скорости, речи при половинной скорости, невокализированной речи при четвертой части скорости и вокализированной речи на четвертой части скорости.
Задачей настоящего изобретения является создание оптимизированного способа выбора режима кодирования, который обеспечивает эффективное по скорости кодирование поступающей на вход речи. Кроме того, задачей настоящего изобретения является идентифицировать набор параметров, идеально подходящих для этого выбора рабочего режима, и создать средство, предназначенное для вырабатывания этого набора параметров.
Изобретение позволяет обеспечить идентификацию двух раздельных условий кодирования при низкой скорости с минимальным ущербом для качества. Такими условиями являются наличие невокализированной речи и наличие временно маскированной речи. И, наконец, изобретение обеспечивает создание способа динамического регулирования средней скорости передачи выходных данных устройства кодирования речи с минимальным влиянием на качество речи.
Настоящее изобретение предусматривает набор критериев определения скорости, называемых критериями режима. Первым критерием режима является согласующееся по заданному значению отношение сигнал/шум от предыдущего кадра кодирования, который обеспечивает информацию о том, насколько хорошо синтезированная речь согласована с входной речью, или, другими словами, насколько хорошо выполнена модель кодирования. Вторым критерием режима является нормированная автокорреляционная функция, которая измеряет периодичность в речевом кадре. Третьим критерием режима является параметр пересечений нулевого уровня, который представляет собой недорогой с вычислительной точки зрения способ определения содержания высоких частот во входном речевом кадре. Четвертым критерием является прогнозируемый дифференциал усиления, определяющий, сохраняет ли модель ЛКП (линейное кодирование с предсказанием) свою эффективность предсказания. Пятым критерием является энергетический дифференциал, который сравнивает энергию в текущем кадре со средней энергией кадров.
В примере осуществления соответствующего настоящему изобретению алгоритма кодирования речевых сигналов используются пять перечисленных выше критериев режимов, с целью выбора режима кодирования для кадра активной речи. Соответствующая настоящему изобретению логика определения скорости сравнивает нормированную автокорреляционную функцию (АКФ) со значением первой пороговой величины, а пересечение нулевого уровня - со значением второй пороговой величины для определения, следует ли кодировать речь как невокализированную речь при четвертой части скорости.
Если определено, что кадр активной речи содержит вокализированную речь, то вокодер исследует энергетический дифференциал для определения, следует ли кодировать кадр речи как вокализированную речь при четвертой части скорости. Если определено, что речь не подлежит кодированию при четвертой части скорости, то вокодер исследует, можно ли кодировать речь при половинной скорости. Вокодер исследует значения упомянутых выше параметров согласованного по заданному значению отношения с/ш, прогнозируемого дифференциала усиления и нормированной АКФ для определения, можно ли кодировать речевой кадр при половинной скорости. Если он определил, что кадр активной речи нельзя кодировать при четвертой части или половинной скорости, то кадр кодируется при полной скорости.
Еще одной задачей является создание способа динамического изменения пороговых значений для обеспечения необходимой скорости. Путем изменения одного или более из пороговых значений выбора режима можно увеличить или уменьшить среднюю скорость передачи данных. Таким образом, с помощью динамического регулирования пороговых значений можно регулировать скорость на выходе.
Особенности, цели и преимущества настоящего изобретения станут более ясны из приведенного ниже подробного описания совместно с чертежами, на которых представлено следующее:
фиг. 1 - блок-схема соответствующего настоящему изобретению устройства определения скорости кодирования;
фиг. 2 - блок-схема, иллюстрирующая процедуру выбора скорости кодирования логической схемы определения скорости.
фиг. 1 - блок-схема соответствующего настоящему изобретению устройства определения скорости кодирования;
фиг. 2 - блок-схема, иллюстрирующая процедуру выбора скорости кодирования логической схемы определения скорости.
В приведенном для примера варианте осуществления изобретения кодируются речевые кадры из 160 речевых выборок. В этом варианте осуществления настоящего изобретения имеются четыре скорости передачи данных: полная скорость, половина скорости, четвертая часть скорости и восьмая часть скорости. Полная скорость соответствует выходной скорости передачи данных, равной 14,4 кбит/с. Половина скорости соответствует выходной скорости передачи данных 7,2 кбит/с. Четвертая часть скорости соответствует выходной скорости передачи данных 3,6 кбит/с. Одна восьмая часть скорости соответствует выходной скорости передачи данных 1,8 кбит/с и резервируется для передачи во время периодов молчания.
Следует отметить, что настоящее изобретение касается только кодирования кадров активной речи, т.е. кадров, которые детектируются для выделения содержащейся в них речи. Способ определения наличия речи описан в упомянутых выше заявках на патент США сер. N 08/004.484 и сер. N 07/984.602.
Как показано на фиг. 1, элемент 12 определения режимов измеряет значения пяти параметров, используемых логической схемой определения скорости 14 для выбора скорости кодирования кадров активной речи. В рассматриваемом варианте осуществления изобретения элемент 12 определения режимов определяет пять параметров, которые он посылает на логическую схему 14 определения скорости. На основании параметров, полученных элементом 12 определения режимов, логическая схема 14 определения скорости выбирает скорость кодирования из числа полной скорости, половины скорости и четвертой части скорости.
Логическая схема 14 определения скорости выбирает один из четырех режимов кодирования в соответствии с пятью вырабатываемыми параметрами. Четыре режима кодирования включают в себя режим на полной скорости, режим на половинной скорости, невокализированный режим на четвертой части скорости и вокализированный режим на четвертой части скорости. Вокализированный режим на четвертой части скорости и невокализированный режим на четвертой части скорости обеспечивают данные на одной и той же скорости, но с помощью разных способов кодирования. Режим на половинной скорости используется для кодирования стационарной, периодической, хорошо моделируемой речи. Режимы вокализированный на четвертой части скорости, невокализированный на четвертой части скорости и на половинной скорости удобны для участков речевого сигнала, которые не требуют высокой точности при кодировании кадра.
Невокализированный режим на четвертой части скорости используется при кодировании невокализированной речи. Вокализированный режим на четвертой части скорости используется при кодировании временно маскируемых речевых кадров. Большинство кодирующих речь возбуждаемых кодом устройств кодирования с линейным предсказанием используются при одновременной маскировке, при которой энергия речи на данной частоте маскирует энергию шума на тех же частоте и времени, делая шум неслышимым. Устройства кодирования речи при переменной скорости могут иметь преимущество временного маскирования, при котором низкоэнергетические кадры активной речи маскируются с помощью предшествующих высокоэнергетических кадров речи с подобным частотным спектром. Поскольку ухо человека объединяет энергию по времени в разных частотных диапазонах, низкоэнергетические кадры усредняются по времени с высокоэнергетическими кадрами, снижая таким образом требования к кодированию для низкоэнергетических кадров. Использование преимущества этого явления временного слухового маскирования позволяет устройству кодирования речи с переменной скоростью снизить скорость кодирования во время этого режима речи. Это психоакустическое явление подробно описано в журнале "Психология слухового восприятия" И. Цвикером и Х.Фестлом на стр. 56-101.
Элемент 12 определения режимов принимает четыре входных сигнала, с помощью которых он вырабатывает пять параметров режимов. Первый сигнал S (n), который принимает элемент 12 определения режимов, представляет собой некодированные входные речевые выборки. В рассматриваемом примере варианта осуществления речевые выборки обеспечиваются кадрами, содержащими 160 выборок речевого сигнала. Все речевые кадры, которые подаются на элемент 12 определения режимов, содержат активную речь. Во время периодов молчания соответствующая настоящему изобретению система определения скорости активной речи пассивна.
Второй сигнал (n) синтезированной речи, который принимает элемент 12 определения режимов, представляет собой декодированную речь из декодера, возбуждаемого кодом устройства кодирования с линейным предсказанием с переменной скоростью. Декодер этого кодирующего устройства декодирует кадр кодированной речи для коррекции параметров фильтра и записей при анализе с помощью возбуждаемого кодом устройства кодирования с линейным предсказанием на основе синтеза. Конструкция таких декодеров хорошо известна в технике и подробно описана в вышеупомянутой заявке на патент США N 08/004.484.
Третий сигнал, который принимает элемент 12 определения режима, представляет собой формантный остаточный сигнал e (n). Это речевой сигнал S (n), отфильтрованный фильтром ЛКП кодера, возбуждаемого кодом устройства кодирования с линейным предсказанием. Конструкция фильтров ЛКП и фильтрация сигналов с помощью таких фильтров в технике хорошо известны и подробно описаны в упомянутой выше заявке на патент США N 08/004.484. Четвертый входной сигнал элемента 12 определения режимов A (z) представляет значение сигнала на отводах перцептуально взвешивающего фильтра соответствующего устройства кодирования с линейным предсказанием. Формирование значений сигнала на отводах фильтра и операция фильтрации с помощью взвешивающего фильтра в технике хорошо известны и подробно описаны в заявке на патент США N 08/004.484.
Элемент 2 вычисления, согласующегося по заданному значению отношения с/ш, принимает синтезированный речевой сигнал (n), речевые выборки S (n) и ряд значений A (z) сигнала на отводах перцептуально взвешивающего фильтра. Элемент 2 вычисления, согласующегося по заданному значению отношения с/ш, обеспечивает параметр, обозначенный TMSNR (СЗЗОСШ), который указывает, насколько хорошо речевая модель отслеживает входную речь. Элемент 2 вычисления, согласующегося по заданному значению с/ш (СЗЗОСШ), вырабатывает TMSNR в соответствии с уравнением (1):
где подстрочный индекс w показывает, что сигнал отфильтрован с помощью перцептуально взвешивающего фильтра.
где подстрочный индекс w показывает, что сигнал отфильтрован с помощью перцептуально взвешивающего фильтра.
Отметим, что этот критерий рассчитывают для предыдущего кадра речи, тогда как NACF(НАКФ) (нормированная автокорреляционная функция), PGD (ПДУ - прогнозируемый дифференциал усиления), ED (ЭД - энергетический дифференциал), ZC (ПНУ - пересечение нулевого уровня) рассчитывают по текущему кадру речи. Значение TMSNR (СЗЗОСШ) рассчитывают для предыдущего кадра речи, поскольку он представляет функцию выбираемой скорости кодирования и, таким образом, по причинам сложности вычислений его рассчитывают по предыдущему кадру относительно кодированного кадра.
Конструкция и воплощение перцептуально взвешивающих фильтров в технике хорошо известны и подробно описаны в вышеупомянутой заявке на патент США N 08/004.484. Следует отметить, что перцептуальное взвешивание предпочтительно для взвешивания перцептуально значимых особенностей речевого кадра. Однако, очевидно, что измерение можно осуществлять без перцептуального взвешивания сигналов.
Элемент 4 вычисления нормализованной автокорреляции принимает остаточный сигнал форманта e (n). Функция элемента 4 вычисления нормированной АКФ заключается в обеспечении индикации периодичности выборок в речевом кадре. Элемент 4 вычисления нормированной АКФ вырабатывает параметр, обозначенный NACF (НАКФ - нормированная автокорреляционная функция) в соответствии с приведенным ниже уравнением (2):
Следует отметить, что вырабатывание этого параметра требует запоминания формантного остаточного сигнала от кодирования предыдущего кадра. Это позволяет исследовать не только периодичность текущего кадра, но также исследовать периодичность текущего кадра с предыдущим кадром.
Следует отметить, что вырабатывание этого параметра требует запоминания формантного остаточного сигнала от кодирования предыдущего кадра. Это позволяет исследовать не только периодичность текущего кадра, но также исследовать периодичность текущего кадра с предыдущим кадром.
Причина, по которой в предпочтительном варианте осуществления используется формантный остаточный сигнал e (n) вместо речевых выборок S (n), которые можно использовать при генерировании NACF (НАКФ), заключается в том, чтобы устранить взаимодействие формантов речевого сигнала. Пропускание речевого сигнала через фильтр формантов служит для выравнивания речевой огибающей и, таким образом, отбеливания получающегося сигнала. Следует отметить, что величины задержки T в рассматриваемом примере осуществления изобретения соответствуют частотам основного тона между 66 Гц и 400 Гц для частоты выборок, равной 8000 выборок в секунду. Частота основного тона для данного значения задержки T рассчитывается по приведенному ниже уравнению (3):
fо.т.=fs/T, (3)
где fs - частота выборок.
fо.т.=fs/T, (3)
где fs - частота выборок.
Следует отметить, что частотный диапазон можно увеличить или уменьшить просто путем выбора другого набора величин задержки. Следует также отметить, что настоящее изобретение в равной степени применимо к любым частотам выборок.
Счетчик пересечений нулевого уровня 6 принимает выборки речи S (n) и подсчитывает количество периодов, когда выборки речи меняют знак. Это является недорогим с точки зрения вычисления способом определения высокочастотных составляющих в речевом сигнале. Этот счетчик можно реализовать программным средством с помощью цикла следующей формы:
cnt = 0 (счет = 0) (4)
for n = 0,158 (для n = 0,158) (5)
if (S(n)•S(n+1)<0) cnt++ (если) (6)
Цикл уравнений (4)-(6) перемножает последовательные речевые выборки и исследует, меньше ли нуля произведение, что показывает, что знак между двумя последовательными выборками отличается. Это предполагает, что в речевом сигнале нет составляющей постоянного тока. В технике хорошо известно, как исключить из сигнала постоянные составляющие.
cnt = 0 (счет = 0) (4)
for n = 0,158 (для n = 0,158) (5)
if (S(n)•S(n+1)<0) cnt++ (если) (6)
Цикл уравнений (4)-(6) перемножает последовательные речевые выборки и исследует, меньше ли нуля произведение, что показывает, что знак между двумя последовательными выборками отличается. Это предполагает, что в речевом сигнале нет составляющей постоянного тока. В технике хорошо известно, как исключить из сигнала постоянные составляющие.
Элемент 8 прогнозируемого дифференциала усиления принимает речевой сигнал S (n) и формантный остаточный сигнал e (n). Элемент 8 прогнозируемого дифференциала усиления вырабатывает параметр, обозначенный PGD (ПДУ - прогнозируемый дифференциал усиления), который определяет, сохраняет ли модель ЛКП свою эффективность предсказания. Элемент 8 прогнозируемого дифференциала усиления генерирует прогнозируемый коэффициент усиления Pg в соответствии с представленным ниже уравнением (7):
Затем прогнозируемый коэффициент усиления настоящего кадра сравнивается с прогнозируемым коэффициентом усиления предыдущего кадра при вырабатывании выходного параметра ПДУ с помощью следующего уравнения (8):
(8)
где i - номер кадра
В предпочтительном варианте осуществления изобретения элемент 8 прогнозируемого дифференциала усиления не вырабатывает значение прогнозируемого коэффициента усиления Pg. При вырабатывании коэффициента ЛКП побочным продуктом рекурсии Дарбина является прогнозируемый коэффициент усиления Pg, поэтому нет необходимости осуществлять повторное вычисление.
Затем прогнозируемый коэффициент усиления настоящего кадра сравнивается с прогнозируемым коэффициентом усиления предыдущего кадра при вырабатывании выходного параметра ПДУ с помощью следующего уравнения (8):
(8)
где i - номер кадра
В предпочтительном варианте осуществления изобретения элемент 8 прогнозируемого дифференциала усиления не вырабатывает значение прогнозируемого коэффициента усиления Pg. При вырабатывании коэффициента ЛКП побочным продуктом рекурсии Дарбина является прогнозируемый коэффициент усиления Pg, поэтому нет необходимости осуществлять повторное вычисление.
Элемент 10 определения энергетического дифференциала кадра принимает выборки речи S (n) текущего кадра и вычисляет энергию речевого сигнала в текущем кадре в соответствии со следующим выражением 9:
Энергия текущего кадра сравнивается со средней энергией предыдущих кадров Eave. В рассматриваемом примере осуществления изобретения среднюю энергию Eave вырабатывает квазиинтегратор формы:
Eave= α •Eave+(1- α)Ei, (10)
где 0 < α < 1.
Энергия текущего кадра сравнивается со средней энергией предыдущих кадров Eave. В рассматриваемом примере осуществления изобретения среднюю энергию Eave вырабатывает квазиинтегратор формы:
Eave= α •Eave+(1- α)Ei, (10)
где 0 < α < 1.
Коэффициент α определяет диапазон кадров, которые относятся к данному вычислению. В данном примере осуществления α установлено равным 0,8825, что обеспечивает постоянную времени, равную 8 кадрам. Затем элемент 10 определения энергетического дифференциала кадров вырабатывает параметр ED (ЭД - энергетическая разность) в соответствии со следующим выражением:
Пять параметров TMSNR (СЗЗОСШ), NACF (НАКФ), ZC (ПНУ), PGD (ПДУ) и ED (ЭД) поступают на логическую схему определения скорости 14. Логическая схема определения скорости 14 выбирает скорость кодирования для следующего кадра выборок в соответствии с параметрами и определенным заранее набором правил выбора. Рассмотрим теперь фиг. 2, которая иллюстрирует блок-схему процедуры выбора скорости логического элемента определения скорости 14.
Пять параметров TMSNR (СЗЗОСШ), NACF (НАКФ), ZC (ПНУ), PGD (ПДУ) и ED (ЭД) поступают на логическую схему определения скорости 14. Логическая схема определения скорости 14 выбирает скорость кодирования для следующего кадра выборок в соответствии с параметрами и определенным заранее набором правил выбора. Рассмотрим теперь фиг. 2, которая иллюстрирует блок-схему процедуры выбора скорости логического элемента определения скорости 14.
Процедура определения скорости начинается в блоке 18. В блоке 20 выходной сигнал элемента 4 вычисления нормированной АКФ, NACF (НАКФ), сравнивается с заранее установленным пороговым значением THR1, а выходной сигнал счетчика пересечений нулевого уровня сравнивается со вторым заранее установленным пороговым уровнем THR2. Если NACF (НАКФ) меньше THR1, а ZC (ПНУ) больше THR2, то процедура обработки переходит к блоку 22, который кодирует речь как невокализированную речь при четвертой части скорости. Значение NACF (НАКФ) меньше, чем заранее установленное пороговое значение, показывает отсутствие периодичности речи, а значение ZC (ПНУ) больше, чем заранее установленное пороговое значение, указывает на высокочастотную составляющую в речи. Сочетание этих двух условий показывает, что кадр содержит невокализированную речь. В рассматриваемом варианте осуществления изобретения значение THR1 равно 0,35, а THR2 равно 50 пересечениям нулевого уровня. Если NACF (НАКФ) не меньше, чем THR, или ZC (ПНУ) не больше, чем THR2, то процедура обработки переходит к блоку 24.
В блоке 24 выходной сигнал элемента 10 энергетического дифференциала кадров ED(ЭД) сравнивается с третьим пороговым значением THR3. Если ED (ЭД) меньше THR3, то текущий речевой кадр будет кодироваться как вокализированная речь при четвертой части скорости в блоке 26. Если энергетический дифференциал текущего кадра меньше среднего значения на величину, превышающую пороговое значение, то это показывает режим временного маскирования речи. В примерном варианте осуществления изобретения значение THR3 равно 14 дБ. Если ED (ЭД) не превышает THR3, то процесс переходит к блоку 28.
В блоке 28 выходной сигнал элемента вычисления, согласующегося по заданному значению отношения с/ш 2, TMSNR (СЗЗОСШ) сравнивается с четвертым пороговым значением THR4; выходной сигнал элемента 8 прогнозируемого дифференциала усиления PGD (ПДУ) сравнивается с пятым пороговым значением THR5, а выходной сигнал элемента вычисления нормированной автокорреляции 4 NACF (НАКФ) сравнивается с шестым пороговым значением THR6. Если TMSNR (СЗЗОСШ) превышает THR4; PGD (ПДУ) меньше, чем THR5, а NACF (НАКФ) превышает THR6, то процедура обработки переходит в блок 30, и речь кодируется при половинной скорости. Превышение TMSNR (СЗЗОСШ) своего порогового уровня показывает, что модель и моделированная речь хорошо согласованы в предыдущем кадре. Если параметр PGD (ПДУ) меньше его заранее установленного порогового уровня, то это показывает, что модель ЛКП сохраняет свою эффективность прогнозирования. Превышение параметром NACF (НАКФ) своего заранее установленного порогового значения показывает, что кадр содержит периодическую речь, то есть периодическую с предыдущим кадром речи.
В рассматриваемом примере осуществления изобретения THR4 первоначально устанавливают на 10 дБ, THR5 устанавливают на значение 5 дБ, a THR6 - на значение 0,4. Если в блоке 28 TMSNR (СЗЗОСШ) не превышает значение THR4 или PGD (ПДУ) не превышает значение THR5, или NACF (НАКФ) не превышает значение THR6, то процесс переходит к блоку 32, а текущий речевой кадр будет кодироваться на полной скорости.
Путем динамического регулирования пороговых значений можно достичь произвольной общей скорости передачи данных. Общую среднюю скорость передачи данных активной речи R можно определить в отношении анализируемого окна W активных речевых кадров следующим образом:
где Rf - скорость передачи данных для кадров, кодированных на полной скорости,
Rh - скорость передачи данных для кадров, кодированных на половине скорости,
Rq - скорость передачи данных для кадров, кодированных на четвертой части скорости, и
W = #Rf кадров + #Rh кадров + #Rq кадров.
где Rf - скорость передачи данных для кадров, кодированных на полной скорости,
Rh - скорость передачи данных для кадров, кодированных на половине скорости,
Rq - скорость передачи данных для кадров, кодированных на четвертой части скорости, и
W = #Rf кадров + #Rh кадров + #Rq кадров.
Посредством перемножения каждой из скоростей кодирования на количество кадров, кодируемых при этой скорости, и затем деления на общее количество кадров в выборке, можно вычислить среднюю скорость передачи данных для выборки активной речи. Важно иметь размер выборки кадров W достаточно большой для предотвращения большой продолжительности невокализированной речи типа извлечения звуков "c" из искажения среднестатистического значения скорости. В примере осуществления изобретения размер выборки кадров W для вычисления средней скорости составляет 400 кадров.
Среднюю скорость передачи данных можно снизить путем повышения количества кадров, кодируемых при полной скорости, подлежащих кодированию при половинной скорости, и наоборот, среднюю скорость передачи данных можно увеличить путем увеличения количества кадров, закодированных при половинной скорости, подлежащих кодированию при полной скорости. В предпочтительном варианте осуществления изобретения пороговое значение, которое регулируют для выполнения этого изменения, является THR4. В примере осуществления запоминают гистограмму значений TMSNR (СЗЗОСШ). В примере осуществления изобретения запомненные значения TMSNR (СЗЗОСШ) разбивают на величины целых чисел децибелл из текущего значения THR4. С помощью сохранения гистограммы этого сорта можно легко оценить, как много кадров можно изменить в предыдущем блоке анализа из закодированных на полной скорости в кодируемые при половинной скорости, где THR4 подлежит уменьшению на целое число децибелл. И наоборот, оценка количества кадров, кодируемых при половинной скорости, которые можно кодировать при полной скорости, означает, что пороговое значение подлежит увеличению на целое число децибелл.
Выражение, предназначенное для определения количества кадров, которые следует изменить от кадров при половинной скорости на кадры при полной скорости, определяется следующим выражением:
где Δ - количество кадров, кодируемых при половинной скорости, которые должны кодироваться при полной скорости для достижения целевой скорости;
W = #Rf кадров + #Rh кадров + #Rq кадров.
где Δ - количество кадров, кодируемых при половинной скорости, которые должны кодироваться при полной скорости для достижения целевой скорости;
W = #Rf кадров + #Rh кадров + #Rq кадров.
СЗЗОСШновое= СЗЗОСШстарое+(количество дБ от СЗЗОСШстарого для достижения разницы кадров, определяемой в вышеприведенном уравнении (13)).
Отметим, что первоначальное значение СЗЗОСШ является функцией требуемой целевой скорости. В примерном варианте осуществления с целевой скоростью 8,7 кбит/с в системе с Rf = 14,4 кбит/с, Rh = 7,2 кбит/с, Rq = 3,6 кбит/с, начальное значение СЗЗОСШ равно 10 дБ. Следует отметить, что разбиение значений СЗЗОСШ на целые числа для расстояния от порогового значения THR4 можно легко сделать мельче, например, половины или четвертой части децибелла, или можно сделать крупнее, например, полутора или двух децибелл.
Предполагается, что целевую скорость можно либо запоминать в запоминающем элементе логического элемента определения скорости 14, и в этом случае целевая скорость может представлять статическую величину, в соответствии с которой значение THR4 будет определяться динамическим путем. Предполагается, что в дополнение к этой начальной целевой скорости система связи может передавать сигнал управления скоростью на устройство выбора скорости кодирования, основываясь на условиях пропускной способности системы.
Сигнал управления скоростью может либо определять целевую скорость, либо может просто требовать увеличения или уменьшения средней скорости. Если в системе определяется целевая скорость, эта скорость будет использоваться при определении величины THR4 согласно уравнениям (12) и (13). Если только система определила, что пользователь должен передавать сообщения при более высокой или более низкой скорости, то логический элемент определения скорости 14 может реагировать посредством изменения величины THR4 на заранее установленное приращение, или может вычислить дифференциальное изменение в соответствии с заранее определенным дифференциальным увеличением или уменьшением скорости.
Блоки 22 и 26 показывают разницу в способе кодирования речи, основываясь на определении, соответствуют ли выборки речи вокализированной или невокализированной речи. Невокализированная речь является речью в форме фрикативных звуков и согласных звуков типа "ф", "с", "ш", "т", и "з". Вокализированная речь на четвертой части скорости представляет собой временно маскируемую речь, где речевой кадр низкой громкости следует за речевым кадром относительно высокой громкости аналогичного частотного содержания. Ухо человека не может слышать тонкие моменты речи в кадре с низкой громкостью, который следует за кадрами с высокой громкостью, так что разряды можно экономить, кодируя такую речь при четвертой части скорости.
В примерном варианте осуществления кодирования невокализированной речи при четвертой части скорости речевой кадр делится на четыре подкадра. Для каждого из четырех подкадров передается значение коэффициента усиления G и коэффициенты фильтра ЛКП A(z). В примере осуществления изобретения для представления коэффициента усиления в каждом подкадре передается пять двоичных разрядов. На декодирующем устройстве для каждого подкадра произвольно выбирается индекс кодового словаря. Произвольно выбранный вектор кодового словаря умножается на передаваемую величину коэффициента усиления и пропускается через фильтр ЛКП A(z) для генерирования синтезированной невокализированной речи.
При кодировании вокализированной речи при четвертой части скорости речевой кадр делится на два подкадра, а кодирующее устройство ВКЛП определяет индекс кодового словаря и коэффициент усиления для каждого из двух подкадров. В рассматриваемом примере осуществления назначаются пять двоичных разрядов для индикации индекса кодового словаря, а другие пять двоичных разрядов назначаются для определения соответствующего значения коэффициента усиления. В примере осуществления кодовый словарь, используемый для кодирования вокализированной речи при четвертой части скорости, представляет собой подмножество векторов кодового словаря, используемого для кодирования при половинной и полной скорости. В примере осуществления изобретения для определения индекса кодового словаря в режимах кодирования при полной и половинной скорости используются семь двоичных разрядов.
На фиг. 1 блоки можно представить как структурные блоки, предназначенные для выполнения определенных функций, или блоки могут представлять функции, выполняемые при программировании процессора цифровых сигналов (ПЦС) или интегральной схемы специального применения (ИССП). Описание функций настоящего изобретения обеспечивает возможность специалистам в данной области техники реализовать настоящее изобретение ПЦС или ИССП.
Вышеприведенное описание предпочтительных вариантов осуществления представлено для обеспечения возможности любому специалисту в данной области техники реализовать или использовать настоящее изобретение. Специалисты в данной области техники могут легко понять различные модификации этих вариантов осуществления, а определенные здесь основные принципы могут применять для других вариантов осуществления без дополнительного изобретательства. Таким образом, настоящее изобретение не ограничено описанными здесь вариантами осуществления, а должно соответствовать наиболее широкому объему, соответствующему раскрытым здесь принципам и признакам изобретения.
Claims (22)
1. Устройство для выбора скорости кодирования из заранее определенного множества скоростей кодирования для кодирования кадра речевого сигнала, включающего множество выборок речевого сигнала, отличающееся тем, что содержит элемент определения режима, реагирующий на выборки речевого сигнала и на сигнал, полученный из упомянутых выборок речевого сигнала, для выработки множества параметров, отображающих характеристики упомянутого кадра речевого сигнала, и логическую схему определения скорости для приема упомянутого множества параметров и для выбора скорости кодирования из упомянутого заранее определенного множества скоростей кодирования с использованием заранее определенных правил выбора скорости.
2. Устройство по п.1, отличающееся тем, что упомянутое множество параметров включает в себя измеренное значение согласующегося по заданному значению отношения сигнала к шуму, индицирующее согласование между входным речевым сигналом и модулируемым речевым сигналом.
3. Устройство по п.1, отличающееся тем, что упомянутое множество параметров включает в себя измеренное значение нормированной функции автокорреляции, показывающее периодичность входного речевого сигнала.
4. Устройство по п.1, отличающееся тем, что упомянутое множество параметров включает в себя отсчет пересечений нулевого уровня, показывающий присутствие высокочастотных составляющих в упомянутом кадре речевого сигнала.
5. Устройство по п.1, отличающееся тем, что упомянутое множество параметров включает в себя измеренное значение прогнозируемого дифференциального усиления, индицирующего стабильность формантов от кадра к кадру.
6. Устройство по п.1, отличающееся тем, что упомянутое множество параметров включает в себя измеренное значение энергетического дифференциала кадров, индицирующее изменения энергии между энергией текущего кадра и средней энергией кадров.
7. Устройство по п.1, отличающееся тем, что упомянутое заранее определенное множество скоростей кодирования включает в себя полную скорость, половинную скорость, четвертую часть скорости.
8. Устройство по п.1, отличающееся тем, что упомянутое множество параметров включает в себя измеренное значение нормированной функции автокорреляции, индицирующее периодичность во входном речевом сигнале и отсчет пересечений нулевого уровня, индицирующий присутствие высокочастотных составляющих в упомянутом кадре речевого сигнала, и, если измеренное значение нормированной функции автокорреляции ниже заранее установленного первого порогового значения, а упомянутый отсчет пересечений нулевого уровня превышает второе заранее установленное пороговое значение, упомянутая логическая схема определения скорости выбирает режим кодирования, соответствующий кодированию невокализированной речи при четвертой части скорости.
9. Устройство по п.1, отличающееся тем, что упомянутое множество параметров включает в себя измеренное значение энергетического дифференциала кадров, индицирующее изменения энергии между энергией текущего кадра и средней энергией кадров, и, если измеренное значение энергетического дифференциала, индицирующее изменения энергии между энергией текущего кадра и средней энергией кадров, ниже заранее установленного порогового значения, упомянутая логическая схема определения скорости выбирает режим кодирования, соответствующий кодированию вокализированной речи при четвертой части скорости.
10. Устройство по п.1, отличающееся тем, что упомянутое множество параметров включает в себя измеренное значение нормированной функции автокорреляции, индицирующее периодичность входного речевого сигнала, измеренное значение согласующегося по заданному значению отношения сигнал/шум, индицирующее согласование между кодированным кадром речевого сигнала и входным кадром речевого сигнала, и измеренное значение прогнозируемого дифференциала усиления, индицирующее стабильность от кадра к кадру множества формантных параметров в упомянутом кодированном кадре речевого сигнала, и, если измеренное значение нормированной функции автокорреляции превышает заранее установленное пороговое значение, упомянутый прогнозируемый дифференциал усиления превышает второе заранее установленное пороговое значение, а упомянутая нормированная автокорреляционная функция ниже заранее установленного третьего порогового значения, упомянутая логическая схема определения скорости выбирает режим кодирования, соответствующий кодированию при половинной скорости.
11. Подсистема динамического изменения скорости передачи кадра речевого сигнала, передаваемого от удаленной станции в системе связи, в которой удаленная станция осуществляет связь с центральным узлом связи, отличающаяся тем, что содержит элемент определения режима, реагирующий на упомянутый кадр речевого сигнала и на сигнал, полученный из этого кадра речевого сигнала, для выработки множества параметров, индицирующих характеристики упомянутого кадра речевого сигнала, и логическую схему определения скорости для приема упомянутого множества параметров, для приема сигнала управления скоростью и для вырабатывания по меньшей мере одного порогового значения в соответствии с упомянутым сигналом управления скоростью, сравнения по меньшей мере одного параметра из упомянутого множества параметров с упомянутым по меньшей мере одним пороговым значением и выбора скорости кодирования в соответствии с результатами сравнения.
12. Способ выбора скорости кодирования из заранее определенного множества скоростей кодирования для кодирования кадра речевого сигнала, включающего множество выборок речевого сигнала, отличающийся тем, что включает операции выработки множества параметров, индицирующих характеристики упомянутого кадра речевого сигнала в соответствии с выборками речевого сигнала и с сигналом, полученным из указанных выборок речевого сигнала, и выбора скорости кодирования из заранее определенного множества скоростей кодирования в соответствии с указанным множеством параметров.
13. Способ по п.12, отличающийся тем, что упомянутое множество параметров включает в себя измеренное значение согласующегося по заданному значению отношения сигнал/шум, индицирующее согласование между входной речью и моделированной речью.
14. Способ по п.12, отличающийся тем, что упомянутое множество параметров включает в себя измеренное значение нормированной функции автокорреляции, индицирующее периодичность входного речевого сигнала.
15. Способ по п.12, отличающийся тем, что упомянутое множество параметров включает в себя отсчет пересечений нулевого уровня, индицирующий наличие высокочастотных составляющих в упомянутом кадре речевого сигнала.
16. Способ по п.12, отличающийся тем, что упомянутое множество параметров включает в себя измеренное значение прогнозируемого дифференциального усиления, индицирующее стабильность формантов от кадра к кадру.
17. Способ по п.12, отличающийся тем, что упомянутое множество параметров включает в себя измеренное значение энергетического дифференциала, индицирующее изменения энергии между энергией текущего кадра и средней энергией кадров.
18. Способ по п.12, отличающийся тем, что упомянутое заранее определенное множество скоростей кодирования включает в себя полную скорость, половинную скорость, четвертую часть скорости.
19. Способ по п. 12, отличающийся тем, что упомянутое множество параметров включает в себя измеренное значение нормированной функции автокорреляции, показывающее периодичность входного речевого сигнала, и отсчет пересечений нулевого уровня, индицирующий присутствие высокочастотных составляющих в упомянутом кадре речевого сигнала, и, если измерение нормированной функции автокорреляции ниже заранее определенного первого порогового значения, а упомянутый отсчет пересечений нулевого уровня превышает второе заранее определенное пороговое значение, упомянутый этап выбора режима кодирования выбирает кодирование невокализированной речи при четвертой части скорости.
20. Способ по п.12, отличающийся тем, что упомянутое множество параметров включает в себя измеренное значение энергетического дифференциала кадров, индицирующее изменения энергии между энергией текущего кадра и средней энергией кадров, и, если измерение энергетического дифференциала кадров, показывающее изменение энергии между энергией текущего кадра и средней энергией кадров, ниже заранее определенного порогового значения, упомянутый этап выбора режима кодирования выбирает кодирование вокализированной речи при четвертой части скорости.
21. Способ по п.12, отличающийся тем, что упомянутое множество параметров включает в себя измеренное значение нормированной функции автокорреляции, индицирующее периодичность входного речевого сигнала, измеренное значение согласующегося по заданному значению отношения сигнал/шум, индицирующее согласование между кодированным кадром речевого сигнала и входным кадром речевого сигнала, и измеренное значение прогнозируемого дифференциального усиления, индицирующее стабильность множества формантных параметров от кадра к кадру в упомянутом кодированном кадре речевого сигнала, и, если измеренное значение нормированной функции автокорреляции превышает заранее определенное первое пороговое значение, упомянутое прогнозируемое дифференциальное усиление превышает второе заранее определенное пороговое значение, а упомянутая нормированная автокорреляционная функция ниже заранее определенного третьего порогового значения, на упомянутом этапе выбора режима кодирования выбирается кодирование при половинной скорости.
22. Способ динамического изменения скорости передачи кадра речевого сигнала, передаваемого от удаленной станции в системе связи, в которой упомянутая удаленная станция осуществляет связь с центральным узлом связи, отличающийся тем, что включает операции генерирования множества параметров, индицирующих характеристики кадра речевого сигнала, в соответствии с кадром речевого сигнала и сигналом, полученным из кадра речевого сигнала, приема сигнала управления скоростью, выработки по меньшей мере одного порогового значения в соответствии с упомянутым сигналом управления скоростью, сравнения по меньшей мере одного параметра из упомянутого множества параметров с упомянутым по меньшей мере одним пороговым значением и выбора скорости кодирования в соответствии с результатом упомянутого сравнения.
Applications Claiming Priority (4)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US28684294A | 1994-08-05 | 1994-08-05 | |
US286,842 | 1994-08-05 | ||
US286842 | 1994-08-05 | ||
PCT/US1995/009780 WO1996004646A1 (en) | 1994-08-05 | 1995-08-01 | Method and apparatus for performing reduced rate variable rate vocoding |
Publications (2)
Publication Number | Publication Date |
---|---|
RU96110286A RU96110286A (ru) | 1998-08-10 |
RU2146394C1 true RU2146394C1 (ru) | 2000-03-10 |
Family
ID=23100400
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
RU96110286A RU2146394C1 (ru) | 1994-08-05 | 1995-08-01 | Способ и устройство вокодирования переменной скорости при пониженной скорости кодирования |
Country Status (19)
Country | Link |
---|---|
US (3) | US5911128A (ru) |
EP (2) | EP1339044B1 (ru) |
JP (4) | JP3611858B2 (ru) |
KR (1) | KR100399648B1 (ru) |
CN (1) | CN1144180C (ru) |
AT (2) | ATE470932T1 (ru) |
AU (1) | AU689628B2 (ru) |
BR (1) | BR9506307B1 (ru) |
CA (1) | CA2172062C (ru) |
DE (2) | DE69536082D1 (ru) |
ES (2) | ES2343948T3 (ru) |
FI (2) | FI120327B (ru) |
HK (1) | HK1015184A1 (ru) |
IL (1) | IL114819A (ru) |
MY (3) | MY114777A (ru) |
RU (1) | RU2146394C1 (ru) |
TW (1) | TW271524B (ru) |
WO (1) | WO1996004646A1 (ru) |
ZA (1) | ZA956078B (ru) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
RU2454736C2 (ru) * | 2007-10-15 | 2012-06-27 | ЭлДжи ЭЛЕКТРОНИКС ИНК. | Способ и устройство обработки сигнала |
Families Citing this family (151)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
TW271524B (ru) * | 1994-08-05 | 1996-03-01 | Qualcomm Inc | |
EP0886927B1 (en) * | 1996-03-27 | 2006-06-07 | Motorola, Inc. | Method and apparatus for providing a multi-party speech connection for use in a wireless communication system |
US6765904B1 (en) | 1999-08-10 | 2004-07-20 | Texas Instruments Incorporated | Packet networks |
US7024355B2 (en) * | 1997-01-27 | 2006-04-04 | Nec Corporation | Speech coder/decoder |
US6104993A (en) * | 1997-02-26 | 2000-08-15 | Motorola, Inc. | Apparatus and method for rate determination in a communication system |
US6167375A (en) * | 1997-03-17 | 2000-12-26 | Kabushiki Kaisha Toshiba | Method for encoding and decoding a speech signal including background noise |
DE69831991T2 (de) * | 1997-03-25 | 2006-07-27 | Koninklijke Philips Electronics N.V. | Verfahren und Vorrichtung zur Sprachdetektion |
US6466912B1 (en) * | 1997-09-25 | 2002-10-15 | At&T Corp. | Perceptual coding of audio signals employing envelope uncertainty |
US6366704B1 (en) * | 1997-12-01 | 2002-04-02 | Sharp Laboratories Of America, Inc. | Method and apparatus for a delay-adaptive rate control scheme for the frame layer |
KR100269216B1 (ko) * | 1998-04-16 | 2000-10-16 | 윤종용 | 스펙트로-템포럴 자기상관을 사용한 피치결정시스템 및 방법 |
US6912637B1 (en) * | 1998-07-08 | 2005-06-28 | Broadcom Corporation | Apparatus and method for managing memory in a network switch |
US6226618B1 (en) * | 1998-08-13 | 2001-05-01 | International Business Machines Corporation | Electronic content delivery system |
JP3893763B2 (ja) * | 1998-08-17 | 2007-03-14 | 富士ゼロックス株式会社 | 音声検出装置 |
JP4308345B2 (ja) * | 1998-08-21 | 2009-08-05 | パナソニック株式会社 | マルチモード音声符号化装置及び復号化装置 |
US7072832B1 (en) * | 1998-08-24 | 2006-07-04 | Mindspeed Technologies, Inc. | System for speech encoding having an adaptive encoding arrangement |
US6574334B1 (en) | 1998-09-25 | 2003-06-03 | Legerity, Inc. | Efficient dynamic energy thresholding in multiple-tone multiple frequency detectors |
US6711540B1 (en) * | 1998-09-25 | 2004-03-23 | Legerity, Inc. | Tone detector with noise detection and dynamic thresholding for robust performance |
JP3152217B2 (ja) * | 1998-10-09 | 2001-04-03 | 日本電気株式会社 | 有線伝送装置及び有線伝送方法 |
US6691084B2 (en) * | 1998-12-21 | 2004-02-10 | Qualcomm Incorporated | Multiple mode variable rate speech coding |
KR100391935B1 (ko) * | 1998-12-28 | 2003-07-16 | 프라운호퍼-게젤샤프트 츄어 푀르더룽 데어 안게반텐 포르슝에.파우. | 오디오 신호를 코딩 또는 디코딩하는 방법 및 디바이스 |
JP4503853B2 (ja) * | 1999-02-08 | 2010-07-14 | クゥアルコム・インコーポレイテッド | 可変率音声符号化に基づいた音声合成装置 |
US6226607B1 (en) * | 1999-02-08 | 2001-05-01 | Qualcomm Incorporated | Method and apparatus for eighth-rate random number generation for speech coders |
US6519259B1 (en) * | 1999-02-18 | 2003-02-11 | Avaya Technology Corp. | Methods and apparatus for improved transmission of voice information in packet-based communication systems |
US6260017B1 (en) * | 1999-05-07 | 2001-07-10 | Qualcomm Inc. | Multipulse interpolative coding of transition speech frames |
US6954727B1 (en) * | 1999-05-28 | 2005-10-11 | Koninklijke Philips Electronics N.V. | Reducing artifact generation in a vocoder |
US6766291B2 (en) * | 1999-06-18 | 2004-07-20 | Nortel Networks Limited | Method and apparatus for controlling the transition of an audio signal converter between two operative modes based on a certain characteristic of the audio input signal |
JP4438127B2 (ja) * | 1999-06-18 | 2010-03-24 | ソニー株式会社 | 音声符号化装置及び方法、音声復号装置及び方法、並びに記録媒体 |
CN1196373C (zh) * | 1999-07-05 | 2005-04-06 | 诺基亚公司 | 选择编码方法的方法 |
IL141636A0 (en) * | 1999-07-08 | 2002-03-10 | Samsung Electronics Co Ltd | Data rate detection device and method for a mobile communication system |
US6397175B1 (en) | 1999-07-19 | 2002-05-28 | Qualcomm Incorporated | Method and apparatus for subsampling phase spectrum information |
US6330532B1 (en) | 1999-07-19 | 2001-12-11 | Qualcomm Incorporated | Method and apparatus for maintaining a target bit rate in a speech coder |
US6324503B1 (en) | 1999-07-19 | 2001-11-27 | Qualcomm Incorporated | Method and apparatus for providing feedback from decoder to encoder to improve performance in a predictive speech coder under frame erasure conditions |
US6393394B1 (en) | 1999-07-19 | 2002-05-21 | Qualcomm Incorporated | Method and apparatus for interleaving line spectral information quantization methods in a speech coder |
US6801499B1 (en) | 1999-08-10 | 2004-10-05 | Texas Instruments Incorporated | Diversity schemes for packet communications |
US6678267B1 (en) | 1999-08-10 | 2004-01-13 | Texas Instruments Incorporated | Wireless telephone with excitation reconstruction of lost packet |
US6804244B1 (en) | 1999-08-10 | 2004-10-12 | Texas Instruments Incorporated | Integrated circuits for packet communications |
US6801532B1 (en) | 1999-08-10 | 2004-10-05 | Texas Instruments Incorporated | Packet reconstruction processes for packet communications |
US6757256B1 (en) | 1999-08-10 | 2004-06-29 | Texas Instruments Incorporated | Process of sending packets of real-time information |
US6744757B1 (en) | 1999-08-10 | 2004-06-01 | Texas Instruments Incorporated | Private branch exchange systems for packet communications |
US6505152B1 (en) * | 1999-09-03 | 2003-01-07 | Microsoft Corporation | Method and apparatus for using formant models in speech systems |
US6581032B1 (en) * | 1999-09-22 | 2003-06-17 | Conexant Systems, Inc. | Bitstream protocol for transmission of encoded voice signals |
US6604070B1 (en) * | 1999-09-22 | 2003-08-05 | Conexant Systems, Inc. | System of encoding and decoding speech signals |
US6959274B1 (en) | 1999-09-22 | 2005-10-25 | Mindspeed Technologies, Inc. | Fixed rate speech compression system and method |
AU2003262451B2 (en) * | 1999-09-22 | 2006-01-19 | Macom Technology Solutions Holdings, Inc. | Multimode speech encoder |
US6574593B1 (en) * | 1999-09-22 | 2003-06-03 | Conexant Systems, Inc. | Codebook tables for encoding and decoding |
US6782360B1 (en) * | 1999-09-22 | 2004-08-24 | Mindspeed Technologies, Inc. | Gain quantization for a CELP speech coder |
US7315815B1 (en) | 1999-09-22 | 2008-01-01 | Microsoft Corporation | LPC-harmonic vocoder with superframe structure |
US6772126B1 (en) * | 1999-09-30 | 2004-08-03 | Motorola, Inc. | Method and apparatus for transferring low bit rate digital voice messages using incremental messages |
US6438518B1 (en) * | 1999-10-28 | 2002-08-20 | Qualcomm Incorporated | Method and apparatus for using coding scheme selection patterns in a predictive speech coder to reduce sensitivity to frame error conditions |
US7574351B2 (en) * | 1999-12-14 | 2009-08-11 | Texas Instruments Incorporated | Arranging CELP information of one frame in a second packet |
US7058572B1 (en) * | 2000-01-28 | 2006-06-06 | Nortel Networks Limited | Reducing acoustic noise in wireless and landline based telephony |
US7127390B1 (en) * | 2000-02-08 | 2006-10-24 | Mindspeed Technologies, Inc. | Rate determination coding |
US6757301B1 (en) * | 2000-03-14 | 2004-06-29 | Cisco Technology, Inc. | Detection of ending of fax/modem communication between a telephone line and a network for switching router to compressed mode |
US6901362B1 (en) * | 2000-04-19 | 2005-05-31 | Microsoft Corporation | Audio segmentation and classification |
ATE420432T1 (de) * | 2000-04-24 | 2009-01-15 | Qualcomm Inc | Verfahren und vorrichtung zur prädiktiven quantisierung von stimmhaften sprachsignalen |
US6584438B1 (en) | 2000-04-24 | 2003-06-24 | Qualcomm Incorporated | Frame erasure compensation method in a variable rate speech coder |
JP4221537B2 (ja) * | 2000-06-02 | 2009-02-12 | 日本電気株式会社 | 音声検出方法及び装置とその記録媒体 |
US6898566B1 (en) * | 2000-08-16 | 2005-05-24 | Mindspeed Technologies, Inc. | Using signal to noise ratio of a speech signal to adjust thresholds for extracting speech parameters for coding the speech signal |
US6477502B1 (en) | 2000-08-22 | 2002-11-05 | Qualcomm Incorporated | Method and apparatus for using non-symmetric speech coders to produce non-symmetric links in a wireless communication system |
US6640208B1 (en) * | 2000-09-12 | 2003-10-28 | Motorola, Inc. | Voiced/unvoiced speech classifier |
DE60029453T2 (de) * | 2000-11-09 | 2007-04-12 | Koninklijke Kpn N.V. | Messen der Übertragungsqualität einer Telefonverbindung in einem Fernmeldenetz |
US7472059B2 (en) * | 2000-12-08 | 2008-12-30 | Qualcomm Incorporated | Method and apparatus for robust speech classification |
US7505594B2 (en) * | 2000-12-19 | 2009-03-17 | Qualcomm Incorporated | Discontinuous transmission (DTX) controller system and method |
US6996523B1 (en) * | 2001-02-13 | 2006-02-07 | Hughes Electronics Corporation | Prototype waveform magnitude quantization for a frequency domain interpolative speech codec system |
US7013269B1 (en) * | 2001-02-13 | 2006-03-14 | Hughes Electronics Corporation | Voicing measure for a speech CODEC system |
US7072908B2 (en) * | 2001-03-26 | 2006-07-04 | Microsoft Corporation | Methods and systems for synchronizing visualizations with audio streams |
US6658383B2 (en) | 2001-06-26 | 2003-12-02 | Microsoft Corporation | Method for coding speech and music signals |
WO2003021573A1 (fr) * | 2001-08-31 | 2003-03-13 | Fujitsu Limited | Codec |
WO2003042648A1 (fr) * | 2001-11-16 | 2003-05-22 | Matsushita Electric Industrial Co., Ltd. | Codeur de signal vocal, decodeur de signal vocal, procede de codage de signal vocal et procede de decodage de signal vocal |
US6785645B2 (en) | 2001-11-29 | 2004-08-31 | Microsoft Corporation | Real-time speech and music classifier |
US6647366B2 (en) * | 2001-12-28 | 2003-11-11 | Microsoft Corporation | Rate control strategies for speech and music coding |
US7321559B2 (en) * | 2002-06-28 | 2008-01-22 | Lucent Technologies Inc | System and method of noise reduction in receiving wireless transmission of packetized audio signals |
CA2392640A1 (en) * | 2002-07-05 | 2004-01-05 | Voiceage Corporation | A method and device for efficient in-based dim-and-burst signaling and half-rate max operation in variable bit-rate wideband speech coding for cdma wireless systems |
CN1703736A (zh) * | 2002-10-11 | 2005-11-30 | 诺基亚有限公司 | 用于源控制可变比特率宽带语音编码的方法和装置 |
US7657427B2 (en) | 2002-10-11 | 2010-02-02 | Nokia Corporation | Methods and devices for source controlled variable bit-rate wideband speech coding |
FI20021936A (fi) * | 2002-10-31 | 2004-05-01 | Nokia Corp | Vaihtuvanopeuksinen puhekoodekki |
US7698132B2 (en) * | 2002-12-17 | 2010-04-13 | Qualcomm Incorporated | Sub-sampled excitation waveform codebooks |
GB0321093D0 (en) * | 2003-09-09 | 2003-10-08 | Nokia Corp | Multi-rate coding |
US7613606B2 (en) * | 2003-10-02 | 2009-11-03 | Nokia Corporation | Speech codecs |
US20050091044A1 (en) * | 2003-10-23 | 2005-04-28 | Nokia Corporation | Method and system for pitch contour quantization in audio coding |
US20050091041A1 (en) * | 2003-10-23 | 2005-04-28 | Nokia Corporation | Method and system for speech coding |
US7277031B1 (en) * | 2003-12-15 | 2007-10-02 | Marvell International Ltd. | 100Base-FX serializer/deserializer using 10000Base-X serializer/deserializer |
US7668712B2 (en) * | 2004-03-31 | 2010-02-23 | Microsoft Corporation | Audio encoding and decoding with intra frames and adaptive forward error correction |
US7412378B2 (en) * | 2004-04-01 | 2008-08-12 | International Business Machines Corporation | Method and system of dynamically adjusting a speech output rate to match a speech input rate |
EP1775718A4 (en) * | 2004-07-22 | 2008-05-07 | Fujitsu Ltd | AUDIOCODING DEVICE AND AUDIOCODING METHOD |
GB0416720D0 (en) * | 2004-07-27 | 2004-09-01 | British Telecomm | Method and system for voice over IP streaming optimisation |
WO2006041055A1 (ja) * | 2004-10-13 | 2006-04-20 | Matsushita Electric Industrial Co., Ltd. | スケーラブル符号化装置、スケーラブル復号装置及びスケーラブル符号化方法 |
US8102872B2 (en) * | 2005-02-01 | 2012-01-24 | Qualcomm Incorporated | Method for discontinuous transmission and accurate reproduction of background noise information |
US20060200368A1 (en) * | 2005-03-04 | 2006-09-07 | Health Capital Management, Inc. | Healthcare Coordination, Mentoring, and Coaching Services |
US20070160154A1 (en) * | 2005-03-28 | 2007-07-12 | Sukkar Rafid A | Method and apparatus for injecting comfort noise in a communications signal |
TWI279774B (en) * | 2005-04-14 | 2007-04-21 | Ind Tech Res Inst | Adaptive pulse allocation mechanism for multi-pulse CELP coder |
US7831421B2 (en) * | 2005-05-31 | 2010-11-09 | Microsoft Corporation | Robust decoder |
US7177804B2 (en) * | 2005-05-31 | 2007-02-13 | Microsoft Corporation | Sub-band voice codec with multi-stage codebooks and redundant coding |
US7707034B2 (en) * | 2005-05-31 | 2010-04-27 | Microsoft Corporation | Audio codec post-filter |
US8743909B2 (en) * | 2008-02-20 | 2014-06-03 | Qualcomm Incorporated | Frame termination |
US8630602B2 (en) * | 2005-08-22 | 2014-01-14 | Qualcomm Incorporated | Pilot interference cancellation |
US9071344B2 (en) * | 2005-08-22 | 2015-06-30 | Qualcomm Incorporated | Reverse link interference cancellation |
US8594252B2 (en) * | 2005-08-22 | 2013-11-26 | Qualcomm Incorporated | Interference cancellation for wireless communications |
US9014152B2 (en) * | 2008-06-09 | 2015-04-21 | Qualcomm Incorporated | Increasing capacity in wireless communications |
US8611305B2 (en) * | 2005-08-22 | 2013-12-17 | Qualcomm Incorporated | Interference cancellation for wireless communications |
KR101019936B1 (ko) | 2005-12-02 | 2011-03-09 | 퀄컴 인코포레이티드 | 음성 파형의 정렬을 위한 시스템, 방법, 및 장치 |
US8219392B2 (en) | 2005-12-05 | 2012-07-10 | Qualcomm Incorporated | Systems, methods, and apparatus for detection of tonal components employing a coding operation with monotone function |
US8346544B2 (en) * | 2006-01-20 | 2013-01-01 | Qualcomm Incorporated | Selection of encoding modes and/or encoding rates for speech compression with closed loop re-decision |
US8032369B2 (en) * | 2006-01-20 | 2011-10-04 | Qualcomm Incorporated | Arbitrary average data rates for variable rate coders |
US8090573B2 (en) * | 2006-01-20 | 2012-01-03 | Qualcomm Incorporated | Selection of encoding modes and/or encoding rates for speech compression with open loop re-decision |
KR100770895B1 (ko) * | 2006-03-18 | 2007-10-26 | 삼성전자주식회사 | 음성 신호 분리 시스템 및 그 방법 |
US8920343B2 (en) | 2006-03-23 | 2014-12-30 | Michael Edward Sabatino | Apparatus for acquiring and processing of physiological auditory signals |
EP2092517B1 (en) * | 2006-10-10 | 2012-07-18 | QUALCOMM Incorporated | Method and apparatus for encoding and decoding audio signals |
JP4918841B2 (ja) * | 2006-10-23 | 2012-04-18 | 富士通株式会社 | 符号化システム |
DE602006015328D1 (de) * | 2006-11-03 | 2010-08-19 | Psytechnics Ltd | Abtastfehlerkompensation |
US20080120098A1 (en) * | 2006-11-21 | 2008-05-22 | Nokia Corporation | Complexity Adjustment for a Signal Encoder |
JP5171842B2 (ja) | 2006-12-12 | 2013-03-27 | フラウンホッファー−ゲゼルシャフト ツァ フェルダールング デァ アンゲヴァンテン フォアシュンク エー.ファオ | 時間領域データストリームを表している符号化および復号化のための符号器、復号器およびその方法 |
KR100964402B1 (ko) * | 2006-12-14 | 2010-06-17 | 삼성전자주식회사 | 오디오 신호의 부호화 모드 결정 방법 및 장치와 이를 이용한 오디오 신호의 부호화/복호화 방법 및 장치 |
KR100883656B1 (ko) * | 2006-12-28 | 2009-02-18 | 삼성전자주식회사 | 오디오 신호의 분류 방법 및 장치와 이를 이용한 오디오신호의 부호화/복호화 방법 및 장치 |
CN101217037B (zh) * | 2007-01-05 | 2011-09-14 | 华为技术有限公司 | 对音频信号的编码速率进行源控的方法和系统 |
US8553757B2 (en) * | 2007-02-14 | 2013-10-08 | Microsoft Corporation | Forward error correction for media transmission |
JP2008263543A (ja) * | 2007-04-13 | 2008-10-30 | Funai Electric Co Ltd | 記録再生装置 |
US9653088B2 (en) * | 2007-06-13 | 2017-05-16 | Qualcomm Incorporated | Systems, methods, and apparatus for signal encoding using pitch-regularizing and non-pitch-regularizing coding |
KR101403340B1 (ko) * | 2007-08-02 | 2014-06-09 | 삼성전자주식회사 | 변환 부호화 방법 및 장치 |
US8321222B2 (en) * | 2007-08-14 | 2012-11-27 | Nuance Communications, Inc. | Synthesis by generation and concatenation of multi-form segments |
US8326617B2 (en) * | 2007-10-24 | 2012-12-04 | Qnx Software Systems Limited | Speech enhancement with minimum gating |
US8015002B2 (en) | 2007-10-24 | 2011-09-06 | Qnx Software Systems Co. | Dynamic noise reduction using linear model fitting |
US8606566B2 (en) * | 2007-10-24 | 2013-12-10 | Qnx Software Systems Limited | Speech enhancement through partial speech reconstruction |
US9237515B2 (en) | 2008-08-01 | 2016-01-12 | Qualcomm Incorporated | Successive detection and cancellation for cell pilot detection |
US9277487B2 (en) | 2008-08-01 | 2016-03-01 | Qualcomm Incorporated | Cell detection with interference cancellation |
KR101797033B1 (ko) | 2008-12-05 | 2017-11-14 | 삼성전자주식회사 | 부호화 모드를 이용한 음성신호의 부호화/복호화 장치 및 방법 |
EP2237269B1 (en) | 2009-04-01 | 2013-02-20 | Motorola Mobility LLC | Apparatus and method for processing an encoded audio data signal |
US9160577B2 (en) * | 2009-04-30 | 2015-10-13 | Qualcomm Incorporated | Hybrid SAIC receiver |
CN101615910B (zh) * | 2009-05-31 | 2010-12-22 | 华为技术有限公司 | 压缩编码的方法、装置和设备以及压缩解码方法 |
US8787509B2 (en) | 2009-06-04 | 2014-07-22 | Qualcomm Incorporated | Iterative interference cancellation receiver |
CN102483926B (zh) | 2009-07-27 | 2013-07-24 | Scti控股公司 | 在处理语音信号中通过把语音作为目标和忽略噪声以降噪的系统及方法 |
US9269366B2 (en) * | 2009-08-03 | 2016-02-23 | Broadcom Corporation | Hybrid instantaneous/differential pitch period coding |
US8831149B2 (en) | 2009-09-03 | 2014-09-09 | Qualcomm Incorporated | Symbol estimation methods and apparatuses |
CN102668612B (zh) | 2009-11-27 | 2016-03-02 | 高通股份有限公司 | 增加无线通信中的容量 |
US9673837B2 (en) | 2009-11-27 | 2017-06-06 | Qualcomm Incorporated | Increasing capacity in wireless communications |
US9236063B2 (en) * | 2010-07-30 | 2016-01-12 | Qualcomm Incorporated | Systems, methods, apparatus, and computer-readable media for dynamic bit allocation |
US9208792B2 (en) | 2010-08-17 | 2015-12-08 | Qualcomm Incorporated | Systems, methods, apparatus, and computer-readable media for noise injection |
TWI759223B (zh) * | 2010-12-03 | 2022-03-21 | 美商杜比實驗室特許公司 | 音頻解碼裝置、音頻解碼方法及音頻編碼方法 |
KR20120116137A (ko) * | 2011-04-12 | 2012-10-22 | 한국전자통신연구원 | 음성 통신 장치 및 그 방법 |
TWI606441B (zh) | 2011-05-13 | 2017-11-21 | 三星電子股份有限公司 | 解碼裝置 |
US8990074B2 (en) * | 2011-05-24 | 2015-03-24 | Qualcomm Incorporated | Noise-robust speech coding mode classification |
JP6265903B2 (ja) * | 2011-10-19 | 2018-01-24 | コーニンクレッカ フィリップス エヌ ヴェKoninklijke Philips N.V. | 信号雑音減衰 |
US9047863B2 (en) * | 2012-01-12 | 2015-06-02 | Qualcomm Incorporated | Systems, methods, apparatus, and computer-readable media for criticality threshold control |
US9263054B2 (en) * | 2013-02-21 | 2016-02-16 | Qualcomm Incorporated | Systems and methods for controlling an average encoding rate for speech signal encoding |
US9570095B1 (en) * | 2014-01-17 | 2017-02-14 | Marvell International Ltd. | Systems and methods for instantaneous noise estimation |
US9793879B2 (en) * | 2014-09-17 | 2017-10-17 | Avnera Corporation | Rate convertor |
US10061554B2 (en) * | 2015-03-10 | 2018-08-28 | GM Global Technology Operations LLC | Adjusting audio sampling used with wideband audio |
JP2017009663A (ja) * | 2015-06-17 | 2017-01-12 | ソニー株式会社 | 録音装置、録音システム、および、録音方法 |
US10269375B2 (en) * | 2016-04-22 | 2019-04-23 | Conduent Business Services, Llc | Methods and systems for classifying audio segments of an audio signal |
CN113314133A (zh) * | 2020-02-11 | 2021-08-27 | 华为技术有限公司 | 音频传输方法及电子设备 |
CN112767953B (zh) * | 2020-06-24 | 2024-01-23 | 腾讯科技(深圳)有限公司 | 语音编码方法、装置、计算机设备和存储介质 |
Family Cites Families (61)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US32580A (en) * | 1861-06-18 | Water-elevatok | ||
US3633107A (en) * | 1970-06-04 | 1972-01-04 | Bell Telephone Labor Inc | Adaptive signal processor for diversity radio receivers |
JPS5017711A (ru) * | 1973-06-15 | 1975-02-25 | ||
US4076958A (en) * | 1976-09-13 | 1978-02-28 | E-Systems, Inc. | Signal synthesizer spectrum contour scaler |
US4214125A (en) * | 1977-01-21 | 1980-07-22 | Forrest S. Mozer | Method and apparatus for speech synthesizing |
CA1123955A (en) * | 1978-03-30 | 1982-05-18 | Tetsu Taguchi | Speech analysis and synthesis apparatus |
DE3023375C1 (ru) * | 1980-06-23 | 1987-12-03 | Siemens Ag, 1000 Berlin Und 8000 Muenchen, De | |
US4379949A (en) * | 1981-08-10 | 1983-04-12 | Motorola, Inc. | Method of and means for variable-rate coding of LPC parameters |
DE3266204D1 (en) * | 1981-09-24 | 1985-10-17 | Gretag Ag | Method and apparatus for redundancy-reducing digital speech processing |
USRE32580E (en) | 1981-12-01 | 1988-01-19 | American Telephone And Telegraph Company, At&T Bell Laboratories | Digital speech coder |
JPS6011360B2 (ja) * | 1981-12-15 | 1985-03-25 | ケイディディ株式会社 | 音声符号化方式 |
US4535472A (en) * | 1982-11-05 | 1985-08-13 | At&T Bell Laboratories | Adaptive bit allocator |
DE3276651D1 (en) * | 1982-11-26 | 1987-07-30 | Ibm | Speech signal coding method and apparatus |
EP0127718B1 (fr) * | 1983-06-07 | 1987-03-18 | International Business Machines Corporation | Procédé de détection d'activité dans un système de transmission de la voix |
US4672670A (en) * | 1983-07-26 | 1987-06-09 | Advanced Micro Devices, Inc. | Apparatus and methods for coding, decoding, analyzing and synthesizing a signal |
EP0163829B1 (en) * | 1984-03-21 | 1989-08-23 | Nippon Telegraph And Telephone Corporation | Speech signal processing system |
US4856068A (en) * | 1985-03-18 | 1989-08-08 | Massachusetts Institute Of Technology | Audio pre-processing methods and apparatus |
US4885790A (en) * | 1985-03-18 | 1989-12-05 | Massachusetts Institute Of Technology | Processing of acoustic waveforms |
US4827517A (en) * | 1985-12-26 | 1989-05-02 | American Telephone And Telegraph Company, At&T Bell Laboratories | Digital speech processor using arbitrary excitation coding |
CA1299750C (en) * | 1986-01-03 | 1992-04-28 | Ira Alan Gerson | Optimal method of data reduction in a speech recognition system |
US4797929A (en) * | 1986-01-03 | 1989-01-10 | Motorola, Inc. | Word recognition in a speech recognition system using data reduced word templates |
US4899384A (en) * | 1986-08-25 | 1990-02-06 | Ibm Corporation | Table controlled dynamic bit allocation in a variable rate sub-band speech coder |
US4771465A (en) * | 1986-09-11 | 1988-09-13 | American Telephone And Telegraph Company, At&T Bell Laboratories | Digital speech sinusoidal vocoder with transmission of only subset of harmonics |
US4797925A (en) * | 1986-09-26 | 1989-01-10 | Bell Communications Research, Inc. | Method for coding speech at low bit rates |
US4903301A (en) * | 1987-02-27 | 1990-02-20 | Hitachi, Ltd. | Method and system for transmitting variable rate speech signal |
US5054072A (en) * | 1987-04-02 | 1991-10-01 | Massachusetts Institute Of Technology | Coding of acoustic waveforms |
US4868867A (en) * | 1987-04-06 | 1989-09-19 | Voicecraft Inc. | Vector excitation speech or audio coder for transmission or storage |
NL8700985A (nl) * | 1987-04-27 | 1988-11-16 | Philips Nv | Systeem voor sub-band codering van een digitaal audiosignaal. |
US4890327A (en) * | 1987-06-03 | 1989-12-26 | Itt Corporation | Multi-rate digital voice coder apparatus |
US4899385A (en) * | 1987-06-26 | 1990-02-06 | American Telephone And Telegraph Company | Code excited linear predictive vocoder |
CA1337217C (en) * | 1987-08-28 | 1995-10-03 | Daniel Kenneth Freeman | Speech coding |
US4852179A (en) * | 1987-10-05 | 1989-07-25 | Motorola, Inc. | Variable frame rate, fixed bit rate vocoding method |
US4817157A (en) * | 1988-01-07 | 1989-03-28 | Motorola, Inc. | Digital speech coder having improved vector excitation source |
EP0331858B1 (en) * | 1988-03-08 | 1993-08-25 | International Business Machines Corporation | Multi-rate voice encoding method and device |
EP0331857B1 (en) * | 1988-03-08 | 1992-05-20 | International Business Machines Corporation | Improved low bit rate voice coding method and system |
US5023910A (en) * | 1988-04-08 | 1991-06-11 | At&T Bell Laboratories | Vector quantization in a harmonic speech coding arrangement |
US4864561A (en) * | 1988-06-20 | 1989-09-05 | American Telephone And Telegraph Company | Technique for improved subjective performance in a communication system using attenuated noise-fill |
US5077798A (en) * | 1988-09-28 | 1991-12-31 | Hitachi, Ltd. | Method and system for voice coding based on vector quantization |
JP3033060B2 (ja) * | 1988-12-22 | 2000-04-17 | 国際電信電話株式会社 | 音声予測符号化・復号化方式 |
US5222189A (en) * | 1989-01-27 | 1993-06-22 | Dolby Laboratories Licensing Corporation | Low time-delay transform coder, decoder, and encoder/decoder for high-quality audio |
EP0392126B1 (en) * | 1989-04-11 | 1994-07-20 | International Business Machines Corporation | Fast pitch tracking process for LTP-based speech coders |
US5060269A (en) * | 1989-05-18 | 1991-10-22 | General Electric Company | Hybrid switched multi-pulse/stochastic speech coding technique |
GB2235354A (en) * | 1989-08-16 | 1991-02-27 | Philips Electronic Associated | Speech coding/encoding using celp |
JPH03181232A (ja) * | 1989-12-11 | 1991-08-07 | Toshiba Corp | 可変レート符号化方式 |
US5103459B1 (en) * | 1990-06-25 | 1999-07-06 | Qualcomm Inc | System and method for generating signal waveforms in a cdma cellular telephone system |
US5127053A (en) * | 1990-12-24 | 1992-06-30 | General Electric Company | Low-complexity method for improving the performance of autocorrelation-based pitch detectors |
US5680508A (en) * | 1991-05-03 | 1997-10-21 | Itt Corporation | Enhancement of speech coding in background noise for low-rate speech coder |
US5187745A (en) * | 1991-06-27 | 1993-02-16 | Motorola, Inc. | Efficient codebook search for CELP vocoders |
DE69232202T2 (de) * | 1991-06-11 | 2002-07-25 | Qualcomm, Inc. | Vocoder mit veraendlicher bitrate |
US5233660A (en) * | 1991-09-10 | 1993-08-03 | At&T Bell Laboratories | Method and apparatus for low-delay celp speech coding and decoding |
JPH0580799A (ja) * | 1991-09-19 | 1993-04-02 | Fujitsu Ltd | 可変レート音声符号化器 |
JP3327936B2 (ja) * | 1991-09-25 | 2002-09-24 | 日本放送協会 | 話速制御型補聴装置 |
US5734789A (en) * | 1992-06-01 | 1998-03-31 | Hughes Electronics | Voiced, unvoiced or noise modes in a CELP vocoder |
US5513297A (en) * | 1992-07-10 | 1996-04-30 | At&T Corp. | Selective application of speech coding techniques to input signal segments |
US5341456A (en) * | 1992-12-02 | 1994-08-23 | Qualcomm Incorporated | Method for determining speech encoding rate in a variable rate vocoder |
US5774496A (en) * | 1994-04-26 | 1998-06-30 | Qualcomm Incorporated | Method and apparatus for determining data rate of transmitted variable rate data in a communications receiver |
TW271524B (ru) * | 1994-08-05 | 1996-03-01 | Qualcomm Inc | |
US5742734A (en) * | 1994-08-10 | 1998-04-21 | Qualcomm Incorporated | Encoding rate selection in a variable rate vocoder |
US6122384A (en) * | 1997-09-02 | 2000-09-19 | Qualcomm Inc. | Noise suppression system and method |
US5974079A (en) * | 1998-01-26 | 1999-10-26 | Motorola, Inc. | Method and apparatus for encoding rate determination in a communication system |
US6233549B1 (en) * | 1998-11-23 | 2001-05-15 | Qualcomm, Inc. | Low frequency spectral enhancement system and method |
-
1995
- 1995-07-08 TW TW084107077A patent/TW271524B/zh not_active IP Right Cessation
- 1995-07-20 ZA ZA956078A patent/ZA956078B/xx unknown
- 1995-07-31 MY MYPI95002226A patent/MY114777A/en unknown
- 1995-07-31 MY MYPI20070660A patent/MY137264A/en unknown
- 1995-07-31 MY MYPI20021851A patent/MY129887A/en unknown
- 1995-08-01 EP EP03005273A patent/EP1339044B1/en not_active Expired - Lifetime
- 1995-08-01 ES ES03005273T patent/ES2343948T3/es not_active Expired - Lifetime
- 1995-08-01 CN CNB951907239A patent/CN1144180C/zh not_active Expired - Lifetime
- 1995-08-01 CA CA2172062A patent/CA2172062C/en not_active Expired - Lifetime
- 1995-08-01 AT AT03005273T patent/ATE470932T1/de not_active IP Right Cessation
- 1995-08-01 AU AU32095/95A patent/AU689628B2/en not_active Expired
- 1995-08-01 AT AT95928266T patent/ATE388464T1/de not_active IP Right Cessation
- 1995-08-01 RU RU96110286A patent/RU2146394C1/ru active
- 1995-08-01 EP EP95928266A patent/EP0722603B1/en not_active Expired - Lifetime
- 1995-08-01 JP JP50672896A patent/JP3611858B2/ja not_active Expired - Lifetime
- 1995-08-01 WO PCT/US1995/009780 patent/WO1996004646A1/en active Application Filing
- 1995-08-01 DE DE69536082T patent/DE69536082D1/de not_active Expired - Lifetime
- 1995-08-01 DE DE69535723T patent/DE69535723T2/de not_active Expired - Lifetime
- 1995-08-01 KR KR1019960701753A patent/KR100399648B1/ko not_active IP Right Cessation
- 1995-08-01 ES ES95928266T patent/ES2299175T3/es not_active Expired - Lifetime
- 1995-08-01 BR BRPI9506307-2A patent/BR9506307B1/pt not_active IP Right Cessation
- 1995-08-03 IL IL11481995A patent/IL114819A/xx not_active IP Right Cessation
-
1996
- 1996-03-29 FI FI961445A patent/FI120327B/fi not_active IP Right Cessation
-
1997
- 1997-03-11 US US08/815,354 patent/US5911128A/en not_active Expired - Lifetime
-
1998
- 1998-12-28 HK HK98116180A patent/HK1015184A1/xx not_active IP Right Cessation
-
1999
- 1999-02-12 US US09/252,595 patent/US6240387B1/en not_active Expired - Lifetime
-
2001
- 2001-04-12 US US09/835,258 patent/US6484138B2/en not_active Expired - Lifetime
-
2004
- 2004-07-27 JP JP2004219254A patent/JP4444749B2/ja not_active Expired - Lifetime
-
2007
- 2007-08-24 FI FI20070642A patent/FI122726B/fi not_active IP Right Cessation
-
2008
- 2008-02-14 JP JP2008033680A patent/JP4778010B2/ja not_active Expired - Lifetime
-
2009
- 2009-11-18 JP JP2009262773A patent/JP4851578B2/ja not_active Expired - Lifetime
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
RU2454736C2 (ru) * | 2007-10-15 | 2012-06-27 | ЭлДжи ЭЛЕКТРОНИКС ИНК. | Способ и устройство обработки сигнала |
US8566107B2 (en) | 2007-10-15 | 2013-10-22 | Lg Electronics Inc. | Multi-mode method and an apparatus for processing a signal |
US8781843B2 (en) | 2007-10-15 | 2014-07-15 | Intellectual Discovery Co., Ltd. | Method and an apparatus for processing speech, audio, and speech/audio signal using mode information |
Also Published As
Similar Documents
Publication | Publication Date | Title |
---|---|---|
RU2146394C1 (ru) | Способ и устройство вокодирования переменной скорости при пониженной скорости кодирования | |
US6782361B1 (en) | Method and apparatus for providing background acoustic noise during a discontinued/reduced rate transmission mode of a voice transmission system | |
EP0764941B1 (en) | Speech signal quantization using human auditory models in predictive coding systems | |
EP0764938B1 (en) | Perceptual noise masking based on synthesis filter frequency response | |
US6484137B1 (en) | Audio reproducing apparatus | |
EP0764939B1 (en) | Synthesis of speech signals in the absence of coded parameters | |
CA2235455A1 (en) | Method and apparatus for speech enhancement in a speech communication system | |
KR20020033819A (ko) | 멀티모드 음성 인코더 | |
US5706392A (en) | Perceptual speech coder and method | |
CN115171709B (zh) | 语音编码、解码方法、装置、计算机设备和存储介质 | |
KR20050046204A (ko) | 가변 비트율의 광대역 음성 및 오디오 부호화 장치 및방법 | |
Crochiere et al. | A Variable‐Band Coding Scheme for Speech Encoding at 4.8 kb/s | |
Chen | Adaptive variable bit-rate speech coder for wireless applications | |
Paksoy | Variable rate speech coding with phonetic classification | |
CA2275832A1 (en) | Method and apparatus for providing background acoustic noise during a discontinued/reduced rate transmission mode of a voice transmission system | |
Kabal | NATURAL-QUALITY BACKGROUND NOISE CODING USING RESIDUAL SUBSTITUTION | |
JPH03132800A (ja) | マルチパルス型音声符号化及び復号化装置 | |
JPH0683149B2 (ja) | 音声帯域信号符号化・復号化装置 |