RU2146394C1 - Способ и устройство вокодирования переменной скорости при пониженной скорости кодирования - Google Patents

Способ и устройство вокодирования переменной скорости при пониженной скорости кодирования Download PDF

Info

Publication number
RU2146394C1
RU2146394C1 RU96110286A RU96110286A RU2146394C1 RU 2146394 C1 RU2146394 C1 RU 2146394C1 RU 96110286 A RU96110286 A RU 96110286A RU 96110286 A RU96110286 A RU 96110286A RU 2146394 C1 RU2146394 C1 RU 2146394C1
Authority
RU
Russia
Prior art keywords
frame
speech
speech signal
speed
energy
Prior art date
Application number
RU96110286A
Other languages
English (en)
Other versions
RU96110286A (ru
Inventor
П.Деджако Эндрю
Original Assignee
Квэлкомм Инкорпорейтед
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Квэлкомм Инкорпорейтед filed Critical Квэлкомм Инкорпорейтед
Publication of RU96110286A publication Critical patent/RU96110286A/ru
Application granted granted Critical
Publication of RU2146394C1 publication Critical patent/RU2146394C1/ru

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/16Vocoder architecture
    • G10L19/18Vocoders using multiple modes
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/002Dynamic bit allocation

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)
  • Reduction Or Emphasis Of Bandwidth Of Signals (AREA)
  • Transmission Systems Not Characterized By The Medium Used For Transmission (AREA)

Abstract

Изобретение относится к системе связи и предназначено для выполнения кодирования с линейным предсказанием, возбуждаемого кодом переменной скорости. Технический результат - обеспечение оптимизированного выбора режима кодирования для эффективного кодирования скорости входного речевого сигнала. Логическая схема 14 определения скорости выбирает скорость, при которой осуществляется кодирование речевого сигнала. Выбор скорости основан на согласующемся по заданному значению сигнал/шум, определенному элементом 12 определения режимов, нормализованной функции автокорреляции, вычисленной элементом 4 вычисления нормализованной автокорреляции, отсчете пересечений нулевого уровня, определенном счетчиком пересечений нулевого уровня 6, прогнозируемом дифференциале усиления, вычисляемом вычислительным элементом 8 прогнозируемого дифференциала усиления и энергетическом дифференциале между кадрами, вычисляемом элементом вычисления энергетического дифференциала кадров 10. 4 c. и 18 з.п. ф-лы, 2 ил.

Description

Изобретение относится к системам связи. Более конкретно, настоящее изобретение относится к новым, усовершенствованным способу и устройству, предназначенным для выполнения кодирования с линейным предсказанием, возбуждаемого кодом переменной скорости.
Передача речевых сигналов средствами цифровой техники получила широкое распространение, в частности, в системах большой дальности действия и в цифровых радиотелефонных системах. Это, в свою очередь, вызвало интерес в определении наименьшего объема информации, передаваемой по каналу, сохраняющему возможность различения воспроизводимой речи. Если речь передают с использованием дискретизации и преобразования в цифровую форму, для достижения качества речи обычного аналогового телефона требуется скорость передачи данных порядка 64 кбит/с. Однако, путем использования анализа речи с последующим соответствующим кодированием, передачей и повторным синтезом в приемном устройстве можно достичь значительного снижения скорости передачи данных.
Устройства, использующие способы сжатия вокализированной речи путем выделения параметров, относящихся к модели формирования человеческой речи, обычно называют вокодерами (устройствами кодирования речи). Такие устройства состоят из кодирующего устройства, которое анализирует поступающую речь для выделения соответствующих параметров, и декодирующего устройства, которое восстанавливает речь, используя параметры, которые оно принимает по каналу передачи. Для того, чтобы модель была точной, ее необходимо постоянно изменять. Таким образом, речь делится на временные блоки или анализируемые кадры, в течение которых рассчитываются параметры. Затем параметры обновляются для каждого нового кадра.
К одному из различных классов средств кодирования относятся возбуждаемое кодом кодирование с линейным предсказанием, стохастическое кодирование или кодирование речи с векторным возбуждением. Пример алгоритма кодирования для этого конкретного класса описан в работе "Возбуждаемое кодом устройство кодирования с линейным предсказанием со скоростью 4,8 кбит/с", Томаса И., Тремейна и др. , опубликованной в трудах Конференции по подвижным спутникам, 1988 г.
Функция вокодера заключается в сжатии преобразованного в цифровую форму речевого сигнала в сигнал с низкой скоростью передачи битов путем исключения всех естественных избыточностей, присущих речи. Речь обычно имеет кратковременную избыточность, обусловленную главным образом операцией фильтрации речевого тракта, и долговременную избыточность, обусловленную возбуждением речевого тракта голосовыми связками. В возбуждаемом кодом кодирующем устройстве с линейным предсказанием эти операции моделируются двумя фильтрами, формантным фильтром с малой постоянной времени и фильтром основного тона с большой постоянной времени. После того, как эти избыточности удалены, полученный в результате остаточный сигнал можно моделировать как белый гауссов шум, который также можно кодировать. Основа этого метода заключается в вычислении n параметров фильтра, называемого фильтром линейного кодирования с предсказанием (фильтром ЛКП), который осуществляет кратковременное предсказание речевого сигнала, используя модель тракта человеческого голоса. Кроме того, долговременные эффекты, связанные с основным тоном речи, моделируют путем расчета параметров фильтра основного тона, который главным образом моделирует голосовые связки человека. И наконец, эти фильтры должны возбуждаться, и это делается посредством определения того, какой из числа случайных сигналов возбуждения в кодовом словаре наиболее точно аппроксимирует первоначальную речь при возбуждении таким сигналом двух упомянутых фильтров. Таким образом, передаваемые параметры относятся к трем объектам: 1) фильтра ЛКП, 2) фильтра основного тона и 3) возбуждения кодового словаря.
Хотя использование методов кодирования речевых сигналов способствует снижению объема информации, посылаемой по каналу при сохранении качества восстанавливаемой речи, для достижения снижения необходимо применять другие методы. Одним из ранее использовавшихся методов снижения объема передаваемой информации является стробирование речевой активности. При этом методе во время пауз в речи информация не передается. Хотя этот метод позволяет уменьшить объем передаваемых данных, однако ему присущ ряд недостатков.
Во многих случаях качество речи снижается из-за отсечки начальных частей слова. Другая проблема, связанная со стробированием отключенного канала при отсутствии речевой активности, заключается в том, что пользователи системы ощущают отсутствие фонового шума, который обычно сопровождает речь, и оценивают качество канала как более низкое, чем при обычном телефонном разговоре. Следующая проблема, связанная со стробированием речевой активности, состоит в том, что внезапно появляющиеся время от времени шумы фона могут запускать передающее устройство при отсутствии речи, в результате чего в приемном устройстве появляются неприятные всплески шума.
При попытке улучшить качество синтезированной речи в системе стробирования речевой активности, в процессе декодирования добавляется синтезированный комфортный шум. Хотя от добавления комфортного шума достигается некоторое улучшение качества, это по существу не улучшает общего качества, поскольку комфортный шум не моделирует действительного фонового шума в кодирующем устройстве.
Предпочтительный способ осуществления сжатия данных для уменьшения количества информации, которую необходимо передать, заключается в осуществлении кодирования речевых сигналов с переменной скоростью. Поскольку речи внутренне присущи периоды молчания, то есть паузы, количество данных, требуемое для воспроизведения этих периодов, можно снизить. При кодировании речевых сигналов (вокодировании) переменной скорости данный факт используют наиболее эффективно посредством снижения скорости передачи данных в такие периоды молчания. Снижение скорости передачи данных, в противоположность полной остановке передачи данных в периоды молчания, преодолевает проблемы, связанные со стробированием речевой активности, способствуя тем самым уменьшению объема передаваемой информации.
В совместно поданной заявке на патент США сер. N 08/004.484 от 14 января 1993 г. на "Устройство кодирования речевых сигналов с переменной скоростью", принадлежащей тому же правопреемнику, что и настоящее изобретение, подробно описан алгоритм кодирования речевых сигналов упомянутого выше класса устройств кодирования речевых сигналов, в том числе возбуждаемого кодом линейного кодирования с предсказанием (ВКЛКП), стохастического кодирования или кодирования речи с векторным возбуждением. Метод ВКЛКП сам по себе обеспечивает значительное снижение объема данных, которые необходимы для представления речи таким образом, чтобы при восстановлении обеспечивалась речь высокого качества. Как упоминалось выше, параметры устройства кодирования речевых сигналов обновляют для каждого кадра. Вокодер, описанный в упомянутой заявке, обеспечивает переменную скорость выходных данных путем изменения частоты параметров модели. Алгоритм кодирования речевых сигналов, раскрытый в упомянутой выше заявке на патент, отличается наиболее заметно от прежних способов ВКЛКП тем, что обеспечивает переменную скорость выходных данных на основании речевой активности. Структура определяется таким образом, что параметры корректируются реже или с меньшей точностью во время пауз в речи. Этот метод позволяет еще больше снизить объем передаваемой информации. Явление, которое используется для снижения скорости передачи данных, представляет собой показатель речевой активности, который определяется средним процентом времени для данного абонента, в течение которого абонент действительно говорит во время разговора. Для обычных двусторонних телефонных переговоров средняя скорость передачи данных снижается в два или больше раз. Во время пауз в речи устройством кодирования речевых сигналов кодируется только фоновый шум. В эти периоды времени нет необходимости передавать некоторые параметры, относящиеся к модели речевого тракта человека.
Как упоминалось выше, известный подход для ограничения объема информации, передаваемой во время молчания, называется стробированием речевой активности. Это способ, при котором информация не передается в периоды времени молчания. На принимающей стороне эти периоды можно заполнять синтезированным "комфортным шумом". В противоположность этому, устройство кодирования речевых сигналов с переменной скоростью непрерывно передает данные, которые в раскрытом в упомянутой заявке варианте осуществления передаются при скоростях в пределах примерно от 8 кбит/с до 1 кбит/с. Устройство кодирования речевых сигналов, которое обеспечивает непрерывную передачу данных, исключает необходимость синтезирования "комфортного шума" при кодировании фонового шума, обеспечивающего более естественные характеристики для синтезируемой речи. Следовательно, изобретение, раскрытое в упомянутой выше заявке, обеспечивает существенное улучшение качества синтезируемой речи по сравнению с качеством стробирования речевой активности, благодаря обеспечению плавного перехода между речью и фоном.
Алгоритм кодирования речевых сигналов согласно вышеупомянутой заявке дает возможность детектировать короткие паузы в речи, реализуя снижение эффективного коэффициента речевой активности. Решение о скорости передачи можно принимать на покадровой основе без "затягивания", так что скорость передачи данных можно снижать в паузах в речи на величину длительности кадра, обычно равную 20 мс, следовательно - выделять паузы типа пауз между слогами. Этот способ снижает коэффициент речевой активности в большей степени, чем это имело место традиционно, поэтому можно кодировать при пониженных скоростях не только паузы больших длительностей между фразами, но также более короткие паузы.
Поскольку выбор скорости осуществляют на кадровой основе, не происходит отсечки начальной части слова, как это имеет место в системе стробирования речевой активности. Отсечка такого характера происходит в системе стробирования речевой активности из-за задержки между обнаружением речи и повторным запуском передачи данных. Принятие решения о выборе скорости на кадровой основе приводит в результате к восстановлению речи, в которой все переходы имеют естественное звучание.
В случае непрерывной передачи устройством кодирования речевых сигналов окружающий абонента фоновый шум будет непрерывно слышен на приемном конце, создавая таким образом более естественное звучание во время пауз в речи. Таким образом, настоящее изобретение обеспечивает плавный переход к фоновому шуму. То, что слышит слушатель как фон во время речи, внезапно не меняется на синтезируемый комфортный шум во время пауз, как в системе стробирования речевой активности.
Поскольку фоновый шум непрерывно кодируется для передачи, можно с полной ясностью передавать интересные события в фоне. В некоторых случаях интересующий фоновый шум можно даже кодировать на самой высокой скорости. Кодирование с максимальной скоростью может происходить, например, при наличии громкого разговора в составе фона или если автомашина скорой помощи проезжает мимо пользователя, стоящего на углу улицы. Однако, постоянный или медленно меняющийся фоновый шум должен кодироваться при низких скоростях.
Использование вокодирования переменной скорости позволяет более чем в два раза увеличить пропускную способность в системе цифровой сотовой телефонной связи с многостанционным доступом с кодовым разделением каналов (МДКРК). Режим МДКРК и вокодирование переменной скорости исключительно хорошо согласуется, поскольку в режиме МДКРК радиопомехи между каналами автоматически падают по мере уменьшения скорости передачи данных по какому-либо каналу. В противоположность этому рассмотрим системы с выделением интервалов передачи, такие как системы многостанционного доступа с временным разделением каналов (МДВРК) или многостанционного доступа с частотным разделением каналов (МДЧРК). Для того, чтобы такая система получила преимущество от уменьшения скорости передачи данных, требуется внешнее вмешательство для координирования нового назначения неиспользуемых временных интервалов другим пользователям. Внутренне присущая такой схеме задержка означает, что канал можно переназначить только во время длительных пауз в речи. Следовательно, нельзя в полной мере получить выгоды от использования показателя активности речи. Однако, при внешней координации функционирования системы кодирование речевых сигналов с переменной скоростью полезно и в системах, иных чем системы МДКРК, хотя и по другим упоминавшимся причинам.
В системе МДКРК качество речи может слегка снижаться в моменты времени, когда требуется дополнительная пропускная способность системы. Отвлеченно говоря, можно считать, что устройство кодирования речевых сигналов как бы состоит из множества вокодеров, которые работают на разных скоростях с разными результирующими качествами речи. Поэтому качества речи можно смешивать для дальнейшего понижения средней скорости передачи данных. Первоначальные эксперименты показали, что путем смешивания, например, кодированной при полной и половинной скорости речи, максимально допустимая скорость передачи данных изменяется на покадровой основе в пределах от 8 кбит/с до 4 кбит/с; полученная в результате речь имеет качество, которое лучше, чем при переменной половинной скорости, составляющей максимум 4 кбит/с, но не настолько хорошее, как при переменной полной скорости, составляющей 8 кбит/с.
Хорошо известно, что при большинстве телефонных разговоров одновременно говорит только один человек. В качестве дополнительной функции для полностью двусторонних телефонных линий связи можно обеспечить ведомую синхронизацию скорости. Если в одном направлении линии связи передача осуществляется при самой высокой скорости, то в другом направлении линии связи передача обеспечивается на самой низкой скорости. Такая синхронизация между двумя направлениями линии связи может гарантировать среднее использование каждого направления линии связи не более 50%. Тем не менее, когда канал отключен, например, при ведомой синхронизации в режиме стробирования активности, слушающий абонент не имеет возможности прервать говорящего абонента, чтобы взять на себя роль говорящего в разговоре. Соответствующий вышеупомянутой заявке на патент способ кодирования речевых сигналов легко обеспечивает возможность адаптивной синхронизации скорости с помощью управляющих сигналов, которые устанавливают скорость вокодирования.
В вышеупомянутой заявке на патент устройство кодирования речевых сигналов (вокодер) работает либо при полной скорости, когда присутствует речь, либо при восьмой части скорости, когда речь отсутствует. Работа алгоритма кодирования речевых сигналов при половинной скорости и четвертой части скорости резервируется для специальных условий перегруженной пропускной способности, или когда параллельно с речевыми данными следует передавать другие данные.
В совместно поданной заявке на патент США сер. N 08/118.473 от 8 сентября 1993 г. на "Способ и устройство, предназначенные для определения скорости передачи данных в системе связи коллективного пользования", принадлежащей тому же правопреемнику, что и настоящее изобретение, подробно описан способ, с помощью которого система связи в соответствии с измерениями пропускной способности системы ограничивает среднюю скорость передачи данных в кадрах, кодируемых с помощью вокодера переменной скорости. Система снижает скорость передачи данных, обеспечивая кодирование заранее определенных кадров в полноскоростной последовательности кадров при более низкой скорости, то есть при половинной скорости. Связанная со снижением скорости кодирования для кадров активной речи этим способом проблема заключается в том, что ограничение не соответствует каким-либо характеристикам входной речи и, таким образом, не оптимизирована в отношении качества сжатия речи.
Кроме того, в совместно поданной заявке на патент США сер. N 07/984.602 от 2 декабря 1992 г. на "Усовершенствованный способ определения скорости кодирования речи в вокодере переменной скорости", по которой выдан патент США N 5.341.456 23 августа 1994 г., принадлежащий тому же правопреемнику, что и настоящее изобретение, раскрыт способ отделения невокализированной речи от вокализированной речи. В раскрытом способе исследуется энергия речи и изменение уровня спектральных составляющих речи и используется упомянутое изменение уровня спектральных составляющих для отличия невокализированной речи от фонового шума.
Вокодеры переменной скорости, которые меняют скорость кодирования полностью на основании голосовой активности входной речи, не в состоянии реализовать эффективность сжатия кодирующего устройства с переменной скоростью, которое изменяет скорость кодирования на основании сложности или объема информации, который динамически изменяется при активной речи. За счет согласования скоростей кодирования со сложностью входного сигнала можно создать более эффективные устройства кодирования речи. Кроме того, системы, которые стремятся динамически регулировать скорость передачи выходных данных вокодеров переменной скорости, должны изменять скорости передачи данных в соответствии с характеристиками входной речи для достижения оптимального качества голоса для требуемой средней скорости передачи данных.
Настоящее изобретение относится к новым и усовершенствованным способу и устройству кодирования кадров активной речи при сниженной скорости передачи данных посредством кодирования речевых кадров при скоростях в диапазоне от заранее установленной максимальной скорости до заранее установленной минимальной скорости. Настоящее изобретение определяет набор режимов работы с активной речью. В примере осуществления настоящего изобретения имеются четыре режима работы с активной речью, в том числе речи при полной скорости, речи при половинной скорости, невокализированной речи при четвертой части скорости и вокализированной речи на четвертой части скорости.
Задачей настоящего изобретения является создание оптимизированного способа выбора режима кодирования, который обеспечивает эффективное по скорости кодирование поступающей на вход речи. Кроме того, задачей настоящего изобретения является идентифицировать набор параметров, идеально подходящих для этого выбора рабочего режима, и создать средство, предназначенное для вырабатывания этого набора параметров.
Изобретение позволяет обеспечить идентификацию двух раздельных условий кодирования при низкой скорости с минимальным ущербом для качества. Такими условиями являются наличие невокализированной речи и наличие временно маскированной речи. И, наконец, изобретение обеспечивает создание способа динамического регулирования средней скорости передачи выходных данных устройства кодирования речи с минимальным влиянием на качество речи.
Настоящее изобретение предусматривает набор критериев определения скорости, называемых критериями режима. Первым критерием режима является согласующееся по заданному значению отношение сигнал/шум от предыдущего кадра кодирования, который обеспечивает информацию о том, насколько хорошо синтезированная речь согласована с входной речью, или, другими словами, насколько хорошо выполнена модель кодирования. Вторым критерием режима является нормированная автокорреляционная функция, которая измеряет периодичность в речевом кадре. Третьим критерием режима является параметр пересечений нулевого уровня, который представляет собой недорогой с вычислительной точки зрения способ определения содержания высоких частот во входном речевом кадре. Четвертым критерием является прогнозируемый дифференциал усиления, определяющий, сохраняет ли модель ЛКП (линейное кодирование с предсказанием) свою эффективность предсказания. Пятым критерием является энергетический дифференциал, который сравнивает энергию в текущем кадре со средней энергией кадров.
В примере осуществления соответствующего настоящему изобретению алгоритма кодирования речевых сигналов используются пять перечисленных выше критериев режимов, с целью выбора режима кодирования для кадра активной речи. Соответствующая настоящему изобретению логика определения скорости сравнивает нормированную автокорреляционную функцию (АКФ) со значением первой пороговой величины, а пересечение нулевого уровня - со значением второй пороговой величины для определения, следует ли кодировать речь как невокализированную речь при четвертой части скорости.
Если определено, что кадр активной речи содержит вокализированную речь, то вокодер исследует энергетический дифференциал для определения, следует ли кодировать кадр речи как вокализированную речь при четвертой части скорости. Если определено, что речь не подлежит кодированию при четвертой части скорости, то вокодер исследует, можно ли кодировать речь при половинной скорости. Вокодер исследует значения упомянутых выше параметров согласованного по заданному значению отношения с/ш, прогнозируемого дифференциала усиления и нормированной АКФ для определения, можно ли кодировать речевой кадр при половинной скорости. Если он определил, что кадр активной речи нельзя кодировать при четвертой части или половинной скорости, то кадр кодируется при полной скорости.
Еще одной задачей является создание способа динамического изменения пороговых значений для обеспечения необходимой скорости. Путем изменения одного или более из пороговых значений выбора режима можно увеличить или уменьшить среднюю скорость передачи данных. Таким образом, с помощью динамического регулирования пороговых значений можно регулировать скорость на выходе.
Особенности, цели и преимущества настоящего изобретения станут более ясны из приведенного ниже подробного описания совместно с чертежами, на которых представлено следующее:
фиг. 1 - блок-схема соответствующего настоящему изобретению устройства определения скорости кодирования;
фиг. 2 - блок-схема, иллюстрирующая процедуру выбора скорости кодирования логической схемы определения скорости.
В приведенном для примера варианте осуществления изобретения кодируются речевые кадры из 160 речевых выборок. В этом варианте осуществления настоящего изобретения имеются четыре скорости передачи данных: полная скорость, половина скорости, четвертая часть скорости и восьмая часть скорости. Полная скорость соответствует выходной скорости передачи данных, равной 14,4 кбит/с. Половина скорости соответствует выходной скорости передачи данных 7,2 кбит/с. Четвертая часть скорости соответствует выходной скорости передачи данных 3,6 кбит/с. Одна восьмая часть скорости соответствует выходной скорости передачи данных 1,8 кбит/с и резервируется для передачи во время периодов молчания.
Следует отметить, что настоящее изобретение касается только кодирования кадров активной речи, т.е. кадров, которые детектируются для выделения содержащейся в них речи. Способ определения наличия речи описан в упомянутых выше заявках на патент США сер. N 08/004.484 и сер. N 07/984.602.
Как показано на фиг. 1, элемент 12 определения режимов измеряет значения пяти параметров, используемых логической схемой определения скорости 14 для выбора скорости кодирования кадров активной речи. В рассматриваемом варианте осуществления изобретения элемент 12 определения режимов определяет пять параметров, которые он посылает на логическую схему 14 определения скорости. На основании параметров, полученных элементом 12 определения режимов, логическая схема 14 определения скорости выбирает скорость кодирования из числа полной скорости, половины скорости и четвертой части скорости.
Логическая схема 14 определения скорости выбирает один из четырех режимов кодирования в соответствии с пятью вырабатываемыми параметрами. Четыре режима кодирования включают в себя режим на полной скорости, режим на половинной скорости, невокализированный режим на четвертой части скорости и вокализированный режим на четвертой части скорости. Вокализированный режим на четвертой части скорости и невокализированный режим на четвертой части скорости обеспечивают данные на одной и той же скорости, но с помощью разных способов кодирования. Режим на половинной скорости используется для кодирования стационарной, периодической, хорошо моделируемой речи. Режимы вокализированный на четвертой части скорости, невокализированный на четвертой части скорости и на половинной скорости удобны для участков речевого сигнала, которые не требуют высокой точности при кодировании кадра.
Невокализированный режим на четвертой части скорости используется при кодировании невокализированной речи. Вокализированный режим на четвертой части скорости используется при кодировании временно маскируемых речевых кадров. Большинство кодирующих речь возбуждаемых кодом устройств кодирования с линейным предсказанием используются при одновременной маскировке, при которой энергия речи на данной частоте маскирует энергию шума на тех же частоте и времени, делая шум неслышимым. Устройства кодирования речи при переменной скорости могут иметь преимущество временного маскирования, при котором низкоэнергетические кадры активной речи маскируются с помощью предшествующих высокоэнергетических кадров речи с подобным частотным спектром. Поскольку ухо человека объединяет энергию по времени в разных частотных диапазонах, низкоэнергетические кадры усредняются по времени с высокоэнергетическими кадрами, снижая таким образом требования к кодированию для низкоэнергетических кадров. Использование преимущества этого явления временного слухового маскирования позволяет устройству кодирования речи с переменной скоростью снизить скорость кодирования во время этого режима речи. Это психоакустическое явление подробно описано в журнале "Психология слухового восприятия" И. Цвикером и Х.Фестлом на стр. 56-101.
Элемент 12 определения режимов принимает четыре входных сигнала, с помощью которых он вырабатывает пять параметров режимов. Первый сигнал S (n), который принимает элемент 12 определения режимов, представляет собой некодированные входные речевые выборки. В рассматриваемом примере варианта осуществления речевые выборки обеспечиваются кадрами, содержащими 160 выборок речевого сигнала. Все речевые кадры, которые подаются на элемент 12 определения режимов, содержат активную речь. Во время периодов молчания соответствующая настоящему изобретению система определения скорости активной речи пассивна.
Второй сигнал
Figure 00000002
(n) синтезированной речи, который принимает элемент 12 определения режимов, представляет собой декодированную речь из декодера, возбуждаемого кодом устройства кодирования с линейным предсказанием с переменной скоростью. Декодер этого кодирующего устройства декодирует кадр кодированной речи для коррекции параметров фильтра и записей при анализе с помощью возбуждаемого кодом устройства кодирования с линейным предсказанием на основе синтеза. Конструкция таких декодеров хорошо известна в технике и подробно описана в вышеупомянутой заявке на патент США N 08/004.484.
Третий сигнал, который принимает элемент 12 определения режима, представляет собой формантный остаточный сигнал e (n). Это речевой сигнал S (n), отфильтрованный фильтром ЛКП кодера, возбуждаемого кодом устройства кодирования с линейным предсказанием. Конструкция фильтров ЛКП и фильтрация сигналов с помощью таких фильтров в технике хорошо известны и подробно описаны в упомянутой выше заявке на патент США N 08/004.484. Четвертый входной сигнал элемента 12 определения режимов A (z) представляет значение сигнала на отводах перцептуально взвешивающего фильтра соответствующего устройства кодирования с линейным предсказанием. Формирование значений сигнала на отводах фильтра и операция фильтрации с помощью взвешивающего фильтра в технике хорошо известны и подробно описаны в заявке на патент США N 08/004.484.
Элемент 2 вычисления, согласующегося по заданному значению отношения с/ш, принимает синтезированный речевой сигнал
Figure 00000003
(n), речевые выборки S (n) и ряд значений A (z) сигнала на отводах перцептуально взвешивающего фильтра. Элемент 2 вычисления, согласующегося по заданному значению отношения с/ш, обеспечивает параметр, обозначенный TMSNR (СЗЗОСШ), который указывает, насколько хорошо речевая модель отслеживает входную речь. Элемент 2 вычисления, согласующегося по заданному значению с/ш (СЗЗОСШ), вырабатывает TMSNR в соответствии с уравнением (1):
Figure 00000004

где подстрочный индекс w показывает, что сигнал отфильтрован с помощью перцептуально взвешивающего фильтра.
Отметим, что этот критерий рассчитывают для предыдущего кадра речи, тогда как NACF(НАКФ) (нормированная автокорреляционная функция), PGD (ПДУ - прогнозируемый дифференциал усиления), ED (ЭД - энергетический дифференциал), ZC (ПНУ - пересечение нулевого уровня) рассчитывают по текущему кадру речи. Значение TMSNR (СЗЗОСШ) рассчитывают для предыдущего кадра речи, поскольку он представляет функцию выбираемой скорости кодирования и, таким образом, по причинам сложности вычислений его рассчитывают по предыдущему кадру относительно кодированного кадра.
Конструкция и воплощение перцептуально взвешивающих фильтров в технике хорошо известны и подробно описаны в вышеупомянутой заявке на патент США N 08/004.484. Следует отметить, что перцептуальное взвешивание предпочтительно для взвешивания перцептуально значимых особенностей речевого кадра. Однако, очевидно, что измерение можно осуществлять без перцептуального взвешивания сигналов.
Элемент 4 вычисления нормализованной автокорреляции принимает остаточный сигнал форманта e (n). Функция элемента 4 вычисления нормированной АКФ заключается в обеспечении индикации периодичности выборок в речевом кадре. Элемент 4 вычисления нормированной АКФ вырабатывает параметр, обозначенный NACF (НАКФ - нормированная автокорреляционная функция) в соответствии с приведенным ниже уравнением (2):
Figure 00000005

Следует отметить, что вырабатывание этого параметра требует запоминания формантного остаточного сигнала от кодирования предыдущего кадра. Это позволяет исследовать не только периодичность текущего кадра, но также исследовать периодичность текущего кадра с предыдущим кадром.
Причина, по которой в предпочтительном варианте осуществления используется формантный остаточный сигнал e (n) вместо речевых выборок S (n), которые можно использовать при генерировании NACF (НАКФ), заключается в том, чтобы устранить взаимодействие формантов речевого сигнала. Пропускание речевого сигнала через фильтр формантов служит для выравнивания речевой огибающей и, таким образом, отбеливания получающегося сигнала. Следует отметить, что величины задержки T в рассматриваемом примере осуществления изобретения соответствуют частотам основного тона между 66 Гц и 400 Гц для частоты выборок, равной 8000 выборок в секунду. Частота основного тона для данного значения задержки T рассчитывается по приведенному ниже уравнению (3):
fо.т.=fs/T, (3)
где fs - частота выборок.
Следует отметить, что частотный диапазон можно увеличить или уменьшить просто путем выбора другого набора величин задержки. Следует также отметить, что настоящее изобретение в равной степени применимо к любым частотам выборок.
Счетчик пересечений нулевого уровня 6 принимает выборки речи S (n) и подсчитывает количество периодов, когда выборки речи меняют знак. Это является недорогим с точки зрения вычисления способом определения высокочастотных составляющих в речевом сигнале. Этот счетчик можно реализовать программным средством с помощью цикла следующей формы:
cnt = 0 (счет = 0) (4)
for n = 0,158 (для n = 0,158) (5)
if (S(n)•S(n+1)<0) cnt++ (если) (6)
Цикл уравнений (4)-(6) перемножает последовательные речевые выборки и исследует, меньше ли нуля произведение, что показывает, что знак между двумя последовательными выборками отличается. Это предполагает, что в речевом сигнале нет составляющей постоянного тока. В технике хорошо известно, как исключить из сигнала постоянные составляющие.
Элемент 8 прогнозируемого дифференциала усиления принимает речевой сигнал S (n) и формантный остаточный сигнал e (n). Элемент 8 прогнозируемого дифференциала усиления вырабатывает параметр, обозначенный PGD (ПДУ - прогнозируемый дифференциал усиления), который определяет, сохраняет ли модель ЛКП свою эффективность предсказания. Элемент 8 прогнозируемого дифференциала усиления генерирует прогнозируемый коэффициент усиления Pg в соответствии с представленным ниже уравнением (7):
Figure 00000006

Затем прогнозируемый коэффициент усиления настоящего кадра сравнивается с прогнозируемым коэффициентом усиления предыдущего кадра при вырабатывании выходного параметра ПДУ с помощью следующего уравнения (8):
Figure 00000007
(8)
где i - номер кадра
В предпочтительном варианте осуществления изобретения элемент 8 прогнозируемого дифференциала усиления не вырабатывает значение прогнозируемого коэффициента усиления Pg. При вырабатывании коэффициента ЛКП побочным продуктом рекурсии Дарбина является прогнозируемый коэффициент усиления Pg, поэтому нет необходимости осуществлять повторное вычисление.
Элемент 10 определения энергетического дифференциала кадра принимает выборки речи S (n) текущего кадра и вычисляет энергию речевого сигнала в текущем кадре в соответствии со следующим выражением 9:
Figure 00000008

Энергия текущего кадра сравнивается со средней энергией предыдущих кадров Eave. В рассматриваемом примере осуществления изобретения среднюю энергию Eave вырабатывает квазиинтегратор формы:
Eave= α •Eave+(1- α)Ei, (10)
где 0 < α < 1.
Коэффициент α определяет диапазон кадров, которые относятся к данному вычислению. В данном примере осуществления α установлено равным 0,8825, что обеспечивает постоянную времени, равную 8 кадрам. Затем элемент 10 определения энергетического дифференциала кадров вырабатывает параметр ED (ЭД - энергетическая разность) в соответствии со следующим выражением:
Figure 00000009

Пять параметров TMSNR (СЗЗОСШ), NACF (НАКФ), ZC (ПНУ), PGD (ПДУ) и ED (ЭД) поступают на логическую схему определения скорости 14. Логическая схема определения скорости 14 выбирает скорость кодирования для следующего кадра выборок в соответствии с параметрами и определенным заранее набором правил выбора. Рассмотрим теперь фиг. 2, которая иллюстрирует блок-схему процедуры выбора скорости логического элемента определения скорости 14.
Процедура определения скорости начинается в блоке 18. В блоке 20 выходной сигнал элемента 4 вычисления нормированной АКФ, NACF (НАКФ), сравнивается с заранее установленным пороговым значением THR1, а выходной сигнал счетчика пересечений нулевого уровня сравнивается со вторым заранее установленным пороговым уровнем THR2. Если NACF (НАКФ) меньше THR1, а ZC (ПНУ) больше THR2, то процедура обработки переходит к блоку 22, который кодирует речь как невокализированную речь при четвертой части скорости. Значение NACF (НАКФ) меньше, чем заранее установленное пороговое значение, показывает отсутствие периодичности речи, а значение ZC (ПНУ) больше, чем заранее установленное пороговое значение, указывает на высокочастотную составляющую в речи. Сочетание этих двух условий показывает, что кадр содержит невокализированную речь. В рассматриваемом варианте осуществления изобретения значение THR1 равно 0,35, а THR2 равно 50 пересечениям нулевого уровня. Если NACF (НАКФ) не меньше, чем THR, или ZC (ПНУ) не больше, чем THR2, то процедура обработки переходит к блоку 24.
В блоке 24 выходной сигнал элемента 10 энергетического дифференциала кадров ED(ЭД) сравнивается с третьим пороговым значением THR3. Если ED (ЭД) меньше THR3, то текущий речевой кадр будет кодироваться как вокализированная речь при четвертой части скорости в блоке 26. Если энергетический дифференциал текущего кадра меньше среднего значения на величину, превышающую пороговое значение, то это показывает режим временного маскирования речи. В примерном варианте осуществления изобретения значение THR3 равно 14 дБ. Если ED (ЭД) не превышает THR3, то процесс переходит к блоку 28.
В блоке 28 выходной сигнал элемента вычисления, согласующегося по заданному значению отношения с/ш 2, TMSNR (СЗЗОСШ) сравнивается с четвертым пороговым значением THR4; выходной сигнал элемента 8 прогнозируемого дифференциала усиления PGD (ПДУ) сравнивается с пятым пороговым значением THR5, а выходной сигнал элемента вычисления нормированной автокорреляции 4 NACF (НАКФ) сравнивается с шестым пороговым значением THR6. Если TMSNR (СЗЗОСШ) превышает THR4; PGD (ПДУ) меньше, чем THR5, а NACF (НАКФ) превышает THR6, то процедура обработки переходит в блок 30, и речь кодируется при половинной скорости. Превышение TMSNR (СЗЗОСШ) своего порогового уровня показывает, что модель и моделированная речь хорошо согласованы в предыдущем кадре. Если параметр PGD (ПДУ) меньше его заранее установленного порогового уровня, то это показывает, что модель ЛКП сохраняет свою эффективность прогнозирования. Превышение параметром NACF (НАКФ) своего заранее установленного порогового значения показывает, что кадр содержит периодическую речь, то есть периодическую с предыдущим кадром речи.
В рассматриваемом примере осуществления изобретения THR4 первоначально устанавливают на 10 дБ, THR5 устанавливают на значение 5 дБ, a THR6 - на значение 0,4. Если в блоке 28 TMSNR (СЗЗОСШ) не превышает значение THR4 или PGD (ПДУ) не превышает значение THR5, или NACF (НАКФ) не превышает значение THR6, то процесс переходит к блоку 32, а текущий речевой кадр будет кодироваться на полной скорости.
Путем динамического регулирования пороговых значений можно достичь произвольной общей скорости передачи данных. Общую среднюю скорость передачи данных активной речи R можно определить в отношении анализируемого окна W активных речевых кадров следующим образом:
Figure 00000010

где Rf - скорость передачи данных для кадров, кодированных на полной скорости,
Rh - скорость передачи данных для кадров, кодированных на половине скорости,
Rq - скорость передачи данных для кадров, кодированных на четвертой части скорости, и
W = #Rf кадров + #Rh кадров + #Rq кадров.
Посредством перемножения каждой из скоростей кодирования на количество кадров, кодируемых при этой скорости, и затем деления на общее количество кадров в выборке, можно вычислить среднюю скорость передачи данных для выборки активной речи. Важно иметь размер выборки кадров W достаточно большой для предотвращения большой продолжительности невокализированной речи типа извлечения звуков "c" из искажения среднестатистического значения скорости. В примере осуществления изобретения размер выборки кадров W для вычисления средней скорости составляет 400 кадров.
Среднюю скорость передачи данных можно снизить путем повышения количества кадров, кодируемых при полной скорости, подлежащих кодированию при половинной скорости, и наоборот, среднюю скорость передачи данных можно увеличить путем увеличения количества кадров, закодированных при половинной скорости, подлежащих кодированию при полной скорости. В предпочтительном варианте осуществления изобретения пороговое значение, которое регулируют для выполнения этого изменения, является THR4. В примере осуществления запоминают гистограмму значений TMSNR (СЗЗОСШ). В примере осуществления изобретения запомненные значения TMSNR (СЗЗОСШ) разбивают на величины целых чисел децибелл из текущего значения THR4. С помощью сохранения гистограммы этого сорта можно легко оценить, как много кадров можно изменить в предыдущем блоке анализа из закодированных на полной скорости в кодируемые при половинной скорости, где THR4 подлежит уменьшению на целое число децибелл. И наоборот, оценка количества кадров, кодируемых при половинной скорости, которые можно кодировать при полной скорости, означает, что пороговое значение подлежит увеличению на целое число децибелл.
Выражение, предназначенное для определения количества кадров, которые следует изменить от кадров при половинной скорости на кадры при полной скорости, определяется следующим выражением:
Figure 00000011

где Δ - количество кадров, кодируемых при половинной скорости, которые должны кодироваться при полной скорости для достижения целевой скорости;
W = #Rf кадров + #Rh кадров + #Rq кадров.
СЗЗОСШновое= СЗЗОСШстарое+(количество дБ от СЗЗОСШстарого для достижения разницы кадров, определяемой в вышеприведенном уравнении (13)).
Отметим, что первоначальное значение СЗЗОСШ является функцией требуемой целевой скорости. В примерном варианте осуществления с целевой скоростью 8,7 кбит/с в системе с Rf = 14,4 кбит/с, Rh = 7,2 кбит/с, Rq = 3,6 кбит/с, начальное значение СЗЗОСШ равно 10 дБ. Следует отметить, что разбиение значений СЗЗОСШ на целые числа для расстояния от порогового значения THR4 можно легко сделать мельче, например, половины или четвертой части децибелла, или можно сделать крупнее, например, полутора или двух децибелл.
Предполагается, что целевую скорость можно либо запоминать в запоминающем элементе логического элемента определения скорости 14, и в этом случае целевая скорость может представлять статическую величину, в соответствии с которой значение THR4 будет определяться динамическим путем. Предполагается, что в дополнение к этой начальной целевой скорости система связи может передавать сигнал управления скоростью на устройство выбора скорости кодирования, основываясь на условиях пропускной способности системы.
Сигнал управления скоростью может либо определять целевую скорость, либо может просто требовать увеличения или уменьшения средней скорости. Если в системе определяется целевая скорость, эта скорость будет использоваться при определении величины THR4 согласно уравнениям (12) и (13). Если только система определила, что пользователь должен передавать сообщения при более высокой или более низкой скорости, то логический элемент определения скорости 14 может реагировать посредством изменения величины THR4 на заранее установленное приращение, или может вычислить дифференциальное изменение в соответствии с заранее определенным дифференциальным увеличением или уменьшением скорости.
Блоки 22 и 26 показывают разницу в способе кодирования речи, основываясь на определении, соответствуют ли выборки речи вокализированной или невокализированной речи. Невокализированная речь является речью в форме фрикативных звуков и согласных звуков типа "ф", "с", "ш", "т", и "з". Вокализированная речь на четвертой части скорости представляет собой временно маскируемую речь, где речевой кадр низкой громкости следует за речевым кадром относительно высокой громкости аналогичного частотного содержания. Ухо человека не может слышать тонкие моменты речи в кадре с низкой громкостью, который следует за кадрами с высокой громкостью, так что разряды можно экономить, кодируя такую речь при четвертой части скорости.
В примерном варианте осуществления кодирования невокализированной речи при четвертой части скорости речевой кадр делится на четыре подкадра. Для каждого из четырех подкадров передается значение коэффициента усиления G и коэффициенты фильтра ЛКП A(z). В примере осуществления изобретения для представления коэффициента усиления в каждом подкадре передается пять двоичных разрядов. На декодирующем устройстве для каждого подкадра произвольно выбирается индекс кодового словаря. Произвольно выбранный вектор кодового словаря умножается на передаваемую величину коэффициента усиления и пропускается через фильтр ЛКП A(z) для генерирования синтезированной невокализированной речи.
При кодировании вокализированной речи при четвертой части скорости речевой кадр делится на два подкадра, а кодирующее устройство ВКЛП определяет индекс кодового словаря и коэффициент усиления для каждого из двух подкадров. В рассматриваемом примере осуществления назначаются пять двоичных разрядов для индикации индекса кодового словаря, а другие пять двоичных разрядов назначаются для определения соответствующего значения коэффициента усиления. В примере осуществления кодовый словарь, используемый для кодирования вокализированной речи при четвертой части скорости, представляет собой подмножество векторов кодового словаря, используемого для кодирования при половинной и полной скорости. В примере осуществления изобретения для определения индекса кодового словаря в режимах кодирования при полной и половинной скорости используются семь двоичных разрядов.
На фиг. 1 блоки можно представить как структурные блоки, предназначенные для выполнения определенных функций, или блоки могут представлять функции, выполняемые при программировании процессора цифровых сигналов (ПЦС) или интегральной схемы специального применения (ИССП). Описание функций настоящего изобретения обеспечивает возможность специалистам в данной области техники реализовать настоящее изобретение ПЦС или ИССП.
Вышеприведенное описание предпочтительных вариантов осуществления представлено для обеспечения возможности любому специалисту в данной области техники реализовать или использовать настоящее изобретение. Специалисты в данной области техники могут легко понять различные модификации этих вариантов осуществления, а определенные здесь основные принципы могут применять для других вариантов осуществления без дополнительного изобретательства. Таким образом, настоящее изобретение не ограничено описанными здесь вариантами осуществления, а должно соответствовать наиболее широкому объему, соответствующему раскрытым здесь принципам и признакам изобретения.

Claims (22)

1. Устройство для выбора скорости кодирования из заранее определенного множества скоростей кодирования для кодирования кадра речевого сигнала, включающего множество выборок речевого сигнала, отличающееся тем, что содержит элемент определения режима, реагирующий на выборки речевого сигнала и на сигнал, полученный из упомянутых выборок речевого сигнала, для выработки множества параметров, отображающих характеристики упомянутого кадра речевого сигнала, и логическую схему определения скорости для приема упомянутого множества параметров и для выбора скорости кодирования из упомянутого заранее определенного множества скоростей кодирования с использованием заранее определенных правил выбора скорости.
2. Устройство по п.1, отличающееся тем, что упомянутое множество параметров включает в себя измеренное значение согласующегося по заданному значению отношения сигнала к шуму, индицирующее согласование между входным речевым сигналом и модулируемым речевым сигналом.
3. Устройство по п.1, отличающееся тем, что упомянутое множество параметров включает в себя измеренное значение нормированной функции автокорреляции, показывающее периодичность входного речевого сигнала.
4. Устройство по п.1, отличающееся тем, что упомянутое множество параметров включает в себя отсчет пересечений нулевого уровня, показывающий присутствие высокочастотных составляющих в упомянутом кадре речевого сигнала.
5. Устройство по п.1, отличающееся тем, что упомянутое множество параметров включает в себя измеренное значение прогнозируемого дифференциального усиления, индицирующего стабильность формантов от кадра к кадру.
6. Устройство по п.1, отличающееся тем, что упомянутое множество параметров включает в себя измеренное значение энергетического дифференциала кадров, индицирующее изменения энергии между энергией текущего кадра и средней энергией кадров.
7. Устройство по п.1, отличающееся тем, что упомянутое заранее определенное множество скоростей кодирования включает в себя полную скорость, половинную скорость, четвертую часть скорости.
8. Устройство по п.1, отличающееся тем, что упомянутое множество параметров включает в себя измеренное значение нормированной функции автокорреляции, индицирующее периодичность во входном речевом сигнале и отсчет пересечений нулевого уровня, индицирующий присутствие высокочастотных составляющих в упомянутом кадре речевого сигнала, и, если измеренное значение нормированной функции автокорреляции ниже заранее установленного первого порогового значения, а упомянутый отсчет пересечений нулевого уровня превышает второе заранее установленное пороговое значение, упомянутая логическая схема определения скорости выбирает режим кодирования, соответствующий кодированию невокализированной речи при четвертой части скорости.
9. Устройство по п.1, отличающееся тем, что упомянутое множество параметров включает в себя измеренное значение энергетического дифференциала кадров, индицирующее изменения энергии между энергией текущего кадра и средней энергией кадров, и, если измеренное значение энергетического дифференциала, индицирующее изменения энергии между энергией текущего кадра и средней энергией кадров, ниже заранее установленного порогового значения, упомянутая логическая схема определения скорости выбирает режим кодирования, соответствующий кодированию вокализированной речи при четвертой части скорости.
10. Устройство по п.1, отличающееся тем, что упомянутое множество параметров включает в себя измеренное значение нормированной функции автокорреляции, индицирующее периодичность входного речевого сигнала, измеренное значение согласующегося по заданному значению отношения сигнал/шум, индицирующее согласование между кодированным кадром речевого сигнала и входным кадром речевого сигнала, и измеренное значение прогнозируемого дифференциала усиления, индицирующее стабильность от кадра к кадру множества формантных параметров в упомянутом кодированном кадре речевого сигнала, и, если измеренное значение нормированной функции автокорреляции превышает заранее установленное пороговое значение, упомянутый прогнозируемый дифференциал усиления превышает второе заранее установленное пороговое значение, а упомянутая нормированная автокорреляционная функция ниже заранее установленного третьего порогового значения, упомянутая логическая схема определения скорости выбирает режим кодирования, соответствующий кодированию при половинной скорости.
11. Подсистема динамического изменения скорости передачи кадра речевого сигнала, передаваемого от удаленной станции в системе связи, в которой удаленная станция осуществляет связь с центральным узлом связи, отличающаяся тем, что содержит элемент определения режима, реагирующий на упомянутый кадр речевого сигнала и на сигнал, полученный из этого кадра речевого сигнала, для выработки множества параметров, индицирующих характеристики упомянутого кадра речевого сигнала, и логическую схему определения скорости для приема упомянутого множества параметров, для приема сигнала управления скоростью и для вырабатывания по меньшей мере одного порогового значения в соответствии с упомянутым сигналом управления скоростью, сравнения по меньшей мере одного параметра из упомянутого множества параметров с упомянутым по меньшей мере одним пороговым значением и выбора скорости кодирования в соответствии с результатами сравнения.
12. Способ выбора скорости кодирования из заранее определенного множества скоростей кодирования для кодирования кадра речевого сигнала, включающего множество выборок речевого сигнала, отличающийся тем, что включает операции выработки множества параметров, индицирующих характеристики упомянутого кадра речевого сигнала в соответствии с выборками речевого сигнала и с сигналом, полученным из указанных выборок речевого сигнала, и выбора скорости кодирования из заранее определенного множества скоростей кодирования в соответствии с указанным множеством параметров.
13. Способ по п.12, отличающийся тем, что упомянутое множество параметров включает в себя измеренное значение согласующегося по заданному значению отношения сигнал/шум, индицирующее согласование между входной речью и моделированной речью.
14. Способ по п.12, отличающийся тем, что упомянутое множество параметров включает в себя измеренное значение нормированной функции автокорреляции, индицирующее периодичность входного речевого сигнала.
15. Способ по п.12, отличающийся тем, что упомянутое множество параметров включает в себя отсчет пересечений нулевого уровня, индицирующий наличие высокочастотных составляющих в упомянутом кадре речевого сигнала.
16. Способ по п.12, отличающийся тем, что упомянутое множество параметров включает в себя измеренное значение прогнозируемого дифференциального усиления, индицирующее стабильность формантов от кадра к кадру.
17. Способ по п.12, отличающийся тем, что упомянутое множество параметров включает в себя измеренное значение энергетического дифференциала, индицирующее изменения энергии между энергией текущего кадра и средней энергией кадров.
18. Способ по п.12, отличающийся тем, что упомянутое заранее определенное множество скоростей кодирования включает в себя полную скорость, половинную скорость, четвертую часть скорости.
19. Способ по п. 12, отличающийся тем, что упомянутое множество параметров включает в себя измеренное значение нормированной функции автокорреляции, показывающее периодичность входного речевого сигнала, и отсчет пересечений нулевого уровня, индицирующий присутствие высокочастотных составляющих в упомянутом кадре речевого сигнала, и, если измерение нормированной функции автокорреляции ниже заранее определенного первого порогового значения, а упомянутый отсчет пересечений нулевого уровня превышает второе заранее определенное пороговое значение, упомянутый этап выбора режима кодирования выбирает кодирование невокализированной речи при четвертой части скорости.
20. Способ по п.12, отличающийся тем, что упомянутое множество параметров включает в себя измеренное значение энергетического дифференциала кадров, индицирующее изменения энергии между энергией текущего кадра и средней энергией кадров, и, если измерение энергетического дифференциала кадров, показывающее изменение энергии между энергией текущего кадра и средней энергией кадров, ниже заранее определенного порогового значения, упомянутый этап выбора режима кодирования выбирает кодирование вокализированной речи при четвертой части скорости.
21. Способ по п.12, отличающийся тем, что упомянутое множество параметров включает в себя измеренное значение нормированной функции автокорреляции, индицирующее периодичность входного речевого сигнала, измеренное значение согласующегося по заданному значению отношения сигнал/шум, индицирующее согласование между кодированным кадром речевого сигнала и входным кадром речевого сигнала, и измеренное значение прогнозируемого дифференциального усиления, индицирующее стабильность множества формантных параметров от кадра к кадру в упомянутом кодированном кадре речевого сигнала, и, если измеренное значение нормированной функции автокорреляции превышает заранее определенное первое пороговое значение, упомянутое прогнозируемое дифференциальное усиление превышает второе заранее определенное пороговое значение, а упомянутая нормированная автокорреляционная функция ниже заранее определенного третьего порогового значения, на упомянутом этапе выбора режима кодирования выбирается кодирование при половинной скорости.
22. Способ динамического изменения скорости передачи кадра речевого сигнала, передаваемого от удаленной станции в системе связи, в которой упомянутая удаленная станция осуществляет связь с центральным узлом связи, отличающийся тем, что включает операции генерирования множества параметров, индицирующих характеристики кадра речевого сигнала, в соответствии с кадром речевого сигнала и сигналом, полученным из кадра речевого сигнала, приема сигнала управления скоростью, выработки по меньшей мере одного порогового значения в соответствии с упомянутым сигналом управления скоростью, сравнения по меньшей мере одного параметра из упомянутого множества параметров с упомянутым по меньшей мере одним пороговым значением и выбора скорости кодирования в соответствии с результатом упомянутого сравнения.
RU96110286A 1994-08-05 1995-08-01 Способ и устройство вокодирования переменной скорости при пониженной скорости кодирования RU2146394C1 (ru)

Applications Claiming Priority (4)

Application Number Priority Date Filing Date Title
US28684294A 1994-08-05 1994-08-05
US286,842 1994-08-05
US286842 1994-08-05
PCT/US1995/009780 WO1996004646A1 (en) 1994-08-05 1995-08-01 Method and apparatus for performing reduced rate variable rate vocoding

Publications (2)

Publication Number Publication Date
RU96110286A RU96110286A (ru) 1998-08-10
RU2146394C1 true RU2146394C1 (ru) 2000-03-10

Family

ID=23100400

Family Applications (1)

Application Number Title Priority Date Filing Date
RU96110286A RU2146394C1 (ru) 1994-08-05 1995-08-01 Способ и устройство вокодирования переменной скорости при пониженной скорости кодирования

Country Status (19)

Country Link
US (3) US5911128A (ru)
EP (2) EP1339044B1 (ru)
JP (4) JP3611858B2 (ru)
KR (1) KR100399648B1 (ru)
CN (1) CN1144180C (ru)
AT (2) ATE470932T1 (ru)
AU (1) AU689628B2 (ru)
BR (1) BR9506307B1 (ru)
CA (1) CA2172062C (ru)
DE (2) DE69536082D1 (ru)
ES (2) ES2343948T3 (ru)
FI (2) FI120327B (ru)
HK (1) HK1015184A1 (ru)
IL (1) IL114819A (ru)
MY (3) MY114777A (ru)
RU (1) RU2146394C1 (ru)
TW (1) TW271524B (ru)
WO (1) WO1996004646A1 (ru)
ZA (1) ZA956078B (ru)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
RU2454736C2 (ru) * 2007-10-15 2012-06-27 ЭлДжи ЭЛЕКТРОНИКС ИНК. Способ и устройство обработки сигнала

Families Citing this family (151)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
TW271524B (ru) * 1994-08-05 1996-03-01 Qualcomm Inc
EP0886927B1 (en) * 1996-03-27 2006-06-07 Motorola, Inc. Method and apparatus for providing a multi-party speech connection for use in a wireless communication system
US6765904B1 (en) 1999-08-10 2004-07-20 Texas Instruments Incorporated Packet networks
US7024355B2 (en) * 1997-01-27 2006-04-04 Nec Corporation Speech coder/decoder
US6104993A (en) * 1997-02-26 2000-08-15 Motorola, Inc. Apparatus and method for rate determination in a communication system
US6167375A (en) * 1997-03-17 2000-12-26 Kabushiki Kaisha Toshiba Method for encoding and decoding a speech signal including background noise
DE69831991T2 (de) * 1997-03-25 2006-07-27 Koninklijke Philips Electronics N.V. Verfahren und Vorrichtung zur Sprachdetektion
US6466912B1 (en) * 1997-09-25 2002-10-15 At&T Corp. Perceptual coding of audio signals employing envelope uncertainty
US6366704B1 (en) * 1997-12-01 2002-04-02 Sharp Laboratories Of America, Inc. Method and apparatus for a delay-adaptive rate control scheme for the frame layer
KR100269216B1 (ko) * 1998-04-16 2000-10-16 윤종용 스펙트로-템포럴 자기상관을 사용한 피치결정시스템 및 방법
US6912637B1 (en) * 1998-07-08 2005-06-28 Broadcom Corporation Apparatus and method for managing memory in a network switch
US6226618B1 (en) * 1998-08-13 2001-05-01 International Business Machines Corporation Electronic content delivery system
JP3893763B2 (ja) * 1998-08-17 2007-03-14 富士ゼロックス株式会社 音声検出装置
JP4308345B2 (ja) * 1998-08-21 2009-08-05 パナソニック株式会社 マルチモード音声符号化装置及び復号化装置
US7072832B1 (en) * 1998-08-24 2006-07-04 Mindspeed Technologies, Inc. System for speech encoding having an adaptive encoding arrangement
US6574334B1 (en) 1998-09-25 2003-06-03 Legerity, Inc. Efficient dynamic energy thresholding in multiple-tone multiple frequency detectors
US6711540B1 (en) * 1998-09-25 2004-03-23 Legerity, Inc. Tone detector with noise detection and dynamic thresholding for robust performance
JP3152217B2 (ja) * 1998-10-09 2001-04-03 日本電気株式会社 有線伝送装置及び有線伝送方法
US6691084B2 (en) * 1998-12-21 2004-02-10 Qualcomm Incorporated Multiple mode variable rate speech coding
KR100391935B1 (ko) * 1998-12-28 2003-07-16 프라운호퍼-게젤샤프트 츄어 푀르더룽 데어 안게반텐 포르슝에.파우. 오디오 신호를 코딩 또는 디코딩하는 방법 및 디바이스
JP4503853B2 (ja) * 1999-02-08 2010-07-14 クゥアルコム・インコーポレイテッド 可変率音声符号化に基づいた音声合成装置
US6226607B1 (en) * 1999-02-08 2001-05-01 Qualcomm Incorporated Method and apparatus for eighth-rate random number generation for speech coders
US6519259B1 (en) * 1999-02-18 2003-02-11 Avaya Technology Corp. Methods and apparatus for improved transmission of voice information in packet-based communication systems
US6260017B1 (en) * 1999-05-07 2001-07-10 Qualcomm Inc. Multipulse interpolative coding of transition speech frames
US6954727B1 (en) * 1999-05-28 2005-10-11 Koninklijke Philips Electronics N.V. Reducing artifact generation in a vocoder
US6766291B2 (en) * 1999-06-18 2004-07-20 Nortel Networks Limited Method and apparatus for controlling the transition of an audio signal converter between two operative modes based on a certain characteristic of the audio input signal
JP4438127B2 (ja) * 1999-06-18 2010-03-24 ソニー株式会社 音声符号化装置及び方法、音声復号装置及び方法、並びに記録媒体
CN1196373C (zh) * 1999-07-05 2005-04-06 诺基亚公司 选择编码方法的方法
IL141636A0 (en) * 1999-07-08 2002-03-10 Samsung Electronics Co Ltd Data rate detection device and method for a mobile communication system
US6397175B1 (en) 1999-07-19 2002-05-28 Qualcomm Incorporated Method and apparatus for subsampling phase spectrum information
US6330532B1 (en) 1999-07-19 2001-12-11 Qualcomm Incorporated Method and apparatus for maintaining a target bit rate in a speech coder
US6324503B1 (en) 1999-07-19 2001-11-27 Qualcomm Incorporated Method and apparatus for providing feedback from decoder to encoder to improve performance in a predictive speech coder under frame erasure conditions
US6393394B1 (en) 1999-07-19 2002-05-21 Qualcomm Incorporated Method and apparatus for interleaving line spectral information quantization methods in a speech coder
US6801499B1 (en) 1999-08-10 2004-10-05 Texas Instruments Incorporated Diversity schemes for packet communications
US6678267B1 (en) 1999-08-10 2004-01-13 Texas Instruments Incorporated Wireless telephone with excitation reconstruction of lost packet
US6804244B1 (en) 1999-08-10 2004-10-12 Texas Instruments Incorporated Integrated circuits for packet communications
US6801532B1 (en) 1999-08-10 2004-10-05 Texas Instruments Incorporated Packet reconstruction processes for packet communications
US6757256B1 (en) 1999-08-10 2004-06-29 Texas Instruments Incorporated Process of sending packets of real-time information
US6744757B1 (en) 1999-08-10 2004-06-01 Texas Instruments Incorporated Private branch exchange systems for packet communications
US6505152B1 (en) * 1999-09-03 2003-01-07 Microsoft Corporation Method and apparatus for using formant models in speech systems
US6581032B1 (en) * 1999-09-22 2003-06-17 Conexant Systems, Inc. Bitstream protocol for transmission of encoded voice signals
US6604070B1 (en) * 1999-09-22 2003-08-05 Conexant Systems, Inc. System of encoding and decoding speech signals
US6959274B1 (en) 1999-09-22 2005-10-25 Mindspeed Technologies, Inc. Fixed rate speech compression system and method
AU2003262451B2 (en) * 1999-09-22 2006-01-19 Macom Technology Solutions Holdings, Inc. Multimode speech encoder
US6574593B1 (en) * 1999-09-22 2003-06-03 Conexant Systems, Inc. Codebook tables for encoding and decoding
US6782360B1 (en) * 1999-09-22 2004-08-24 Mindspeed Technologies, Inc. Gain quantization for a CELP speech coder
US7315815B1 (en) 1999-09-22 2008-01-01 Microsoft Corporation LPC-harmonic vocoder with superframe structure
US6772126B1 (en) * 1999-09-30 2004-08-03 Motorola, Inc. Method and apparatus for transferring low bit rate digital voice messages using incremental messages
US6438518B1 (en) * 1999-10-28 2002-08-20 Qualcomm Incorporated Method and apparatus for using coding scheme selection patterns in a predictive speech coder to reduce sensitivity to frame error conditions
US7574351B2 (en) * 1999-12-14 2009-08-11 Texas Instruments Incorporated Arranging CELP information of one frame in a second packet
US7058572B1 (en) * 2000-01-28 2006-06-06 Nortel Networks Limited Reducing acoustic noise in wireless and landline based telephony
US7127390B1 (en) * 2000-02-08 2006-10-24 Mindspeed Technologies, Inc. Rate determination coding
US6757301B1 (en) * 2000-03-14 2004-06-29 Cisco Technology, Inc. Detection of ending of fax/modem communication between a telephone line and a network for switching router to compressed mode
US6901362B1 (en) * 2000-04-19 2005-05-31 Microsoft Corporation Audio segmentation and classification
ATE420432T1 (de) * 2000-04-24 2009-01-15 Qualcomm Inc Verfahren und vorrichtung zur prädiktiven quantisierung von stimmhaften sprachsignalen
US6584438B1 (en) 2000-04-24 2003-06-24 Qualcomm Incorporated Frame erasure compensation method in a variable rate speech coder
JP4221537B2 (ja) * 2000-06-02 2009-02-12 日本電気株式会社 音声検出方法及び装置とその記録媒体
US6898566B1 (en) * 2000-08-16 2005-05-24 Mindspeed Technologies, Inc. Using signal to noise ratio of a speech signal to adjust thresholds for extracting speech parameters for coding the speech signal
US6477502B1 (en) 2000-08-22 2002-11-05 Qualcomm Incorporated Method and apparatus for using non-symmetric speech coders to produce non-symmetric links in a wireless communication system
US6640208B1 (en) * 2000-09-12 2003-10-28 Motorola, Inc. Voiced/unvoiced speech classifier
DE60029453T2 (de) * 2000-11-09 2007-04-12 Koninklijke Kpn N.V. Messen der Übertragungsqualität einer Telefonverbindung in einem Fernmeldenetz
US7472059B2 (en) * 2000-12-08 2008-12-30 Qualcomm Incorporated Method and apparatus for robust speech classification
US7505594B2 (en) * 2000-12-19 2009-03-17 Qualcomm Incorporated Discontinuous transmission (DTX) controller system and method
US6996523B1 (en) * 2001-02-13 2006-02-07 Hughes Electronics Corporation Prototype waveform magnitude quantization for a frequency domain interpolative speech codec system
US7013269B1 (en) * 2001-02-13 2006-03-14 Hughes Electronics Corporation Voicing measure for a speech CODEC system
US7072908B2 (en) * 2001-03-26 2006-07-04 Microsoft Corporation Methods and systems for synchronizing visualizations with audio streams
US6658383B2 (en) 2001-06-26 2003-12-02 Microsoft Corporation Method for coding speech and music signals
WO2003021573A1 (fr) * 2001-08-31 2003-03-13 Fujitsu Limited Codec
WO2003042648A1 (fr) * 2001-11-16 2003-05-22 Matsushita Electric Industrial Co., Ltd. Codeur de signal vocal, decodeur de signal vocal, procede de codage de signal vocal et procede de decodage de signal vocal
US6785645B2 (en) 2001-11-29 2004-08-31 Microsoft Corporation Real-time speech and music classifier
US6647366B2 (en) * 2001-12-28 2003-11-11 Microsoft Corporation Rate control strategies for speech and music coding
US7321559B2 (en) * 2002-06-28 2008-01-22 Lucent Technologies Inc System and method of noise reduction in receiving wireless transmission of packetized audio signals
CA2392640A1 (en) * 2002-07-05 2004-01-05 Voiceage Corporation A method and device for efficient in-based dim-and-burst signaling and half-rate max operation in variable bit-rate wideband speech coding for cdma wireless systems
CN1703736A (zh) * 2002-10-11 2005-11-30 诺基亚有限公司 用于源控制可变比特率宽带语音编码的方法和装置
US7657427B2 (en) 2002-10-11 2010-02-02 Nokia Corporation Methods and devices for source controlled variable bit-rate wideband speech coding
FI20021936A (fi) * 2002-10-31 2004-05-01 Nokia Corp Vaihtuvanopeuksinen puhekoodekki
US7698132B2 (en) * 2002-12-17 2010-04-13 Qualcomm Incorporated Sub-sampled excitation waveform codebooks
GB0321093D0 (en) * 2003-09-09 2003-10-08 Nokia Corp Multi-rate coding
US7613606B2 (en) * 2003-10-02 2009-11-03 Nokia Corporation Speech codecs
US20050091044A1 (en) * 2003-10-23 2005-04-28 Nokia Corporation Method and system for pitch contour quantization in audio coding
US20050091041A1 (en) * 2003-10-23 2005-04-28 Nokia Corporation Method and system for speech coding
US7277031B1 (en) * 2003-12-15 2007-10-02 Marvell International Ltd. 100Base-FX serializer/deserializer using 10000Base-X serializer/deserializer
US7668712B2 (en) * 2004-03-31 2010-02-23 Microsoft Corporation Audio encoding and decoding with intra frames and adaptive forward error correction
US7412378B2 (en) * 2004-04-01 2008-08-12 International Business Machines Corporation Method and system of dynamically adjusting a speech output rate to match a speech input rate
EP1775718A4 (en) * 2004-07-22 2008-05-07 Fujitsu Ltd AUDIOCODING DEVICE AND AUDIOCODING METHOD
GB0416720D0 (en) * 2004-07-27 2004-09-01 British Telecomm Method and system for voice over IP streaming optimisation
WO2006041055A1 (ja) * 2004-10-13 2006-04-20 Matsushita Electric Industrial Co., Ltd. スケーラブル符号化装置、スケーラブル復号装置及びスケーラブル符号化方法
US8102872B2 (en) * 2005-02-01 2012-01-24 Qualcomm Incorporated Method for discontinuous transmission and accurate reproduction of background noise information
US20060200368A1 (en) * 2005-03-04 2006-09-07 Health Capital Management, Inc. Healthcare Coordination, Mentoring, and Coaching Services
US20070160154A1 (en) * 2005-03-28 2007-07-12 Sukkar Rafid A Method and apparatus for injecting comfort noise in a communications signal
TWI279774B (en) * 2005-04-14 2007-04-21 Ind Tech Res Inst Adaptive pulse allocation mechanism for multi-pulse CELP coder
US7831421B2 (en) * 2005-05-31 2010-11-09 Microsoft Corporation Robust decoder
US7177804B2 (en) * 2005-05-31 2007-02-13 Microsoft Corporation Sub-band voice codec with multi-stage codebooks and redundant coding
US7707034B2 (en) * 2005-05-31 2010-04-27 Microsoft Corporation Audio codec post-filter
US8743909B2 (en) * 2008-02-20 2014-06-03 Qualcomm Incorporated Frame termination
US8630602B2 (en) * 2005-08-22 2014-01-14 Qualcomm Incorporated Pilot interference cancellation
US9071344B2 (en) * 2005-08-22 2015-06-30 Qualcomm Incorporated Reverse link interference cancellation
US8594252B2 (en) * 2005-08-22 2013-11-26 Qualcomm Incorporated Interference cancellation for wireless communications
US9014152B2 (en) * 2008-06-09 2015-04-21 Qualcomm Incorporated Increasing capacity in wireless communications
US8611305B2 (en) * 2005-08-22 2013-12-17 Qualcomm Incorporated Interference cancellation for wireless communications
KR101019936B1 (ko) 2005-12-02 2011-03-09 퀄컴 인코포레이티드 음성 파형의 정렬을 위한 시스템, 방법, 및 장치
US8219392B2 (en) 2005-12-05 2012-07-10 Qualcomm Incorporated Systems, methods, and apparatus for detection of tonal components employing a coding operation with monotone function
US8346544B2 (en) * 2006-01-20 2013-01-01 Qualcomm Incorporated Selection of encoding modes and/or encoding rates for speech compression with closed loop re-decision
US8032369B2 (en) * 2006-01-20 2011-10-04 Qualcomm Incorporated Arbitrary average data rates for variable rate coders
US8090573B2 (en) * 2006-01-20 2012-01-03 Qualcomm Incorporated Selection of encoding modes and/or encoding rates for speech compression with open loop re-decision
KR100770895B1 (ko) * 2006-03-18 2007-10-26 삼성전자주식회사 음성 신호 분리 시스템 및 그 방법
US8920343B2 (en) 2006-03-23 2014-12-30 Michael Edward Sabatino Apparatus for acquiring and processing of physiological auditory signals
EP2092517B1 (en) * 2006-10-10 2012-07-18 QUALCOMM Incorporated Method and apparatus for encoding and decoding audio signals
JP4918841B2 (ja) * 2006-10-23 2012-04-18 富士通株式会社 符号化システム
DE602006015328D1 (de) * 2006-11-03 2010-08-19 Psytechnics Ltd Abtastfehlerkompensation
US20080120098A1 (en) * 2006-11-21 2008-05-22 Nokia Corporation Complexity Adjustment for a Signal Encoder
JP5171842B2 (ja) 2006-12-12 2013-03-27 フラウンホッファー−ゲゼルシャフト ツァ フェルダールング デァ アンゲヴァンテン フォアシュンク エー.ファオ 時間領域データストリームを表している符号化および復号化のための符号器、復号器およびその方法
KR100964402B1 (ko) * 2006-12-14 2010-06-17 삼성전자주식회사 오디오 신호의 부호화 모드 결정 방법 및 장치와 이를 이용한 오디오 신호의 부호화/복호화 방법 및 장치
KR100883656B1 (ko) * 2006-12-28 2009-02-18 삼성전자주식회사 오디오 신호의 분류 방법 및 장치와 이를 이용한 오디오신호의 부호화/복호화 방법 및 장치
CN101217037B (zh) * 2007-01-05 2011-09-14 华为技术有限公司 对音频信号的编码速率进行源控的方法和系统
US8553757B2 (en) * 2007-02-14 2013-10-08 Microsoft Corporation Forward error correction for media transmission
JP2008263543A (ja) * 2007-04-13 2008-10-30 Funai Electric Co Ltd 記録再生装置
US9653088B2 (en) * 2007-06-13 2017-05-16 Qualcomm Incorporated Systems, methods, and apparatus for signal encoding using pitch-regularizing and non-pitch-regularizing coding
KR101403340B1 (ko) * 2007-08-02 2014-06-09 삼성전자주식회사 변환 부호화 방법 및 장치
US8321222B2 (en) * 2007-08-14 2012-11-27 Nuance Communications, Inc. Synthesis by generation and concatenation of multi-form segments
US8326617B2 (en) * 2007-10-24 2012-12-04 Qnx Software Systems Limited Speech enhancement with minimum gating
US8015002B2 (en) 2007-10-24 2011-09-06 Qnx Software Systems Co. Dynamic noise reduction using linear model fitting
US8606566B2 (en) * 2007-10-24 2013-12-10 Qnx Software Systems Limited Speech enhancement through partial speech reconstruction
US9237515B2 (en) 2008-08-01 2016-01-12 Qualcomm Incorporated Successive detection and cancellation for cell pilot detection
US9277487B2 (en) 2008-08-01 2016-03-01 Qualcomm Incorporated Cell detection with interference cancellation
KR101797033B1 (ko) 2008-12-05 2017-11-14 삼성전자주식회사 부호화 모드를 이용한 음성신호의 부호화/복호화 장치 및 방법
EP2237269B1 (en) 2009-04-01 2013-02-20 Motorola Mobility LLC Apparatus and method for processing an encoded audio data signal
US9160577B2 (en) * 2009-04-30 2015-10-13 Qualcomm Incorporated Hybrid SAIC receiver
CN101615910B (zh) * 2009-05-31 2010-12-22 华为技术有限公司 压缩编码的方法、装置和设备以及压缩解码方法
US8787509B2 (en) 2009-06-04 2014-07-22 Qualcomm Incorporated Iterative interference cancellation receiver
CN102483926B (zh) 2009-07-27 2013-07-24 Scti控股公司 在处理语音信号中通过把语音作为目标和忽略噪声以降噪的系统及方法
US9269366B2 (en) * 2009-08-03 2016-02-23 Broadcom Corporation Hybrid instantaneous/differential pitch period coding
US8831149B2 (en) 2009-09-03 2014-09-09 Qualcomm Incorporated Symbol estimation methods and apparatuses
CN102668612B (zh) 2009-11-27 2016-03-02 高通股份有限公司 增加无线通信中的容量
US9673837B2 (en) 2009-11-27 2017-06-06 Qualcomm Incorporated Increasing capacity in wireless communications
US9236063B2 (en) * 2010-07-30 2016-01-12 Qualcomm Incorporated Systems, methods, apparatus, and computer-readable media for dynamic bit allocation
US9208792B2 (en) 2010-08-17 2015-12-08 Qualcomm Incorporated Systems, methods, apparatus, and computer-readable media for noise injection
TWI759223B (zh) * 2010-12-03 2022-03-21 美商杜比實驗室特許公司 音頻解碼裝置、音頻解碼方法及音頻編碼方法
KR20120116137A (ko) * 2011-04-12 2012-10-22 한국전자통신연구원 음성 통신 장치 및 그 방법
TWI606441B (zh) 2011-05-13 2017-11-21 三星電子股份有限公司 解碼裝置
US8990074B2 (en) * 2011-05-24 2015-03-24 Qualcomm Incorporated Noise-robust speech coding mode classification
JP6265903B2 (ja) * 2011-10-19 2018-01-24 コーニンクレッカ フィリップス エヌ ヴェKoninklijke Philips N.V. 信号雑音減衰
US9047863B2 (en) * 2012-01-12 2015-06-02 Qualcomm Incorporated Systems, methods, apparatus, and computer-readable media for criticality threshold control
US9263054B2 (en) * 2013-02-21 2016-02-16 Qualcomm Incorporated Systems and methods for controlling an average encoding rate for speech signal encoding
US9570095B1 (en) * 2014-01-17 2017-02-14 Marvell International Ltd. Systems and methods for instantaneous noise estimation
US9793879B2 (en) * 2014-09-17 2017-10-17 Avnera Corporation Rate convertor
US10061554B2 (en) * 2015-03-10 2018-08-28 GM Global Technology Operations LLC Adjusting audio sampling used with wideband audio
JP2017009663A (ja) * 2015-06-17 2017-01-12 ソニー株式会社 録音装置、録音システム、および、録音方法
US10269375B2 (en) * 2016-04-22 2019-04-23 Conduent Business Services, Llc Methods and systems for classifying audio segments of an audio signal
CN113314133A (zh) * 2020-02-11 2021-08-27 华为技术有限公司 音频传输方法及电子设备
CN112767953B (zh) * 2020-06-24 2024-01-23 腾讯科技(深圳)有限公司 语音编码方法、装置、计算机设备和存储介质

Family Cites Families (61)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US32580A (en) * 1861-06-18 Water-elevatok
US3633107A (en) * 1970-06-04 1972-01-04 Bell Telephone Labor Inc Adaptive signal processor for diversity radio receivers
JPS5017711A (ru) * 1973-06-15 1975-02-25
US4076958A (en) * 1976-09-13 1978-02-28 E-Systems, Inc. Signal synthesizer spectrum contour scaler
US4214125A (en) * 1977-01-21 1980-07-22 Forrest S. Mozer Method and apparatus for speech synthesizing
CA1123955A (en) * 1978-03-30 1982-05-18 Tetsu Taguchi Speech analysis and synthesis apparatus
DE3023375C1 (ru) * 1980-06-23 1987-12-03 Siemens Ag, 1000 Berlin Und 8000 Muenchen, De
US4379949A (en) * 1981-08-10 1983-04-12 Motorola, Inc. Method of and means for variable-rate coding of LPC parameters
DE3266204D1 (en) * 1981-09-24 1985-10-17 Gretag Ag Method and apparatus for redundancy-reducing digital speech processing
USRE32580E (en) 1981-12-01 1988-01-19 American Telephone And Telegraph Company, At&T Bell Laboratories Digital speech coder
JPS6011360B2 (ja) * 1981-12-15 1985-03-25 ケイディディ株式会社 音声符号化方式
US4535472A (en) * 1982-11-05 1985-08-13 At&T Bell Laboratories Adaptive bit allocator
DE3276651D1 (en) * 1982-11-26 1987-07-30 Ibm Speech signal coding method and apparatus
EP0127718B1 (fr) * 1983-06-07 1987-03-18 International Business Machines Corporation Procédé de détection d'activité dans un système de transmission de la voix
US4672670A (en) * 1983-07-26 1987-06-09 Advanced Micro Devices, Inc. Apparatus and methods for coding, decoding, analyzing and synthesizing a signal
EP0163829B1 (en) * 1984-03-21 1989-08-23 Nippon Telegraph And Telephone Corporation Speech signal processing system
US4856068A (en) * 1985-03-18 1989-08-08 Massachusetts Institute Of Technology Audio pre-processing methods and apparatus
US4885790A (en) * 1985-03-18 1989-12-05 Massachusetts Institute Of Technology Processing of acoustic waveforms
US4827517A (en) * 1985-12-26 1989-05-02 American Telephone And Telegraph Company, At&T Bell Laboratories Digital speech processor using arbitrary excitation coding
CA1299750C (en) * 1986-01-03 1992-04-28 Ira Alan Gerson Optimal method of data reduction in a speech recognition system
US4797929A (en) * 1986-01-03 1989-01-10 Motorola, Inc. Word recognition in a speech recognition system using data reduced word templates
US4899384A (en) * 1986-08-25 1990-02-06 Ibm Corporation Table controlled dynamic bit allocation in a variable rate sub-band speech coder
US4771465A (en) * 1986-09-11 1988-09-13 American Telephone And Telegraph Company, At&T Bell Laboratories Digital speech sinusoidal vocoder with transmission of only subset of harmonics
US4797925A (en) * 1986-09-26 1989-01-10 Bell Communications Research, Inc. Method for coding speech at low bit rates
US4903301A (en) * 1987-02-27 1990-02-20 Hitachi, Ltd. Method and system for transmitting variable rate speech signal
US5054072A (en) * 1987-04-02 1991-10-01 Massachusetts Institute Of Technology Coding of acoustic waveforms
US4868867A (en) * 1987-04-06 1989-09-19 Voicecraft Inc. Vector excitation speech or audio coder for transmission or storage
NL8700985A (nl) * 1987-04-27 1988-11-16 Philips Nv Systeem voor sub-band codering van een digitaal audiosignaal.
US4890327A (en) * 1987-06-03 1989-12-26 Itt Corporation Multi-rate digital voice coder apparatus
US4899385A (en) * 1987-06-26 1990-02-06 American Telephone And Telegraph Company Code excited linear predictive vocoder
CA1337217C (en) * 1987-08-28 1995-10-03 Daniel Kenneth Freeman Speech coding
US4852179A (en) * 1987-10-05 1989-07-25 Motorola, Inc. Variable frame rate, fixed bit rate vocoding method
US4817157A (en) * 1988-01-07 1989-03-28 Motorola, Inc. Digital speech coder having improved vector excitation source
EP0331858B1 (en) * 1988-03-08 1993-08-25 International Business Machines Corporation Multi-rate voice encoding method and device
EP0331857B1 (en) * 1988-03-08 1992-05-20 International Business Machines Corporation Improved low bit rate voice coding method and system
US5023910A (en) * 1988-04-08 1991-06-11 At&T Bell Laboratories Vector quantization in a harmonic speech coding arrangement
US4864561A (en) * 1988-06-20 1989-09-05 American Telephone And Telegraph Company Technique for improved subjective performance in a communication system using attenuated noise-fill
US5077798A (en) * 1988-09-28 1991-12-31 Hitachi, Ltd. Method and system for voice coding based on vector quantization
JP3033060B2 (ja) * 1988-12-22 2000-04-17 国際電信電話株式会社 音声予測符号化・復号化方式
US5222189A (en) * 1989-01-27 1993-06-22 Dolby Laboratories Licensing Corporation Low time-delay transform coder, decoder, and encoder/decoder for high-quality audio
EP0392126B1 (en) * 1989-04-11 1994-07-20 International Business Machines Corporation Fast pitch tracking process for LTP-based speech coders
US5060269A (en) * 1989-05-18 1991-10-22 General Electric Company Hybrid switched multi-pulse/stochastic speech coding technique
GB2235354A (en) * 1989-08-16 1991-02-27 Philips Electronic Associated Speech coding/encoding using celp
JPH03181232A (ja) * 1989-12-11 1991-08-07 Toshiba Corp 可変レート符号化方式
US5103459B1 (en) * 1990-06-25 1999-07-06 Qualcomm Inc System and method for generating signal waveforms in a cdma cellular telephone system
US5127053A (en) * 1990-12-24 1992-06-30 General Electric Company Low-complexity method for improving the performance of autocorrelation-based pitch detectors
US5680508A (en) * 1991-05-03 1997-10-21 Itt Corporation Enhancement of speech coding in background noise for low-rate speech coder
US5187745A (en) * 1991-06-27 1993-02-16 Motorola, Inc. Efficient codebook search for CELP vocoders
DE69232202T2 (de) * 1991-06-11 2002-07-25 Qualcomm, Inc. Vocoder mit veraendlicher bitrate
US5233660A (en) * 1991-09-10 1993-08-03 At&T Bell Laboratories Method and apparatus for low-delay celp speech coding and decoding
JPH0580799A (ja) * 1991-09-19 1993-04-02 Fujitsu Ltd 可変レート音声符号化器
JP3327936B2 (ja) * 1991-09-25 2002-09-24 日本放送協会 話速制御型補聴装置
US5734789A (en) * 1992-06-01 1998-03-31 Hughes Electronics Voiced, unvoiced or noise modes in a CELP vocoder
US5513297A (en) * 1992-07-10 1996-04-30 At&T Corp. Selective application of speech coding techniques to input signal segments
US5341456A (en) * 1992-12-02 1994-08-23 Qualcomm Incorporated Method for determining speech encoding rate in a variable rate vocoder
US5774496A (en) * 1994-04-26 1998-06-30 Qualcomm Incorporated Method and apparatus for determining data rate of transmitted variable rate data in a communications receiver
TW271524B (ru) * 1994-08-05 1996-03-01 Qualcomm Inc
US5742734A (en) * 1994-08-10 1998-04-21 Qualcomm Incorporated Encoding rate selection in a variable rate vocoder
US6122384A (en) * 1997-09-02 2000-09-19 Qualcomm Inc. Noise suppression system and method
US5974079A (en) * 1998-01-26 1999-10-26 Motorola, Inc. Method and apparatus for encoding rate determination in a communication system
US6233549B1 (en) * 1998-11-23 2001-05-15 Qualcomm, Inc. Low frequency spectral enhancement system and method

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
RU2454736C2 (ru) * 2007-10-15 2012-06-27 ЭлДжи ЭЛЕКТРОНИКС ИНК. Способ и устройство обработки сигнала
US8566107B2 (en) 2007-10-15 2013-10-22 Lg Electronics Inc. Multi-mode method and an apparatus for processing a signal
US8781843B2 (en) 2007-10-15 2014-07-15 Intellectual Discovery Co., Ltd. Method and an apparatus for processing speech, audio, and speech/audio signal using mode information

Also Published As

Publication number Publication date
JP2008171017A (ja) 2008-07-24
EP1339044B1 (en) 2010-06-09
JP3611858B2 (ja) 2005-01-19
IL114819A0 (en) 1995-12-08
CN1131994A (zh) 1996-09-25
FI20070642A (fi) 2007-08-24
FI122726B (fi) 2012-06-15
JPH09503874A (ja) 1997-04-15
HK1015184A1 (en) 1999-10-08
KR100399648B1 (ko) 2004-02-14
MY129887A (en) 2007-05-31
EP1339044A3 (en) 2008-07-23
MY137264A (en) 2009-01-30
EP0722603B1 (en) 2008-03-05
JP4444749B2 (ja) 2010-03-31
DE69536082D1 (de) 2010-07-22
TW271524B (ru) 1996-03-01
CA2172062C (en) 2010-11-02
DE69535723D1 (de) 2008-04-17
CN1144180C (zh) 2004-03-31
US6240387B1 (en) 2001-05-29
BR9506307B1 (pt) 2011-03-09
IL114819A (en) 1999-08-17
US20010018650A1 (en) 2001-08-30
EP1339044A2 (en) 2003-08-27
ES2299175T3 (es) 2008-05-16
JP2004361970A (ja) 2004-12-24
AU689628B2 (en) 1998-04-02
CA2172062A1 (en) 1996-02-15
US5911128A (en) 1999-06-08
WO1996004646A1 (en) 1996-02-15
FI120327B (fi) 2009-09-15
JP4851578B2 (ja) 2012-01-11
US6484138B2 (en) 2002-11-19
ES2343948T3 (es) 2010-08-13
FI961445A (fi) 1996-04-02
JP4778010B2 (ja) 2011-09-21
EP0722603A1 (en) 1996-07-24
BR9506307A (pt) 1997-08-05
KR960705306A (ko) 1996-10-09
AU3209595A (en) 1996-03-04
ATE388464T1 (de) 2008-03-15
ATE470932T1 (de) 2010-06-15
JP2010044421A (ja) 2010-02-25
DE69535723T2 (de) 2009-03-19
ZA956078B (en) 1996-03-15
MY114777A (en) 2003-01-31
FI961445A0 (fi) 1996-03-29

Similar Documents

Publication Publication Date Title
RU2146394C1 (ru) Способ и устройство вокодирования переменной скорости при пониженной скорости кодирования
US6782361B1 (en) Method and apparatus for providing background acoustic noise during a discontinued/reduced rate transmission mode of a voice transmission system
EP0764941B1 (en) Speech signal quantization using human auditory models in predictive coding systems
EP0764938B1 (en) Perceptual noise masking based on synthesis filter frequency response
US6484137B1 (en) Audio reproducing apparatus
EP0764939B1 (en) Synthesis of speech signals in the absence of coded parameters
CA2235455A1 (en) Method and apparatus for speech enhancement in a speech communication system
KR20020033819A (ko) 멀티모드 음성 인코더
US5706392A (en) Perceptual speech coder and method
CN115171709B (zh) 语音编码、解码方法、装置、计算机设备和存储介质
KR20050046204A (ko) 가변 비트율의 광대역 음성 및 오디오 부호화 장치 및방법
Crochiere et al. A Variable‐Band Coding Scheme for Speech Encoding at 4.8 kb/s
Chen Adaptive variable bit-rate speech coder for wireless applications
Paksoy Variable rate speech coding with phonetic classification
CA2275832A1 (en) Method and apparatus for providing background acoustic noise during a discontinued/reduced rate transmission mode of a voice transmission system
Kabal NATURAL-QUALITY BACKGROUND NOISE CODING USING RESIDUAL SUBSTITUTION
JPH03132800A (ja) マルチパルス型音声符号化及び復号化装置
JPH0683149B2 (ja) 音声帯域信号符号化・復号化装置