RU2394284C1 - Способ сжатия и восстановления речевых сигналов для систем кодирования с переменной скоростью передачи - Google Patents

Способ сжатия и восстановления речевых сигналов для систем кодирования с переменной скоростью передачи Download PDF

Info

Publication number
RU2394284C1
RU2394284C1 RU2009110842/09A RU2009110842A RU2394284C1 RU 2394284 C1 RU2394284 C1 RU 2394284C1 RU 2009110842/09 A RU2009110842/09 A RU 2009110842/09A RU 2009110842 A RU2009110842 A RU 2009110842A RU 2394284 C1 RU2394284 C1 RU 2394284C1
Authority
RU
Russia
Prior art keywords
segment
parameters
segments
information
sequence
Prior art date
Application number
RU2009110842/09A
Other languages
English (en)
Inventor
Андрей Алексеевич Афанасьев (RU)
Андрей Алексеевич Афанасьев
Станислав Рамзесович Габдулгазиев (RU)
Станислав Рамзесович Габдулгазиев
Илья Владимирович Ульянов (RU)
Илья Владимирович Ульянов
Original Assignee
Государственное образовательное учреждение высшего профессионального образования Академия Федеральной службы охраны Российской Федерации (Академия ФСО России)
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Государственное образовательное учреждение высшего профессионального образования Академия Федеральной службы охраны Российской Федерации (Академия ФСО России) filed Critical Государственное образовательное учреждение высшего профессионального образования Академия Федеральной службы охраны Российской Федерации (Академия ФСО России)
Priority to RU2009110842/09A priority Critical patent/RU2394284C1/ru
Application granted granted Critical
Publication of RU2394284C1 publication Critical patent/RU2394284C1/ru

Links

Images

Landscapes

  • Compression, Expansion, Code Conversion, And Decoders (AREA)

Abstract

Изобретение относится к области цифровой связи и может быть использовано в системах телеинформационных коммуникаций для эффективного кодирования речевых сигналов. Техническим результатом является снижение требуемой пропускной способности каналов связи для вокодеров с линейным предсказанием в классе систем с переменной скоростью передачи. Указанный технический результат достигается исключением из кадра передачи информации о параметрах формирующей модели вокодера с линейным предсказанием при кодировании следующих друг за другом вокализованных сегментов. Информацию о данных параметрах передают только для первого из последовательности вокализованных сегментов, а для остальных сохраняют неизменной, число таких сегментов не должно превышать четырех, для пятого подряд следующего вокализованного сегмента параметры формирующей модели рассчитывают заново. При кодировании шумоподобных и переходных сегментов вычисление параметров синтезирующей системы осуществляют на каждом сегменте квазистационарности речевого сигнала. В установившемся режиме следования вокализованных сегментов квазистационарности речевого сигнала при кодировании по каналу связи передают информационный сигнал подтверждения о принадлежности сегмента к вокализованному типу, сигнал возбуждения, вычисленный на основе процедуры анализа через синтез, и коэффициент его усиления, управляющий мощностью речевого сигнала на выходе синтезирующего фильтра. 4 ил.

Description

Изобретение относится к области цифровой связи, а именно к методам кодирования и обработки речевых сигналов. Предлагаемый способ может быть использован для эффективного кодирования речевых сигналов в системах телеинформационных коммуникаций с переменной скоростью передачи.
Одной из основных задач цифрового представления речевого сигнала является задача качественного и компактного кодирования данных для их передачи по цифровым каналам связи. Решение этой задачи позволит в условиях заданного критерия качества связи увеличить пропускную способность линейных трактов и каналов передачи. Широкое распространение в инфокоммуникациях в настоящее время получили методы кодирования речевых данных с переменной скоростью передачи при заданном качестве связи и асинхронным вводом в канал связи.
Среди множества методов кодирования речевых сигналов одним из наиболее эффективных является метод линейного предсказания. Метод линейного предсказания речи принадлежит к классу методов, использующих модель речевого сигнала в виде отклика линейной системы с переменными параметрами (голосового тракта) на соответствующий сигнал возбуждения (порождающий сигнал). Анализатор речепреобразующего устройства выделяет из короткого сегмента речевого сигнала параметры состояния линейной системы и сигнала возбуждения, позволяющие синтезатору восстановить исходный сигнал с требуемой степенью верности.
Для получения информации о параметрах формирующей модели речеобразования применяют ряд методов (Рабинер Л.Р., Шафер Р.В. Цифровая обработка речевых сигналов. - М.: Радио и связь, 1981. - С.366-390).
В устройствах, реализующих данные способы, осуществляют анализ речевого сигнала на участке квазистационарности, который по разным оценкам составляет 2,5-30 мс.(О.И.Шелухин, Н.Ф.Лукьянцев. Цифровая обработка и передача речи. - М., Радио и Связь, 2000 г. - С.51). По каналу связи при этом передается информация о коэффициентах формирующей модели, параметрах, характеризующих сигнал возбуждения и кодируемый речевой сигнал на участке квазистационарности.
Для эффективного представления информационных параметров, необходимых для синтеза речевого сигнала на приеме, в устройствах, реализующих известные способы, основанные на методе линейного предсказания, используют различные способы снижения их информативной избыточности (О.И.Шелухин, Н.Ф.Лукьянцев. Цифровая обработка и передача речи. - М., Радио и Связь, 2000 г. - С.102-112, С.123-146, патенты RU №02163399 от 20.02.2001, US №7233896 от 10.07.2007).
Недостатком перечисленных выше аналогов является достаточно высокая скорость передачи при заданном качестве синтеза речевого сигнала, а также наличие фиксированного сегмента квазистационарности при описании речи линейной моделью, что не всегда соотносится с природой формирования речевого сигнала.
Наиболее близким по технической сущности является патент RU №02107951 от 27.03.1998 г, заключающийся в том, что выходные данные с кодера на основе метода линейного предсказания с кодовым возбуждением формируют с переменной скоростью передачи, как результат анализа активности речевого сигнала. Особенностью данного метода является то, что параметры корректируют менее часто или с меньшей точностью в течение пауз речи или незначительной активности. При этом такая процедура позволяет достичь существенно большего уменьшения информации, предназначенной для передачи. Свойством, которое используется для уменьшения скорости передачи данных, является коэффициент активности голоса, под которым подразумевают среднее время в процентах фактически занимаемое словами, произносимыми говорящим во время разговора. Во время речевых пауз в вокодере кодируют только окружающий шум. В эти моменты нет необходимости передавать часть параметров, относящихся к модели человеческого голосового тракта.
Недостатком этого способа-прототипа является значительное расходование информационного ресурса на представление параметров, описывающих передаточную функцию голосового тракта, это объясняется тем, что выделение и кодирование этих параметров осуществляют на каждом интервале квазистационарности, что определяет относительно высокую скорость передачи данных по каналам связи при эффективном кодировании речи.
Техническим результатом предлагаемого способа является снижение требуемой пропускной способности каналов связи для вокодеров с линейным предсказанием в классе систем с переменной скоростью передачи.
Для достижения такого технического результата выходные данные с кодера на основе метода линейного предсказания с кодовым возбуждением формируют с переменной скоростью передачи, как результат анализа активности речевого сигнала, однако при кодировании следующих друг за другом вокализованных сегментов исключают постоянную передачу информации о параметрах формирующей модели вокодера с линейным предсказанием. Информацию о параметрах формирующей модели передают только для первого из последовательности вокализованных сегментов, а для остальных сохраняют неизменной, число таких сегментов не должно превышать четырех, для пятого подряд следующего вокализованного сегмента параметры формирующей модели рассчитывают заново. Формируют кадр передачи, для этого используют рассчитанные параметры формирующей модели, совместно с вычисленными сигналом возбуждения и коэффициентом усиления, который несет в себе информацию о синтезе первого сегмента из последовательности. В кадрах передачи, несущих информацию о последующих вокализованных сегментах из анализируемой последовательности, информацию о параметрах формирующей модели заменяют информацией о принадлежности данного сегмента к такой последовательности, при этом параметры синтезирующей системы оставляют неизменными, как для первого сегмента из последовательности, число таких сегментов не должно превышать четырех, для пятого подряд следующего вокализованного сегмента параметры формирующей системы рассчитывают и передают заново. При кодировании шумоподобных и переходных сегментов вычисление параметров синтезирующей системы осуществляют на каждом сегменте квазистационарности речевого сигнала. Это объясняется тем, что параметры синтезирующей системы при линейном предсказании отражают формантную и фонемную структуру речи на участке квазистационарности. При этом в слитной речи длительность фонемы на полностью вокализованном участке значительно превышает длительность установленного сегмента квазистационарности речевого сигнала (Рабинер Л.Р., Шафер Р.В. Цифровая обработка речевых сигналов. - М: Радио и связь, 1981 - С.42-59). Классификацию речевых сегментов на участке квазистационарности на вокализованные, шумоподобные, переходные и паузы можно осуществлять на основе выделения и анализа параметров речевого сигнала (О.И.Шелухин, Н.Ф.Лукьянцев. Цифровая обработка и передача речи. - М., Радио и Связь, 2000 г. - С.51-66).
Формирование сигнала возбуждения можно реализовать стандартными известными методами на основе процедуры анализа через синтез (Быков С.Ф., Журавлев В.И., Шалимов И.А. Цифровая телефония. Учебное пособие для ВУЗов. - М.: Радио и связь, 2003. - с.63-74).
Таким образом, при установившемся режиме следования вокализованных сегментов квазистационарности речевого сигнала по каналу связи передают информационный сигнал, состоящий из подтверждения о принадлежности сегмента к вокализованному типу, параметры, описывающие сигнал возбуждения, и коэффициент его усиления, управляющий мощностью речевого сигнала на выходе синтезирующей системы. Заявленный способ поясняется чертежами:
- Фиг.1. Временное представление установившегося режима следования вокализованных сегментов квазистационарности речевого сигнала.
- Фиг.2. Алгоритм функционирования системы, реализующий предлагаемый способ, на передаче.
- Фиг.3. Алгоритм функционирования системы, реализующий предлагаемый способ, на приеме.
- Фиг.4. Функциональная схема устройства, реализующего предлагаемый способ.
Сущность предлагаемого способа заключается в следующем. При кодировании следующих друг за другом вокализованных сегментов исключают постоянную передачу информации о параметрах формирующей модели вокодера с линейным предсказанием. Информацию о параметрах формирующей модели передают только для первого из последовательности вокализованных сегментов, а для остальных сохраняют неизменной, число таких сегментов не должно превышать четырех, для пятого подряд следующего вокализованного сегмента параметры формирующей модели рассчитывают заново. Формируют кадр передачи, для этого используют рассчитанные параметры формирующей модели, совместно с вычисленными сигналом возбуждения и коэффициентом усиления, который несет в себе информацию о синтезе первого сегмента из последовательности. В кадрах передачи, несущих информацию о последующих вокализованных сегментах из анализируемой последовательности, информацию о параметрах формирующей модели заменяют информацией о принадлежности данного сегмента к такой последовательности, при этом параметры синтезирующей системы оставляют неизменными, как для первого сегмента из последовательности, число таких сегментов не должно превышать четырех, для пятого подряд следующего вокализованного сегмента параметры формирующей системы рассчитывают и передают заново. При кодировании шумоподобных и переходных сегментов вычисление параметров синтезирующей системы осуществляют на каждом сегменте квазистационарности речевого сигнала.
Такой подход позволяет значительно снизить требуемую пропускную способность каналов связи для функционирования вокодеров с линейным предсказанием в классе систем с переменной скоростью передачи, при этом качественные показатели синтезированного сигнала остаются на достаточно высоком уровне.
Проведенный анализ уровня техники позволил установить, что аналоги, характеризующиеся совокупностью признаков, тождественных всем признакам заявленного технического решения, отсутствуют, что указывает на соответствие заявленного способа условию патентоспособности “новизна”.
Благодаря новой совокупности существенных признаков системы, обеспечивающих исключение информации о параметрах синтезирующего фильтра из кадра передачи при кодировании подряд следующих вокализованных сегментов, кроме первого, достигается значительное снижение скорости передачи данных в канале связи.
Анализ существующих технических решений в данной области показал, что введенные отличительные признаки в них отсутствуют и не следуют явным образом из уровня техники. Следовательно, заявленное техническое решение удовлетворяет критерию “изобретательский уровень”.
Для проверки работоспособности предлагаемого способа были проведены теоретические исследования и компьютерное моделирование.
Экспериментальные исследования модели линейного предсказания речи показали, что в установившемся режиме следования вокализованных сегментов квазистационарности речевого сигнала, при их кодировании по данному методу, параметры, описывающие передаточную функцию голосового тракта, изменяются незначительно, что свидетельствует о линейном характере формирования речевого сигнала на интервалах превышающих установленные сегменты квазистационарности в существующих кодеках на основе линейного предсказания, что показано на фиг.1. Данный факт дает возможность в условиях установившегося режима следования вокализованных сегментов квазистационарности речевого сигнала подстраивать лишь сигнал возбуждения под параметры формирующей модели, выбранные для первого из последовательности вокализованных сегментов, а для остальных сохранять неизменной, число таких сегментов не должно превышать четырех, для пятого подряд следующего вокализованного сегмента параметры формирующей системы рассчитываются заново.
Алгоритм функционирования системы, реализующий предлагаемый способ, представлен на фиг.2 и фиг.3 соответственно.
Заявленное техническое решение поясняется чертежом (см. фиг.4). Устройство, реализующее данный способ, состоит из блока приема сегмента цифрового речевого сигнала 1, на который непосредственно поступает сегмент цифрового речевого сигнала. Он соединен с блоком классификации текущего речевого сегмента 2, который соединен с блоком расчета параметров формирующей системы 3 и блоком хранения информации на передающей стороне 5, на другой вход блока 5 поступает сигнал с блока 3, который соединен с блоком формирования сигнала возбуждения 4, на другой вход блока 4 поступает сигнал с блока 5, который также соединен с блоком формирования информации о принадлежности к последовательности вокализованных сегментов 7, который соединен с блоком формирования кадра передачи 6, на другие входы которого поступают сигналы с блоков 3 и 4. Сформированный кадр передачи передается в канал связи 8 и поступает на блок приема кадра передачи 9, который связан с блоком анализа кадра передачи на наличие параметров формирующей системы 10 и блоком синтеза сегмента цифрового речевого сигнала 12, на другие входы которого поступают сигналы с блока 9 и блока хранения текущей информации кадра передачи 11, на вход которого поступает сигнал с блока 10.
Устройство, реализующее заявленный способ, работает следующим образом. На блок 1 поступает сегмент цифрового речевого сигнала. Блок 1 соединен с блоком 2, в котором происходит анализ поступившего на блок 1 сегмента на вокализованность. Блок 3 рассчитывает параметры формирующей системы методом анализа через синтез в случае если сегмент не вокализованный или же вокализованный, но является одиночным или первым в последовательности вокализованных сегментов и сохраняет их в блоке 5. Если до принятого вокализованного сегмента был принят также вокализованный сегмент, то расчет параметров формирующей системы не производится, информация о принадлежности сегмента к последовательности вокализованных сегментов сохраняется в блоке 5, а блок 4 использует параметры формирующей системы, сохраненные в блоке 5. Блок формирует сигнал возбуждения. Блок 7 формирует информацию о принадлежности сегмента к последовательности вокализованных сегментов. На блок 6 поступает информация с блоков 3, 4, 5, а также блока 7. Данный блок формирует кадр передачи. Сформированный кадр передачи направляется в канал связи 8 и далее поступает на блок 9. Далее блок 10 анализирует принятый кадр на наличие параметров формирующей системы и сохраняет их при обнаружении в блоке 11. Блок 12 рассчитывает и формирует сегмент цифрового речевого сигнала на основе параметров формирующей системы и сигнала возбуждения, поступающих из блоков 9, 10 и 11.
Промышленная применимость введенных элементов обусловлена наличием элементной базы, на основе которой они могут быть выполнены.
К достоинствам способа следует отнести тот факт, что использование информации о параметрах синтезирующего фильтра, вычисленных на первом сегменте квазистационарности вокализованного участка речевого сигнала для кодирования последующих сегментов квазистационарности этого вокализованного участка, позволит снизить скорость передачи данных в канале связи, а также уменьшить вычислительную сложность алгоритма кодирования речевого сигнала на передающей стороне.
Анализ возможности использования предлагаемого технического решения для понижения требуемого информационного ресурса канала связи для функционирования вокодера с линейным предсказанием показывает, что средняя скорость передачи данных в канале связи уменьшается в среднем на 10-15% от известных решений, при этом существует возможность перераспределить информационного ресурса, предоставляемого каналом связи, на формирование дополнительных сервисов абонентского обслуживания.
Приведенные технические решения показывают, что устройство, воплощающее изобретение при его осуществлении, способно обеспечить более низкую скорость передачи данных за счет устранения из кадра передачи информации о параметрах синтезирующей системы при кодировании подряд следующих вокализованных сегментов речевого сигнала, при этом информация о параметрах синтезирующей системы предается в кадре передачи первого сегмента вокализованного участка речевых данных.

Claims (1)

  1. Способ сжатия и восстановления речевых сигналов для систем кодирования с переменной скоростью передачи, заключающийся в том, что выходные данные с кодера на основе метода линейного предсказания с кодовым возбуждением формируют с переменной скоростью передачи как результат анализа активности речевого сигнала, отличающийся тем, что при кодировании следующих друг за другом вокализованных сегментов информацию о параметрах формирующей модели передают только для первого из последовательности вокализованных сегментов, а для остальных сохраняют неизменной, число таких сегментов не должно превышать четырех, для пятого подряд следующего вокализованного сегмента параметры формирующей модели рассчитывают заново, формируют кадр передачи, для этого используют рассчитанные параметры формирующей модели совместно с вычисленными сигналом возбуждения и коэффициентом усиления, который несет в себе информацию о синтезе первого сегмента из последовательности, в кадрах передачи, несущих информацию о последующих вокализованных сегментах из анализируемой последовательности, информацию о параметрах формирующей модели заменяют информацией о принадлежности данного сегмента к такой последовательности, при этом параметры синтезирующей системы оставляют неизменными, как для первого сегмента из последовательности, число таких сегментов не должно превышать четырех, для пятого подряд следующего вокализованного сегмента параметры формирующей системы рассчитывают и передают заново, а при кодировании шумоподобных и переходных сегментов вычисление параметров синтезирующей системы осуществляют на каждом сегменте квазистационарности речевого сигнала.
RU2009110842/09A 2009-03-24 2009-03-24 Способ сжатия и восстановления речевых сигналов для систем кодирования с переменной скоростью передачи RU2394284C1 (ru)

Priority Applications (1)

Application Number Priority Date Filing Date Title
RU2009110842/09A RU2394284C1 (ru) 2009-03-24 2009-03-24 Способ сжатия и восстановления речевых сигналов для систем кодирования с переменной скоростью передачи

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
RU2009110842/09A RU2394284C1 (ru) 2009-03-24 2009-03-24 Способ сжатия и восстановления речевых сигналов для систем кодирования с переменной скоростью передачи

Publications (1)

Publication Number Publication Date
RU2394284C1 true RU2394284C1 (ru) 2010-07-10

Family

ID=42684746

Family Applications (1)

Application Number Title Priority Date Filing Date
RU2009110842/09A RU2394284C1 (ru) 2009-03-24 2009-03-24 Способ сжатия и восстановления речевых сигналов для систем кодирования с переменной скоростью передачи

Country Status (1)

Country Link
RU (1) RU2394284C1 (ru)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
RU2683632C2 (ru) * 2014-04-30 2019-03-29 Квэлкомм Инкорпорейтед Генерация высокополосного сигнала возбуждения

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
РАБИНЕР Л.Р., ШАФЕР Р.В. Цифровая обработка речевых сигналов. - М.: Радио и связь, 1981, с.319-323. *

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
RU2683632C2 (ru) * 2014-04-30 2019-03-29 Квэлкомм Инкорпорейтед Генерация высокополосного сигнала возбуждения
US10297263B2 (en) 2014-04-30 2019-05-21 Qualcomm Incorporated High band excitation signal generation

Similar Documents

Publication Publication Date Title
US9020813B2 (en) Speech enhancement system and method
EP1720154B1 (en) Communication device, signal encoding/decoding method
EP0911807B1 (en) Sound synthesizing method and apparatus, and sound band expanding method and apparatus
FI119533B (fi) Audiosignaalien koodaus
EP2209114B1 (en) Speech coding/decoding apparatus/method
EP2056291B1 (en) Signal processing method, processing apparatus and voice decoder
JP5232151B2 (ja) パケットベースのエコー除去および抑制
US10468045B2 (en) Methods, encoder and decoder for linear predictive encoding and decoding of sound signals upon transition between frames having different sampling rates
CN102169692B (zh) 信号处理方法和装置
US20050075873A1 (en) Speech codecs
US20090204397A1 (en) Linear predictive coding of an audio signal
WO2012066727A1 (ja) ステレオ信号符号化装置、ステレオ信号復号装置、ステレオ信号符号化方法及びステレオ信号復号方法
JP2006525533A (ja) 可変ビットレート広帯域通話符号化における利得量子化方法および装置
TW200401532A (en) Distributed voice recognition system utilizing multistream network feature processing
JP2010170142A (ja) ビットレートスケーラブルなオーディオデータストリームを生成する方法および装置
JPWO2007116809A1 (ja) ステレオ音声符号化装置、ステレオ音声復号装置、およびこれらの方法
JP2000305599A (ja) 音声合成装置及び方法、電話装置並びにプログラム提供媒体
US6728669B1 (en) Relative pulse position in celp vocoding
CA2293165A1 (en) Method for transmitting data in wireless speech channels
US8024187B2 (en) Pulse allocating method in voice coding
US20100010811A1 (en) Stereo audio encoding device, stereo audio decoding device, and method thereof
RU2394284C1 (ru) Способ сжатия и восстановления речевых сигналов для систем кодирования с переменной скоростью передачи
İlk et al. Adaptive time scale modification of speech for graceful degrading voice quality in congested networks for VoIP applications
CN1873777B (zh) 具有语音解码功能的移动通信终端及其动作方法
CN110580920A (zh) 一种声码器子带清浊音判决的方法及系统

Legal Events

Date Code Title Description
MM4A The patent is invalid due to non-payment of fees

Effective date: 20110325