RU2400831C1 - Способ выделения сегментов квазистационарности при анализе речевого сигнала в вокодерах с линейным предсказанием - Google Patents

Способ выделения сегментов квазистационарности при анализе речевого сигнала в вокодерах с линейным предсказанием Download PDF

Info

Publication number
RU2400831C1
RU2400831C1 RU2009121174/09A RU2009121174A RU2400831C1 RU 2400831 C1 RU2400831 C1 RU 2400831C1 RU 2009121174/09 A RU2009121174/09 A RU 2009121174/09A RU 2009121174 A RU2009121174 A RU 2009121174A RU 2400831 C1 RU2400831 C1 RU 2400831C1
Authority
RU
Russia
Prior art keywords
segment
signal
segments
speech signal
speech
Prior art date
Application number
RU2009121174/09A
Other languages
English (en)
Inventor
Андрей Алексеевич Афанасьев (RU)
Андрей Алексеевич Афанасьев
Станислав Рамзесович Габдулгазиев (RU)
Станислав Рамзесович Габдулгазиев
Владимир Геннадьевич Трубицын (RU)
Владимир Геннадьевич Трубицын
Илья Владимирович Ульянов (RU)
Илья Владимирович Ульянов
Original Assignee
Государственное образовательное учреждение высшего профессионального образования Академия Федеральной службы охраны Российской Федерации (Академия ФСО России)
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Государственное образовательное учреждение высшего профессионального образования Академия Федеральной службы охраны Российской Федерации (Академия ФСО России) filed Critical Государственное образовательное учреждение высшего профессионального образования Академия Федеральной службы охраны Российской Федерации (Академия ФСО России)
Priority to RU2009121174/09A priority Critical patent/RU2400831C1/ru
Application granted granted Critical
Publication of RU2400831C1 publication Critical patent/RU2400831C1/ru

Links

Images

Landscapes

  • Compression, Expansion, Code Conversion, And Decoders (AREA)

Abstract

Изобретение относится к области цифровой связи и может быть использовано в системах телеинформационных коммуникаций для выделения сегментов квазистационарности при анализе речевого сигнала. Технический результат - повышение точности кодирования и снижение требуемой скорости передачи. Для этого выделение сегментов квазистационарности при анализе речевого сигнала в вокодерах с линейным предсказанием основано на изменении их длительности в соответствии с классификацией речевых сегментов и вычислении частоты основного тона. 2 ил.

Description

Изобретение относится к области цифровой связи, а именно к методам кодирования и обработки речевых сигналов. Предлагаемый способ может быть использован для эффективного кодирования речевых сигналов в системах телеинформационных коммуникаций с переменной скоростью передачи.
Основной проблемой цифрового представления речевого сигнала является задача качественного и компактного кодирования данных для их передачи по цифровым каналам связи. Решение этой проблемы позволит в условиях заданного критерия качества связи увеличить пропускную способность линейных трактов и каналов передачи. Часто в некоторых задачах кодирования речевого сигнала предполагается снизить скорость передачи при сохранении качественных показателей ее восприятия. Широкое распространение в инфокоммуникациях в настоящее время получили методы кодирования речевых данных с переменной скоростью передачи и асинхронным вводом в канал связи.
Среди многообразия методов кодирования речевых сигналов одним из наиболее эффективных является метод линейного предсказания. Метод линейного предсказания речи принадлежит к классу методов, использующих модель речевого сигнала в виде отклика линейной системы с переменными параметрами (голосового тракта) на соответствующий сигнал возбуждения (порождающий сигнал). Анализатор речепреобразующего устройства выделяет из короткого сегмента речевого сигнала параметры состояния линейной системы и сигнала возбуждения, позволяющие синтезатору восстановить исходный сигнал с требуемой степенью верности.
Известны и описаны различные способы линейного предсказания, отличающиеся видом сигнала возбуждения и параметрами, описывающими состояния линейной формирующей системы (О.И.Шелухин, Н.Ф.Лукьянцев. Цифровая обработка и передача речи. - М.: Радио и связь, 2000. - С.102-112, с.123-146, патенты RU №2233010 от 27.01.1999, US №6385577 от 07.05.2002).
Недостатками аналогов является относительно высокая скорость передачи при заданном качестве синтеза речевого сигнала, а также значительное расходование информационного ресурса на представление параметров, описывающих передаточную функцию голосового тракта, что объясняется тем, что выделение и кодирование этих параметров осуществляют на каждом фиксированном интервале квазистационарности.
В устройствах, реализующих данные методы, осуществляется анализ речевого сигнала на участке квазистационарности, который по разным оценкам составляет 2,5-30 мс. (О.И.Шелухин, Н.Ф.Лукьянцев. Цифровая обработка и передача речи. - М.: Радио и связь, 2000. - С.51), при этом по каналу связи передается информация о коэффициентах формирующей модели, параметрах, характеризующих сигнал возбуждения и кодируемый речевой сигнал. На данном участке сигнал принято считать близким к стационарному, вследствие чего он получил название квазистационарный.
Наиболее близким по технической сущности является патент US №6073092 от 06.06.2000 г., заключающийся в том, что используют фиксированные сегменты речевого сигнала, на основании которых рассчитывают параметры состояния линейной системы и сигнала возбуждения, позволяющие синтезатору восстановить исходный сигнал с требуемой степенью верности, при этом входные отсчеты речевого сигнала разделяются на сегменты фиксированной длины (80, 160 или 320 отсчетов), для каждого из сегментов рассчитывают коэффициенты формирующей модели, а затем кодируют с использованием алгоритма линейного предсказания с возбуждением от кода. Недостатком прототипа является использование фиксированной длительности сегмента квазистационарности при использовании кодирования на основе линейного предсказания с возбуждением от кода, что не всегда соотносится с природой формирования речевого сигнала.
Выбор длины данного сегмента является весьма важной задачей. Его увеличение приводит к уменьшению скорости передачи в канале связи, а сокращение - к повышению качественных характеристик синтезируемого сигнала, так как сигнал становится близким к стационарному, и уменьшению времени задержки сигнала на обработку. Анализ речевого сигнала на фиксированно выбранном сегменте квазистационарности является достаточно грубым допущением, так как за пределами сегмента сигнал представляется равным нулю, что не соответствует действительности и приводит к появлению искажений на стыках сегментов при их анализе и кодировании, а также искажений в восприятии синтезированного речевого сигнала на приеме, при этом на вокализованных участках речи длина сегмента стационарности может быть увеличена, что связано с линейным характером образования речевого сигнала на этом участке, а на шумоподобных участках желательно ее уменьшать, так как речевой сигнал в данном случае имеет нестационарные свойства. Деление речевого сигнала на вокализованные и шумоподобные (невокализованные) сегменты достаточно широко используется в технике эффективного речевого кодирования (Рабинер Л.Р., Шафер Р.В. Цифровая обработка речевых сигналов. - М.: Радио и связь, 1981. - С.110-128).
Техническим результатом применения предлагаемого изобретения является снижение требуемой скорости передачи при сохранении качественных показателей синтезированного речевого сигнала.
Для достижения этого выполняют анализ на основе линейного предсказания поступающего на вход вокодера речевого сигнала, деля его на сегменты по 20 миллисекунд, если принимают решение о том, что сигнал является активной речью. Выделяют переход огибающей сигнала через нулевое значение и от положения отсчета со значением, наиболее близким нулю, выбирают длину сегмента соответствующую 20 миллисекундам, и рассчитывают значение частоты основного тона и сигнала тон-шум, если принимают решение о вокализованности анализируемого сигнала, то увеличивают длительность сегмента квазистационарности на количество отсчетов, кратное периоду основного тона, но не более чем на 60 миллисекунд, с обязательной проверкой на вокализованность следующих сегментов по 20 миллисекунд. Если принимают решение о шумоподобности следующего сегмента, то границу сегмента анализа выбирают кратной количеству отсчетов на периоде основного тона, но не более половины следующего сегмента длительностью 20 миллисекунд. Если принимают решение о шумоподобности анализируемого сегмента, то длину сегмента анализа уменьшают, при этом границу сегмента формируют на значении, близком нулю и кратном вычисленному периоду основного тона.
При таком подходе с высокой вероятностью можно утверждать, что начальный и конечный отсчеты во вновь сформированном сегменте будут иметь значения, близкие нулю, что значительно уменьшит возможные искажения на стыках сегментов.
В большинстве вокодеров с линейным предсказанием в качестве одного из параметров, входящих в кадр передачи, является частота основного тона говорящего, таким образом, использование данного параметра в качестве одного из критериев формирования границ сегмента квазистационарности речевого сигнала не приведет к повышению скорости передачи в таких вокодерах, а существенно сократит ее, при этом повышается качество синтезированной речи на выходе вокодера с линейным предсказанием, так как отсчеты на стыках сегментов квазистационарности имеют практически нулевую энергию. В некоторых методах линейного предсказания частота основного тона говорящего не передается в кадре передачи, для таких методов данный параметр будет дополнительным, что снизит эффект от внедрения изобретения, однако общий выигрыш от ее использования будет достаточно велик. Методы выделения частоты основного тона речевого сигнала хорошо известны и нашли широкое распространение в речевом кодировании (Рабинер Л.Р., Шафер Р.В. Цифровая обработка речевых сигналов. - М.: Радио и связь, 1981. - С.128-150).
Использование данного способа для выделения сегментов квазистационарности при анализе речевого сигнала в вокодерах с линейным предсказанием будет рационально для класса систем кодирования речевого сигнала с переменной скоростью передачи.
Сущность предлагаемого способа заключается в следующем. Предполагается выполнение анализа на основе линейного предсказания поступающего на вход вокодера речевого сигнала посредством его деления на сегменты по 20 миллисекунд, если сигнал является активной речью. Выделяется переход огибающей сигнала через нулевое значение и от положения отсчета со значением, наиболее близким нулю, выбирается сегмент длительностью 20 миллисекунд. Рассчитывается значение частоты основного тона и сигнала тон-шум для текущего сегмента, если принимается решение о его вокализованности, то оно служит сигналом для увеличения длительности сегмента квазистационарности (текущего сегмента) на количество отсчетов, кратное периоду основного тона, но не более чем на 60 миллисекунд, с обязательной проверкой на вокализованность следующих сегментов по 20 миллисекунд. Если принимается решение о шумоподобности следующего сегмента, то длительность текущего сегмента увеличивается на количество отсчетов, кратное количеству отсчетов на периоде основного тона, но не более половины следующего сегмента длительностью 20 миллисекунд. При анализе текущего сегмента может быть принято решение о его шумоподобности. В этом случае длина текущего сегмента уменьшается, причем граница сегмента формируется на значении, близком нулю и кратном вычисленному периоду основного тона.
Такой подход позволяет значительно снизить требуемую пропускную способность каналов связи для функционирования вокодеров с линейным предсказанием, при этом качественные показатели синтезированного сигнала значительно повышаются.
Заявленный способ поясняется чертежами.
- Фиг.1. Алгоритм функционирования способа выделения сегментов квазистационарности при анализе речевого сигнала в вокодерах с линейным предсказанием.
- Фиг. 2. Функциональная схема устройства, реализующего способ выделения сегментов квазистационарности при анализе речевого сигнала в вокодерах с линейным предсказанием.
Проведенный анализ уровня техники позволил установить, что аналоги, характеризующиеся совокупностью признаков, тождественных всем признакам заявленного технического решения, отсутствуют, что указывает на соответствие заявленного способа условию патентоспособности "новизна".
Анализ существующих технических решений в данной области показал, что введенные отличительные признаки в них отсутствуют и не следуют явным образом из уровня техники. Следовательно, заявленное техническое решение удовлетворяет критерию "изобретательский уровень".
Для проверки работоспособности предлагаемого способа были проведены теоретические исследования и компьютерное моделирование.
Благодаря новой совокупности существенных признаков системы, обеспечивающих увеличение длительности вокализованного сегмента квазистационарности речевого сигнала и уменьшение - шумоподобного, а также выбор отсчетов на границах сегмента с энергией, приблизительно равной нулю, достигается значительное снижение скорости передачи данных в канале связи и повышение качественных показателей синтезированного речевого сигнала.
Промышленная применимость введенных элементов обусловлена наличием элементной базы, на основе которой они могут быть выполнены.
Заявленное техническое решение поясняется чертежом (фиг.2). Оно состоит из блока приема сегмента цифрового речевого сигнала 1, который связан с блоком увеличения длительности сегмента 6, блоком уменьшения длительности сегмента 7, получателем сегмента цифрового речевого сигнала 8, а также с блоком анализа текущего сегмента на присутствие активной речи 2, который связан с блоком выделения перехода огибающей речевого сигнала через нулевое значение 3, информация с которого подается на блок поиска отсчета со значением, наиболее близким к нулевому, 4, который связан с блоком выделения сигнала тон-шум и вычисления значения частоты основного тона, который связан с блоком 6 и блоком 7, которые связаны с блоком 8, а также блоком 1.
Устройство функционирует следующим образом. На блок 1 поступает сегмент цифрового речевого сигнала длительностью 20 мс. Блок 2 анализирует сигнал на присутствие активной речи. Если он принимает решение "пауза", то длительность сегмента остается неизменной, и он передается в блок 8, иначе блок 3 производит выделение перехода огибающей речевого сигнала через нулевое значение и затем блок 4 осуществляет поиск отсчета со значением, наиболее близким к нулевому. Далее сигнал поступает в блок 5, который выделяется сигнал тон-шум и вычисляет частоту основного тона. Если в блоке 5 принято решение, что сегмент вокализованный, то вычисляется частота основного тона и в соответствии с информационными параметрами, получаемыми с блока 5, блок 6 увеличивает длительность сегмента квазистационарности на количество отсчетов, кратное периоду основного тона, но не более чем на 60 миллисекунд, с обязательной проверкой на вокализованность следующих сегментов по 20 миллисекунд, если следующий сегмент является шумоподобным, то граница сегмента анализа выбирается кратной количеству отсчетов на периоде основного тона, но не более половины следующего сегмента длительностью 20 миллисекунд. Блок 6 напрямую взаимодействует с блоком 1 и получает от него необходимое количество отсчетов для увеличения длительности сегмента, который затем направляется в блок 8. Если в блоке 5 принято решение о том, что сегмент шумоподобный, то блок 7 уменьшает длину сегмента анализа. При этом последний отсчет сегмента формируется на значении, близком к нулю, а длина сегмента выбирается кратной периоду основного тона. Оставшееся количество отсчетов направляется в блок 1, с которым блок 7 связан напрямую. Измененный сегмент направляется в блок 8.
К достоинствам использования предлагаемого способа следует отнести тот факт, что изменение длительности сегментов квазистационарности при анализе речевого сигнала в вокодерах с линейным предсказанием дает возможность уменьшить среднюю скорость передачи в вокодерах с линейным предсказанием, функционирующих с переменной скоростью передачи.
Использование предлагаемого технического решения дает возможность понизить среднюю скорость передачи данных в канале связи по сравнению с известными решениями, в которых применяется фиксированный сегмент квазистационарности речевого сигнала.
Приведенные технические решения показывают, что устройство, воплощающее заявленный способ при его осуществлении, способно обеспечить более низкую среднюю скорость передачи данных.

Claims (1)

  1. Способ выделения сегментов квазистационарности при анализе речевого сигнала в вокодерах с линейным предсказанием, заключающийся в том, что используют фиксированные сегменты речевого сигнала, на основании которых рассчитывают параметры состояния линейной системы и сигнала возбуждения, позволяющие синтезатору восстановить исходный сигнал с требуемой степенью верности, отличающийся тем, что выполняют анализ на основе линейного предсказания поступающего на вход вокодера речевого сигнала, деля его на сегменты по 20 мс, если принимают решение о том, что сигнал является активной речью, то выделяют переход огибающей сигнала через нулевое значение и от положения отсчета со значением, наиболее близким к нулю, выбирают длину сегмента соответствующую 20 мс и рассчитывают значение частоты основного тона и сигнала тон-шум, если принимают решение о вокализованности анализируемого сигнала, то увеличивают длительность сегмента квазистационарности на количество отсчетов, кратное периоду основного тона, но не более чем на 60 мс с обязательной проверкой на вокализованность следующих сегментов по 20 мс, если принимают решение о шумоподобности следующего сегмента, то границу сегмента анализа выбирают кратной количеству отсчетов на периоде основного тона, но не более половины следующего сегмента длительностью 20 мс, если принимают решение о шумоподобности анализируемого сегмента, то длину сегмента анализа уменьшают, при этом границу сегмента формируют на значении, близком к нулю и кратном вычисленному периоду основного тона.
RU2009121174/09A 2009-06-03 2009-06-03 Способ выделения сегментов квазистационарности при анализе речевого сигнала в вокодерах с линейным предсказанием RU2400831C1 (ru)

Priority Applications (1)

Application Number Priority Date Filing Date Title
RU2009121174/09A RU2400831C1 (ru) 2009-06-03 2009-06-03 Способ выделения сегментов квазистационарности при анализе речевого сигнала в вокодерах с линейным предсказанием

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
RU2009121174/09A RU2400831C1 (ru) 2009-06-03 2009-06-03 Способ выделения сегментов квазистационарности при анализе речевого сигнала в вокодерах с линейным предсказанием

Publications (1)

Publication Number Publication Date
RU2400831C1 true RU2400831C1 (ru) 2010-09-27

Family

ID=42940502

Family Applications (1)

Application Number Title Priority Date Filing Date
RU2009121174/09A RU2400831C1 (ru) 2009-06-03 2009-06-03 Способ выделения сегментов квазистационарности при анализе речевого сигнала в вокодерах с линейным предсказанием

Country Status (1)

Country Link
RU (1) RU2400831C1 (ru)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
RU2684576C1 (ru) * 2018-01-31 2019-04-09 Федеральное государственное казенное военное образовательное учреждение высшего образования "Академия Федеральной службы охраны Российской Федерации" (Академия ФСО России) Способ выделения сегментов обработки речи на основе последовательного статистического анализа

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
RU2684576C1 (ru) * 2018-01-31 2019-04-09 Федеральное государственное казенное военное образовательное учреждение высшего образования "Академия Федеральной службы охраны Российской Федерации" (Академия ФСО России) Способ выделения сегментов обработки речи на основе последовательного статистического анализа

Similar Documents

Publication Publication Date Title
KR100979090B1 (ko) 피치 지연 윤곽부 조절을 사용하여 정보 신호를 코딩하기위한 방법 및 장치
AU739238B2 (en) Speech coding
EP2272062B1 (en) An audio signal classifier
JP4585689B2 (ja) 合成による分析celp型音声符号化のための適応型ウィンドウ
US8417515B2 (en) Encoding device, decoding device, and method thereof
US8600765B2 (en) Signal classification method and device, and encoding and decoding methods and devices
KR101975066B1 (ko) 신호 처리 장치 및 방법, 및 컴퓨터 판독가능 기록 매체
EP1953736A1 (en) Stereo encoding device, and stereo signal predicting method
US20040153313A1 (en) Method for enlarging the band width of a narrow-band filtered voice signal, especially a voice signal emitted by a telecommunication appliance
KR20120090086A (ko) 협대역 신호로부터의 상위대역 신호의 결정
KR20040073281A (ko) 인코딩 장치, 디코딩 장치 및 그 방법
JP2007523372A (ja) エンコーダ、エンコーダを有するデバイス、エンコーダを有するシステム、周波数バンドのオーディオ信号を圧縮する方法、モジュール、およびコンピュータプログラム製品
MX2013009304A (es) Aparato y metodo para codificar una porcion de una señal de audio utilizando deteccion de un transiente y resultado de calidad.
EP3051534B1 (en) High-frequency excitation signal prediction method and device
KR100446242B1 (ko) 음성 부호화기에서 하모닉 추정 방법 및 장치
KR20170110737A (ko) 신호 인코딩 방법 및 장치
CN103915097B (zh) 一种语音信号处理方法、装置和系统
US10431226B2 (en) Frame loss correction with voice information
RU2400831C1 (ru) Способ выделения сегментов квазистационарности при анализе речевого сигнала в вокодерах с линейным предсказанием
US7493255B2 (en) Generating LSF vectors
RU2400832C2 (ru) Способ формирования сигнала возбуждения в низкоскоростных вокодерах с линейным предсказанием
JPWO2007077841A1 (ja) 音声復号装置および音声復号方法
Alzqhoul et al. Speech handling mechanisms of mobile phone networks and their potential impact on forensic voice analysis
RU2394284C1 (ru) Способ сжатия и восстановления речевых сигналов для систем кодирования с переменной скоростью передачи
KR100446739B1 (ko) 지연 피치 추출장치

Legal Events

Date Code Title Description
MM4A The patent is invalid due to non-payment of fees

Effective date: 20110604