RU2631968C2 - Method of low-speed coding and decoding speech signal - Google Patents

Method of low-speed coding and decoding speech signal Download PDF

Info

Publication number
RU2631968C2
RU2631968C2 RU2015127496A RU2015127496A RU2631968C2 RU 2631968 C2 RU2631968 C2 RU 2631968C2 RU 2015127496 A RU2015127496 A RU 2015127496A RU 2015127496 A RU2015127496 A RU 2015127496A RU 2631968 C2 RU2631968 C2 RU 2631968C2
Authority
RU
Russia
Prior art keywords
signal
vector
speech signal
speech
linear prediction
Prior art date
Application number
RU2015127496A
Other languages
Russian (ru)
Other versions
RU2015127496A (en
Inventor
Андрей Алексеевич Афанасьев
Евгений Сергеевич Коробовский
Original Assignee
Федеральное государственное казенное военное образовательное учреждение высшего образования "Академия Федеральной службы охраны Российской Федерации" (Академия ФСО России)
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Федеральное государственное казенное военное образовательное учреждение высшего образования "Академия Федеральной службы охраны Российской Федерации" (Академия ФСО России) filed Critical Федеральное государственное казенное военное образовательное учреждение высшего образования "Академия Федеральной службы охраны Российской Федерации" (Академия ФСО России)
Priority to RU2015127496A priority Critical patent/RU2631968C2/en
Publication of RU2015127496A publication Critical patent/RU2015127496A/en
Application granted granted Critical
Publication of RU2631968C2 publication Critical patent/RU2631968C2/en

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/08Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)
  • Transmission Systems Not Characterized By The Medium Used For Transmission (AREA)

Abstract

FIELD: radio engineering, communication.
SUBSTANCE: in the vocoder based on linear prediction, the excitation signal vector is searched on the basis of vector quantization using an analysis procedure through synthesis on previously trained small code books that are statistically related to the initial parameter vector describing the state of the voice path. The index of the vocal path parameter vector, the codebook subspace vector of the small dimension of the excitation signal parameters statistically associated with the vocal path parameter vector and the corresponding scaling coefficient of the excitation signal are transmitted on the communication channel to synthesise the speech signal on each quasi-stationary segment of the speech signal analysis.
EFFECT: improving the quality of the synthesised speech signal in low-speed vocoder with linear prediction with limitations on the data transfer rate.
4 dwg

Description

Изобретение относится к области цифровой связи, а именно к технике обработки речи на основе процедуры линейного предсказания и может быть использовано в системах инфокоммуникаций для низкоскоростного кодирования речевых сигналов.The invention relates to the field of digital communications, and in particular, to a speech processing technique based on a linear prediction procedure and can be used in infocommunication systems for low-speed encoding of speech signals.

При цифровой обработке речевых сигналов эффективное кодирование речи с целью ее дальнейшей передаче по цифровым каналам связи является одной из основополагающих задач. Ее решение позволяет увеличить пропускную способность линейных трактов и каналов передачи при заданных критериях качества связи. Одним из принципов построения систем обработки и передачи речи выступает повышение качественных показателей синтезированной речи при ограничениях на скорость передачи речевого сигнала.In the digital processing of speech signals, effective coding of speech for the purpose of its further transmission through digital communication channels is one of the fundamental tasks. Its solution allows to increase the throughput of linear paths and transmission channels for given criteria for the quality of communication. One of the principles for constructing speech processing and transmission systems is to increase the quality of synthesized speech with restrictions on the speed of the speech signal.

Большинство известных способов кодирования речевых сигналов основано на методе линейного предсказания с моделью речевого сигнала в виде отклика линейной системы с переменными параметрами (голосового тракта) на соответствующий сигнал возбуждения (порождающий сигнал). При этом анализатор речепреобразующего устройства выделяет из короткого сегмента речевого сигнала параметры состояния линейной системы и сигнала возбуждения, позволяющие синтезатору восстановить исходный сигнал с требуемой степенью верности.Most known methods for encoding speech signals are based on the linear prediction method with a model of the speech signal in the form of a response of a linear system with variable parameters (voice path) to the corresponding excitation signal (generating signal). At the same time, the analyzer of the speech-converting device extracts the state parameters of the linear system and the excitation signal from the short segment of the speech signal, allowing the synthesizer to restore the original signal with the required degree of fidelity.

Известны способы обработки речевых сигналов в вокодерах с линейным предсказанием, основанные на анализе сигнала ошибки линейного предсказания (Маркел Дж. Д., Грэй А.X. Линейное предсказание речи. - М.: Связь, 1980. - С. 258-276; Рабинер Л.Р., Шафер Р.В. Цифровая обработка речевых сигналов. - М.: Радио и связь, 1981. - С. 365-428; О.И. Шелухин, Н.Ф. Лукьянцев Цифровая обработка и передача речи. - М., Радио и связь, 2000. - С. 102-166).Known methods for processing speech signals in vocoders with linear prediction, based on the analysis of the error signal of linear prediction (Markel J. D., Gray A.X. Linear speech prediction. - M .: Communication, 1980. - S. 258-276; Rabiner LR, Shafer RV Digital processing of speech signals. - M .: Radio and communications, 1981. - P. 365-428; OI Shelukhin, NF Lukyantsev Digital processing and transmission of speech .-- M., Radio and communications, 2000 .-- S. 102-166).

В устройствах, реализующих данные способы, осуществляется анализ сигнала ошибки линейного предсказания с целью генерации сигналов возбуждения фильтра - синтезатора. Известно, что сигнал остатка предсказания является наилучшим сигналом возбуждения синтезирующего фильтра линейного предсказания. (Прохоров Ю.Н. Статистические модели и рекуррентное предсказание речевых сигналов. - М.: Радио и связь, 1984. - С. 172-182). При этом по каналу связи передается информация о коэффициентах формирующей модели и параметрах, характеризующих сигнал возбуждения и кодируемый речевой сигнал.In devices that implement these methods, the analysis of the linear prediction error signal is carried out in order to generate filter-synthesizer excitation signals. It is known that a prediction residual signal is the best excitation signal of a linear prediction synthesizing filter. (Prokhorov Yu.N. Statistical models and recurrent prediction of speech signals. - M.: Radio and communications, 1984. - S. 172-182). In this case, information on the coefficients of the forming model and the parameters characterizing the excitation signal and the encoded speech signal is transmitted through the communication channel.

Для эффективного представления сигнала возбуждения в таких устройствах используются различные способы снижения информативной избыточности данных последовательностей (патенты US №7289952 от 30.10.2007, US №7233896 от 10.07.2007, US №7133823 от 7.11.2006, US №5963897 от 5.10.1999, US №6757650 от 29.06.2004, RU №2163399 от 22.10.1997, RU №97117357 от 20.02.2001).To effectively present the excitation signal in such devices, various methods are used to reduce the informative redundancy of these sequences (US patents No. 7289952 dated 10/30/2007, US No. 7233896 dated July 10, 2007, US No. 7133823 dated November 7, 2006, US No. 5963897 dated October 5, 1999, US No. 6757650 dated June 29, 2004, RU No. 2133399 dated October 22, 1997, RU No. 97117357 dated February 20, 2001).

Недостатком данных способов является значительное расходование информационного ресурса на представление сигнала возбуждения при его передаче по каналу связи, и, следовательно, относительно высокая скорость передачи данных по каналам связи при эффективном кодировании речи.The disadvantage of these methods is the significant expenditure of information resource on the presentation of the excitation signal when it is transmitted over the communication channel, and, therefore, the relatively high speed of data transmission over communication channels with effective speech coding.

Наиболее близким по технической сущности к заявленному изобретению является патент RU №2495504 от 10.10.2013 г., в котором для снижения скорости передачи в вокодерах с линейным предсказанием предлагается формирование сигнала возбуждения на приеме, для чего из кадра передачи выделяют параметры, описывающие передаточную функцию голосового тракта. Также используются значения коэффициента усиления сигнала возбуждения и данных, характеризующих кодируемый речевой сигнал, по которым при помощи обученной нейронной сети идентифицируют сигнал ошибки линейного предсказания, который является сигналом возбуждения, и используют его в синтезирующем фильтре вокодера с линейным предсказанием для формирования сегмента речевого сигнала на участке квазистационарности.The closest in technical essence to the claimed invention is patent RU No. 2495504 dated 10.10.2013, in which to reduce the transmission speed in vocoders with linear prediction, it is proposed to generate an excitation signal at the reception, for which parameters are described from the transmission frame that describe the voice transfer function tract. The values of the gain of the excitation signal and the data characterizing the encoded speech signal are also used, according to which, using a trained neural network, a linear prediction error signal, which is an excitation signal, is identified and used in a linear prediction synthesizer filter to form a segment of the speech signal in the section quasistationarity.

Недостатком данного способа является невысокое качество синтезированного речевого сигнала, что объясняется отсутствием при восстановлении оригинального сигнала возбуждения и статистическим усреднением подпространства сигналов возбуждения, связанного с вектором параметров голосового тракта до единственного, определяемого обученной нейросетью в качестве наиболее вероятного кандидата, при этом используются алгоритмы обучения нейросети и идентификации вектора сигнала возбуждения, имеющие достаточно высокую вычислительную сложность.The disadvantage of this method is the low quality of the synthesized speech signal, which is explained by the lack of restoration of the original excitation signal and the statistical averaging of the subspace of excitation signals associated with the vector of voice path parameters to the only one determined by the trained neural network as the most likely candidate, using neural network learning algorithms and identification of the excitation signal vector having a sufficiently high computational complexity mb.

Задачей изобретения является разработка способа низкоскоростного кодирования и декодирования речевого сигнала, позволяющего повысить качество синтезированного речевого сигнала в низкоскоростном вокодере с линейным предсказанием при ограничениях на скорость передачи данных.The objective of the invention is to develop a method for low-speed encoding and decoding of a speech signal, which allows to improve the quality of the synthesized speech signal in a low-speed vocoder with linear prediction with restrictions on the data rate.

Эта задача решается тем, что в способе низкоскоростного кодирования и декодирования речевого сигнала формирование сигнала возбуждения реализуется путем использования параметров синтезирующего фильтра, отличающийся тем, что поиск вектора кандидата сигнала возбуждения осуществляют на основе векторного квантования с использованием процедуры анализа через синтез на заранее обученных кодовых книгах малой размерности статистически связанных с исходным вектором параметров описывающим состояние голосового тракта. По каналу связи передается индекс вектора параметров голосового тракта, индекс вектора подпространства кодовой книги малой размерности параметров сигнала возбуждения, статистически связанного с вектором параметров голосового тракта, и соответствующий масштабирующий коэффициент сигнала возбуждения, по которым на приеме синтезируют речевой сигнал.This problem is solved in that in the method of low-speed encoding and decoding of a speech signal, the generation of the excitation signal is realized by using the parameters of a synthesizing filter, characterized in that the search for the candidate signal vector of the excitation signal is carried out on the basis of vector quantization using the synthesis analysis procedure on pre-trained small code books dimensions of statistically related to the initial parameter vector describing the state of the vocal tract. The index channel of the voice path parameter vector, the subscript vector index of the codebook small dimension of the parameters of the excitation signal statistically associated with the vector of the parameters of the voice path, and the corresponding scaling factor of the excitation signal, by which the speech signal is synthesized, are transmitted through the communication channel.

Проведенный анализ уровня техники позволил установить, что аналоги, характеризующиеся совокупностью признаков, тождественных всем признакам заявленного технического решения, отсутствуют, что указывает на соответствие изобретения условию патентоспособности «новизна».The analysis of the prior art made it possible to establish that analogues that are characterized by a combination of features that are identical to all the features of the claimed technical solution are absent, which indicates compliance of the invention with the condition of patentability “novelty”.

Благодаря новой совокупности существенных признаков системы, обеспечивающих поиск вектора кандидата сигнала возбуждения на основе векторного квантования с использованием процедуры анализа через синтез на заранее обученных кодовых книгах малой размерности статистически связанных с исходным вектором параметров, описывающим состояние голосового тракта, далее передаче по каналу связи индекса вектора параметров голосового тракта, индекса вектора подпространства кодовой книги малой размерности параметров сигнала возбуждения, статистически связанного с вектором параметров голосового тракта и соответствующего масштабирующего коэффициента сигнала возбуждения, по которым на приеме синтезируют речевой сигнал, достигается повышение качественных характеристик синтезированного речевого сигнала при выполнении ограничений на скорость передачи данных в канале связи.Thanks to a new set of essential features of the system that provide the search for the candidate vector of the excitation signal based on vector quantization using the analysis procedure through synthesis on pre-trained low-dimensional codebooks that are statistically related to the initial parameter vector describing the state of the voice tract, then transmitting the parameter vector index through the communication channel voice path, subscript of the vector of the subspace of the codebook of a small dimension of the parameters of the excitation signal, statistic associated with the vector of the parameters of the voice path and the corresponding scaling factor of the excitation signal, by which the speech signal is synthesized at the reception, an increase in the quality characteristics of the synthesized speech signal is achieved when the data rate in the communication channel is limited.

Результаты поиска известных решений в данной и смежных областях техники с целью выявления признаков, совпадающих с отличительными от прототипа признаками заявленного объекта, показали, что они не следуют явным образом из уровня техники. Из уровня техники также не выявлена известность влияния предусматриваемых существенными признаками заявленного изобретения преобразований на достижение указанного технического результата. Следовательно, заявленное изобретение соответствует условию патентоспособности «изобретательский уровень».Search results for known solutions in this and related fields of technology in order to identify features that match the distinctive features of the claimed object from the prototype showed that they do not follow explicitly from the prior art. The prior art also did not reveal the popularity of the impact provided by the essential features of the claimed invention, the transformations on the achievement of the specified technical result. Therefore, the claimed invention meets the condition of patentability "inventive step".

Данный подход дает возможность улучшить качественные показатели синтезированной речи при ограничениях на скорость передачи по сравнению с используемым прототипом, что объясняется увеличением мощности подпространства представления векторов сигнала возбуждения, статистически связанных с вектором параметров голосового тракта.This approach makes it possible to improve the quality of synthesized speech with restrictions on the transmission speed compared to the prototype used, which is explained by an increase in the power of the presentation subspace of the excitation signal vectors statistically associated with the vector of the voice path parameters.

Данные статистические зависимости объясняются тем, что в стандартах низкоскоростного кодирования речи используется ограниченный порядок анализирующего и синтезирующего фильтров, что определяется возможностью их физической реализации при необходимой и достаточной точности описания передаточной функции голосового тракта человека.These statistical dependencies are explained by the fact that the standards of low-speed coding of speech use a limited order of analyzing and synthesizing filters, which is determined by the possibility of their physical implementation with the necessary and sufficient accuracy of the description of the transfer function of the human voice tract.

Сущность метода линейного предсказания заключается в том, что выборка речевого сигнала S(n) может быть предсказана линейной комбинацией предшествующих отсчетов этого сигнала:The essence of the linear prediction method is that the sampling of the speech signal S (n) can be predicted by a linear combination of the previous samples of this signal:

Figure 00000001
Figure 00000001

где S'(n) - предсказанное значение речевого сигнала;where S '(n) is the predicted value of the speech signal;

а i - весовой коэффициент или коэффициент линейного предсказания; and i is the weighting coefficient or linear prediction coefficient;

М - число коэффициентов или порядок линейного предсказания,M is the number of coefficients or the order of linear prediction,

е(n) - ошибка предсказания.e (n) is the prediction error.

Возникающая при этом ошибка предсказания находится по линейно-разностному уравнению (2), которое описывает функционирование фильтра анализа модели линейного предсказания:The prediction error that occurs in this case is found by the linear-difference equation (2), which describes the operation of the filter of analysis of the linear prediction model:

Figure 00000002
Figure 00000002

Задача анализа речевого сигнала методом линейного предсказания заключается в его фильтрации линейной системой с передаточной характеристикой вида:The task of analyzing a speech signal by linear prediction is to filter it by a linear system with a transfer characteristic of the form:

Figure 00000003
Figure 00000003

Обратная ей передаточная функция представляет собой фильтр синтеза и определяется соотношениемThe inverse transfer function is a synthesis filter and is determined by the ratio

Figure 00000004
Figure 00000004

Теоретическим основополагающим базисом метода линейного предсказания является авторегрессионная модель, успешно применяемая для решения различных задач цифрового спектрального анализа и предполагающая в общем "идеальном" случае бесконечный порядок формирующей системы при возбуждении ее сигналом в виде дискретного белого гауссовского шума (Марпл - мл. С.Л. Цифровой спектральный анализ и его приложения. - М.: Мир, 1990. - С. 216-224).The theoretical underlying basis of the linear prediction method is the autoregressive model, which is successfully used to solve various problems of digital spectral analysis and assumes in the general "ideal" case an infinite order of the forming system when it is excited by a signal in the form of a discrete white Gaussian noise (Marple - ml. S.L. Digital spectral analysis and its applications. - M .: Mir, 1990. - P. 216-224).

Ее идентификация связана с решением системы алгебраических матричных уравнений Юла-Уокера (Марпл - мл. С.Л. Цифровой спектральный анализ и его приложения. - М.: Мир, 1990. - С. 224-227). В классической постановке задачи параметрического цифрового спектрального анализа возбуждение формирующего фильтра осуществляется сигналом u(n), представляющим собой реализации белого шума с математическим ожиданием равным нулю и единичной дисперсией.Its identification is associated with the solution of the Ula-Walker system of algebraic matrix equations (Marple - ml. S.L. Digital spectral analysis and its applications. - M .: Mir, 1990. - P. 224-227). In the classical formulation of the problem of parametric digital spectral analysis, the excitation of the forming filter is carried out by the signal u (n), which is a realization of white noise with a mathematical expectation equal to zero and unit dispersion.

Figure 00000005
Figure 00000005

Точность идентификации математической модели исследуемого процесса напрямую связана с выбором величины ее порядка M. В качестве критерия настройки модели в предположении о гауссовском законе распределения исходного процесса используется взвешенная среднеквадратическая ошибка e2(n).The accuracy of identification of the mathematical model of the process under study is directly related to the choice of a value of its order M. As a criterion for setting up the model, under the assumption of a Gaussian law of distribution of the initial process, a weighted mean-square error e 2 (n) is used.

Figure 00000006
Figure 00000006

где

Figure 00000007
- вектор оригинального речевого сигнала,
Figure 00000008
- вектор синтезированного речевого сигнала, N - количество отсчетов на сегменте анализа.Where
Figure 00000007
is the vector of the original speech signal,
Figure 00000008
is the vector of the synthesized speech signal, N is the number of samples on the analysis segment.

Применительно к задаче предсказания речи повышение порядка передаточных функций фильтров анализа и синтеза приводит к "обелению" сигнала остатка предсказания.In relation to the problem of speech prediction, increasing the order of the transfer functions of the analysis and synthesis filters leads to the “whitening” of the signal of the prediction residual.

В классической постановке задачи параметрического цифрового спектрального анализа на основе авторегрессионной модели линейное разностное уравнение формирующего фильтра выглядит следующим образом (7):In the classical formulation of the problem of parametric digital spectral analysis based on the autoregressive model, the linear difference equation of the forming filter is as follows (7):

Figure 00000009
Figure 00000009

где y(nT) - выходной сигнал, T - интервал дискретизации, {a m} - коэффициенты фильтра, M - порядок фильтра. Его амплитудно-частотная характеристика определяется в виде:where y (nT) is the output signal, T is the sampling interval, { a m } are the filter coefficients, M is the filter order. Its amplitude-frequency characteristic is defined as:

Figure 00000010
Figure 00000010

а спектральная плотность мощности:and power spectral density:

Figure 00000011
Figure 00000011

где ω - круговая частота дискретного преобразования Фурье.where ω is the circular frequency of the discrete Fourier transform.

Повышение порядка модели в выражениях (1), (2), (3) и (4) приводит к получению более точных оценок относительно анализируемого сигнала

Figure 00000012
. В идеале e2(n)→0 при М→∞.An increase in the order of the model in expressions (1), (2), (3) and (4) leads to more accurate estimates with respect to the analyzed signal
Figure 00000012
. Ideally, e 2 (n) → 0 as M → ∞.

Однако на практике при реализации линейного предсказания значение М всегда ограничено, что приводит к возникновению сигнала e(n), являющегося сигналом возбуждения фильтра синтеза модели линейного предсказания. Таким образом, сигнал e(n) уже не является реализациями белого шума с математическим ожиданием равным нулю и единичной дисперсией, а становится квазидетерминированным относительно множества {a m} и связан с ним соответствующими корреляционными зависимостями.However, in practice, when implementing linear prediction, the value of M is always limited, which leads to the appearance of a signal e (n), which is an excitation signal of the synthesis filter of the linear prediction model. Thus, the signal e (n) is no longer realizations of white noise with the mathematical expectation equal to zero and unit dispersion, but becomes quasideterministic with respect to the set { a m } and is associated with the corresponding correlation dependences.

На фиг. 1 представлена формантная структура речевого сигнала и сигнала остатка линейного предсказания на сегменте предсказания, анализ которого позволяет утверждать о наличии взаимосвязи данных параметров.In FIG. Figure 1 shows the formant structure of the speech signal and the linear prediction residual signal on the prediction segment, the analysis of which allows us to confirm the presence of the relationship of these parameters.

На фиг. 2 показано, что при формировании ограниченных множеств параметров голосового тракта

Figure 00000013
и сигналов возбуждения на основе остатка предсказания в виде кодовых книг данные зависимости вырождаются в соответствующие классы подпространств соответствий между собой и определяют элементы декомпозиции речевого сигнала.In FIG. 2 shows that when forming limited sets of voice path parameters
Figure 00000013
and excitation signals based on the remainder of the prediction in the form of code books, these dependences degenerate into the corresponding classes of subspaces of correspondences with each other and determine the elements of the decomposition of the speech signal.

Блок-схема алгоритма функционирования предложенной системы, реализующей способ низкоскоростного кодирования и декодирования речевого сигнала, представлена на фиг. 3.A block diagram of the functioning algorithm of the proposed system that implements the method of low-speed encoding and decoding of a speech signal is shown in FIG. 3.

На практике во многих стандартах низкоскоростного речевого кодирования на основе метода линейного предсказания используется векторное представление параметров, описывающих передаточную функцию голосового тракта

Figure 00000014
и соответствующего им сигнала возбуждения
Figure 00000015
, которые находятся с использованием процедуры анализа через синтез. Мощности пространств представлений параметров
Figure 00000016
и
Figure 00000017
в общем случае различны и определяются особенностями применения того или иного стандарта. Ограничение порядка фильтров анализа и синтеза и векторный характер пары параметров
Figure 00000018
, найденной с использованием процедуры анализа через синтез, приводит к возникновению взаимозависимостей между значениями
Figure 00000019
и
Figure 00000020
, что дает возможность упростить задачу построения системы обработки речи данного класса.In practice, in many standards of low-speed speech coding based on the linear prediction method, a vector representation of the parameters describing the transfer function of the voice path is used
Figure 00000014
and their corresponding excitation signal
Figure 00000015
that are found using a synthesis analysis procedure. Capacities of parameter representation spaces
Figure 00000016
and
Figure 00000017
in general, they are different and are determined by the features of the application of a standard. Restriction of the order of analysis and synthesis filters and vector character of a pair of parameters
Figure 00000018
found using the analysis procedure through synthesis leads to the emergence of interdependencies between the values
Figure 00000019
and
Figure 00000020
, which makes it possible to simplify the task of constructing a speech processing system of this class.

Присутствие таких зависимостей между элементами декомпозиции речевого сигнала, описывающими передаточную функцию голосового тракта и соответствующего сигнала возбуждения, объясняется особенностями постановки и решения обратной задачи цифрового спектрального анализа при фиксированном порядке формирующего фильтра.The presence of such dependencies between the elements of the decomposition of the speech signal describing the transfer function of the voice path and the corresponding excitation signal is explained by the peculiarities of the formulation and solution of the inverse problem of digital spectral analysis with a fixed order of the forming filter.

Учет данной зависимости при построении системы обработки речевого сигнала дает возможность существенно уменьшить мощность векторного подпространства представления сигналов возбуждения синтезирующего фильтра, связанного с вектором параметров голосового тракта.Taking this dependence into account when constructing the speech signal processing system makes it possible to significantly reduce the power of the vector subspace of the presentation of the excitation signals of the synthesizing filter associated with the vector of the voice tract parameters.

Сущность предлагаемого способа заключается в следующем. При анализе сегмента речевого сигнала на передающей стороне вычисляются вектор параметров, описывающих передаточную функцию голосового тракта и вектор сигнала ошибки линейного предсказания. Данные вектора используют для обучения (построения) кодовой книги векторов параметров голосового тракта и, соответственно, связанных с каждым из векторов кодовой книги параметров голосового тракта подпространств малой размерности сигналов кодовой книги векторов сигналов возбуждения.The essence of the proposed method is as follows. When analyzing a segment of a speech signal on the transmitting side, a vector of parameters is calculated that describes the transfer function of the voice path and the vector of the linear prediction error signal. The vector data is used for training (constructing) the codebook of the vectors of the parameters of the voice path and, accordingly, associated with each of the vectors of the codebook of the parameters of the voice path of the subspaces of the small dimension of the signals of the codebook of the vectors of the excitation signals.

Процедуры выделения и анализа сегмента речевого сигнала и формирования векторов коэффициентов линейного предсказания и сигнала ошибки линейного предсказания, достаточно подробно описана в (Солонина А.И., Улахович Д.А., Арбузов С.М., Соловьева Е.Б., Основы цифровой обработки сигналов: Курс лекций. - СПб.: БХВ - Петербург, 2003. - С. 425-446). Описание формирования и приема кадра передачи представлено в (Быков С.В., Журавлев В.И., Шалимов И.А. Цифровая телефония: Учеб. пособие для вузов. - М.: Радио и связь, 2003. - С. 79-87). Создание кодовых книг для реализации процедуры векторного квантования параметров элементов декомпозиции речевого сигнала при линейном предсказании представлено в (Макхоул Д., Рукос С., Гиш Г. Векторное квантование при кодировании речи. // ТИИЭР. - 1985. - Т. 73. - №11. - С. 19-61.). Нахождение статистических взаимосвязей между различными множествами достаточно подробно представлено в (С.А. Айвазян, И.С. Енюков, Л.Д. Мешалкин Прикладная статистика: Исследование зависимостей: Справ. Изд. / Под ред. С.А. Айвазяна. - М.: Финансы и статистика, 1985. - 487 С.). Анализ и синтез речевого сигнала на основе процедуры линейного предсказания подробно рассмотрен в (Маркел Дж. Д., Грэй А.X. Линейное предсказание речи - М.: Связь, 1980 - С. 95-126).The procedures for isolating and analyzing a segment of a speech signal and forming vectors of linear prediction coefficients and a linear prediction error signal are described in sufficient detail in (Solonina A.I., Ulakhovich D.A., Arbuzov S.M., Solovieva E.B., Digital Basics Signal Processing: Lecture Course. - St. Petersburg: BHV - Petersburg, 2003. - P. 425-446). A description of the formation and reception of the transmission frame is presented in (Bykov S.V., Zhuravlev V.I., Shalimov I.A. Digital Telephony: Textbook for universities. - M.: Radio and Communications, 2003. - P. 79- 87). The creation of code books for the implementation of the vector quantization procedure for the parameters of speech signal decomposition elements in linear prediction is presented in (Makhol D., Rukos S., Gish G. Vector quantization in speech coding. // TIIER. - 1985. - T. 73. - No. 11. - S. 19-61.). Finding the statistical relationships between different sets is presented in sufficient detail in (S.A. Ayvazyan, I.S. Enyukov, L.D. Meshalkin Applied Statistics: Dependency Research: Reference Publishing House / Edited by S.A. Ayvazyan. - M .: Finance and statistics, 1985. - 487 S.). Analysis and synthesis of a speech signal based on the linear prediction procedure is considered in detail in (Markel J.D., Gray A.X. Linear Prediction of Speech - M .: Communication, 1980 - S. 95-126).

Заявленное техническое решение поясняется чертежом (фиг. 4), на котором показана функциональная схема устройства, реализующего способ низкоскоростного кодирования и декодирования речевого сигнала посредством использования взаимозависимости элементов декомпозиции речевого сигнала при линейном предсказании речи.The claimed technical solution is illustrated by the drawing (Fig. 4), which shows a functional diagram of a device that implements a method of low-speed encoding and decoding of a speech signal by using the interdependence of the elements of the decomposition of the speech signal with linear speech prediction.

Промышленная применимость введенных элементов обусловлена наличием элементной базы, на основе которой они могут быть выполнены с достижением указанного в изобретении назначения.The industrial applicability of the introduced elements is due to the presence of the element base, on the basis of which they can be performed to achieve the destination specified in the invention.

Устройство, реализующее данный способ, состоит из блока анализа сегмента речевого сигнала и формирования векторов коэффициентов линейного предсказания и сигнала ошибки линейного предсказания 1, который соединен с блоком идентификации подпространства векторов сигнала возбуждения 2 и со вторым входом блока формирования кадра передачи 3. Выход блока 2 соединен с первым входом блока 3. На вход блока приема кадра передачи 4 поступает сигнал с выхода блока 3. Сигнал с выхода блока 4 подается на блок формирования сигнала возбуждения 5. Данный блок соединен с блоком синтеза речевого сигнала 6. На другой вход блока 6 поступает сигнал от блока 4.A device that implements this method consists of a block for analyzing a segment of a speech signal and generating linear prediction coefficient vectors and a linear prediction error signal 1, which is connected to the subspace identification unit of the excitation signal vectors 2 and to the second input of the transmission frame forming unit 3. The output of block 2 is connected with the first input of block 3. The input from the block of the transmission frame 4 receives a signal from the output of block 3. The signal from the output of block 4 is fed to the block for generating the excitation signal 5. This block connected to the block synthesis of the speech signal 6. At the other input of block 6 receives a signal from block 4.

Процедура анализа сегмента речевого сигнала и формирования векторов коэффициентов линейного предсказания и сигнала ошибки линейного предсказания, выполняемая в блоке 1, достаточно подробно описана в (Солонина А.И., Улахович Д.А., Арбузов С.М., Соловьева Е.Б., Основы цифровой обработки сигналов: Курс лекций. - СПб.: БХВ - Петербург, 2003. - с. 425-446). Нахождение статистических взаимосвязей между различными множествами, применяемая в блоке 2, представлено в (С.А. Айвазян, И.С. Енюков, Л.Д. Мешалкин Прикладная статистика: Исследование зависимостей: Справ. Изд. / Под ред. С.А. Айвазяна. - М.: Финансы и статистика, 1985 - 487 С.). Описание формирования и приема кадра передачи, выполняемые блоками 3 и 4 представлено в (Быков С.В., Журавлев В.И., Шалимов И.А. Цифровая телефония: Учеб. пособие для вузов. - М.: Радио и связь, 2003. - С. 79-87). Механизм нахождения вектора сигнала возбуждения в блоке 5 представлен в (Макхоул Д., Рукос С., Гиш Г. Векторное квантование при кодировании речи. // ТИИЭР. - 1985. - Т. 73. - №11. - С. 19-61.). Синтез речевого сигнала, осуществляемый в блоке 6, подробно рассмотрен в (Маркел Дж. Д., Грэй А.X. Линейное предсказание речи. - М.: Связь, 1980. - С. 95-126).The procedure for analyzing a segment of a speech signal and generating vectors of linear prediction coefficients and a linear prediction error signal, performed in block 1, is described in sufficient detail in (Solonina A.I., Ulakhovich D.A., Arbuzov S.M., Solovieva E.B. , Fundamentals of Digital Signal Processing: Lecture Course. - SPb .: BHV - Petersburg, 2003. - p. 425-446). Finding statistical relationships between different sets, used in block 2, is presented in (S.A. Ayvazyan, I.S. Enyukov, L.D. Meshalkin Applied Statistics: Dependency Studies: Ref. Ed. / Ed. S.A. Ayvazyan. - M.: Finance and Statistics, 1985 - 487 S.). A description of the formation and reception of the transmission frame performed by blocks 3 and 4 is presented in (Bykov S.V., Zhuravlev V.I., Shalimov I.A. Digital Telephony: Textbook for Universities. - M.: Radio and Communications, 2003 . - S. 79-87). The mechanism for finding the excitation signal vector in block 5 is presented in (McHole D., Rukos S., Guiche G. Vector quantization in speech coding. // TIIER. - 1985. - T. 73. - No. 11. - P. 19-61 .). The synthesis of the speech signal, carried out in block 6, is considered in detail in (Markel J.D., Gray A.X. Linear Prediction of Speech. - M .: Communication, 1980. - P. 95-126).

Устройство, реализующее заявленный способ, работает следующим образом. Сегмент речевого сигнала поступает на блок 1, в котором происходит его анализ и формирование векторов сигналов ошибки линейного предсказания и коэффициентов линейного предсказания. Выделенные параметры с блока 1 поступают на блок 2, в котором осуществляется идентификация подпространства векторов сигнала возбуждения, а также на блок формирования кадра передачи 3. Параметры, характеризующие соответствующий кластер векторов коэффициентов линейного предсказания и сигнала возбуждения, объединяются с коэффициентом усиления в блоке формирования кадра передачи 3. Данный сигнал поступает на блок приема кадра передачи 4, в котором происходит выделение информационной составляющей, описывающей вектор коэффициентов линейного предсказания. Информация о номере необходимого кластера поступает на блок 5, который осуществляет идентификацию вектора сигнала возбуждения для синтезирующего фильтра приемной части вокодера с линейным предсказанием. В блоке синтеза речевого сигнала 6 происходит формирование речевого сигнала по данным о сигнале возбуждения, поступающим от блока 5, коэффициентам линейного предсказания и дополнительным параметрам, поступающим от блока 4, для формирования речевого сигнала.A device that implements the claimed method works as follows. The segment of the speech signal arrives at block 1, in which it is analyzed and the formation of the vectors of the linear prediction error signals and linear prediction coefficients takes place. The extracted parameters from block 1 go to block 2, in which the subspace of the excitation signal vectors is identified, as well as to the transmission frame forming unit 3. The parameters characterizing the corresponding cluster of linear prediction coefficient vectors and the excitation signal are combined with the gain in the transmission frame forming unit 3. This signal is fed to the reception unit of the transmission frame 4, in which the information component that describes the vector of coefficients is linearly extracted of prediction. Information about the number of the necessary cluster is sent to block 5, which identifies the excitation signal vector for the synthesis filter of the receiving part of the vocoder with linear prediction. In the block of synthesis of the speech signal 6, the formation of the speech signal according to the data on the excitation signal coming from the block 5, the linear prediction coefficients and additional parameters coming from the block 4, for the formation of the speech signal.

К достоинствам способа следует отнести тот факт, что отказ от использования статистического усреднения подпространства сигналов возбуждения, связанного с вектором параметров голосового тракта, до единственного, определяемого обученной нейросетью в качестве наиболее вероятного кандидата, и переход к формированию подпространств векторов сигналов возбуждения малой мощности дает возможность повысить качественные показатели синтезированной речи при выполнении ограничений на скорость передачи в канале связи.The advantages of the method include the fact that the refusal to use statistical averaging of the subspace of excitation signals associated with the vector of parameters of the vocal tract to the only one defined by the trained neural network as the most likely candidate, and the transition to the formation of subspaces of vectors of low-power excitation signals makes it possible to increase qualitative indicators of synthesized speech when fulfilling restrictions on the transmission speed in the communication channel.

Для оценки достижения технического результата изобретения использовались методика и соответствующие тестовые фразы, представленные в (ГОСТ Р 51061-97. Системы низкоскоростной передачи речи по цифровым каналам. Параметры качества речи и методы испытаний. - М.: Госстандарт России, 1997. - 230 с). Данные фразы в полной мере характеризуют русскую речь и полностью описывают ее статистические и параметрические особенности. Возраст дикторов также выбирался в соответствии с рекомендациями ГОСТ Р 51061-97. Проведенное тестирование показало, что применение предлагаемого технического решения для повышения качества синтезированной речи в вокодерах с линейным предсказанием позволяет улучшить субъективное качество восприятия синтезированной речи в среднем на 0,5 балла. При этом отмечалось улучшение частных показателей разборчивости, естественности ее звучания и узнаваемости говорящего. Также применение предлагаемого способа дает возможность перераспределить информационный ресурс, предоставляемый каналом связи, на формирование дополнительных сервисов абонентского обслуживания, без значительного ухудшения качественных показателей синтезированной речи.To assess the achievement of the technical result of the invention, we used the methodology and the corresponding test phrases presented in (GOST R 51061-97. Systems of low-speed voice transmission through digital channels. Speech quality parameters and test methods. - M .: Gosstandart of Russia, 1997. - 230 s) . These phrases fully characterize Russian speech and fully describe its statistical and parametric features. The age of the speakers was also chosen in accordance with the recommendations of GOST R 51061-97. Testing showed that the use of the proposed technical solution to improve the quality of synthesized speech in vocoders with linear prediction can improve the subjective quality of perception of synthesized speech by an average of 0.5 points. At the same time, an improvement was noted in particular indicators of intelligibility, the naturalness of its sound, and the recognition of the speaker. Also, the application of the proposed method makes it possible to redistribute the information resource provided by the communication channel to the formation of additional subscription services without significant deterioration in the quality of synthesized speech.

Приведенные технические решения показывают, что изобретение при его осуществлении, способно обеспечить более качественную обработку речевого сигнала за счет учета объективно существующих взаимозависимостей элементов декомпозиции речевого сигнала при реализации вокодеров на основе линейного предсказания.The above technical solutions show that the invention, when implemented, is capable of providing better speech signal processing by taking into account objectively existing interdependencies of speech signal decomposition elements when implementing vocoders based on linear prediction.

Claims (1)

Способ низкоскоростного кодирования и декодирования речевого сигнала, в котором формирование сигнала возбуждения реализуют путем использования параметров синтезирующего фильтра, отличающийся тем, что поиск вектора кандидата сигнала возбуждения осуществляют на основе векторного квантования с использованием процедуры анализа через синтез на заранее обученных кодовых книгах малой размерности статистически связанных с исходным вектором параметров, описывающих состояние голосового тракта, причем по каналу связи передают индекс вектора параметров голосового тракта, индекс вектора подпространства кодовой книги малой размерности сигнала возбуждения, статистически связанный с вектором параметров голосового тракта, и соответствующий масштабирующий коэффициент сигнала возбуждения, по которым на приеме синтезируют речевой сигнал.A method of low-speed encoding and decoding of a speech signal, in which the excitation signal is generated using the parameters of a synthesizing filter, characterized in that the search for the candidate signal vector of excitation is carried out on the basis of vector quantization using the analysis procedure through synthesis on pre-trained low-dimensional codebooks that are statistically related to the initial vector of parameters describing the state of the voice tract, and the vect index is transmitted over the communication channel pa vocal tract parameter vector index subspace codebook excitation signal of low dimension are statistically associated with the vocal tract parameter vector and an appropriate scaling factor of the excitation signal for which the reception synthesized speech signal.
RU2015127496A 2015-07-08 2015-07-08 Method of low-speed coding and decoding speech signal RU2631968C2 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
RU2015127496A RU2631968C2 (en) 2015-07-08 2015-07-08 Method of low-speed coding and decoding speech signal

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
RU2015127496A RU2631968C2 (en) 2015-07-08 2015-07-08 Method of low-speed coding and decoding speech signal

Publications (2)

Publication Number Publication Date
RU2015127496A RU2015127496A (en) 2017-01-13
RU2631968C2 true RU2631968C2 (en) 2017-09-29

Family

ID=58449248

Family Applications (1)

Application Number Title Priority Date Filing Date
RU2015127496A RU2631968C2 (en) 2015-07-08 2015-07-08 Method of low-speed coding and decoding speech signal

Country Status (1)

Country Link
RU (1) RU2631968C2 (en)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
RU2801621C1 (en) * 2023-04-14 2023-08-11 Общество с ограниченной ответственностью "Специальный Технологический Центр" (ООО "СТЦ") Method for transcribing speech from digital signals with low-rate coding

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5963897A (en) * 1998-02-27 1999-10-05 Lernout & Hauspie Speech Products N.V. Apparatus and method for hybrid excited linear prediction speech encoding
RU2163399C2 (en) * 1995-03-22 2001-02-20 Телефонактиеболагет Лм Эрикссон Linear predictive speech coder using analysis through synthesis
US20010029448A1 (en) * 1996-11-07 2001-10-11 Matsushita Electric Industrial Co., Ltd. Excitation vector generator, speech coder and speech decoder
US20020123888A1 (en) * 2000-09-15 2002-09-05 Conexant Systems, Inc. System for an adaptive excitation pattern for speech coding
US20040024597A1 (en) * 2002-07-30 2004-02-05 Victor Adut Regular-pulse excitation speech coder
RU2495504C1 (en) * 2012-06-25 2013-10-10 Государственное казенное образовательное учреждение высшего профессионального образования Академия Федеральной службы охраны Российской Федерации (Академия ФСО России) Method of reducing transmission rate of linear prediction low bit rate voders

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
RU2163399C2 (en) * 1995-03-22 2001-02-20 Телефонактиеболагет Лм Эрикссон Linear predictive speech coder using analysis through synthesis
US20010029448A1 (en) * 1996-11-07 2001-10-11 Matsushita Electric Industrial Co., Ltd. Excitation vector generator, speech coder and speech decoder
US5963897A (en) * 1998-02-27 1999-10-05 Lernout & Hauspie Speech Products N.V. Apparatus and method for hybrid excited linear prediction speech encoding
US20020123888A1 (en) * 2000-09-15 2002-09-05 Conexant Systems, Inc. System for an adaptive excitation pattern for speech coding
US20040024597A1 (en) * 2002-07-30 2004-02-05 Victor Adut Regular-pulse excitation speech coder
RU2495504C1 (en) * 2012-06-25 2013-10-10 Государственное казенное образовательное учреждение высшего профессионального образования Академия Федеральной службы охраны Российской Федерации (Академия ФСО России) Method of reducing transmission rate of linear prediction low bit rate voders

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
RU2801621C1 (en) * 2023-04-14 2023-08-11 Общество с ограниченной ответственностью "Специальный Технологический Центр" (ООО "СТЦ") Method for transcribing speech from digital signals with low-rate coding

Also Published As

Publication number Publication date
RU2015127496A (en) 2017-01-13

Similar Documents

Publication Publication Date Title
Défossez et al. High fidelity neural audio compression
EP1995723B1 (en) Neuroevolution training system
Zhen et al. Cascaded cross-module residual learning towards lightweight end-to-end speech coding
US20220223161A1 (en) Audio Decoder, Apparatus for Determining a Set of Values Defining Characteristics of a Filter, Methods for Providing a Decoded Audio Representation, Methods for Determining a Set of Values Defining Characteristics of a Filter and Computer Program
JP6860901B2 (en) Learning device, speech synthesis system and speech synthesis method
AU2014295167A1 (en) In an reduction of comb filter artifacts in multi-channel downmix with adaptive phase alignment
CN113574597B (en) Apparatus and method for source separation using estimation and control of sound quality
JPWO2007088853A1 (en) Speech coding apparatus, speech decoding apparatus, speech coding system, speech coding method, and speech decoding method
Mohammadiha et al. Nonnegative HMM for babble noise derived from speech HMM: Application to speech enhancement
RU2744485C1 (en) Noise reduction in the decoder
KR20240022588A (en) Compress audio waveforms using neural networks and vector quantizers
Fejgin et al. Source coding of audio signals with a generative model
EP3544005A1 (en) Audio encoder, audio decoder, audio encoding method and audio decoding method for dithered quantization for frequency-domain speech and audio coding
EP3293735A1 (en) Method for encoding signals, method for separating signals in a mixture, corresponding computer program products, devices and bitstream
RU2631968C2 (en) Method of low-speed coding and decoding speech signal
RU2495504C1 (en) Method of reducing transmission rate of linear prediction low bit rate voders
US20150149161A1 (en) Method and Arrangement for Scalable Low-Complexity Coding/Decoding
Yao et al. Variational speech waveform compression to catalyze semantic communications
Lee et al. KLT-based adaptive entropy-constrained quantization with universal arithmetic coding
CN102436822A (en) Signal control device and method
US20230186926A1 (en) Machine learning-based key generation for key-guided audio signal transformation
Kırbız et al. Perceptual coding-based informed source separation
Mansali et al. Speech Localization at Low Bitrates in Wireless Acoustics Sensor Networks
Brendel et al. Simple and Efficient Quantization Techniques for Neural Speech Coding
Kleijn Principles of speech coding

Legal Events

Date Code Title Description
MM4A The patent is invalid due to non-payment of fees

Effective date: 20171023