RU2631968C2 - Method of low-speed coding and decoding speech signal - Google Patents
Method of low-speed coding and decoding speech signal Download PDFInfo
- Publication number
- RU2631968C2 RU2631968C2 RU2015127496A RU2015127496A RU2631968C2 RU 2631968 C2 RU2631968 C2 RU 2631968C2 RU 2015127496 A RU2015127496 A RU 2015127496A RU 2015127496 A RU2015127496 A RU 2015127496A RU 2631968 C2 RU2631968 C2 RU 2631968C2
- Authority
- RU
- Russia
- Prior art keywords
- signal
- vector
- speech signal
- speech
- linear prediction
- Prior art date
Links
- 238000000034 method Methods 0.000 title claims abstract description 36
- 239000013598 vector Substances 0.000 claims abstract description 54
- 230000005284 excitation Effects 0.000 claims abstract description 44
- 230000015572 biosynthetic process Effects 0.000 claims abstract description 22
- 238000004891 communication Methods 0.000 claims abstract description 22
- 238000003786 synthesis reaction Methods 0.000 claims abstract description 15
- 238000013139 quantization Methods 0.000 claims abstract description 7
- 230000001755 vocal effect Effects 0.000 claims abstract description 6
- 230000002194 synthesizing effect Effects 0.000 claims description 5
- 238000012546 transfer Methods 0.000 abstract description 9
- 230000000694 effects Effects 0.000 abstract 1
- 239000000126 substance Substances 0.000 abstract 1
- 230000005540 biological transmission Effects 0.000 description 17
- 238000012545 processing Methods 0.000 description 11
- 230000006870 function Effects 0.000 description 7
- 238000010183 spectrum analysis Methods 0.000 description 6
- 238000000354 decomposition reaction Methods 0.000 description 5
- 238000013528 artificial neural network Methods 0.000 description 4
- 238000009472 formulation Methods 0.000 description 3
- 239000000203 mixture Substances 0.000 description 3
- 238000012935 Averaging Methods 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 239000006185 dispersion Substances 0.000 description 2
- 230000008569 process Effects 0.000 description 2
- 238000005070 sampling Methods 0.000 description 2
- 238000012360 testing method Methods 0.000 description 2
- 238000013459 approach Methods 0.000 description 1
- 230000006866 deterioration Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 239000000284 extract Substances 0.000 description 1
- 230000014509 gene expression Effects 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 238000013178 mathematical model Methods 0.000 description 1
- 239000011159 matrix material Substances 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 230000008447 perception Effects 0.000 description 1
- 230000000306 recurrent effect Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 230000004044 response Effects 0.000 description 1
- 230000003595 spectral effect Effects 0.000 description 1
- 238000013179 statistical model Methods 0.000 description 1
- 238000010998 test method Methods 0.000 description 1
- 238000012549 training Methods 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
- 238000000844 transformation Methods 0.000 description 1
- 230000007704 transition Effects 0.000 description 1
- 230000002087 whitening effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/04—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
- G10L19/08—Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Signal Processing (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Compression, Expansion, Code Conversion, And Decoders (AREA)
- Transmission Systems Not Characterized By The Medium Used For Transmission (AREA)
Abstract
Description
Изобретение относится к области цифровой связи, а именно к технике обработки речи на основе процедуры линейного предсказания и может быть использовано в системах инфокоммуникаций для низкоскоростного кодирования речевых сигналов.The invention relates to the field of digital communications, and in particular, to a speech processing technique based on a linear prediction procedure and can be used in infocommunication systems for low-speed encoding of speech signals.
При цифровой обработке речевых сигналов эффективное кодирование речи с целью ее дальнейшей передаче по цифровым каналам связи является одной из основополагающих задач. Ее решение позволяет увеличить пропускную способность линейных трактов и каналов передачи при заданных критериях качества связи. Одним из принципов построения систем обработки и передачи речи выступает повышение качественных показателей синтезированной речи при ограничениях на скорость передачи речевого сигнала.In the digital processing of speech signals, effective coding of speech for the purpose of its further transmission through digital communication channels is one of the fundamental tasks. Its solution allows to increase the throughput of linear paths and transmission channels for given criteria for the quality of communication. One of the principles for constructing speech processing and transmission systems is to increase the quality of synthesized speech with restrictions on the speed of the speech signal.
Большинство известных способов кодирования речевых сигналов основано на методе линейного предсказания с моделью речевого сигнала в виде отклика линейной системы с переменными параметрами (голосового тракта) на соответствующий сигнал возбуждения (порождающий сигнал). При этом анализатор речепреобразующего устройства выделяет из короткого сегмента речевого сигнала параметры состояния линейной системы и сигнала возбуждения, позволяющие синтезатору восстановить исходный сигнал с требуемой степенью верности.Most known methods for encoding speech signals are based on the linear prediction method with a model of the speech signal in the form of a response of a linear system with variable parameters (voice path) to the corresponding excitation signal (generating signal). At the same time, the analyzer of the speech-converting device extracts the state parameters of the linear system and the excitation signal from the short segment of the speech signal, allowing the synthesizer to restore the original signal with the required degree of fidelity.
Известны способы обработки речевых сигналов в вокодерах с линейным предсказанием, основанные на анализе сигнала ошибки линейного предсказания (Маркел Дж. Д., Грэй А.X. Линейное предсказание речи. - М.: Связь, 1980. - С. 258-276; Рабинер Л.Р., Шафер Р.В. Цифровая обработка речевых сигналов. - М.: Радио и связь, 1981. - С. 365-428; О.И. Шелухин, Н.Ф. Лукьянцев Цифровая обработка и передача речи. - М., Радио и связь, 2000. - С. 102-166).Known methods for processing speech signals in vocoders with linear prediction, based on the analysis of the error signal of linear prediction (Markel J. D., Gray A.X. Linear speech prediction. - M .: Communication, 1980. - S. 258-276; Rabiner LR, Shafer RV Digital processing of speech signals. - M .: Radio and communications, 1981. - P. 365-428; OI Shelukhin, NF Lukyantsev Digital processing and transmission of speech .-- M., Radio and communications, 2000 .-- S. 102-166).
В устройствах, реализующих данные способы, осуществляется анализ сигнала ошибки линейного предсказания с целью генерации сигналов возбуждения фильтра - синтезатора. Известно, что сигнал остатка предсказания является наилучшим сигналом возбуждения синтезирующего фильтра линейного предсказания. (Прохоров Ю.Н. Статистические модели и рекуррентное предсказание речевых сигналов. - М.: Радио и связь, 1984. - С. 172-182). При этом по каналу связи передается информация о коэффициентах формирующей модели и параметрах, характеризующих сигнал возбуждения и кодируемый речевой сигнал.In devices that implement these methods, the analysis of the linear prediction error signal is carried out in order to generate filter-synthesizer excitation signals. It is known that a prediction residual signal is the best excitation signal of a linear prediction synthesizing filter. (Prokhorov Yu.N. Statistical models and recurrent prediction of speech signals. - M.: Radio and communications, 1984. - S. 172-182). In this case, information on the coefficients of the forming model and the parameters characterizing the excitation signal and the encoded speech signal is transmitted through the communication channel.
Для эффективного представления сигнала возбуждения в таких устройствах используются различные способы снижения информативной избыточности данных последовательностей (патенты US №7289952 от 30.10.2007, US №7233896 от 10.07.2007, US №7133823 от 7.11.2006, US №5963897 от 5.10.1999, US №6757650 от 29.06.2004, RU №2163399 от 22.10.1997, RU №97117357 от 20.02.2001).To effectively present the excitation signal in such devices, various methods are used to reduce the informative redundancy of these sequences (US patents No. 7289952 dated 10/30/2007, US No. 7233896 dated July 10, 2007, US No. 7133823 dated November 7, 2006, US No. 5963897 dated October 5, 1999, US No. 6757650 dated June 29, 2004, RU No. 2133399 dated October 22, 1997, RU No. 97117357 dated February 20, 2001).
Недостатком данных способов является значительное расходование информационного ресурса на представление сигнала возбуждения при его передаче по каналу связи, и, следовательно, относительно высокая скорость передачи данных по каналам связи при эффективном кодировании речи.The disadvantage of these methods is the significant expenditure of information resource on the presentation of the excitation signal when it is transmitted over the communication channel, and, therefore, the relatively high speed of data transmission over communication channels with effective speech coding.
Наиболее близким по технической сущности к заявленному изобретению является патент RU №2495504 от 10.10.2013 г., в котором для снижения скорости передачи в вокодерах с линейным предсказанием предлагается формирование сигнала возбуждения на приеме, для чего из кадра передачи выделяют параметры, описывающие передаточную функцию голосового тракта. Также используются значения коэффициента усиления сигнала возбуждения и данных, характеризующих кодируемый речевой сигнал, по которым при помощи обученной нейронной сети идентифицируют сигнал ошибки линейного предсказания, который является сигналом возбуждения, и используют его в синтезирующем фильтре вокодера с линейным предсказанием для формирования сегмента речевого сигнала на участке квазистационарности.The closest in technical essence to the claimed invention is patent RU No. 2495504 dated 10.10.2013, in which to reduce the transmission speed in vocoders with linear prediction, it is proposed to generate an excitation signal at the reception, for which parameters are described from the transmission frame that describe the voice transfer function tract. The values of the gain of the excitation signal and the data characterizing the encoded speech signal are also used, according to which, using a trained neural network, a linear prediction error signal, which is an excitation signal, is identified and used in a linear prediction synthesizer filter to form a segment of the speech signal in the section quasistationarity.
Недостатком данного способа является невысокое качество синтезированного речевого сигнала, что объясняется отсутствием при восстановлении оригинального сигнала возбуждения и статистическим усреднением подпространства сигналов возбуждения, связанного с вектором параметров голосового тракта до единственного, определяемого обученной нейросетью в качестве наиболее вероятного кандидата, при этом используются алгоритмы обучения нейросети и идентификации вектора сигнала возбуждения, имеющие достаточно высокую вычислительную сложность.The disadvantage of this method is the low quality of the synthesized speech signal, which is explained by the lack of restoration of the original excitation signal and the statistical averaging of the subspace of excitation signals associated with the vector of voice path parameters to the only one determined by the trained neural network as the most likely candidate, using neural network learning algorithms and identification of the excitation signal vector having a sufficiently high computational complexity mb.
Задачей изобретения является разработка способа низкоскоростного кодирования и декодирования речевого сигнала, позволяющего повысить качество синтезированного речевого сигнала в низкоскоростном вокодере с линейным предсказанием при ограничениях на скорость передачи данных.The objective of the invention is to develop a method for low-speed encoding and decoding of a speech signal, which allows to improve the quality of the synthesized speech signal in a low-speed vocoder with linear prediction with restrictions on the data rate.
Эта задача решается тем, что в способе низкоскоростного кодирования и декодирования речевого сигнала формирование сигнала возбуждения реализуется путем использования параметров синтезирующего фильтра, отличающийся тем, что поиск вектора кандидата сигнала возбуждения осуществляют на основе векторного квантования с использованием процедуры анализа через синтез на заранее обученных кодовых книгах малой размерности статистически связанных с исходным вектором параметров описывающим состояние голосового тракта. По каналу связи передается индекс вектора параметров голосового тракта, индекс вектора подпространства кодовой книги малой размерности параметров сигнала возбуждения, статистически связанного с вектором параметров голосового тракта, и соответствующий масштабирующий коэффициент сигнала возбуждения, по которым на приеме синтезируют речевой сигнал.This problem is solved in that in the method of low-speed encoding and decoding of a speech signal, the generation of the excitation signal is realized by using the parameters of a synthesizing filter, characterized in that the search for the candidate signal vector of the excitation signal is carried out on the basis of vector quantization using the synthesis analysis procedure on pre-trained small code books dimensions of statistically related to the initial parameter vector describing the state of the vocal tract. The index channel of the voice path parameter vector, the subscript vector index of the codebook small dimension of the parameters of the excitation signal statistically associated with the vector of the parameters of the voice path, and the corresponding scaling factor of the excitation signal, by which the speech signal is synthesized, are transmitted through the communication channel.
Проведенный анализ уровня техники позволил установить, что аналоги, характеризующиеся совокупностью признаков, тождественных всем признакам заявленного технического решения, отсутствуют, что указывает на соответствие изобретения условию патентоспособности «новизна».The analysis of the prior art made it possible to establish that analogues that are characterized by a combination of features that are identical to all the features of the claimed technical solution are absent, which indicates compliance of the invention with the condition of patentability “novelty”.
Благодаря новой совокупности существенных признаков системы, обеспечивающих поиск вектора кандидата сигнала возбуждения на основе векторного квантования с использованием процедуры анализа через синтез на заранее обученных кодовых книгах малой размерности статистически связанных с исходным вектором параметров, описывающим состояние голосового тракта, далее передаче по каналу связи индекса вектора параметров голосового тракта, индекса вектора подпространства кодовой книги малой размерности параметров сигнала возбуждения, статистически связанного с вектором параметров голосового тракта и соответствующего масштабирующего коэффициента сигнала возбуждения, по которым на приеме синтезируют речевой сигнал, достигается повышение качественных характеристик синтезированного речевого сигнала при выполнении ограничений на скорость передачи данных в канале связи.Thanks to a new set of essential features of the system that provide the search for the candidate vector of the excitation signal based on vector quantization using the analysis procedure through synthesis on pre-trained low-dimensional codebooks that are statistically related to the initial parameter vector describing the state of the voice tract, then transmitting the parameter vector index through the communication channel voice path, subscript of the vector of the subspace of the codebook of a small dimension of the parameters of the excitation signal, statistic associated with the vector of the parameters of the voice path and the corresponding scaling factor of the excitation signal, by which the speech signal is synthesized at the reception, an increase in the quality characteristics of the synthesized speech signal is achieved when the data rate in the communication channel is limited.
Результаты поиска известных решений в данной и смежных областях техники с целью выявления признаков, совпадающих с отличительными от прототипа признаками заявленного объекта, показали, что они не следуют явным образом из уровня техники. Из уровня техники также не выявлена известность влияния предусматриваемых существенными признаками заявленного изобретения преобразований на достижение указанного технического результата. Следовательно, заявленное изобретение соответствует условию патентоспособности «изобретательский уровень».Search results for known solutions in this and related fields of technology in order to identify features that match the distinctive features of the claimed object from the prototype showed that they do not follow explicitly from the prior art. The prior art also did not reveal the popularity of the impact provided by the essential features of the claimed invention, the transformations on the achievement of the specified technical result. Therefore, the claimed invention meets the condition of patentability "inventive step".
Данный подход дает возможность улучшить качественные показатели синтезированной речи при ограничениях на скорость передачи по сравнению с используемым прототипом, что объясняется увеличением мощности подпространства представления векторов сигнала возбуждения, статистически связанных с вектором параметров голосового тракта.This approach makes it possible to improve the quality of synthesized speech with restrictions on the transmission speed compared to the prototype used, which is explained by an increase in the power of the presentation subspace of the excitation signal vectors statistically associated with the vector of the voice path parameters.
Данные статистические зависимости объясняются тем, что в стандартах низкоскоростного кодирования речи используется ограниченный порядок анализирующего и синтезирующего фильтров, что определяется возможностью их физической реализации при необходимой и достаточной точности описания передаточной функции голосового тракта человека.These statistical dependencies are explained by the fact that the standards of low-speed coding of speech use a limited order of analyzing and synthesizing filters, which is determined by the possibility of their physical implementation with the necessary and sufficient accuracy of the description of the transfer function of the human voice tract.
Сущность метода линейного предсказания заключается в том, что выборка речевого сигнала S(n) может быть предсказана линейной комбинацией предшествующих отсчетов этого сигнала:The essence of the linear prediction method is that the sampling of the speech signal S (n) can be predicted by a linear combination of the previous samples of this signal:
где S'(n) - предсказанное значение речевого сигнала;where S '(n) is the predicted value of the speech signal;
а i - весовой коэффициент или коэффициент линейного предсказания; and i is the weighting coefficient or linear prediction coefficient;
М - число коэффициентов или порядок линейного предсказания,M is the number of coefficients or the order of linear prediction,
е(n) - ошибка предсказания.e (n) is the prediction error.
Возникающая при этом ошибка предсказания находится по линейно-разностному уравнению (2), которое описывает функционирование фильтра анализа модели линейного предсказания:The prediction error that occurs in this case is found by the linear-difference equation (2), which describes the operation of the filter of analysis of the linear prediction model:
Задача анализа речевого сигнала методом линейного предсказания заключается в его фильтрации линейной системой с передаточной характеристикой вида:The task of analyzing a speech signal by linear prediction is to filter it by a linear system with a transfer characteristic of the form:
Обратная ей передаточная функция представляет собой фильтр синтеза и определяется соотношениемThe inverse transfer function is a synthesis filter and is determined by the ratio
Теоретическим основополагающим базисом метода линейного предсказания является авторегрессионная модель, успешно применяемая для решения различных задач цифрового спектрального анализа и предполагающая в общем "идеальном" случае бесконечный порядок формирующей системы при возбуждении ее сигналом в виде дискретного белого гауссовского шума (Марпл - мл. С.Л. Цифровой спектральный анализ и его приложения. - М.: Мир, 1990. - С. 216-224).The theoretical underlying basis of the linear prediction method is the autoregressive model, which is successfully used to solve various problems of digital spectral analysis and assumes in the general "ideal" case an infinite order of the forming system when it is excited by a signal in the form of a discrete white Gaussian noise (Marple - ml. S.L. Digital spectral analysis and its applications. - M .: Mir, 1990. - P. 216-224).
Ее идентификация связана с решением системы алгебраических матричных уравнений Юла-Уокера (Марпл - мл. С.Л. Цифровой спектральный анализ и его приложения. - М.: Мир, 1990. - С. 224-227). В классической постановке задачи параметрического цифрового спектрального анализа возбуждение формирующего фильтра осуществляется сигналом u(n), представляющим собой реализации белого шума с математическим ожиданием равным нулю и единичной дисперсией.Its identification is associated with the solution of the Ula-Walker system of algebraic matrix equations (Marple - ml. S.L. Digital spectral analysis and its applications. - M .: Mir, 1990. - P. 224-227). In the classical formulation of the problem of parametric digital spectral analysis, the excitation of the forming filter is carried out by the signal u (n), which is a realization of white noise with a mathematical expectation equal to zero and unit dispersion.
Точность идентификации математической модели исследуемого процесса напрямую связана с выбором величины ее порядка M. В качестве критерия настройки модели в предположении о гауссовском законе распределения исходного процесса используется взвешенная среднеквадратическая ошибка e2(n).The accuracy of identification of the mathematical model of the process under study is directly related to the choice of a value of its order M. As a criterion for setting up the model, under the assumption of a Gaussian law of distribution of the initial process, a weighted mean-square error e 2 (n) is used.
где - вектор оригинального речевого сигнала, - вектор синтезированного речевого сигнала, N - количество отсчетов на сегменте анализа.Where is the vector of the original speech signal, is the vector of the synthesized speech signal, N is the number of samples on the analysis segment.
Применительно к задаче предсказания речи повышение порядка передаточных функций фильтров анализа и синтеза приводит к "обелению" сигнала остатка предсказания.In relation to the problem of speech prediction, increasing the order of the transfer functions of the analysis and synthesis filters leads to the “whitening” of the signal of the prediction residual.
В классической постановке задачи параметрического цифрового спектрального анализа на основе авторегрессионной модели линейное разностное уравнение формирующего фильтра выглядит следующим образом (7):In the classical formulation of the problem of parametric digital spectral analysis based on the autoregressive model, the linear difference equation of the forming filter is as follows (7):
где y(nT) - выходной сигнал, T - интервал дискретизации, {a m} - коэффициенты фильтра, M - порядок фильтра. Его амплитудно-частотная характеристика определяется в виде:where y (nT) is the output signal, T is the sampling interval, { a m } are the filter coefficients, M is the filter order. Its amplitude-frequency characteristic is defined as:
а спектральная плотность мощности:and power spectral density:
где ω - круговая частота дискретного преобразования Фурье.where ω is the circular frequency of the discrete Fourier transform.
Повышение порядка модели в выражениях (1), (2), (3) и (4) приводит к получению более точных оценок относительно анализируемого сигнала . В идеале e2(n)→0 при М→∞.An increase in the order of the model in expressions (1), (2), (3) and (4) leads to more accurate estimates with respect to the analyzed signal . Ideally, e 2 (n) → 0 as M → ∞.
Однако на практике при реализации линейного предсказания значение М всегда ограничено, что приводит к возникновению сигнала e(n), являющегося сигналом возбуждения фильтра синтеза модели линейного предсказания. Таким образом, сигнал e(n) уже не является реализациями белого шума с математическим ожиданием равным нулю и единичной дисперсией, а становится квазидетерминированным относительно множества {a m} и связан с ним соответствующими корреляционными зависимостями.However, in practice, when implementing linear prediction, the value of M is always limited, which leads to the appearance of a signal e (n), which is an excitation signal of the synthesis filter of the linear prediction model. Thus, the signal e (n) is no longer realizations of white noise with the mathematical expectation equal to zero and unit dispersion, but becomes quasideterministic with respect to the set { a m } and is associated with the corresponding correlation dependences.
На фиг. 1 представлена формантная структура речевого сигнала и сигнала остатка линейного предсказания на сегменте предсказания, анализ которого позволяет утверждать о наличии взаимосвязи данных параметров.In FIG. Figure 1 shows the formant structure of the speech signal and the linear prediction residual signal on the prediction segment, the analysis of which allows us to confirm the presence of the relationship of these parameters.
На фиг. 2 показано, что при формировании ограниченных множеств параметров голосового тракта и сигналов возбуждения на основе остатка предсказания в виде кодовых книг данные зависимости вырождаются в соответствующие классы подпространств соответствий между собой и определяют элементы декомпозиции речевого сигнала.In FIG. 2 shows that when forming limited sets of voice path parameters and excitation signals based on the remainder of the prediction in the form of code books, these dependences degenerate into the corresponding classes of subspaces of correspondences with each other and determine the elements of the decomposition of the speech signal.
Блок-схема алгоритма функционирования предложенной системы, реализующей способ низкоскоростного кодирования и декодирования речевого сигнала, представлена на фиг. 3.A block diagram of the functioning algorithm of the proposed system that implements the method of low-speed encoding and decoding of a speech signal is shown in FIG. 3.
На практике во многих стандартах низкоскоростного речевого кодирования на основе метода линейного предсказания используется векторное представление параметров, описывающих передаточную функцию голосового тракта и соответствующего им сигнала возбуждения , которые находятся с использованием процедуры анализа через синтез. Мощности пространств представлений параметров и в общем случае различны и определяются особенностями применения того или иного стандарта. Ограничение порядка фильтров анализа и синтеза и векторный характер пары параметров , найденной с использованием процедуры анализа через синтез, приводит к возникновению взаимозависимостей между значениями и , что дает возможность упростить задачу построения системы обработки речи данного класса.In practice, in many standards of low-speed speech coding based on the linear prediction method, a vector representation of the parameters describing the transfer function of the voice path is used and their corresponding excitation signal that are found using a synthesis analysis procedure. Capacities of parameter representation spaces and in general, they are different and are determined by the features of the application of a standard. Restriction of the order of analysis and synthesis filters and vector character of a pair of parameters found using the analysis procedure through synthesis leads to the emergence of interdependencies between the values and , which makes it possible to simplify the task of constructing a speech processing system of this class.
Присутствие таких зависимостей между элементами декомпозиции речевого сигнала, описывающими передаточную функцию голосового тракта и соответствующего сигнала возбуждения, объясняется особенностями постановки и решения обратной задачи цифрового спектрального анализа при фиксированном порядке формирующего фильтра.The presence of such dependencies between the elements of the decomposition of the speech signal describing the transfer function of the voice path and the corresponding excitation signal is explained by the peculiarities of the formulation and solution of the inverse problem of digital spectral analysis with a fixed order of the forming filter.
Учет данной зависимости при построении системы обработки речевого сигнала дает возможность существенно уменьшить мощность векторного подпространства представления сигналов возбуждения синтезирующего фильтра, связанного с вектором параметров голосового тракта.Taking this dependence into account when constructing the speech signal processing system makes it possible to significantly reduce the power of the vector subspace of the presentation of the excitation signals of the synthesizing filter associated with the vector of the voice tract parameters.
Сущность предлагаемого способа заключается в следующем. При анализе сегмента речевого сигнала на передающей стороне вычисляются вектор параметров, описывающих передаточную функцию голосового тракта и вектор сигнала ошибки линейного предсказания. Данные вектора используют для обучения (построения) кодовой книги векторов параметров голосового тракта и, соответственно, связанных с каждым из векторов кодовой книги параметров голосового тракта подпространств малой размерности сигналов кодовой книги векторов сигналов возбуждения.The essence of the proposed method is as follows. When analyzing a segment of a speech signal on the transmitting side, a vector of parameters is calculated that describes the transfer function of the voice path and the vector of the linear prediction error signal. The vector data is used for training (constructing) the codebook of the vectors of the parameters of the voice path and, accordingly, associated with each of the vectors of the codebook of the parameters of the voice path of the subspaces of the small dimension of the signals of the codebook of the vectors of the excitation signals.
Процедуры выделения и анализа сегмента речевого сигнала и формирования векторов коэффициентов линейного предсказания и сигнала ошибки линейного предсказания, достаточно подробно описана в (Солонина А.И., Улахович Д.А., Арбузов С.М., Соловьева Е.Б., Основы цифровой обработки сигналов: Курс лекций. - СПб.: БХВ - Петербург, 2003. - С. 425-446). Описание формирования и приема кадра передачи представлено в (Быков С.В., Журавлев В.И., Шалимов И.А. Цифровая телефония: Учеб. пособие для вузов. - М.: Радио и связь, 2003. - С. 79-87). Создание кодовых книг для реализации процедуры векторного квантования параметров элементов декомпозиции речевого сигнала при линейном предсказании представлено в (Макхоул Д., Рукос С., Гиш Г. Векторное квантование при кодировании речи. // ТИИЭР. - 1985. - Т. 73. - №11. - С. 19-61.). Нахождение статистических взаимосвязей между различными множествами достаточно подробно представлено в (С.А. Айвазян, И.С. Енюков, Л.Д. Мешалкин Прикладная статистика: Исследование зависимостей: Справ. Изд. / Под ред. С.А. Айвазяна. - М.: Финансы и статистика, 1985. - 487 С.). Анализ и синтез речевого сигнала на основе процедуры линейного предсказания подробно рассмотрен в (Маркел Дж. Д., Грэй А.X. Линейное предсказание речи - М.: Связь, 1980 - С. 95-126).The procedures for isolating and analyzing a segment of a speech signal and forming vectors of linear prediction coefficients and a linear prediction error signal are described in sufficient detail in (Solonina A.I., Ulakhovich D.A., Arbuzov S.M., Solovieva E.B., Digital Basics Signal Processing: Lecture Course. - St. Petersburg: BHV - Petersburg, 2003. - P. 425-446). A description of the formation and reception of the transmission frame is presented in (Bykov S.V., Zhuravlev V.I., Shalimov I.A. Digital Telephony: Textbook for universities. - M.: Radio and Communications, 2003. - P. 79- 87). The creation of code books for the implementation of the vector quantization procedure for the parameters of speech signal decomposition elements in linear prediction is presented in (Makhol D., Rukos S., Gish G. Vector quantization in speech coding. // TIIER. - 1985. - T. 73. - No. 11. - S. 19-61.). Finding the statistical relationships between different sets is presented in sufficient detail in (S.A. Ayvazyan, I.S. Enyukov, L.D. Meshalkin Applied Statistics: Dependency Research: Reference Publishing House / Edited by S.A. Ayvazyan. - M .: Finance and statistics, 1985. - 487 S.). Analysis and synthesis of a speech signal based on the linear prediction procedure is considered in detail in (Markel J.D., Gray A.X. Linear Prediction of Speech - M .: Communication, 1980 - S. 95-126).
Заявленное техническое решение поясняется чертежом (фиг. 4), на котором показана функциональная схема устройства, реализующего способ низкоскоростного кодирования и декодирования речевого сигнала посредством использования взаимозависимости элементов декомпозиции речевого сигнала при линейном предсказании речи.The claimed technical solution is illustrated by the drawing (Fig. 4), which shows a functional diagram of a device that implements a method of low-speed encoding and decoding of a speech signal by using the interdependence of the elements of the decomposition of the speech signal with linear speech prediction.
Промышленная применимость введенных элементов обусловлена наличием элементной базы, на основе которой они могут быть выполнены с достижением указанного в изобретении назначения.The industrial applicability of the introduced elements is due to the presence of the element base, on the basis of which they can be performed to achieve the destination specified in the invention.
Устройство, реализующее данный способ, состоит из блока анализа сегмента речевого сигнала и формирования векторов коэффициентов линейного предсказания и сигнала ошибки линейного предсказания 1, который соединен с блоком идентификации подпространства векторов сигнала возбуждения 2 и со вторым входом блока формирования кадра передачи 3. Выход блока 2 соединен с первым входом блока 3. На вход блока приема кадра передачи 4 поступает сигнал с выхода блока 3. Сигнал с выхода блока 4 подается на блок формирования сигнала возбуждения 5. Данный блок соединен с блоком синтеза речевого сигнала 6. На другой вход блока 6 поступает сигнал от блока 4.A device that implements this method consists of a block for analyzing a segment of a speech signal and generating linear prediction coefficient vectors and a linear
Процедура анализа сегмента речевого сигнала и формирования векторов коэффициентов линейного предсказания и сигнала ошибки линейного предсказания, выполняемая в блоке 1, достаточно подробно описана в (Солонина А.И., Улахович Д.А., Арбузов С.М., Соловьева Е.Б., Основы цифровой обработки сигналов: Курс лекций. - СПб.: БХВ - Петербург, 2003. - с. 425-446). Нахождение статистических взаимосвязей между различными множествами, применяемая в блоке 2, представлено в (С.А. Айвазян, И.С. Енюков, Л.Д. Мешалкин Прикладная статистика: Исследование зависимостей: Справ. Изд. / Под ред. С.А. Айвазяна. - М.: Финансы и статистика, 1985 - 487 С.). Описание формирования и приема кадра передачи, выполняемые блоками 3 и 4 представлено в (Быков С.В., Журавлев В.И., Шалимов И.А. Цифровая телефония: Учеб. пособие для вузов. - М.: Радио и связь, 2003. - С. 79-87). Механизм нахождения вектора сигнала возбуждения в блоке 5 представлен в (Макхоул Д., Рукос С., Гиш Г. Векторное квантование при кодировании речи. // ТИИЭР. - 1985. - Т. 73. - №11. - С. 19-61.). Синтез речевого сигнала, осуществляемый в блоке 6, подробно рассмотрен в (Маркел Дж. Д., Грэй А.X. Линейное предсказание речи. - М.: Связь, 1980. - С. 95-126).The procedure for analyzing a segment of a speech signal and generating vectors of linear prediction coefficients and a linear prediction error signal, performed in
Устройство, реализующее заявленный способ, работает следующим образом. Сегмент речевого сигнала поступает на блок 1, в котором происходит его анализ и формирование векторов сигналов ошибки линейного предсказания и коэффициентов линейного предсказания. Выделенные параметры с блока 1 поступают на блок 2, в котором осуществляется идентификация подпространства векторов сигнала возбуждения, а также на блок формирования кадра передачи 3. Параметры, характеризующие соответствующий кластер векторов коэффициентов линейного предсказания и сигнала возбуждения, объединяются с коэффициентом усиления в блоке формирования кадра передачи 3. Данный сигнал поступает на блок приема кадра передачи 4, в котором происходит выделение информационной составляющей, описывающей вектор коэффициентов линейного предсказания. Информация о номере необходимого кластера поступает на блок 5, который осуществляет идентификацию вектора сигнала возбуждения для синтезирующего фильтра приемной части вокодера с линейным предсказанием. В блоке синтеза речевого сигнала 6 происходит формирование речевого сигнала по данным о сигнале возбуждения, поступающим от блока 5, коэффициентам линейного предсказания и дополнительным параметрам, поступающим от блока 4, для формирования речевого сигнала.A device that implements the claimed method works as follows. The segment of the speech signal arrives at
К достоинствам способа следует отнести тот факт, что отказ от использования статистического усреднения подпространства сигналов возбуждения, связанного с вектором параметров голосового тракта, до единственного, определяемого обученной нейросетью в качестве наиболее вероятного кандидата, и переход к формированию подпространств векторов сигналов возбуждения малой мощности дает возможность повысить качественные показатели синтезированной речи при выполнении ограничений на скорость передачи в канале связи.The advantages of the method include the fact that the refusal to use statistical averaging of the subspace of excitation signals associated with the vector of parameters of the vocal tract to the only one defined by the trained neural network as the most likely candidate, and the transition to the formation of subspaces of vectors of low-power excitation signals makes it possible to increase qualitative indicators of synthesized speech when fulfilling restrictions on the transmission speed in the communication channel.
Для оценки достижения технического результата изобретения использовались методика и соответствующие тестовые фразы, представленные в (ГОСТ Р 51061-97. Системы низкоскоростной передачи речи по цифровым каналам. Параметры качества речи и методы испытаний. - М.: Госстандарт России, 1997. - 230 с). Данные фразы в полной мере характеризуют русскую речь и полностью описывают ее статистические и параметрические особенности. Возраст дикторов также выбирался в соответствии с рекомендациями ГОСТ Р 51061-97. Проведенное тестирование показало, что применение предлагаемого технического решения для повышения качества синтезированной речи в вокодерах с линейным предсказанием позволяет улучшить субъективное качество восприятия синтезированной речи в среднем на 0,5 балла. При этом отмечалось улучшение частных показателей разборчивости, естественности ее звучания и узнаваемости говорящего. Также применение предлагаемого способа дает возможность перераспределить информационный ресурс, предоставляемый каналом связи, на формирование дополнительных сервисов абонентского обслуживания, без значительного ухудшения качественных показателей синтезированной речи.To assess the achievement of the technical result of the invention, we used the methodology and the corresponding test phrases presented in (GOST R 51061-97. Systems of low-speed voice transmission through digital channels. Speech quality parameters and test methods. - M .: Gosstandart of Russia, 1997. - 230 s) . These phrases fully characterize Russian speech and fully describe its statistical and parametric features. The age of the speakers was also chosen in accordance with the recommendations of GOST R 51061-97. Testing showed that the use of the proposed technical solution to improve the quality of synthesized speech in vocoders with linear prediction can improve the subjective quality of perception of synthesized speech by an average of 0.5 points. At the same time, an improvement was noted in particular indicators of intelligibility, the naturalness of its sound, and the recognition of the speaker. Also, the application of the proposed method makes it possible to redistribute the information resource provided by the communication channel to the formation of additional subscription services without significant deterioration in the quality of synthesized speech.
Приведенные технические решения показывают, что изобретение при его осуществлении, способно обеспечить более качественную обработку речевого сигнала за счет учета объективно существующих взаимозависимостей элементов декомпозиции речевого сигнала при реализации вокодеров на основе линейного предсказания.The above technical solutions show that the invention, when implemented, is capable of providing better speech signal processing by taking into account objectively existing interdependencies of speech signal decomposition elements when implementing vocoders based on linear prediction.
Claims (1)
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
RU2015127496A RU2631968C2 (en) | 2015-07-08 | 2015-07-08 | Method of low-speed coding and decoding speech signal |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
RU2015127496A RU2631968C2 (en) | 2015-07-08 | 2015-07-08 | Method of low-speed coding and decoding speech signal |
Publications (2)
Publication Number | Publication Date |
---|---|
RU2015127496A RU2015127496A (en) | 2017-01-13 |
RU2631968C2 true RU2631968C2 (en) | 2017-09-29 |
Family
ID=58449248
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
RU2015127496A RU2631968C2 (en) | 2015-07-08 | 2015-07-08 | Method of low-speed coding and decoding speech signal |
Country Status (1)
Country | Link |
---|---|
RU (1) | RU2631968C2 (en) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
RU2801621C1 (en) * | 2023-04-14 | 2023-08-11 | Общество с ограниченной ответственностью "Специальный Технологический Центр" (ООО "СТЦ") | Method for transcribing speech from digital signals with low-rate coding |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5963897A (en) * | 1998-02-27 | 1999-10-05 | Lernout & Hauspie Speech Products N.V. | Apparatus and method for hybrid excited linear prediction speech encoding |
RU2163399C2 (en) * | 1995-03-22 | 2001-02-20 | Телефонактиеболагет Лм Эрикссон | Linear predictive speech coder using analysis through synthesis |
US20010029448A1 (en) * | 1996-11-07 | 2001-10-11 | Matsushita Electric Industrial Co., Ltd. | Excitation vector generator, speech coder and speech decoder |
US20020123888A1 (en) * | 2000-09-15 | 2002-09-05 | Conexant Systems, Inc. | System for an adaptive excitation pattern for speech coding |
US20040024597A1 (en) * | 2002-07-30 | 2004-02-05 | Victor Adut | Regular-pulse excitation speech coder |
RU2495504C1 (en) * | 2012-06-25 | 2013-10-10 | Государственное казенное образовательное учреждение высшего профессионального образования Академия Федеральной службы охраны Российской Федерации (Академия ФСО России) | Method of reducing transmission rate of linear prediction low bit rate voders |
-
2015
- 2015-07-08 RU RU2015127496A patent/RU2631968C2/en not_active IP Right Cessation
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
RU2163399C2 (en) * | 1995-03-22 | 2001-02-20 | Телефонактиеболагет Лм Эрикссон | Linear predictive speech coder using analysis through synthesis |
US20010029448A1 (en) * | 1996-11-07 | 2001-10-11 | Matsushita Electric Industrial Co., Ltd. | Excitation vector generator, speech coder and speech decoder |
US5963897A (en) * | 1998-02-27 | 1999-10-05 | Lernout & Hauspie Speech Products N.V. | Apparatus and method for hybrid excited linear prediction speech encoding |
US20020123888A1 (en) * | 2000-09-15 | 2002-09-05 | Conexant Systems, Inc. | System for an adaptive excitation pattern for speech coding |
US20040024597A1 (en) * | 2002-07-30 | 2004-02-05 | Victor Adut | Regular-pulse excitation speech coder |
RU2495504C1 (en) * | 2012-06-25 | 2013-10-10 | Государственное казенное образовательное учреждение высшего профессионального образования Академия Федеральной службы охраны Российской Федерации (Академия ФСО России) | Method of reducing transmission rate of linear prediction low bit rate voders |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
RU2801621C1 (en) * | 2023-04-14 | 2023-08-11 | Общество с ограниченной ответственностью "Специальный Технологический Центр" (ООО "СТЦ") | Method for transcribing speech from digital signals with low-rate coding |
Also Published As
Publication number | Publication date |
---|---|
RU2015127496A (en) | 2017-01-13 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Défossez et al. | High fidelity neural audio compression | |
EP1995723B1 (en) | Neuroevolution training system | |
Zhen et al. | Cascaded cross-module residual learning towards lightweight end-to-end speech coding | |
US20220223161A1 (en) | Audio Decoder, Apparatus for Determining a Set of Values Defining Characteristics of a Filter, Methods for Providing a Decoded Audio Representation, Methods for Determining a Set of Values Defining Characteristics of a Filter and Computer Program | |
JP6860901B2 (en) | Learning device, speech synthesis system and speech synthesis method | |
AU2014295167A1 (en) | In an reduction of comb filter artifacts in multi-channel downmix with adaptive phase alignment | |
CN113574597B (en) | Apparatus and method for source separation using estimation and control of sound quality | |
JPWO2007088853A1 (en) | Speech coding apparatus, speech decoding apparatus, speech coding system, speech coding method, and speech decoding method | |
Mohammadiha et al. | Nonnegative HMM for babble noise derived from speech HMM: Application to speech enhancement | |
RU2744485C1 (en) | Noise reduction in the decoder | |
KR20240022588A (en) | Compress audio waveforms using neural networks and vector quantizers | |
Fejgin et al. | Source coding of audio signals with a generative model | |
EP3544005A1 (en) | Audio encoder, audio decoder, audio encoding method and audio decoding method for dithered quantization for frequency-domain speech and audio coding | |
EP3293735A1 (en) | Method for encoding signals, method for separating signals in a mixture, corresponding computer program products, devices and bitstream | |
RU2631968C2 (en) | Method of low-speed coding and decoding speech signal | |
RU2495504C1 (en) | Method of reducing transmission rate of linear prediction low bit rate voders | |
US20150149161A1 (en) | Method and Arrangement for Scalable Low-Complexity Coding/Decoding | |
Yao et al. | Variational speech waveform compression to catalyze semantic communications | |
Lee et al. | KLT-based adaptive entropy-constrained quantization with universal arithmetic coding | |
CN102436822A (en) | Signal control device and method | |
US20230186926A1 (en) | Machine learning-based key generation for key-guided audio signal transformation | |
Kırbız et al. | Perceptual coding-based informed source separation | |
Mansali et al. | Speech Localization at Low Bitrates in Wireless Acoustics Sensor Networks | |
Brendel et al. | Simple and Efficient Quantization Techniques for Neural Speech Coding | |
Kleijn | Principles of speech coding |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
MM4A | The patent is invalid due to non-payment of fees |
Effective date: 20171023 |