RU2504027C1 - Method of creating codebook and search therein during vector quantisation of data - Google Patents

Method of creating codebook and search therein during vector quantisation of data Download PDF

Info

Publication number
RU2504027C1
RU2504027C1 RU2012128241/08A RU2012128241A RU2504027C1 RU 2504027 C1 RU2504027 C1 RU 2504027C1 RU 2012128241/08 A RU2012128241/08 A RU 2012128241/08A RU 2012128241 A RU2012128241 A RU 2012128241A RU 2504027 C1 RU2504027 C1 RU 2504027C1
Authority
RU
Russia
Prior art keywords
vectors
codebook
vector
search
neural network
Prior art date
Application number
RU2012128241/08A
Other languages
Russian (ru)
Inventor
Александр Павлович Рыжков
Андрей Алексеевич Афанасьев
Олег Николаевич Катков
Original Assignee
Государственное казенное образовательное учреждение высшего профессионального образования Академия Федеральной службы охраны Российской Федерации (Академия ФСО России)
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Государственное казенное образовательное учреждение высшего профессионального образования Академия Федеральной службы охраны Российской Федерации (Академия ФСО России) filed Critical Государственное казенное образовательное учреждение высшего профессионального образования Академия Федеральной службы охраны Российской Федерации (Академия ФСО России)
Priority to RU2012128241/08A priority Critical patent/RU2504027C1/en
Application granted granted Critical
Publication of RU2504027C1 publication Critical patent/RU2504027C1/en

Links

Images

Landscapes

  • Compression, Expansion, Code Conversion, And Decoders (AREA)

Abstract

FIELD: information technology.
SUBSTANCE: method can be used to reduce consumption of computational resources and the required size of storage devices when creating codebooks and executing reference vector search algorithms therein, including when performing low-speed speech signal coding. The technical result of the disclosed method is reducing the required size of storage devices and reducing consumption of computing computational resources when performing search in a codebook during vector quantisation. The set task is achieved by constructing a special codebook structure based on neural networks using training algorithms with adjustment. Search is performed in form of step-by-step hierarchical vector quantisation. The resultant vector is a sum of code vectors found at each step. The disclosed method can be used to reduce consumption of computational resources and the required size of storage devices when executing reference vector search algorithms in a codebook.
EFFECT: reducing consumption of computational resources and the required size of storage devices.
7 dwg

Description

Изобретение относится к области цифровой связи, а именно к методам сокращения объема данных при их обработке. Предлагаемый способ может быть использован для уменьшения затрат вычислительных ресурсов и требуемого объема запоминающих устройств при создании кодовых книг и реализации алгоритмов поиска опорных векторов в них, в том числе при осуществлении низкоскоростного кодирования речевых сигналов.The invention relates to the field of digital communications, and in particular to methods for reducing the amount of data during their processing. The proposed method can be used to reduce the cost of computing resources and the required amount of storage devices when creating code books and implementing algorithms for finding support vectors in them, including the implementation of low-speed encoding of speech signals.

Векторное квантование требует достаточно большого числа операций при формировании кодовых книг и осуществления поиска векторов в них, что приводит к высокой вычислительной сложности данных процедур, особенно при больших объемах обрабатываемой информации. Следовательно, уменьшение количества вычислительных операций при поиске вектора в кодовой книге является актуальной задачей.Vector quantization requires a fairly large number of operations in the formation of code books and the search for vectors in them, which leads to high computational complexity of these procedures, especially with large volumes of processed information. Therefore, reducing the number of computational operations when searching for a vector in the codebook is an urgent task.

Известны способы векторного квантования для осуществления процедуры кодирования речи [Макхоул Д., Рукос С., Гиш Г. Векторное квантование при кодировании речи. // ТИИЭР. - 1985. - Т.73. - №11. - С.19-61], [V. Ramasubramanian and Kuldip К. Paliwal «Fast Nearest-Neighbor Search Based on Voronoi Projections and Its Application to Vector Quantization Encoding» in Proc. IEEE Int. Conf. Acoustics, Speech, and Signal Processing, vol. 1, no. 2, March 1999]. Также известен способ создания кодовой книги и поиска в глубину, представленный в патенте RU 2175454 С2, в котором предлагается древовидная структура с определенным, заранее заданным количеством уровней. Данный способ характеризуется большей вычислительной сложностью, поскольку использует вероятностные методы для осуществления процедуры нахождения опорного вектора-центроида в каждой ячейке кодовой книги. В патенте RU 2391715 С2 описан принцип многомерного векторного квантования с применением многоуровневых кодовых книг. Недостатком данного способа являются требования к наличию достаточно большого объема памяти, необходимой для хранения таблиц координат опорных векторов-центроидов.Known methods of vector quantization for the implementation of the coding of speech [Makhol D., Rukos S., Guiche G. Vector quantization in speech coding. // TIIER. - 1985. - T.73. - No. 11. - S. 19-61], [V. Ramasubramanian and Kuldip K. Paliwal “Fast Nearest-Neighbor Search Based on Voronoi Projections and Its Application to Vector Quantization Encoding” in Proc. IEEE Int. Conf. Acoustics, Speech, and Signal Processing, vol. 1, no. 2, March 1999]. Also known is a method of creating a codebook and searching in depth, presented in patent RU 2175454 C2, which proposes a tree structure with a certain, predetermined number of levels. This method is characterized by greater computational complexity, since it uses probabilistic methods to implement the procedure for finding the reference centroid vector in each cell of the codebook. The patent RU 2391715 C2 describes the principle of multidimensional vector quantization using multilevel codebooks. The disadvantage of this method is the requirement for the presence of a sufficiently large amount of memory required to store the coordinate tables of the reference centroid vectors.

Наиболее близким по технической сущности к заявленному способу является метод, рассмотренный в патенте US 6161086, в котором при векторном квантовании данных при линейном предсказании речевого сигнала для формирования сигнала возбуждения синтезирующего фильтра используют объединенную кодовую книгу, состоящую из фиксированной и адаптивной кодовых книг, причем коррекция адаптивной кодовой книги производится при помощи инверсной процедуры BIFT (Backward and Inverse Filtered Target) на трех уровнях адаптивной кодовой книги. Фиксированная кодовая книга содержит стохастический компонент сигнала возбуждения, который отображает невокализованную составляющую. Адаптивная кодовая книга формируется на основе тонового компонента сигнала возбуждения и отображает наличие долговременных корреляционных связей за счет вокализованной структуры речевого сигнала и несет информацию о количестве отсчетов, соответствующем периоду основного тона анализируемого кадра речи.The closest in technical essence to the claimed method is the method described in patent US 6161086, in which when vector quantizing data with linear prediction of the speech signal to form the excitation signal of the synthesizing filter, a combined codebook consisting of fixed and adaptive codebooks is used, and the adaptive correction the codebook is produced using the inverse procedure BIFT (Backward and Inverse Filtered Target) at three levels of adaptive codebook. The fixed codebook contains the stochastic component of the excitation signal, which displays the unvoiced component. The adaptive codebook is formed on the basis of the tone component of the excitation signal and displays the presence of long-term correlation due to the voiced structure of the speech signal and carries information about the number of samples corresponding to the period of the fundamental tone of the analyzed speech frame.

Нахождение опорных векторов осуществляется с использованием древовидной структуры поиска ближайшего вектора в кодовой книге, что требует большой вычислительной сложности.Finding support vectors is carried out using the tree structure of the search for the closest vector in the codebook, which requires great computational complexity.

Недостатком прототипа является достаточно большое количество памяти, необходимой для хранения таблицы координат опорных векторов, а также высокая вычислительная сложность для осуществления данной операции.The disadvantage of the prototype is a sufficiently large amount of memory required to store the coordinate table of the reference vectors, as well as high computational complexity for this operation.

Задачей изобретения является создание кодовой книги и поиска в ней при векторном квантовании, позволяющее уменьшить объем запоминающих устройств и вычислительную сложность при осуществлении процедуры поиска в кодовой книге.The objective of the invention is to create a codebook and search in it during vector quantization, which reduces the amount of storage devices and computational complexity in the implementation of the search procedure in the codebook.

Эта задача решается тем, что при создании кодовой книги и поиска в ней при векторном квантовании в объединенной кодовой книге для фиксированной кодовой книги используют самообучающуюся нейронную сеть Кохонена, известную также как карта самоорганизации - SOM (self-organizing шар), а для адаптивной кодовой книги применяют нейронную сеть с квантованием - LVQ (learning vector quantization). Процедуру поиска реализуют на многоступенчатом иерархическом векторном квантовании, которое обеспечивает малую потерю точности при одновременном повышении скорости вычислений.This problem is solved in that when creating a codebook and searching it in vector quantization in a combined codebook, a Kohonen self-learning neural network, also known as a self-organizing map, is used for a fixed codebook, and for an adaptive codebook apply a neural network with quantization - LVQ (learning vector quantization). The search procedure is implemented on a multi-stage hierarchical vector quantization, which provides a small loss of accuracy while increasing the speed of calculations.

Рассмотрим заявленный способ подробнее. Нейронная сеть SOM предназначена для преобразования поступающих векторов сигналов, имеющих произвольную размерность, в одно- или двухмерную дискретную карту. При этом такое преобразование производится адаптивно, в топологически упорядоченной форме. На фиг.1 представлена схематическая диаграмма двумерной решетки нейронов, используемой в качестве дискретной карты для функционирования фиксированной кодовой книги. Все нейроны этой решетки связаны со всеми узлами входного слоя. Эта сеть имеет структуру прямого распространения с одним вычислительным слоем, состоящим из нейронов, упорядоченных в столбцы и строки.Consider the claimed method in more detail. The SOM neural network is designed to convert incoming signal vectors having an arbitrary dimension into a one- or two-dimensional discrete map. Moreover, such a transformation is carried out adaptively, in a topologically ordered form. Figure 1 presents a schematic diagram of a two-dimensional array of neurons used as a discrete map for the operation of a fixed codebook. All neurons of this lattice are connected to all nodes of the input layer. This network has a direct distribution structure with one computational layer consisting of neurons arranged in columns and rows.

Сущность самообучения нейронной сети SOM состоит в формировании карты (пространства) координат векторов с разбиением на гиперпрямоугольные ячейки (многоугольники Вороного), с опорным вектором-центроидом в каждом многоугольнике. Существенными характеристиками алгоритма самообучения, необходимыми для формирования фиксированной кодовой книги, являются:The essence of self-learning of the SOM neural network is to form a map (space) of vector coordinates divided into hyper-rectangular cells (Voronoi polygons), with a reference centroid vector in each polygon. The essential characteristics of the self-learning algorithm necessary for the formation of a fixed codebook are:

непрерывное входное пространство образов активации (стохастических векторов сигналов возбуждения), которые генерируются в соответствии с некоторым распределением вероятности;continuous input space of activation patterns (stochastic vectors of excitation signals) that are generated in accordance with some probability distribution;

- топология нейронной сети в форме решетки, состоящей из нейронов, определяющей дискретное выходное пространство;- the topology of the neural network in the form of a lattice consisting of neurons that defines a discrete output space;

- зависящая от времени функция окрестности hj,i(x)(n), которая определяет радиус окрестности нейрона-победителя i(x);- time-dependent neighborhood function h j, i (x) (n), which determines the radius of the neighborhood of the winning neuron i (x);

- параметр скорости обучения η(n), для которого задается начальное значение η0 и который постепенно убывает во времени n, но никогда не достигает нуля.- the parameter of the learning speed η (n), for which the initial value η 0 is set and which gradually decreases in time n, but never reaches zero.

Экспериментально установлено, что при формировании фиксированной кодовой книги значение η(n), равное 0,005, необходимо для хорошей статистической точности на этапе сходимости. При этом для создания кодовой книги использовался сигнал остатка долговременного линейного предсказания речи, полученный на выходе фильтра синтеза. Описание линейного предсказания речи достаточно подробно представлено в (Быков С.В., Журавлев В.И., Шалимов И.А. Цифровая телефония: Учеб. пособие для вузов. - М.: Радио и связь, 2003. - С.102-105).It was experimentally established that when forming a fixed codebook, the value η (n) equal to 0.005 is necessary for good statistical accuracy at the convergence stage. In this case, to create a codebook, the signal of the remainder of the long-term linear speech prediction obtained at the output of the synthesis filter was used. A description of linear speech prediction is presented in sufficient detail in (Bykov S.V., Zhuravlev V.I., Shalimov I.A. Digital Telephony: Textbook for universities. - M.: Radio and Communications, 2003. - P.102- 105).

Последовательность шагов предварительного обучения в фиксированной кодовой книге следующая.The sequence of pre-training steps in a fixed codebook is as follows.

1) Инициализация. Для исходных векторов синаптических весов нейронной сети wj(0) выбирают случайные значения из множества входных векторов

Figure 00000001
. В качестве условия корректного обучения на векторах возбуждения фильтра синтеза речевых сигналов необходимо различие векторов для разных значений j=1,2,…,l, где l - общее количество нейронов в решетке.1) Initialization. For the initial vectors of the synaptic weights of the neural network w j (0), random values are selected from the set of input vectors
Figure 00000001
. As a condition for correct training on the excitation vectors of the speech synthesis filter, it is necessary to distinguish vectors for different values j = 1,2, ..., l, where l is the total number of neurons in the lattice.

2) Подвыборка. Выбирают вектор x из входного пространства с определенной вероятностью. Этот вектор представляет собой возбуждение, которое применяется к решетке нейронов. Размерность вектора x: равна m.2) Subsampling. Select a vector x from the input space with a certain probability. This vector is an excitation that is applied to the array of neurons. The dimension of the vector x: is equal to m.

3) Поиск максимального правдоподобия. Находят наиболее подходящий (победивший) нейрон i(x) на шаге n, используя критерий минимума Евклидова расстояния:3) Search for maximum likelihood. Find the most suitable (winning) neuron i (x) in step n using the minimum Euclidean distance criterion:

Figure 00000002
Figure 00000002

4) Коррекция. Коррекция векторов синаптических весов всех нейронов4) Correction. Correction of synaptic weight vectors of all neurons

wj(n+1)=wj(n)+η(n)hj,i(x)(n)(x-wj(n)),w j (n + 1) = w j (n) + η (n) h j, i (x) (n) (xw j (n)),

где η(n) - параметр скорости обучения; hj,i(x)(n) - функция окрестности с центром в победившем нейроне i(x). Оба этих параметра динамически изменяют во время обучения с целью получения лучшего результата.where η (n) is the parameter of the learning rate; h j, i (x) (n) is the neighborhood function centered in the winning neuron i (x). Both of these parameters are dynamically changed during training in order to obtain the best result.

5) Продолжение. Возврат к шагу 2 и вычисление до достижения заданного числа итераций.5) Continuation. Return to step 2 and calculate until a given number of iterations is reached.

По завершении процесса сходимости самоорганизующаяся карта SOM отображает важные статистические характеристики пространства стохастических векторов сигналов возбуждения. Поскольку алгоритм SOM относится к алгоритмам обучения нейронных сетей «без учителя», то сформированное пространство ячеек Вороного является приближенным с точки зрения размещения опорных векторов-центроидов в N-мерной системе координат. При этом аппроксимация определяется векторами синаптических весов нейронов на карте признаков.Upon completion of the convergence process, the self-organizing SOM map displays important statistical characteristics of the space of stochastic excitation signal vectors. Since the SOM algorithm refers to “teacherless” neural network learning algorithms, the generated space of Voronoi cells is approximate in terms of the placement of support centroid vectors in an N-dimensional coordinate system. In this case, the approximation is determined by the vectors of synaptic weights of neurons on the map of signs.

В качестве механизма точной подстройки необходимо произвести квантование векторов обучения. Для квантования вектора-центроида используют метод обучения «с учителем», который использует информацию о классе для небольшого смещения опорного вектора и, соответственно, границ ячейки Вороного, а следовательно, для улучшения качества областей решения классификатора. Если метки класса входного вектора x и вектора-центроида (вектора Вороного) w согласуются, то последний смещают в направлении первого. При несогласовании вектор-центроид смещается в сторону, противоположную вектору x. Кратко процесс квантования описывается следующим образом:As a fine-tuning mechanism, it is necessary to quantize the training vectors. To quantize the centroid vector, the “with the teacher” method of training is used, which uses class information to slightly offset the reference vector and, accordingly, the borders of the Voronoi cell, and therefore, to improve the quality of the areas of the classifier solution. If the class labels of the input vector x and the centroid vector (Voronoi vector) w are consistent, then the latter is shifted in the direction of the former. In case of inconsistency, the centroid vector shifts in the direction opposite to the vector x. Briefly, the quantization process is described as follows:

1) в случае максимальной близости вектора Вороного wC к входному вектору xi, wC(n+1)=wC(n)+αn[xi-wC(n)], где 0<αn<1;1) in the case of the closest proximity of the Voronoi vector w C to the input vector x i , w C (n + 1) = w C (n) + α n [x i -w C (n)], where 0 <α n <1 ;

2) при несовпадении wC(n+1)=wC(n)-αn[xi-wC(n)];2) if mismatch w C (n + 1) = w C (n) -α n [x i -w C (n)];

3) остальные векторы Вороного не изменяются.3) the remaining Voronoi vectors are not changed.

Постоянную обучения αn для формирования фиксированной кодовой книги выбирают монотонно убывающей с начальным значением 0,05. В результате процедуры адаптации после нескольких проходов по входным данным координаты опорных векторов Вороного перестают изменяться, а следовательно, и завершается создание пространства многоугольников Вороного для фиксированной кодовой книги стохастического компонента сигналов возбуждения.The learning constant α n for the formation of a fixed codebook is selected monotonically decreasing with an initial value of 0.05. As a result of the adaptation procedure, after several passes through the input data, the coordinates of the Voronoi support vectors cease to change, and therefore, the creation of the Voronoi polygon space for the fixed codebook of the stochastic component of the excitation signals is completed.

Для адаптивной кодовой книги предлагается использовать нейронную сеть LVQ. На фиг.2 представлена структура нейронной сети, выполняющей функции кодовой книги, хранящей информацию о пространстве ячеек Вороного с векторами тонового компонента сигнала возбуждения. В случае обработки речевых сигналов сеть LVQ представляет каскадное подключение слоя SOM и персептронной сети. Самоорганизующийся слой улавливает значимые признаки процесса (локализует их на основе входных данных), после чего им приписывается входной вектор в персептронном слое. Вследствие хорошей локализации признаков процесса тонового сигнала возбуждения первым слоем сети в большинстве приложений обработки речи бывает достаточным применение персептрона, содержащего только один слой нейронов (зачастую линейных).For an adaptive codebook, it is proposed to use the LVQ neural network. Figure 2 presents the structure of a neural network that performs the functions of a code book that stores information about the space of Voronoi cells with vectors of the tone component of the excitation signal. In the case of speech processing, the LVQ network represents a cascade connection of the SOM layer and the perceptron network. The self-organizing layer captures the significant features of the process (localizes them based on the input data), after which they are assigned the input vector in the perceptron layer. Due to the good localization of the signs of the process of the excitation tone signal by the first network layer, in most speech processing applications it is sufficient to use a perceptron containing only one layer of neurons (often linear).

LVQ-сеть обучают на основе множества пар вход/выход, составленных из элементов обучающей последовательности {Р,Т}: {р1, t1},{p2, t2},…,{PQtQ}. Каждый целевой вектор имеет единственный элемент, равный 1, а остальные равны 0. Для обучения сети задают вектор входа p таким образом, чтобы в конкурирующем слое была выполнена настройка элементов матрицы весов W1.1. Весовые коэффициенты нейрона i* наиболее близки к вектору входа p, и нейрон i* выигрывает конкуренцию. Тогда конкурирующая функция активации возвращает 1 в качестве элемента i* вектора а1, причем все другие элементы а1 равны 0. Во втором, персептронном слое произведение W2.1*a1 выделяет некоторый столбец матрицы W2.1 и связанный с ним класс k*. Таким образом, сеть связывает вектор входа p с классом k*. Это назначение может оказаться либо правильным, либо ошибочным. Поэтому в процессе обучения необходимо откорректировать строку i* матрицы W1.1 таким образом, чтобы приблизить ее к вектору p, назначение правильное, и удалить от вектора p, если назначение неправильное. Исходя из этого, правило настройки параметров следующее:An LVQ network is trained on the basis of many input / output pairs composed of elements of the training sequence {P, T}: {p 1 , t 1 }, {p 2 , t 2 }, ..., {P Q t Q }. Each target vector has a single element equal to 1, and the rest are 0. To train the network, set the input vector p so that the elements of the weight matrix W 1.1 are configured in the competing layer. The weights of the neuron i * are closest to the input vector p, and the neuron i * wins the competition. Then the competing activation function returns 1 as the element i * of the vector a 1 , and all other elements a 1 are 0. In the second perceptron layer, the product W 2.1 * a 1 selects some column of the matrix W 2.1 and the class k * associated with it. Thus, the network associates the input vector p with the class k *. This assignment may be either correct or erroneous. Therefore, in the learning process, it is necessary to correct the row i * of the matrix W 1.1 in such a way as to bring it closer to the vector p, the assignment is correct, and remove from the vector p if the assignment is incorrect. Based on this, the rule for setting parameters is as follows:

Figure 00000003
Figure 00000003

В качестве механизма точной подстройки производят квантование векторов обучения аналогично коррекции фиксированной кодовой книги. Экспериментально установлено, что для формирования адаптивной кодовой книги монотонно убывающая постоянная обучения αn равна 0,07.As a mechanism for fine tuning, quantization of training vectors is performed similarly to the correction of a fixed codebook. It was experimentally established that for the formation of an adaptive codebook the monotonically decreasing learning constant α n is 0.07.

Блок-схемы алгоритмов формирования фиксированной и адаптивной кодовых книг представлены на фиг.3 и фиг.4.The block diagrams of the algorithms for the formation of fixed and adaptive code books are presented in figure 3 and figure 4.

При осуществлении поиска используется процедура многоступенчатого иерархического векторного квантования, которое ускоряет скорость поиска в отличие от древовидного поиска опорного вектора-центроида. Многоступенчатое иерархическое векторное квантование разделяет общую операцию поиска на множество подопераций, каждая из которых требует малого объема вычислений как для фиксированной, так и адаптивной кодовой книги. В каждой подоперации обрабатывают остаток вектора, формируемый на предыдущем подэтапе. Входной вектор квантуют Li - уровневым векторным квантователем, остаток (ошибка) квантования подают на вход второго Lj - уровневого векторного квантователя. Процесс может повторяться для любого количества подэтапов.When performing a search, a multistage hierarchical vector quantization procedure is used, which speeds up the search speed, in contrast to the tree-like search for a reference centroid vector. Multistage hierarchical vector quantization divides the general search operation into many suboperations, each of which requires a small amount of computation for both fixed and adaptive codebooks. In each suboperation, the remainder of the vector generated in the previous sub-step is processed. The input vector is quantized by a Li - level vector quantizer, the remainder (error) of quantization is fed to the input of the second Lj - level vector quantizer. The process can be repeated for any number of sub-steps.

Окончательное квантованное значение вектора для обеих кодовых книг представляют в виде суммы выходных векторов промежуточных и конечного квантователей.The final quantized vector value for both codebooks is represented as the sum of the output vectors of the intermediate and final quantizers.

Проведенный анализ уровня техники позволил установить, что аналоги, характеризующиеся совокупностью признаков, тождественных всем признакам заявленного технического решения, отсутствуют, что указывает на соответствие заявленного устройства условию патентоспособности "новизна".The analysis of the prior art made it possible to establish that analogues that are characterized by a set of features identical to all the features of the claimed technical solution are absent, which indicates the compliance of the claimed device with the patentability condition of "novelty".

Результаты поиска известных решений в данной и смежных областях техники с целью выявления признаков, совпадающих с отличительными от прототипа признаками заявленного объекта, показали, что они не следуют явным образом из уровня техники. Из уровня техники также не выявлена известность влияния предусматриваемых существенными признаками заявленного изобретения преобразований на достижение указанного технического результата. Следовательно, заявленное изобретение соответствует условию патентоспособности "изобретательский уровень".Search results for known solutions in this and related fields of technology in order to identify features that match the distinctive features of the claimed object from the prototype showed that they do not follow explicitly from the prior art. The prior art also did not reveal the popularity of the impact provided by the essential features of the claimed invention, the transformations on the achievement of the specified technical result. Therefore, the claimed invention meets the condition of patentability "inventive step".

Промышленная применимость изобретения обусловлена тем, что оно может быть осуществлено с помощью современной элементной базы, с достижением указанного в изобретении назначения.The industrial applicability of the invention is due to the fact that it can be carried out using a modern elemental base, with the achievement of the destination specified in the invention.

Для фиксированной кодовой книги она состоит из блока формирования исходных данных векторов обучения стохастических компонент сигналов возбуждения 1, выход блока 1 соединен с входом блока предварительного обучения нейронной сети SOM 2, выход блока 2 соединен с входом блока коррекции опорных векторов-центроидов 3, выход блока 3 соединен с входом блока хранения индексированной таблицы векторов кандидатов 4.For a fixed codebook, it consists of a block for generating the initial data of the training vectors of stochastic components of the excitation signals 1, the output of block 1 is connected to the input of the pre-training block of the neural network SOM 2, the output of block 2 is connected to the input of the block of correction of reference centroid vectors 3, the output of block 3 connected to the input of the storage unit of the indexed table of candidate vectors 4.

Функциональная схема осуществления процедуры формирования фиксированной кодовой книги и индексированных таблиц векторов кандидатов показана на фиг.5.A functional diagram of a procedure for generating a fixed codebook and indexed candidate vector tables is shown in FIG.

Для адаптивной кодовой книги схема содержит блок формирования исходных данных векторов обучения тоновых компонент сигналов возбуждения 5, выход блока 5 соединен с входом блока первого уровня адаптации нейронной сети LVQ 6, выход блока 6 соединен с входом блока второго уровня адаптации нейронной сети LVQ 7, выход блока 7 соединен с входом блока коррекции опорных векторов-центроидов 8, выход блока 8 соединен с входом блока хранения индексированной таблицы векторов кандидатов 9.For an adaptive codebook, the circuit contains a block for generating the initial data of the training vectors of the tone components of excitation signals 5, the output of block 5 is connected to the input of the block of the first level adaptation of the neural network LVQ 6, the output of block 6 is connected to the input of the block of the second level of adaptation of the neural network LVQ 7, block output 7 is connected to the input of the correction block of the support vectors-centroids 8, the output of block 8 is connected to the input of the storage unit of the indexed table of candidate vectors 9.

Функциональная схема осуществления процедуры формирования адаптивной кодовой книги и индексированных таблиц векторов кандидатов показана на фиг.6.A functional diagram of the implementation of the adaptive codebook generation process and indexed candidate vector tables is shown in FIG. 6.

Процедуры формирования исходных данных векторов обучения, выполняемые в блоках 1 и 5, рассмотрены в О.И.Шелухин, Н.Ф.Лукьянцев. Цифровая обработка и передача речи. М., Радио и Связь, 2000 г. - С.133-135. Этап предварительного обучения нейронной сети SOM, осуществляемый в блоке 2 фиксированной кодовой книги, исследован в Осовский С. Нейронные сети для обработки информации / Пер. с польского И.Д. Рудинского. - М.: Финансы и статистика, 2002. - С.233. Коррекция опорных векторов-центроидов, проводимая в блоке 3 фиксированной кодовой книги и блоке 8 адаптивной кодовой книги, описана в Хайкин С. Нейронные сети: полный курс, 2-е издание.: Пер. с англ. - М.: Издательский дом «Вильяме», 2006. - С.603-604. Функционирование блоков 4 фиксированной кодовой книги и 9 адаптивной кодовой книги хранения таблицы векторов кандидатов представлено в Макхоул Д., Рукос С, Гиш Г. Векторное квантование при кодировании речи. // ТИИЭР. - 1985. - Т.73. - №11. - С.44-45). Адаптация, осуществляемая в блоках 6 и 7 адаптивной кодовой книги, рассмотрена в В.С.Медведев, В.Г.Потемкин. Нейронные сети. MATLAB 6. - М.: ДИАЛОГ-МИФИ, 2002. - С.168-174.The procedures for the formation of the initial data of training vectors performed in blocks 1 and 5 are considered in OI Shelukhin, NF Lukyantsev. Digital processing and voice transmission. M., Radio and Communications, 2000 - S.133-135. The stage of preliminary training of the SOM neural network, carried out in block 2 of the fixed code book, was studied in Osovsky S. Neural networks for information processing / Transl. from Polish I.D. Rudinsky. - M .: Finance and statistics, 2002. - P.233. Correction of support centroid vectors, carried out in block 3 of the fixed code book and block 8 of the adaptive code book, is described in Khaikin S. Neural networks: full course, 2nd edition .: Trans. from English - M.: Publishing House "William", 2006. - S.603-604. The functioning of blocks 4 of the fixed codebook and 9 of the adaptive codebook for storing the table of candidate vectors is presented in McHole D., Rukos S, Guiche G. Vector quantization in speech coding. // TIIER. - 1985. - T.73. - No. 11. - S. 44-45). The adaptation carried out in blocks 6 and 7 of the adaptive codebook is considered in V.S. Medvedev, V.G. Potemkin. Neural networks. MATLAB 6. - M .: DIALOGUE-MEPhI, 2002. - S.168-174.

Блок 1 содержит информацию об исходных данных для обучения нейронной сети SOM - это векторы возбуждения для синтезаторов речевых сигналов, содержащие стохастические (шумовые) компоненты. Данные векторы поступают на вход блока 2 предварительного обучения нейронной сети SOM фиксированной кодовой книга, в блоке 2 выполняется процедура настройки весовых коэффициентов указанной нейронной сети, формируя тем самым пространство ячеек Вороного с векторами-центроидами, с выхода блока 2 информация поступает на вход блока 3, где происходит коррекции опорных векторов согласно описанию механизма точной подстройки (С.5), с выхода блока 3 в блок 4 подаются данные о координатах ячеек Вороного и векторов кандидатов для их хранения в виде таблицы, которая представляет собой фиксированную кодовую книгу.Block 1 contains information on the initial data for training the SOM neural network - these are excitation vectors for speech signal synthesizers containing stochastic (noise) components. These vectors are fed to the input of block 2 of preliminary training of the SOM neural network of a fixed code book, in block 2, the procedure for setting the weighting coefficients of the specified neural network is performed, thereby forming the space of Voronoi cells with centroid vectors, from the output of block 2, the information goes to the input of block 3, where correction vectors are corrected according to the description of the fine-tuning mechanism (C.5), from the output of block 3 to block 4 data on the coordinates of Voronoi cells and candidate vectors for their storage are presented in the form of tzu, which is a fixed codebook.

Блок 5 содержит информацию об исходных данных для обучения нейронной сети LVQ - это векторы возбуждения для синтезаторов речевых сигналов, содержащие тоновые (вокализованные) компоненты. Для обучения двухуровневой нейронной сети LVQ адаптивной кодовой книги векторы возбуждения подаются с выхода блока 5 на блок 6, где происходит настройка весовых коэффициентов первого слоя сети LVQ согласно алгоритму обучения «без учителя», аналогичного алгоритму обучения SOM. С выхода блока 6 на блок 7 второго слоя нейронной сети LVQ подаются предварительно созданные координаты ячеек и векторов Вороного, в котором происходит завершение процедуры адаптации при помощи алгоритма обучения «с учителем», так как второй уровень адаптации является персептронным слоем нейронной сети LVQ. С выхода блока 7 информация поступает на вход блока 8, где происходит коррекции опорных векторов согласно описанию механизма точной подстройки (С.5), с выхода блока 8 в блок 9 подаются данные о координатах ячеек Вороного и векторов кандидатов для их хранения в виде таблицы, которая представляет собой адаптивную кодовую книгу.Block 5 contains information about the initial data for training the LVQ neural network - these are excitation vectors for speech signal synthesizers containing tone (voiced) components. To train a two-level neural network LVQ of the adaptive codebook, excitation vectors are fed from the output of block 5 to block 6, where the weighting coefficients of the first layer of the LVQ network are adjusted according to the “without teacher” training algorithm, similar to the SOM training algorithm. From the output of block 6 to block 7 of the second layer of the LVQ neural network, pre-created coordinates of Voronoi cells and vectors are fed, in which the adaptation procedure is completed using the “with the teacher” training algorithm, since the second adaptation level is the perceptron layer of the LVQ neural network. From the output of block 7, the information goes to the input of block 8, where the reference vectors are corrected according to the description of the fine-tuning mechanism (C.5), from the output of block 8, block 9 provides data on the coordinates of Voronoi cells and candidate vectors for storing them in a table, which is an adaptive codebook.

Блок-схема алгоритма многоступенчатого иерархического векторного квантования, осуществляющего процедуру поиска в фиксированной и адаптивной кодовых книгах, представлена на фиг.7.A flowchart of a multistage hierarchical vector quantization algorithm performing a search procedure in fixed and adaptive code books is shown in FIG. 7.

Применение предлагаемого способа существенно уменьшит требуемый для реализации объем запоминающих устройств на 25-30%, а реализация процедуры многоступенчатого иерархического векторного квантования сократит объем вычислительных затрат на 20-23% по сравнению с известными решениями в данной области.The application of the proposed method will significantly reduce the volume of storage devices required for implementation by 25-30%, and the implementation of the multi-stage hierarchical vector quantization procedure will reduce the amount of computational costs by 20-23% compared to known solutions in this field.

Claims (1)

Способ создания кодовой книги и поиска в ней при векторном квантовании данных, согласно которому для получения сигнала возбуждения синтезирующего фильтра при линейном предсказании речевого сигнала используют кодовую книгу, состоящую из фиксированной и адаптивной кодовых книг, отличающийся тем, что для создания фиксированной кодовой книги формируют исходные данные векторов обучения стохастических компонент сигналов возбуждения, обучают нейронную сеть Кохонена SOM (self-organizing map), для алгоритма самообучения которой определяют непрерывное входное пространство образов активации стохастических векторов сигналов возбуждения, генерируемое в соответствии с некоторым распределением вероятности, далее формируют топологию нейронной сети в форме решетки, состоящую из нейронов и определяющую дискретное выходное пространство, затем рассчитывают зависящую от времени функцию окрестности h j,i(x) (n) для нахождения радиуса окрестности нейрона-победителя и постепенно убывающий во времени, но никогда не достигающий нуля параметр скорости обучения η(n) с начальным значением η0, после чего корректируют опорные векторы-
центроиды для хранения индексированной таблицы векторов кандидатов, а для создания адаптивной кодовой книги формируют исходные данные векторов обучения тоновых компонент сигналов возбуждения, производят двухуровневую адаптацию нейронной сети с квантованием LVQ (learning vector quantization), корректируют опорные векторы-центроиды для хранения индексированной таблицы векторов кандидатов, при этом процедуру поиска в кодовых книгах реализуют с применением многоступенчатого иерархического векторного квантования.
A method of creating a codebook and searching for it in vector quantization of data, according to which a codebook consisting of a fixed and adaptive codebooks is used to obtain the excitation signal of the synthesizing filter in the linear prediction of a speech signal, characterized in that to create a fixed codebook, the initial data of the training vectors of the stochastic components of the excitation signals are generated, the Kohonen neural network SOM (self-organizing map) is trained, for the self-learning algorithm of which a continuous input space of activation patterns of stochastic excitation signal vectors is generated, generated in accordance with some probability distribution, then form the topology of the neural network in the form of a lattice, consisting of neurons and determining a discrete output simple anstvo, then calculating the time-dependent neighborhood functionh j, i (x) (n) to find the radius of the neighborhood of the winning neuron and gradually decreasing in time, but never reaching zero, the learning speed parameter η (n) with the initial value η0, after which the reference vectors are corrected
centroids for storing the indexed table of candidate vectors, and to create an adaptive codebook, the initial data of the training vectors of the tone components of the excitation signals are generated, two-level adaptation of the neural network with LVQ quantization (learning vector quantization) is made, reference centroid vectors for storing the indexed table of candidate vectors are adjusted, wherein the search procedure in code books is implemented using multi-stage hierarchical vector quantization.
RU2012128241/08A 2012-07-03 2012-07-03 Method of creating codebook and search therein during vector quantisation of data RU2504027C1 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
RU2012128241/08A RU2504027C1 (en) 2012-07-03 2012-07-03 Method of creating codebook and search therein during vector quantisation of data

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
RU2012128241/08A RU2504027C1 (en) 2012-07-03 2012-07-03 Method of creating codebook and search therein during vector quantisation of data

Publications (1)

Publication Number Publication Date
RU2504027C1 true RU2504027C1 (en) 2014-01-10

Family

ID=49884802

Family Applications (1)

Application Number Title Priority Date Filing Date
RU2012128241/08A RU2504027C1 (en) 2012-07-03 2012-07-03 Method of creating codebook and search therein during vector quantisation of data

Country Status (1)

Country Link
RU (1) RU2504027C1 (en)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
RU2662939C1 (en) * 2017-05-12 2018-07-31 Общество с ограниченной ответственностью "ИСКОНА ХОЛДИНГ" Method for identification of musical works
CN111899748A (en) * 2020-04-15 2020-11-06 珠海市杰理科技股份有限公司 Audio coding method and device based on neural network and coder
CN118136028A (en) * 2024-04-30 2024-06-04 广州市艾索技术有限公司 Distributed high-integration comprehensive cooperative transmission management system

Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5797118A (en) * 1994-08-09 1998-08-18 Yamaha Corporation Learning vector quantization and a temporary memory such that the codebook contents are renewed when a first speaker returns
US6161086A (en) * 1997-07-29 2000-12-12 Texas Instruments Incorporated Low-complexity speech coding with backward and inverse filtered target matching and a tree structured mutitap adaptive codebook search
JP2002092005A (en) * 2000-09-20 2002-03-29 Fuji Xerox Co Ltd Data sorting device and data sorting method and storage medium
KR20030002930A (en) * 2001-07-02 2003-01-09 정지원 A information recognition engine
US7433518B2 (en) * 2001-05-31 2008-10-07 Olympus Corporation Image selection support system for supporting selection of well-photographed image from plural images
RU2335845C2 (en) * 2002-04-02 2008-10-10 Нокиа Корпорейшн Conversion factor coding in image/video signal coders and/or decoders
CN101354704A (en) * 2007-07-23 2009-01-28 夏普株式会社 Apparatus for making grapheme characteristic dictionary and document image processing apparatus having the same
RU2010115341A (en) * 2007-09-17 2011-10-27 Дженерал Электрик Компани (US) METHODS AND DATA EXCHANGE SYSTEMS
RU2435214C2 (en) * 2010-02-01 2011-11-27 Государственное образовательное учреждение высшего профессионального образования Академия Федеральной службы охраны Российской Федерации (Академия ФСО России) Method for fast search in codebook with vector quantisation

Patent Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5797118A (en) * 1994-08-09 1998-08-18 Yamaha Corporation Learning vector quantization and a temporary memory such that the codebook contents are renewed when a first speaker returns
US6161086A (en) * 1997-07-29 2000-12-12 Texas Instruments Incorporated Low-complexity speech coding with backward and inverse filtered target matching and a tree structured mutitap adaptive codebook search
JP2002092005A (en) * 2000-09-20 2002-03-29 Fuji Xerox Co Ltd Data sorting device and data sorting method and storage medium
US7433518B2 (en) * 2001-05-31 2008-10-07 Olympus Corporation Image selection support system for supporting selection of well-photographed image from plural images
KR20030002930A (en) * 2001-07-02 2003-01-09 정지원 A information recognition engine
RU2335845C2 (en) * 2002-04-02 2008-10-10 Нокиа Корпорейшн Conversion factor coding in image/video signal coders and/or decoders
CN101354704A (en) * 2007-07-23 2009-01-28 夏普株式会社 Apparatus for making grapheme characteristic dictionary and document image processing apparatus having the same
RU2010115341A (en) * 2007-09-17 2011-10-27 Дженерал Электрик Компани (US) METHODS AND DATA EXCHANGE SYSTEMS
RU2435214C2 (en) * 2010-02-01 2011-11-27 Государственное образовательное учреждение высшего профессионального образования Академия Федеральной службы охраны Российской Федерации (Академия ФСО России) Method for fast search in codebook with vector quantisation

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
RU2662939C1 (en) * 2017-05-12 2018-07-31 Общество с ограниченной ответственностью "ИСКОНА ХОЛДИНГ" Method for identification of musical works
CN111899748A (en) * 2020-04-15 2020-11-06 珠海市杰理科技股份有限公司 Audio coding method and device based on neural network and coder
CN111899748B (en) * 2020-04-15 2023-11-28 珠海市杰理科技股份有限公司 Audio coding method and device based on neural network and coder
CN118136028A (en) * 2024-04-30 2024-06-04 广州市艾索技术有限公司 Distributed high-integration comprehensive cooperative transmission management system

Similar Documents

Publication Publication Date Title
Choi et al. Towards the limit of network quantization
US11403528B2 (en) Self-tuning incremental model compression solution in deep neural network with guaranteed accuracy performance
US11308406B2 (en) Method of operating neural networks, corresponding network, apparatus and computer program product
Skretting et al. Recursive least squares dictionary learning algorithm
US20180107926A1 (en) Method and apparatus for neural network quantization
Khrulkov et al. Tensorized embedding layers for efficient model compression
WO2022006919A1 (en) Activation fixed-point fitting-based method and system for post-training quantization of convolutional neural network
Mazzawi et al. Improving Keyword Spotting and Language Identification via Neural Architecture Search at Scale.
Chen et al. Image compression using self-organization networks
CN111357051A (en) Speech emotion recognition method, intelligent device and computer readable storage medium
RU2504027C1 (en) Method of creating codebook and search therein during vector quantisation of data
CN111767697B (en) Text processing method and device, computer equipment and storage medium
CN116324973A (en) Transducer-based automatic speech recognition system including a time reduction layer
WO2020135324A1 (en) Audio signal processing
CN113723115B (en) Open domain question-answer prediction method based on pre-training model and related equipment
Verma et al. A" Network Pruning Network''Approach to Deep Model Compression
CN111797220A (en) Dialog generation method and device, computer equipment and storage medium
CN115512693B (en) Audio recognition method, acoustic model training method, device and storage medium
CN112885367B (en) Fundamental frequency acquisition method, fundamental frequency acquisition device, computer equipment and storage medium
CN116312639A (en) Speech emotion recognition method and device, storage medium and computer equipment
WO2019116497A1 (en) Identification device, identification method, and storage medium
KR20230002041A (en) Method and system of learning artificial neural network model for image processing
CN112818098B (en) Knowledge base-based dialogue generation method, device, terminal and storage medium
CN114387028A (en) Intelligent analysis method for commodity demand of online shopping platform
Ahalt et al. Vector quantization using artificial neural network models

Legal Events

Date Code Title Description
MM4A The patent is invalid due to non-payment of fees

Effective date: 20140704