RU2504027C1 - Method of creating codebook and search therein during vector quantisation of data - Google Patents
Method of creating codebook and search therein during vector quantisation of data Download PDFInfo
- Publication number
- RU2504027C1 RU2504027C1 RU2012128241/08A RU2012128241A RU2504027C1 RU 2504027 C1 RU2504027 C1 RU 2504027C1 RU 2012128241/08 A RU2012128241/08 A RU 2012128241/08A RU 2012128241 A RU2012128241 A RU 2012128241A RU 2504027 C1 RU2504027 C1 RU 2504027C1
- Authority
- RU
- Russia
- Prior art keywords
- vectors
- codebook
- vector
- search
- neural network
- Prior art date
Links
Images
Landscapes
- Compression, Expansion, Code Conversion, And Decoders (AREA)
Abstract
Description
Изобретение относится к области цифровой связи, а именно к методам сокращения объема данных при их обработке. Предлагаемый способ может быть использован для уменьшения затрат вычислительных ресурсов и требуемого объема запоминающих устройств при создании кодовых книг и реализации алгоритмов поиска опорных векторов в них, в том числе при осуществлении низкоскоростного кодирования речевых сигналов.The invention relates to the field of digital communications, and in particular to methods for reducing the amount of data during their processing. The proposed method can be used to reduce the cost of computing resources and the required amount of storage devices when creating code books and implementing algorithms for finding support vectors in them, including the implementation of low-speed encoding of speech signals.
Векторное квантование требует достаточно большого числа операций при формировании кодовых книг и осуществления поиска векторов в них, что приводит к высокой вычислительной сложности данных процедур, особенно при больших объемах обрабатываемой информации. Следовательно, уменьшение количества вычислительных операций при поиске вектора в кодовой книге является актуальной задачей.Vector quantization requires a fairly large number of operations in the formation of code books and the search for vectors in them, which leads to high computational complexity of these procedures, especially with large volumes of processed information. Therefore, reducing the number of computational operations when searching for a vector in the codebook is an urgent task.
Известны способы векторного квантования для осуществления процедуры кодирования речи [Макхоул Д., Рукос С., Гиш Г. Векторное квантование при кодировании речи. // ТИИЭР. - 1985. - Т.73. - №11. - С.19-61], [V. Ramasubramanian and Kuldip К. Paliwal «Fast Nearest-Neighbor Search Based on Voronoi Projections and Its Application to Vector Quantization Encoding» in Proc. IEEE Int. Conf. Acoustics, Speech, and Signal Processing, vol. 1, no. 2, March 1999]. Также известен способ создания кодовой книги и поиска в глубину, представленный в патенте RU 2175454 С2, в котором предлагается древовидная структура с определенным, заранее заданным количеством уровней. Данный способ характеризуется большей вычислительной сложностью, поскольку использует вероятностные методы для осуществления процедуры нахождения опорного вектора-центроида в каждой ячейке кодовой книги. В патенте RU 2391715 С2 описан принцип многомерного векторного квантования с применением многоуровневых кодовых книг. Недостатком данного способа являются требования к наличию достаточно большого объема памяти, необходимой для хранения таблиц координат опорных векторов-центроидов.Known methods of vector quantization for the implementation of the coding of speech [Makhol D., Rukos S., Guiche G. Vector quantization in speech coding. // TIIER. - 1985. - T.73. - No. 11. - S. 19-61], [V. Ramasubramanian and Kuldip K. Paliwal “Fast Nearest-Neighbor Search Based on Voronoi Projections and Its Application to Vector Quantization Encoding” in Proc. IEEE Int. Conf. Acoustics, Speech, and Signal Processing, vol. 1, no. 2, March 1999]. Also known is a method of creating a codebook and searching in depth, presented in patent RU 2175454 C2, which proposes a tree structure with a certain, predetermined number of levels. This method is characterized by greater computational complexity, since it uses probabilistic methods to implement the procedure for finding the reference centroid vector in each cell of the codebook. The patent RU 2391715 C2 describes the principle of multidimensional vector quantization using multilevel codebooks. The disadvantage of this method is the requirement for the presence of a sufficiently large amount of memory required to store the coordinate tables of the reference centroid vectors.
Наиболее близким по технической сущности к заявленному способу является метод, рассмотренный в патенте US 6161086, в котором при векторном квантовании данных при линейном предсказании речевого сигнала для формирования сигнала возбуждения синтезирующего фильтра используют объединенную кодовую книгу, состоящую из фиксированной и адаптивной кодовых книг, причем коррекция адаптивной кодовой книги производится при помощи инверсной процедуры BIFT (Backward and Inverse Filtered Target) на трех уровнях адаптивной кодовой книги. Фиксированная кодовая книга содержит стохастический компонент сигнала возбуждения, который отображает невокализованную составляющую. Адаптивная кодовая книга формируется на основе тонового компонента сигнала возбуждения и отображает наличие долговременных корреляционных связей за счет вокализованной структуры речевого сигнала и несет информацию о количестве отсчетов, соответствующем периоду основного тона анализируемого кадра речи.The closest in technical essence to the claimed method is the method described in patent US 6161086, in which when vector quantizing data with linear prediction of the speech signal to form the excitation signal of the synthesizing filter, a combined codebook consisting of fixed and adaptive codebooks is used, and the adaptive correction the codebook is produced using the inverse procedure BIFT (Backward and Inverse Filtered Target) at three levels of adaptive codebook. The fixed codebook contains the stochastic component of the excitation signal, which displays the unvoiced component. The adaptive codebook is formed on the basis of the tone component of the excitation signal and displays the presence of long-term correlation due to the voiced structure of the speech signal and carries information about the number of samples corresponding to the period of the fundamental tone of the analyzed speech frame.
Нахождение опорных векторов осуществляется с использованием древовидной структуры поиска ближайшего вектора в кодовой книге, что требует большой вычислительной сложности.Finding support vectors is carried out using the tree structure of the search for the closest vector in the codebook, which requires great computational complexity.
Недостатком прототипа является достаточно большое количество памяти, необходимой для хранения таблицы координат опорных векторов, а также высокая вычислительная сложность для осуществления данной операции.The disadvantage of the prototype is a sufficiently large amount of memory required to store the coordinate table of the reference vectors, as well as high computational complexity for this operation.
Задачей изобретения является создание кодовой книги и поиска в ней при векторном квантовании, позволяющее уменьшить объем запоминающих устройств и вычислительную сложность при осуществлении процедуры поиска в кодовой книге.The objective of the invention is to create a codebook and search in it during vector quantization, which reduces the amount of storage devices and computational complexity in the implementation of the search procedure in the codebook.
Эта задача решается тем, что при создании кодовой книги и поиска в ней при векторном квантовании в объединенной кодовой книге для фиксированной кодовой книги используют самообучающуюся нейронную сеть Кохонена, известную также как карта самоорганизации - SOM (self-organizing шар), а для адаптивной кодовой книги применяют нейронную сеть с квантованием - LVQ (learning vector quantization). Процедуру поиска реализуют на многоступенчатом иерархическом векторном квантовании, которое обеспечивает малую потерю точности при одновременном повышении скорости вычислений.This problem is solved in that when creating a codebook and searching it in vector quantization in a combined codebook, a Kohonen self-learning neural network, also known as a self-organizing map, is used for a fixed codebook, and for an adaptive codebook apply a neural network with quantization - LVQ (learning vector quantization). The search procedure is implemented on a multi-stage hierarchical vector quantization, which provides a small loss of accuracy while increasing the speed of calculations.
Рассмотрим заявленный способ подробнее. Нейронная сеть SOM предназначена для преобразования поступающих векторов сигналов, имеющих произвольную размерность, в одно- или двухмерную дискретную карту. При этом такое преобразование производится адаптивно, в топологически упорядоченной форме. На фиг.1 представлена схематическая диаграмма двумерной решетки нейронов, используемой в качестве дискретной карты для функционирования фиксированной кодовой книги. Все нейроны этой решетки связаны со всеми узлами входного слоя. Эта сеть имеет структуру прямого распространения с одним вычислительным слоем, состоящим из нейронов, упорядоченных в столбцы и строки.Consider the claimed method in more detail. The SOM neural network is designed to convert incoming signal vectors having an arbitrary dimension into a one- or two-dimensional discrete map. Moreover, such a transformation is carried out adaptively, in a topologically ordered form. Figure 1 presents a schematic diagram of a two-dimensional array of neurons used as a discrete map for the operation of a fixed codebook. All neurons of this lattice are connected to all nodes of the input layer. This network has a direct distribution structure with one computational layer consisting of neurons arranged in columns and rows.
Сущность самообучения нейронной сети SOM состоит в формировании карты (пространства) координат векторов с разбиением на гиперпрямоугольные ячейки (многоугольники Вороного), с опорным вектором-центроидом в каждом многоугольнике. Существенными характеристиками алгоритма самообучения, необходимыми для формирования фиксированной кодовой книги, являются:The essence of self-learning of the SOM neural network is to form a map (space) of vector coordinates divided into hyper-rectangular cells (Voronoi polygons), with a reference centroid vector in each polygon. The essential characteristics of the self-learning algorithm necessary for the formation of a fixed codebook are:
непрерывное входное пространство образов активации (стохастических векторов сигналов возбуждения), которые генерируются в соответствии с некоторым распределением вероятности;continuous input space of activation patterns (stochastic vectors of excitation signals) that are generated in accordance with some probability distribution;
- топология нейронной сети в форме решетки, состоящей из нейронов, определяющей дискретное выходное пространство;- the topology of the neural network in the form of a lattice consisting of neurons that defines a discrete output space;
- зависящая от времени функция окрестности hj,i(x)(n), которая определяет радиус окрестности нейрона-победителя i(x);- time-dependent neighborhood function h j, i (x) (n), which determines the radius of the neighborhood of the winning neuron i (x);
- параметр скорости обучения η(n), для которого задается начальное значение η0 и который постепенно убывает во времени n, но никогда не достигает нуля.- the parameter of the learning speed η (n), for which the initial value η 0 is set and which gradually decreases in time n, but never reaches zero.
Экспериментально установлено, что при формировании фиксированной кодовой книги значение η(n), равное 0,005, необходимо для хорошей статистической точности на этапе сходимости. При этом для создания кодовой книги использовался сигнал остатка долговременного линейного предсказания речи, полученный на выходе фильтра синтеза. Описание линейного предсказания речи достаточно подробно представлено в (Быков С.В., Журавлев В.И., Шалимов И.А. Цифровая телефония: Учеб. пособие для вузов. - М.: Радио и связь, 2003. - С.102-105).It was experimentally established that when forming a fixed codebook, the value η (n) equal to 0.005 is necessary for good statistical accuracy at the convergence stage. In this case, to create a codebook, the signal of the remainder of the long-term linear speech prediction obtained at the output of the synthesis filter was used. A description of linear speech prediction is presented in sufficient detail in (Bykov S.V., Zhuravlev V.I., Shalimov I.A. Digital Telephony: Textbook for universities. - M.: Radio and Communications, 2003. - P.102- 105).
Последовательность шагов предварительного обучения в фиксированной кодовой книге следующая.The sequence of pre-training steps in a fixed codebook is as follows.
1) Инициализация. Для исходных векторов синаптических весов нейронной сети wj(0) выбирают случайные значения из множества входных векторов
2) Подвыборка. Выбирают вектор x из входного пространства с определенной вероятностью. Этот вектор представляет собой возбуждение, которое применяется к решетке нейронов. Размерность вектора x: равна m.2) Subsampling. Select a vector x from the input space with a certain probability. This vector is an excitation that is applied to the array of neurons. The dimension of the vector x: is equal to m.
3) Поиск максимального правдоподобия. Находят наиболее подходящий (победивший) нейрон i(x) на шаге n, используя критерий минимума Евклидова расстояния:3) Search for maximum likelihood. Find the most suitable (winning) neuron i (x) in step n using the minimum Euclidean distance criterion:
4) Коррекция. Коррекция векторов синаптических весов всех нейронов4) Correction. Correction of synaptic weight vectors of all neurons
wj(n+1)=wj(n)+η(n)hj,i(x)(n)(x-wj(n)),w j (n + 1) = w j (n) + η (n) h j, i (x) (n) (xw j (n)),
где η(n) - параметр скорости обучения; hj,i(x)(n) - функция окрестности с центром в победившем нейроне i(x). Оба этих параметра динамически изменяют во время обучения с целью получения лучшего результата.where η (n) is the parameter of the learning rate; h j, i (x) (n) is the neighborhood function centered in the winning neuron i (x). Both of these parameters are dynamically changed during training in order to obtain the best result.
5) Продолжение. Возврат к шагу 2 и вычисление до достижения заданного числа итераций.5) Continuation. Return to
По завершении процесса сходимости самоорганизующаяся карта SOM отображает важные статистические характеристики пространства стохастических векторов сигналов возбуждения. Поскольку алгоритм SOM относится к алгоритмам обучения нейронных сетей «без учителя», то сформированное пространство ячеек Вороного является приближенным с точки зрения размещения опорных векторов-центроидов в N-мерной системе координат. При этом аппроксимация определяется векторами синаптических весов нейронов на карте признаков.Upon completion of the convergence process, the self-organizing SOM map displays important statistical characteristics of the space of stochastic excitation signal vectors. Since the SOM algorithm refers to “teacherless” neural network learning algorithms, the generated space of Voronoi cells is approximate in terms of the placement of support centroid vectors in an N-dimensional coordinate system. In this case, the approximation is determined by the vectors of synaptic weights of neurons on the map of signs.
В качестве механизма точной подстройки необходимо произвести квантование векторов обучения. Для квантования вектора-центроида используют метод обучения «с учителем», который использует информацию о классе для небольшого смещения опорного вектора и, соответственно, границ ячейки Вороного, а следовательно, для улучшения качества областей решения классификатора. Если метки класса входного вектора x и вектора-центроида (вектора Вороного) w согласуются, то последний смещают в направлении первого. При несогласовании вектор-центроид смещается в сторону, противоположную вектору x. Кратко процесс квантования описывается следующим образом:As a fine-tuning mechanism, it is necessary to quantize the training vectors. To quantize the centroid vector, the “with the teacher” method of training is used, which uses class information to slightly offset the reference vector and, accordingly, the borders of the Voronoi cell, and therefore, to improve the quality of the areas of the classifier solution. If the class labels of the input vector x and the centroid vector (Voronoi vector) w are consistent, then the latter is shifted in the direction of the former. In case of inconsistency, the centroid vector shifts in the direction opposite to the vector x. Briefly, the quantization process is described as follows:
1) в случае максимальной близости вектора Вороного wC к входному вектору xi, wC(n+1)=wC(n)+αn[xi-wC(n)], где 0<αn<1;1) in the case of the closest proximity of the Voronoi vector w C to the input vector x i , w C (n + 1) = w C (n) + α n [x i -w C (n)], where 0 <α n <1 ;
2) при несовпадении wC(n+1)=wC(n)-αn[xi-wC(n)];2) if mismatch w C (n + 1) = w C (n) -α n [x i -w C (n)];
3) остальные векторы Вороного не изменяются.3) the remaining Voronoi vectors are not changed.
Постоянную обучения αn для формирования фиксированной кодовой книги выбирают монотонно убывающей с начальным значением 0,05. В результате процедуры адаптации после нескольких проходов по входным данным координаты опорных векторов Вороного перестают изменяться, а следовательно, и завершается создание пространства многоугольников Вороного для фиксированной кодовой книги стохастического компонента сигналов возбуждения.The learning constant α n for the formation of a fixed codebook is selected monotonically decreasing with an initial value of 0.05. As a result of the adaptation procedure, after several passes through the input data, the coordinates of the Voronoi support vectors cease to change, and therefore, the creation of the Voronoi polygon space for the fixed codebook of the stochastic component of the excitation signals is completed.
Для адаптивной кодовой книги предлагается использовать нейронную сеть LVQ. На фиг.2 представлена структура нейронной сети, выполняющей функции кодовой книги, хранящей информацию о пространстве ячеек Вороного с векторами тонового компонента сигнала возбуждения. В случае обработки речевых сигналов сеть LVQ представляет каскадное подключение слоя SOM и персептронной сети. Самоорганизующийся слой улавливает значимые признаки процесса (локализует их на основе входных данных), после чего им приписывается входной вектор в персептронном слое. Вследствие хорошей локализации признаков процесса тонового сигнала возбуждения первым слоем сети в большинстве приложений обработки речи бывает достаточным применение персептрона, содержащего только один слой нейронов (зачастую линейных).For an adaptive codebook, it is proposed to use the LVQ neural network. Figure 2 presents the structure of a neural network that performs the functions of a code book that stores information about the space of Voronoi cells with vectors of the tone component of the excitation signal. In the case of speech processing, the LVQ network represents a cascade connection of the SOM layer and the perceptron network. The self-organizing layer captures the significant features of the process (localizes them based on the input data), after which they are assigned the input vector in the perceptron layer. Due to the good localization of the signs of the process of the excitation tone signal by the first network layer, in most speech processing applications it is sufficient to use a perceptron containing only one layer of neurons (often linear).
LVQ-сеть обучают на основе множества пар вход/выход, составленных из элементов обучающей последовательности {Р,Т}: {р1, t1},{p2, t2},…,{PQtQ}. Каждый целевой вектор имеет единственный элемент, равный 1, а остальные равны 0. Для обучения сети задают вектор входа p таким образом, чтобы в конкурирующем слое была выполнена настройка элементов матрицы весов W1.1. Весовые коэффициенты нейрона i* наиболее близки к вектору входа p, и нейрон i* выигрывает конкуренцию. Тогда конкурирующая функция активации возвращает 1 в качестве элемента i* вектора а1, причем все другие элементы а1 равны 0. Во втором, персептронном слое произведение W2.1*a1 выделяет некоторый столбец матрицы W2.1 и связанный с ним класс k*. Таким образом, сеть связывает вектор входа p с классом k*. Это назначение может оказаться либо правильным, либо ошибочным. Поэтому в процессе обучения необходимо откорректировать строку i* матрицы W1.1 таким образом, чтобы приблизить ее к вектору p, назначение правильное, и удалить от вектора p, если назначение неправильное. Исходя из этого, правило настройки параметров следующее:An LVQ network is trained on the basis of many input / output pairs composed of elements of the training sequence {P, T}: {p 1 , t 1 }, {p 2 , t 2 }, ..., {P Q t Q }. Each target vector has a single element equal to 1, and the rest are 0. To train the network, set the input vector p so that the elements of the weight matrix W 1.1 are configured in the competing layer. The weights of the neuron i * are closest to the input vector p, and the neuron i * wins the competition. Then the competing activation function returns 1 as the element i * of the vector a 1 , and all other elements a 1 are 0. In the second perceptron layer, the product W 2.1 * a 1 selects some column of the matrix W 2.1 and the class k * associated with it. Thus, the network associates the input vector p with the class k *. This assignment may be either correct or erroneous. Therefore, in the learning process, it is necessary to correct the row i * of the matrix W 1.1 in such a way as to bring it closer to the vector p, the assignment is correct, and remove from the vector p if the assignment is incorrect. Based on this, the rule for setting parameters is as follows:
В качестве механизма точной подстройки производят квантование векторов обучения аналогично коррекции фиксированной кодовой книги. Экспериментально установлено, что для формирования адаптивной кодовой книги монотонно убывающая постоянная обучения αn равна 0,07.As a mechanism for fine tuning, quantization of training vectors is performed similarly to the correction of a fixed codebook. It was experimentally established that for the formation of an adaptive codebook the monotonically decreasing learning constant α n is 0.07.
Блок-схемы алгоритмов формирования фиксированной и адаптивной кодовых книг представлены на фиг.3 и фиг.4.The block diagrams of the algorithms for the formation of fixed and adaptive code books are presented in figure 3 and figure 4.
При осуществлении поиска используется процедура многоступенчатого иерархического векторного квантования, которое ускоряет скорость поиска в отличие от древовидного поиска опорного вектора-центроида. Многоступенчатое иерархическое векторное квантование разделяет общую операцию поиска на множество подопераций, каждая из которых требует малого объема вычислений как для фиксированной, так и адаптивной кодовой книги. В каждой подоперации обрабатывают остаток вектора, формируемый на предыдущем подэтапе. Входной вектор квантуют Li - уровневым векторным квантователем, остаток (ошибка) квантования подают на вход второго Lj - уровневого векторного квантователя. Процесс может повторяться для любого количества подэтапов.When performing a search, a multistage hierarchical vector quantization procedure is used, which speeds up the search speed, in contrast to the tree-like search for a reference centroid vector. Multistage hierarchical vector quantization divides the general search operation into many suboperations, each of which requires a small amount of computation for both fixed and adaptive codebooks. In each suboperation, the remainder of the vector generated in the previous sub-step is processed. The input vector is quantized by a Li - level vector quantizer, the remainder (error) of quantization is fed to the input of the second Lj - level vector quantizer. The process can be repeated for any number of sub-steps.
Окончательное квантованное значение вектора для обеих кодовых книг представляют в виде суммы выходных векторов промежуточных и конечного квантователей.The final quantized vector value for both codebooks is represented as the sum of the output vectors of the intermediate and final quantizers.
Проведенный анализ уровня техники позволил установить, что аналоги, характеризующиеся совокупностью признаков, тождественных всем признакам заявленного технического решения, отсутствуют, что указывает на соответствие заявленного устройства условию патентоспособности "новизна".The analysis of the prior art made it possible to establish that analogues that are characterized by a set of features identical to all the features of the claimed technical solution are absent, which indicates the compliance of the claimed device with the patentability condition of "novelty".
Результаты поиска известных решений в данной и смежных областях техники с целью выявления признаков, совпадающих с отличительными от прототипа признаками заявленного объекта, показали, что они не следуют явным образом из уровня техники. Из уровня техники также не выявлена известность влияния предусматриваемых существенными признаками заявленного изобретения преобразований на достижение указанного технического результата. Следовательно, заявленное изобретение соответствует условию патентоспособности "изобретательский уровень".Search results for known solutions in this and related fields of technology in order to identify features that match the distinctive features of the claimed object from the prototype showed that they do not follow explicitly from the prior art. The prior art also did not reveal the popularity of the impact provided by the essential features of the claimed invention, the transformations on the achievement of the specified technical result. Therefore, the claimed invention meets the condition of patentability "inventive step".
Промышленная применимость изобретения обусловлена тем, что оно может быть осуществлено с помощью современной элементной базы, с достижением указанного в изобретении назначения.The industrial applicability of the invention is due to the fact that it can be carried out using a modern elemental base, with the achievement of the destination specified in the invention.
Для фиксированной кодовой книги она состоит из блока формирования исходных данных векторов обучения стохастических компонент сигналов возбуждения 1, выход блока 1 соединен с входом блока предварительного обучения нейронной сети SOM 2, выход блока 2 соединен с входом блока коррекции опорных векторов-центроидов 3, выход блока 3 соединен с входом блока хранения индексированной таблицы векторов кандидатов 4.For a fixed codebook, it consists of a block for generating the initial data of the training vectors of stochastic components of the excitation signals 1, the output of
Функциональная схема осуществления процедуры формирования фиксированной кодовой книги и индексированных таблиц векторов кандидатов показана на фиг.5.A functional diagram of a procedure for generating a fixed codebook and indexed candidate vector tables is shown in FIG.
Для адаптивной кодовой книги схема содержит блок формирования исходных данных векторов обучения тоновых компонент сигналов возбуждения 5, выход блока 5 соединен с входом блока первого уровня адаптации нейронной сети LVQ 6, выход блока 6 соединен с входом блока второго уровня адаптации нейронной сети LVQ 7, выход блока 7 соединен с входом блока коррекции опорных векторов-центроидов 8, выход блока 8 соединен с входом блока хранения индексированной таблицы векторов кандидатов 9.For an adaptive codebook, the circuit contains a block for generating the initial data of the training vectors of the tone components of
Функциональная схема осуществления процедуры формирования адаптивной кодовой книги и индексированных таблиц векторов кандидатов показана на фиг.6.A functional diagram of the implementation of the adaptive codebook generation process and indexed candidate vector tables is shown in FIG. 6.
Процедуры формирования исходных данных векторов обучения, выполняемые в блоках 1 и 5, рассмотрены в О.И.Шелухин, Н.Ф.Лукьянцев. Цифровая обработка и передача речи. М., Радио и Связь, 2000 г. - С.133-135. Этап предварительного обучения нейронной сети SOM, осуществляемый в блоке 2 фиксированной кодовой книги, исследован в Осовский С. Нейронные сети для обработки информации / Пер. с польского И.Д. Рудинского. - М.: Финансы и статистика, 2002. - С.233. Коррекция опорных векторов-центроидов, проводимая в блоке 3 фиксированной кодовой книги и блоке 8 адаптивной кодовой книги, описана в Хайкин С. Нейронные сети: полный курс, 2-е издание.: Пер. с англ. - М.: Издательский дом «Вильяме», 2006. - С.603-604. Функционирование блоков 4 фиксированной кодовой книги и 9 адаптивной кодовой книги хранения таблицы векторов кандидатов представлено в Макхоул Д., Рукос С, Гиш Г. Векторное квантование при кодировании речи. // ТИИЭР. - 1985. - Т.73. - №11. - С.44-45). Адаптация, осуществляемая в блоках 6 и 7 адаптивной кодовой книги, рассмотрена в В.С.Медведев, В.Г.Потемкин. Нейронные сети. MATLAB 6. - М.: ДИАЛОГ-МИФИ, 2002. - С.168-174.The procedures for the formation of the initial data of training vectors performed in
Блок 1 содержит информацию об исходных данных для обучения нейронной сети SOM - это векторы возбуждения для синтезаторов речевых сигналов, содержащие стохастические (шумовые) компоненты. Данные векторы поступают на вход блока 2 предварительного обучения нейронной сети SOM фиксированной кодовой книга, в блоке 2 выполняется процедура настройки весовых коэффициентов указанной нейронной сети, формируя тем самым пространство ячеек Вороного с векторами-центроидами, с выхода блока 2 информация поступает на вход блока 3, где происходит коррекции опорных векторов согласно описанию механизма точной подстройки (С.5), с выхода блока 3 в блок 4 подаются данные о координатах ячеек Вороного и векторов кандидатов для их хранения в виде таблицы, которая представляет собой фиксированную кодовую книгу.
Блок 5 содержит информацию об исходных данных для обучения нейронной сети LVQ - это векторы возбуждения для синтезаторов речевых сигналов, содержащие тоновые (вокализованные) компоненты. Для обучения двухуровневой нейронной сети LVQ адаптивной кодовой книги векторы возбуждения подаются с выхода блока 5 на блок 6, где происходит настройка весовых коэффициентов первого слоя сети LVQ согласно алгоритму обучения «без учителя», аналогичного алгоритму обучения SOM. С выхода блока 6 на блок 7 второго слоя нейронной сети LVQ подаются предварительно созданные координаты ячеек и векторов Вороного, в котором происходит завершение процедуры адаптации при помощи алгоритма обучения «с учителем», так как второй уровень адаптации является персептронным слоем нейронной сети LVQ. С выхода блока 7 информация поступает на вход блока 8, где происходит коррекции опорных векторов согласно описанию механизма точной подстройки (С.5), с выхода блока 8 в блок 9 подаются данные о координатах ячеек Вороного и векторов кандидатов для их хранения в виде таблицы, которая представляет собой адаптивную кодовую книгу.
Блок-схема алгоритма многоступенчатого иерархического векторного квантования, осуществляющего процедуру поиска в фиксированной и адаптивной кодовых книгах, представлена на фиг.7.A flowchart of a multistage hierarchical vector quantization algorithm performing a search procedure in fixed and adaptive code books is shown in FIG. 7.
Применение предлагаемого способа существенно уменьшит требуемый для реализации объем запоминающих устройств на 25-30%, а реализация процедуры многоступенчатого иерархического векторного квантования сократит объем вычислительных затрат на 20-23% по сравнению с известными решениями в данной области.The application of the proposed method will significantly reduce the volume of storage devices required for implementation by 25-30%, and the implementation of the multi-stage hierarchical vector quantization procedure will reduce the amount of computational costs by 20-23% compared to known solutions in this field.
Claims (1)
центроиды для хранения индексированной таблицы векторов кандидатов, а для создания адаптивной кодовой книги формируют исходные данные векторов обучения тоновых компонент сигналов возбуждения, производят двухуровневую адаптацию нейронной сети с квантованием LVQ (learning vector quantization), корректируют опорные векторы-центроиды для хранения индексированной таблицы векторов кандидатов, при этом процедуру поиска в кодовых книгах реализуют с применением многоступенчатого иерархического векторного квантования. A method of creating a codebook and searching for it in vector quantization of data, according to which a codebook consisting of a fixed and adaptive codebooks is used to obtain the excitation signal of the synthesizing filter in the linear prediction of a speech signal, characterized in that to create a fixed codebook, the initial data of the training vectors of the stochastic components of the excitation signals are generated, the Kohonen neural network SOM (self-organizing map) is trained, for the self-learning algorithm of which a continuous input space of activation patterns of stochastic excitation signal vectors is generated, generated in accordance with some probability distribution, then form the topology of the neural network in the form of a lattice, consisting of neurons and determining a discrete output simple anstvo, then calculating the time-dependent neighborhood functionh j, i (x) (n) to find the radius of the neighborhood of the winning neuron and gradually decreasing in time, but never reaching zero, the learning speed parameter η (n) with the initial value η0, after which the reference vectors are corrected
centroids for storing the indexed table of candidate vectors, and to create an adaptive codebook, the initial data of the training vectors of the tone components of the excitation signals are generated, two-level adaptation of the neural network with LVQ quantization (learning vector quantization) is made, reference centroid vectors for storing the indexed table of candidate vectors are adjusted, wherein the search procedure in code books is implemented using multi-stage hierarchical vector quantization.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
RU2012128241/08A RU2504027C1 (en) | 2012-07-03 | 2012-07-03 | Method of creating codebook and search therein during vector quantisation of data |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
RU2012128241/08A RU2504027C1 (en) | 2012-07-03 | 2012-07-03 | Method of creating codebook and search therein during vector quantisation of data |
Publications (1)
Publication Number | Publication Date |
---|---|
RU2504027C1 true RU2504027C1 (en) | 2014-01-10 |
Family
ID=49884802
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
RU2012128241/08A RU2504027C1 (en) | 2012-07-03 | 2012-07-03 | Method of creating codebook and search therein during vector quantisation of data |
Country Status (1)
Country | Link |
---|---|
RU (1) | RU2504027C1 (en) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
RU2662939C1 (en) * | 2017-05-12 | 2018-07-31 | Общество с ограниченной ответственностью "ИСКОНА ХОЛДИНГ" | Method for identification of musical works |
CN111899748A (en) * | 2020-04-15 | 2020-11-06 | 珠海市杰理科技股份有限公司 | Audio coding method and device based on neural network and coder |
CN118136028A (en) * | 2024-04-30 | 2024-06-04 | 广州市艾索技术有限公司 | Distributed high-integration comprehensive cooperative transmission management system |
Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5797118A (en) * | 1994-08-09 | 1998-08-18 | Yamaha Corporation | Learning vector quantization and a temporary memory such that the codebook contents are renewed when a first speaker returns |
US6161086A (en) * | 1997-07-29 | 2000-12-12 | Texas Instruments Incorporated | Low-complexity speech coding with backward and inverse filtered target matching and a tree structured mutitap adaptive codebook search |
JP2002092005A (en) * | 2000-09-20 | 2002-03-29 | Fuji Xerox Co Ltd | Data sorting device and data sorting method and storage medium |
KR20030002930A (en) * | 2001-07-02 | 2003-01-09 | 정지원 | A information recognition engine |
US7433518B2 (en) * | 2001-05-31 | 2008-10-07 | Olympus Corporation | Image selection support system for supporting selection of well-photographed image from plural images |
RU2335845C2 (en) * | 2002-04-02 | 2008-10-10 | Нокиа Корпорейшн | Conversion factor coding in image/video signal coders and/or decoders |
CN101354704A (en) * | 2007-07-23 | 2009-01-28 | 夏普株式会社 | Apparatus for making grapheme characteristic dictionary and document image processing apparatus having the same |
RU2010115341A (en) * | 2007-09-17 | 2011-10-27 | Дженерал Электрик Компани (US) | METHODS AND DATA EXCHANGE SYSTEMS |
RU2435214C2 (en) * | 2010-02-01 | 2011-11-27 | Государственное образовательное учреждение высшего профессионального образования Академия Федеральной службы охраны Российской Федерации (Академия ФСО России) | Method for fast search in codebook with vector quantisation |
-
2012
- 2012-07-03 RU RU2012128241/08A patent/RU2504027C1/en not_active IP Right Cessation
Patent Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5797118A (en) * | 1994-08-09 | 1998-08-18 | Yamaha Corporation | Learning vector quantization and a temporary memory such that the codebook contents are renewed when a first speaker returns |
US6161086A (en) * | 1997-07-29 | 2000-12-12 | Texas Instruments Incorporated | Low-complexity speech coding with backward and inverse filtered target matching and a tree structured mutitap adaptive codebook search |
JP2002092005A (en) * | 2000-09-20 | 2002-03-29 | Fuji Xerox Co Ltd | Data sorting device and data sorting method and storage medium |
US7433518B2 (en) * | 2001-05-31 | 2008-10-07 | Olympus Corporation | Image selection support system for supporting selection of well-photographed image from plural images |
KR20030002930A (en) * | 2001-07-02 | 2003-01-09 | 정지원 | A information recognition engine |
RU2335845C2 (en) * | 2002-04-02 | 2008-10-10 | Нокиа Корпорейшн | Conversion factor coding in image/video signal coders and/or decoders |
CN101354704A (en) * | 2007-07-23 | 2009-01-28 | 夏普株式会社 | Apparatus for making grapheme characteristic dictionary and document image processing apparatus having the same |
RU2010115341A (en) * | 2007-09-17 | 2011-10-27 | Дженерал Электрик Компани (US) | METHODS AND DATA EXCHANGE SYSTEMS |
RU2435214C2 (en) * | 2010-02-01 | 2011-11-27 | Государственное образовательное учреждение высшего профессионального образования Академия Федеральной службы охраны Российской Федерации (Академия ФСО России) | Method for fast search in codebook with vector quantisation |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
RU2662939C1 (en) * | 2017-05-12 | 2018-07-31 | Общество с ограниченной ответственностью "ИСКОНА ХОЛДИНГ" | Method for identification of musical works |
CN111899748A (en) * | 2020-04-15 | 2020-11-06 | 珠海市杰理科技股份有限公司 | Audio coding method and device based on neural network and coder |
CN111899748B (en) * | 2020-04-15 | 2023-11-28 | 珠海市杰理科技股份有限公司 | Audio coding method and device based on neural network and coder |
CN118136028A (en) * | 2024-04-30 | 2024-06-04 | 广州市艾索技术有限公司 | Distributed high-integration comprehensive cooperative transmission management system |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Choi et al. | Towards the limit of network quantization | |
US11403528B2 (en) | Self-tuning incremental model compression solution in deep neural network with guaranteed accuracy performance | |
US11308406B2 (en) | Method of operating neural networks, corresponding network, apparatus and computer program product | |
Skretting et al. | Recursive least squares dictionary learning algorithm | |
US20180107926A1 (en) | Method and apparatus for neural network quantization | |
Khrulkov et al. | Tensorized embedding layers for efficient model compression | |
WO2022006919A1 (en) | Activation fixed-point fitting-based method and system for post-training quantization of convolutional neural network | |
Mazzawi et al. | Improving Keyword Spotting and Language Identification via Neural Architecture Search at Scale. | |
Chen et al. | Image compression using self-organization networks | |
CN111357051A (en) | Speech emotion recognition method, intelligent device and computer readable storage medium | |
RU2504027C1 (en) | Method of creating codebook and search therein during vector quantisation of data | |
CN111767697B (en) | Text processing method and device, computer equipment and storage medium | |
CN116324973A (en) | Transducer-based automatic speech recognition system including a time reduction layer | |
WO2020135324A1 (en) | Audio signal processing | |
CN113723115B (en) | Open domain question-answer prediction method based on pre-training model and related equipment | |
Verma et al. | A" Network Pruning Network''Approach to Deep Model Compression | |
CN111797220A (en) | Dialog generation method and device, computer equipment and storage medium | |
CN115512693B (en) | Audio recognition method, acoustic model training method, device and storage medium | |
CN112885367B (en) | Fundamental frequency acquisition method, fundamental frequency acquisition device, computer equipment and storage medium | |
CN116312639A (en) | Speech emotion recognition method and device, storage medium and computer equipment | |
WO2019116497A1 (en) | Identification device, identification method, and storage medium | |
KR20230002041A (en) | Method and system of learning artificial neural network model for image processing | |
CN112818098B (en) | Knowledge base-based dialogue generation method, device, terminal and storage medium | |
CN114387028A (en) | Intelligent analysis method for commodity demand of online shopping platform | |
Ahalt et al. | Vector quantization using artificial neural network models |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
MM4A | The patent is invalid due to non-payment of fees |
Effective date: 20140704 |