RU2152646C1 - Method for compression and decompression of voice messages - Google Patents

Method for compression and decompression of voice messages Download PDF

Info

Publication number
RU2152646C1
RU2152646C1 RU98113832A RU98113832A RU2152646C1 RU 2152646 C1 RU2152646 C1 RU 2152646C1 RU 98113832 A RU98113832 A RU 98113832A RU 98113832 A RU98113832 A RU 98113832A RU 2152646 C1 RU2152646 C1 RU 2152646C1
Authority
RU
Russia
Prior art keywords
elements
matrix
size
samples
speech signal
Prior art date
Application number
RU98113832A
Other languages
Russian (ru)
Other versions
RU98113832A (en
Inventor
А.А. Устинов
А.О. Тюлегенев
В.В. Данилюк
Original Assignee
Военная академия связи
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Военная академия связи filed Critical Военная академия связи
Priority to RU98113832A priority Critical patent/RU2152646C1/en
Publication of RU98113832A publication Critical patent/RU98113832A/en
Application granted granted Critical
Publication of RU2152646C1 publication Critical patent/RU2152646C1/en

Links

Images

Abstract

FIELD: telecommunications, in particular, elimination of redundancy in transmitted information. SUBSTANCE: method involves preliminary generation of random square matrix of voice signal samples, which is identical for transmission and reception and contains m*m elements. Then, method involves generation of matrix of voice signal samples, which contains N*N elements and is produced from linear voice signal array, converting said matrix to digital representation by means of its representation as product of three matrices: rectangular N*m matrix, preset random square m*m matrix of samples, and rectangular m*N matrix. Only elements of rectangular matrices are transmitted to digital communication channel. Voice decompression runs in reverse order. Rectangular matrices, which are received from digital communication channel and preset random square matrix, produce N*N matrix of decompressed voice signal samples. Then, the latter matrix is used for generation of linear continuous voice signal. Method is designed for running telephone talks by digital communication channels with rate of 4-16 kbps. EFFECT: decreased information transmission delay caused by compression, increased compression ratio. 7 dwg

Description

Изобретение относится к области электросвязи, а именно к области, связанной с сокращением избыточности передаваемой информации. Предлагаемый способ может быть использован для передачи речевых сообщений по цифровым каналам связи со скоростью до 4 кбит/с и может быть отнесен к классу способов кодирования формы речевого сигнала или способов непосредственного кодирования-восстановления. The invention relates to the field of telecommunications, and in particular to the field associated with reducing the redundancy of transmitted information. The proposed method can be used to transmit voice messages over digital communication channels with a speed of up to 4 kbit / s and can be assigned to the class of methods for encoding the shape of the speech signal or methods of direct encoding-recovery.

Известны способы кодирования формы речевого сигнала, см., например, книгу: Дж.Кейтер Компьютеры- синтезаторы речи.- М.: Мир, 1985, с.87-103, включающие выполнение трех операций: временную дискретизацию аналоговых сигналов, их квантование и кодирование (представление квантованных дискретных отсчетов речевого сигнала двоичными цифрами). Рассматриваемый способ главным образом определяет механизм кодирования и декодирования квантованных дискретных отсчетов речевого сигнала. Known methods for encoding the shape of a speech signal, see, for example, the book: J. Keyter Computers-speech synthesizers.- M .: Mir, 1985, p.87-103, including the performance of three operations: temporal sampling of analog signals, their quantization and encoding (representation of quantized discrete samples of the speech signal in binary digits). The considered method mainly determines the encoding and decoding mechanism of quantized discrete samples of the speech signal.

Известны также способы кодирования дискретных квантованных отсчетов речевого сигнала на основе дельта-модуляции, адаптивной дельта-модуляции, импульсно-кодовой модуляции, дифференциальной импульсно-кодовой модуляции, метода блочного кодирования с ортогональным преобразованием, см., например, книгу: М. В. Назаров, Ю.Н. Петров Методы цифровой обработки и передачи цифровых сигналов. - М.: Радио и связь, 1985, с. 142-161. Недостатком перечисленных выше способов - аналогов является относительно низкая информационная эффективность, под которой понимается достижение хорошего качества восстановления речевой информации достигается при скорости передачи более 16 кбит/с. There are also known methods of encoding discrete quantized samples of a speech signal based on delta modulation, adaptive delta modulation, pulse-code modulation, differential pulse-code modulation, orthogonal transform block coding method, see, for example, book: M. V. Nazarov , Yu.N. Petrov Methods of digital processing and transmission of digital signals. - M .: Radio and communications, 1985, p. 142-161. The disadvantage of the above methods - analogues is the relatively low information efficiency, which is understood as the achievement of a good quality of voice information recovery is achieved at a transmission speed of more than 16 kbit / s.

Наиболее близким по своей технической сущности к заявленному способу сжатия и восстановления речевых сообщений является способ, описанный в патенте Великобритании N2280827 A, МНК6 G 10 L 3/02 от 08 02 1995. Способ-прототип включает дискретизацию непрерывного сигнала, квантование дискретных отсчетов, формирование матрицы квантованных отсчетов речевого сигнала, ее преобразование к цифровому виду с использованием американского стандарта сжатия JPEG, передаче цифрового потока по каналу связи, приеме цифрового потока из канала связи, восстановлении матрицы квантованных отсчетов речевого сигнала из цифрового потока с использованием стандарта JPEG и обратном преобразовании квантованных отсчетов в непрерывный речевой сигнал. Однако недостатком способа-прототипа является большая временная задержка речевого сигнала, что исключает возможность применения данного способа для ведения телефонных переговоров по цифровым каналам связи.The closest in technical essence to the claimed method of compression and restoration of voice messages is the method described in UK patent N2280827 A, MNC 6 G 10 L 3/02 of 08 02 1995. The prototype method includes sampling a continuous signal, quantization of discrete samples, formation matrices of quantized samples of a speech signal, its conversion to digital form using the American JPEG compression standard, transmitting a digital stream through a communication channel, receiving a digital stream from a communication channel, restoring matrices quantized samples of a speech signal from a digital stream using the JPEG standard and the inverse of the quantized samples converted to a continuous speech signal. However, the disadvantage of the prototype method is the large time delay of the speech signal, which excludes the possibility of using this method for conducting telephone conversations on digital communication channels.

Целью изобретения является разработка способа сжатия и восстановления речевых сообщений, обеспечивающего снижение временной задержки передаваемой информации при высокой степени ее сжатия, при которой возможно ведение телефонных переговоров по низкоскоростным цифровым каналам связи. The aim of the invention is to develop a method of compression and restoration of voice messages, which reduces the time delay of transmitted information with a high degree of compression, in which it is possible to conduct telephone conversations on low-speed digital communication channels.

Поставленная цель достигается тем, что в известном способе сжатия и восстановления речевых сообщений, включающем дискретизацию непрерывного речевого сигнала, квантование дискретных отсчетов, формирование матрицы квантованных отсчетов речевого сигнала размером N•N элементов, ее преобразование к цифровому виду, передаче цифрового потока по каналу связи, приеме его из канала связи, восстановлении матрицы квантованных отсчетов речевого сигнала размером N•N элементов и обратном преобразовании квантованных дискретных отсчетов в непрерывный речевой сигнал, предварительно идентично на передаче и на приеме генерируют случайную квадратную матрицу квантованных дискретных отсчетов размером m•m элементов, каждый элемент которой принадлежит диапазону квантованных дискретных отсчетов речевого сигнала. Затем для преобразования матрицы квантованных отсчетов речевого сигнала размером N•N элементов к цифровому виду на передаче формируют множество нулевых и единичных элементов в виде прямоугольных матриц размером N•m и m•N элементов и передают их в канал связи. Принимают эти матрицы из канала связи. Затем их преобразуют путем деления элементов каждой строки прямоугольной матрицы размером N•m элементов на сумму единиц соответствующей строки и деления элементов каждого столбца прямоугольной матрицы размером m•N элементов на сумму единиц соответствующего столбца. После этого восстанавливают матрицу квантованных отсчетов речевого сигнала размером N•N элементов путем последовательного перемножения полученной после преобразования прямоугольной матрицы размером N•m элементов, случайной квадратной матрицы квантованных дискретных отсчетов размером m•m элементов и полученной после преобразования прямоугольной матрицы размером m•N элементов. При этом для формирования матрицы квантованных отсчетов речевого сигнала размером N•N элементов каждому ее элементу Aj,i, где j= 1,2,...,N; i=1,2,...,N присваивают квантованное значение дискретного отсчета речевого сигнала, k-й номер которого определяют в соответствии с выражением: k=j+N•(i-1).This goal is achieved by the fact that in the known method of compressing and restoring voice messages, including sampling a continuous speech signal, quantizing discrete samples, forming a matrix of quantized samples of a speech signal of size N • N elements, converting it to digital form, transmitting a digital stream through a communication channel, receiving it from a communication channel, restoring a matrix of quantized samples of a speech signal of size N • N elements, and inverting the quantized discrete samples to continuous A speech signal, previously identical in transmission and reception, generates a random square matrix of quantized discrete samples of size m • m elements, each element of which belongs to the range of quantized discrete samples of the speech signal. Then, to transform the matrix of quantized samples of a speech signal of size N • N elements to a digital form in transmission, a set of zero and single elements is formed in the form of rectangular matrices of size N • m and m • N elements and transmit them to the communication channel. These matrices are received from the communication channel. Then they are transformed by dividing the elements of each row of a rectangular matrix of size N • m elements by the sum of units of the corresponding row and dividing the elements of each column of a rectangular matrix of size m • N elements by the sum of units of the corresponding column. After that, the matrix of quantized samples of the speech signal of size N • N elements is restored by sequentially multiplying the rectangular matrix of size N • m elements obtained after conversion, the random square matrix of quantized discrete samples of size m • m elements and obtained after the transformation of a rectangular matrix of size m • N elements. Moreover, to form a matrix of quantized samples of a speech signal of size N • N elements, each of its elements is A j, i , where j = 1,2, ..., N; i = 1,2, ..., N assign the quantized value of the discrete count of the speech signal, the k-th number of which is determined in accordance with the expression: k = j + N • (i-1).

Для формирования множества нулевых и единичных элементов в виде прямоугольных матриц размером N•m и m•N элементов на передаче предварительно генерируют случайные прямоугольные матрицы из единичных и нулевых элементов. Затем преобразуют их. После этого вычисляют матрицу размером N•N элементов путем последовательного перемножения полученной после преобразования прямоугольной матрицы размером N•m элементов, случайной квадратной матрицы квантованных дискретных отсчетов размером m•m элементов и полученной после преобразования прямоугольной матрицы размером m•N элементов. Далее вычисляют сумму квадратов разностей между элементами полученной в результате перемножения матрицы размером N•N элементов, и элементами матрицы квантованных отсчетов речевого сигнала размером N•N элементов. Затем последовательно инвертируют каждый элемент предварительно сгенерировнных случайным образом прямоугольных матриц размером N•m и m•N элементов, выполняя при этом их преобразование, а затем последовательно перемножают полученную после преобразования прямоугольную матрицу размером N•m элементов, случайную квадратную матрицу квантованных дискретных отсчетов размером m•m элементов и полученную после преобразования прямоугольную матрицу размером m•N элементов. После этого вычисляют сумму квадратов разностей между элементами полученной в результате перемножения матрицы размером N•N элементов и элементами матрицы квантованных отсчетов речевого сигнала размером N•N элементов. Вычитают эту сумму от аналогичной суммы, полученной на предыдущем шаге, и в случае положительной разности сохраняют инвертированное значение элемента, а в противном случае выполняют его повторную инверсию. To form a set of zero and single elements in the form of rectangular matrices of size N • m and m • N elements in the transmission, random rectangular matrices are preliminarily generated from unit and zero elements. Then they are transformed. After that, a matrix of size N • N elements is calculated by sequentially multiplying the obtained rectangular square matrix of size N • m elements, a random square matrix of quantized discrete samples of size m • m, and obtained after the transformation of a rectangular matrix of size m • N elements. Next, the sum of the squared differences between the elements of the matrix obtained by multiplying the size of N • N elements and the elements of the matrix of quantized samples of the speech signal of the size N • N elements is calculated. Then, each element is successively inverted of each element of rectangular matrices of size N • m and m • N elements previously randomly generated in a random manner, while transforming them, and then the rectangular matrix of size N • m elements obtained after the conversion, the random square matrix of quantized discrete samples of size m are multiplied • m elements and a rectangular matrix of m • N elements obtained after the transformation. After that, the sum of the squared differences between the elements of the matrix obtained by multiplying the size of N • N elements and the elements of the matrix of quantized samples of the speech signal of the size N • N elements is calculated. This amount is subtracted from the similar amount obtained in the previous step, and in case of a positive difference, the inverted value of the element is stored, otherwise it is inverted again.

Для преобразования случайных прямоугольных матриц из единичных и нулевых элементов число элементов каждой строки прямоугольной матрицы размером N•m элементов и каждого столбца прямоугольной матрицы размером m•N элементов делят на сумму единиц соответственно в этой строке и этом столбце. To convert random rectangular matrices of unit and zero elements, the number of elements of each row of a rectangular matrix of size N • m elements and each column of a rectangular matrix of size m • N elements is divided by the sum of units in this row and this column, respectively.

Указанная новая совокупность существенных признаков позволяет снизить значение временной задержки передаваемой информации до величины, при которой возможно ведение телефонных переговоров по низкоскоросным цифровым каналам связи. The specified new set of essential features allows to reduce the value of the time delay of the transmitted information to a value at which it is possible to conduct telephone conversations via low-speed digital communication channels.

Заявленный способ поясняется чертежами:
- Фиг.1 График кривой, описывающей форму непрерывного речевого сигнала;
- Фиг.2 Пример квантованных дискретных отсчетов речевого сигнала;
- Фиг.3 Пример формирования матрицы квантованных отсчетов речевого сигнала размером N•N элементов;
- Фиг.4 Представление матрицы восстановленных квантованных отсчетов речевого сигнала в виде произведения трех матриц;
- Фиг.5 Структура матриц [Y]Nxm, [X]mxN и [Ypr]Nxm, [Xpr]mxN;
- Фиг.6 Преобразование матрицы квантованных отсчетов речевого сигнала к цифровому виду и обратное преобразование принятого из канала связи цифрового потока в матрицу восстановленных отсчетов речевого сигнала.
The claimed method is illustrated by drawings:
- Figure 1 Graph of a curve describing the shape of a continuous speech signal;
- Figure 2 Example of quantized discrete samples of a speech signal;
- Figure 3 An example of the formation of a matrix of quantized samples of a speech signal with a size of N • N elements;
- Fig. 4 Presentation of a matrix of reconstructed quantized samples of a speech signal in the form of a product of three matrices;
- Figure 5 The structure of the matrices [Y] Nxm , [X] mxN and [Y pr ] Nxm , [X pr ] mxN ;
- Fig.6 Conversion of the matrix of quantized samples of the speech signal to digital form and the inverse transformation of the digital stream received from the communication channel into the matrix of restored samples of the speech signal.

- Фиг.7 Последовательная оптимизация элементов матриц [X]mxN и [Y]TmxN.- Fig.7 Sequential optimization of the elements of the matrices [X] mxN and [Y] T mxN .

Возможность реализации заявленного способа сжатия и восстановления речевых сообщений объясняется следующим. В основе предлагаемого способа сжатия и восстановления речевого сигнала лежит подход, основанный на представлении кодируемого блока отсчетов, представленного матрицей квантованных отсчетов речевого сигнала (в дальнейшем обозначим ее как [A]NxN), в виде произведения трех матриц: прямоугольной матрицы размером N•m элементов (в дальнейшем обозначим ее как [Ypr]Nxm), случайной квадратной матрицы квантованных отсчетов размером m•m элементов (в дальнейшем обозначим ее как [B])mxm и прямоугольной матрицы размером m•N элементов (в дальнейшем обозначим ее как [Xpr] mxN). При этом считается, что матрица [B]mxm известна на передаче и на приеме и не изменяется в процессе передачи/приема информации. Тогда при кодировании матрицы квантованных отсчетов речевого сигнала [A]NxN на передаче необходимо найти такие оптимальные матрицы [Ypr]Nxm и [Xpr]mxN, которые при перемножении с матрицей [B]mxm образуют некоторую матрицу восстановленных дискретных отсчетов речевого сигнала размером N•N элементов (в дальнейшем обозначим эту матрицу как

Figure 00000002
) наиболее близкую по заданному критерию к матрице квантованных дискретных отсчетов речевого сигнала [A]NxN. После определения оптимальных матриц [Ypr]Nxm и [Xpr]mxN их передают в канал связи, принимают из канала связи и формируют на приеме матрицу восстановленных дискретных отсчетов речевого сигналу
Figure 00000003
на основе выполнения перемножения: [Ypr]Nxm • [B]mxm • [Xpr]mxN. Наглядно представление матрицы восстановленных дискретных отсчетов речевого сигнала
Figure 00000004
в виде произведения трех матриц представлен на фиг. 4. При этом в качестве меры близости матриц [A]NxN и
Figure 00000005
выбирают квадратическую ошибку, определяемую по формуле
Figure 00000006
Особенностью матриц [Ypr]Nxm и [Xpr]mxN является то, что они могут быть легко приведены к цифровому виду. Это достигается тем, что на элементы этих матриц накладываются следующие ограничения:
- элементы матриц [Ypr]Nxm и [Xpr]mxN принимают значения в диапазоне от нуля до единицы;
- ненулевые элементы каждой строки матрицы [Ypr]Nxm равны между собой и в сумме образуют единицу;
- ненулевые элементы каждого столбца матрицы [Xpr]mxN равны между собой и в сумме образуют единицу.The ability to implement the claimed method of compression and restoration of voice messages is explained as follows. The proposed method for compressing and reconstructing a speech signal is based on an approach based on the representation of an encoded block of samples represented by a matrix of quantized samples of a speech signal (hereinafter, denote it as [A] NxN ) in the form of a product of three matrices: a rectangular matrix of size N • m elements (hereinafter denoted it as [Y pr] Nxm), the random quantized samples of a square matrix size m • m elements (hereinafter denoted it as [B]) mxm square matrix, and the size m • N elements (henceforth denoted m it as [X pr] mxN). It is believed that the matrix [B] mxm is known in transmission and in reception and does not change during the transmission / reception of information. Then, when encoding the matrix of quantized samples of the speech signal [A] NxN on the transmission, it is necessary to find such optimal matrices [Y pr ] Nxm and [X pr ] mxN that, when multiplied with the matrix [B] mxm, form some matrix of reconstructed discrete samples of the speech signal of size N • N elements (hereinafter, we denote this matrix as
Figure 00000002
) closest to a given criterion to the matrix of quantized discrete samples of the speech signal [A] NxN . After determining the optimal matrices [Y pr ] Nxm and [X pr ] mxN, they are transmitted to the communication channel, received from the communication channel, and a matrix of reconstructed discrete samples of the speech signal is generated at the reception
Figure 00000003
based on the execution of the multiplication: [Y pr ] Nxm • [B] mxm • [X pr ] mxN . Visual representation of the matrix of reconstructed discrete samples of the speech signal
Figure 00000004
as a product of three matrices is shown in FIG. 4. Moreover, as a measure of proximity of the matrices [A] NxN and
Figure 00000005
choose the quadratic error, determined by the formula
Figure 00000006
A feature of the matrices [Y pr ] Nxm and [X pr ] mxN is that they can be easily digitized. This is achieved by the following restrictions on the elements of these matrices:
- the elements of the matrices [Y pr ] Nxm and [X pr ] mxN take values in the range from zero to unity;
- nonzero elements of each row of the matrix [Y pr ] Nxm are equal to each other and in total form one;
- nonzero elements of each column of the matrix [X pr ] mxN are equal to each other and form one in total.

При таких ограничениях, если элементы каждой строки матрицы [Ypr]Nxm умножить на сумму ее ненулевых элементов, то будет получена матрица [Y]Nxm, элементы которой определены только на множестве "1" и "0". Аналогично, если элементы каждого столбца матрицы [Xpr]mxN умножить на сумму его ненулевых элементов, то будет получена матрица [X]mxN, элементы которой определены только на множестве "1" и "0". Таким образом, представление матрицы квантованных отсчетов речевого сигнала [A]NxN к цифровому виду на передаче осуществляют на основе формирования множества нулевых и единичных элементов в виде прямоугольных матриц размером N•m (матрица [Y]Nxm) и m•N (матрица [X] mxN) элементов. Затем матрицы [Y]Nxm и [X]mxN передают в канал связи и принимают из канала связи. Далее преобразуют матрицу [Y] Nxm в матрицу [Ypr]Nxm путем деления элементов каждой строки принятой из канала связи матрицы [Y] Nxm на сумму единиц соответствующей строки и преобразуют матрицу [X]mxN в матрицу [Xpr]mxN путем деления элементов каждого столбца принятой из канала связи матрицы [X]mxN на сумму единиц соответствующего столбца. Затем восстанавливают матрицу квантованных отсчетов речевого сигнала размером N•N элементов путем последовательного перемножения полученной после преобразования прямоугольной матрицы [Ypr]Nxm, случайной квадратной матрицы квантованных отсчетов размером m•m элементов [B]mxm и полученной после преобразования прямоугольной матрицы [Xpr]mxN. Наглядно это представлено на фиг 5.Under such restrictions, if the elements of each row of the matrix [Y pr ] Nxm are multiplied by the sum of its nonzero elements, then the matrix [Y] Nxm will be obtained, the elements of which are defined only on the set "1" and "0". Similarly, if the elements of each column of the matrix [X pr ] mxN are multiplied by the sum of its nonzero elements, then the matrix [X] mxN will be obtained, the elements of which are defined only on the set "1" and "0". Thus, the matrix of quantized samples of the speech signal [A] NxN is presented to the digital form in the transmission based on the formation of a set of zero and single elements in the form of rectangular matrices of size N • m (matrix [Y] Nxm ) and m • N (matrix [X] ] mxN ) elements. Then, the matrices [Y] Nxm and [X] mxN are transmitted to the communication channel and received from the communication channel. Next, the matrix [Y] Nxm is transformed into the matrix [Y pr ] Nxm by dividing the elements of each row of the matrix [Y] Nxm received from the communication channel by the sum of the units of the corresponding row and the matrix [X] mxN is transformed into the matrix [X pr ] mxN by dividing the elements each column received from the communication channel of the matrix [X] mxN for the sum of the units of the corresponding column. Then, the matrix of quantized samples of the speech signal of size N • N elements is restored by successively multiplying the rectangular matrix [Y pr ] Nxm obtained after the transformation, the random square matrix of quantized samples of size m • m elements [B] mxm and the rectangular matrix [X pr ] obtained after the transformation mxN . This is illustrated in FIG. 5.

Дискретизацию непрерывного речевого сигнала, представленного на фиг. 1, выполняют в соответствии с теоремой Котельникова. В предлагаемом способе выбрана общепринятая частота дискретизации непрерывного речевого сигнала 8 кГц. Затем осуществляют квантование дискретных отсчетов. Квантование осуществляется на основе способов, описанных, например, в кн.: М.В. Назаров, Ю.Н. Петров Методы цифровой обработки и передачи цифровых сигналов. - М.: Радио и связь, 1985, с. 142-161. Далее на основе множества квантованных дискретных отсчетов речевого сигнала осуществляют формирование матрицы квантованных отсчетов речевого сигнала [A]NxN. Формирование матрицы квантованных отсчетов речевого сигнала [A] NxN показано на фиг.3. При этом матрица квантованных отсчетов формируется из N2 квантованных дискретных отсчетов речевого сигнала, каждому элементу которой Aji, где i=1,2,...,N; r=1,2,...,N присваивают квантованное значение отсчета речевого сигнала, k-й номер которого определяют в соответствии с выражением: k=j+N•(i-1).Sampling the continuous speech signal of FIG. 1, are performed in accordance with the Kotelnikov theorem. In the proposed method, a conventional sampling rate of a continuous speech signal of 8 kHz is selected. Then quantize discrete samples. Quantization is carried out on the basis of the methods described, for example, in the book: M.V. Nazarov, Yu.N. Petrov Methods of digital processing and transmission of digital signals. - M .: Radio and communications, 1985, p. 142-161. Then, based on the set of quantized discrete samples of the speech signal, a matrix of quantized samples of the speech signal [A] NxN is formed . The formation of a matrix of quantized samples of the speech signal [A] NxN is shown in Fig.3 . The matrix of quantized samples is formed from N 2 quantized discrete samples of the speech signal, each element of which A ji , where i = 1,2, ..., N; r = 1,2, ..., N assign a quantized value of the count of the speech signal, the k-th number of which is determined in accordance with the expression: k = j + N • (i-1).

Формирование случайной квадратной матрицы квантованных дискретных отсчетов [B]mxm может быть выполнено на основе датчика случайных чисел, например на основе шумового диода. Для выполнения требования идентичности матрицы [B] mxm приемника аналогичной матрице передатчика перед началом каждого сеанса связи элементы матрицы [B]mxm могут быть сгенерированы на передаче и переданы по цифровому каналу связи на приемную сторону, например, в составе синхропосылки.The formation of a random square matrix of quantized discrete samples [B] mxm can be performed based on a random number sensor, for example, based on a noise diode. To fulfill the identity requirement of the receiver matrix [B] mxm to a similar transmitter matrix, before the start of each communication session, the elements of the [B] mxm matrix can be generated in transmission and transmitted over the digital communication channel to the receiving side, for example, as part of a sync packet.

Для преобразования матрицы квантованных отсчетов речевого сигнала [A]NxN к цифровому виду на передаче формируют множество нулевых и единичных элементов в виде матриц [Y]Nxm и [X]mxN и передают их в цифровой канал связи. Процедура, реализующая поиск на передаче оптимальных матриц [Y]Nxm и [X]mxN подробно описана в приложении 1.To convert the matrix of quantized samples of the speech signal [A] NxN to a digital form in transmission, a set of zero and single elements is formed in the form of matrices [Y] Nxm and [X] mxN and they are transmitted to a digital communication channel. The procedure that implements a search on the transmission of optimal matrices [Y] Nxm and [X] mxN is described in detail in Appendix 1.

После приема из цифрового канала связи матриц [Y]Nxm и [X]mxN их преобразуют в матрицы [Ypr]Nxm и [Xpr]mxN соответственно. Преобразование выполняют путем деления элементов каждой строки матрицы [Y]Nxm на сумму единиц соответствующей строки и деления элементов каждого столбца матрицы [X]mxN на сумму единиц соответствующего столбца. После этого восстанавливают матрицу квантованных отсчетов речевого сигнала

Figure 00000007
в соответствии с выражением:
Figure 00000008
и выполняют обратное преобразование из матрицы восстановленных квантованных отсчетов речевого сигнала
Figure 00000009
в непрерывный речевой сигнал.After receiving the matrices [Y] Nxm and [X] mxN from the digital communication channel, they are transformed into the matrices [Y pr ] Nxm and [X pr ] mxN, respectively. The conversion is performed by dividing the elements of each row of the matrix [Y] Nxm by the sum of the units of the corresponding row and dividing the elements of each column of the matrix [X] mxN by the sum of the units of the corresponding column. After that, the matrix of quantized samples of the speech signal is restored
Figure 00000007
in accordance with the expression:
Figure 00000008
and perform the inverse transformation from the matrix of restored quantized samples of the speech signal
Figure 00000009
into a continuous speech signal.

Для оценки эффективности предлагаемого способа сжатия и восстановления речевых сообщений было проведено имитационное моделирование на ПЭВМ. При кодировании речевых сообщений использовалось 8-разрядное АЦП. При этом размер кодируемого блока составлял 24•24 элемента, что обеспечивало задержку передачи речи 0,72 мс. Такая величина временной задержки передаваемой информации существенно ниже временной задержки, реализуемой в способе-прототипе (в способе-прототипе величина временной задержки речевого сигнала составляет 6 с). При этом задержка 0,72 мс позволяет осуществить ведение дуплексных телефонных переговоров по низкоскоростным каналам связи. Размер случайной квадратной матрицы квантованных дискретных отсчетов составлял 12•12 элементов. В предлагаемом способе высокая степень сжатия речевой информации достигалась за счет того, что для восстановления на приеме матрицы квантованных отсчетов речевого сигнала [A]NxN в цифровой канал связи необходимо передать количество двоичных единиц, определяемое размерами матриц [Y]Nxm и [X] mxN. При этом достигаемый коэффициент сжатия (коэффициент уменьшения требуемой скорости передачи цифрового потока) может быть определен по формуле:

Figure 00000010

где L - число уровней квантования дискретных отсчетов речевого сигнала.To assess the effectiveness of the proposed method of compression and restoration of voice messages, simulation was carried out on a PC. When encoding voice messages, an 8-bit ADC was used. At the same time, the size of the encoded block was 24 • 24 elements, which ensured a delay in speech transmission of 0.72 ms. This value of the time delay of the transmitted information is significantly lower than the time delay implemented in the prototype method (in the prototype method, the value of the time delay of the speech signal is 6 s). At the same time, a delay of 0.72 ms allows for duplex telephone conversations over low-speed communication channels. The size of the random square matrix of quantized discrete samples was 12 • 12 elements. In the proposed method, a high degree of compression of speech information was achieved due to the fact that in order to restore the matrix of quantized samples of the speech signal [A] NxN at the reception , it is necessary to transfer the number of binary units determined by the sizes of the matrices [Y] Nxm and [X] mxN . In this case, the achieved compression ratio (reduction coefficient of the required transmission rate of the digital stream) can be determined by the formula:
Figure 00000010

where L is the number of quantization levels of discrete samples of the speech signal.

При выборе N= 24, m=12 (L=256) обеспечивался коэффициент сжатия 8 раз (скорость передачи на выходе кодера - 8[кбит/с]). При выборе размера случайной квадратной матрицы квантованных дискретных отсчетов речевого сигнала 6•6 элементов коэффициент сжатия речевых сообщений составил 16 раз (скорость передачи на выходе кодера - 4(кбит/с]). Качество восстановленной речи на приеме оценивалось по соотношению сигнал/шум и составило около 14[db]. При этом восстановленная речь сохраняет свою естественность, натуральность и обладает хорошей разборчивостью. Анализ вычислительной сложности показал, что сложность кодирования/декодирования предлагаемой процедуры (количество операций умножения, деления, сложения, вычитания) пропорционально приблизительно величине m2. Поэтому предлагаемый способ сжатия и восстановления речи может быть реализован на современных процессорах обработки сигналов.When choosing N = 24, m = 12 (L = 256), a compression ratio of 8 times was provided (the transmission rate at the encoder output was 8 [kbit / s]). When choosing the size of a random square matrix of quantized discrete samples of a speech signal of 6 • 6 elements, the compression ratio of voice messages was 16 times (the transmission speed at the encoder output was 4 (kbit / s)). The quality of the restored speech at the reception was estimated by the signal-to-noise ratio and amounted to about 14 [db]. At the same time, the restored speech retains its naturalness, naturalness and has good intelligibility. Analysis of computational complexity showed that the complexity of encoding / decoding the proposed procedure (quantitative of multiplication, division, addition, subtraction) is proportional to the value of about 2 m. Therefore, the proposed method for compression and decompression of speech may be realized on modern signal processors.

Claims (3)

1. Способ сжатия и восстановления речевых сообщений, заключающийся в дискретизации непрерывного сигнала, квантовании дискретных отсчетов, формировании матрицы квантованных отсчетов речевого сигнала размером N•N элементов, ее преобразовании к цифровому виду, передаче цифрового потока по каналу связи, приеме цифрового потока из канала связи, восстановлении матрицы квантованных отсчетов речевого сигнала размером N•N элементов и обратном преобразовании квантованных дискретных отсчетов в непрерывный речевой сигнал, отличающийся тем, что предварительно идентично на передаче и на приеме генерируют случайную квадратную матрицу квантованных отсчетов размером m•m элементов, каждый элемент которой принадлежит диапазону квантованных дискретных отсчетов речевого сигнала, а для преобразования матрицы квантованных отсчетов речевого сигнала размером N•N элементов к цифровому виду на передаче формируют множество нулевых и единичных элементов в виде прямоугольных матриц размером N•m и m•N элементов, причем для формирования множества нулевых и единичных элементов в виде прямоугольных матриц размером N•m и m•N элементов на передаче предварительно генерируют случайные прямоугольные матрицы из единичных и нулевых элементов преобразуют их, вычисляют матрицу размером N•N элементов путем перемножения полученных после преобразования прямоугольных матриц с ранее идентично сформированной на передаче и приеме квадратной матрицей квантованных отсчетов размером m•m элементов, вычисляют сумму квадратов разностей между элементами полученной в результате перемножения матрицы размером N•N и элементами матрицы квантованных отсчетов речевого сигнала размером N•N элементов, затем последовательно инвертируют каждый элемент предварительно сгенерированных случайным образом прямоугольных матриц размером N•m и m•N элементов, преобразуют их, а затем перемножают прямоугольные матрицы размером N•m и m•N элементов с ранее сформированной матрицей квантованных отсчетов размером m•m элементов, вычисляют сумму квадратов разностей между элементами полученной в результате перемножения матрицы размером N•N и элементами матрицы квантованных отсчетов речевого сигнала, вычитают эту сумму от аналогичной суммы, полученной на предыдущем шаге и, в случае положительной разности, сохраняют инвертированное значение элемента, а в противном случае - выполняют его повторную инверсию, затем сформированные множества нулевых и единичных элементов в виде прямоугольных матриц размером N•m и m•N передают в канал связи, принимают из канала связи, преобразуют путем деления элементов каждой строки матрицы N•m на сумму единиц соответствующей строки и деления элементов каждого столбца матрицы размером m•N на сумму единиц соответствующего столбца, затем восстанавливают матрицу квантованных отсчетов речевого сигнала размером N•N элементов путем перемножения полученных после преобразования прямоугольных матриц размером N•m и m•N элементов и ранее сформированной квадратной матрицы квантованных дискретных отсчетов размером m•m элементов. 1. The method of compression and restoration of voice messages, which consists in sampling a continuous signal, quantizing discrete samples, forming a matrix of quantized samples of a speech signal of size N • N elements, converting it to digital form, transmitting a digital stream through a communication channel, receiving a digital stream from a communication channel restoring the matrix of quantized samples of a speech signal of size N • N elements and the inverse transformation of quantized discrete samples into a continuous speech signal, characterized in that a random square matrix of quantized samples of size m • m elements, each element of which belongs to the range of quantized discrete samples of a speech signal, is generated previously identically in transmission and reception, and for the transformation of a matrix of quantized samples of a speech signal of size N • N elements to a digital form in transmission, a set zero and single elements in the form of rectangular matrices of size N • m and m • N elements, moreover, to form a set of zero and single elements in the form of a rectangular of oly matrices of size N • m and m • N elements in the transmission, random rectangular matrices are preliminarily generated from unit and zero elements, they are converted, a matrix of size N • N elements is calculated by multiplying the rectangular matrices obtained after the transformation with a square matrix previously identically formed in transmission and reception quantized samples of size m • m elements, calculate the sum of the squared differences between the elements obtained by multiplying a matrix of size N • N and the elements of the quantum matrix samples of a speech signal of size N • N elements, then each element is sequentially inverted of randomly generated rectangular matrices of size N • m and m • N elements, they are converted, and then rectangular matrices of size N • m and m • N elements are multiplied from previously formed by a matrix of quantized samples of size m • m elements, calculate the sum of the squares of the differences between the elements obtained by multiplying a matrix of size N • N and elements of the matrix of quantized samples of a speech signal a, subtract this amount from the same amount obtained in the previous step and, in the case of a positive difference, save the inverted value of the element, and otherwise, perform its repeated inversion, then the formed sets of zero and single elements in the form of rectangular matrices of size N • m and m • N are transmitted to the communication channel, received from the communication channel, converted by dividing the elements of each row of the matrix N • m by the sum of the units of the corresponding row and dividing the elements of each column of the matrix of size m • N by the sum of one corresponding column, then reduced matrix of quantized speech signal samples size N • N elements by multiplying obtained after conversion rectangular matrix size N • m and m • N elements and previously formed square matrix of quantized discrete sample size m • m elements. 2. Способ по п.1, отличающийся тем, что для формирования матрицы квантованных отсчетов речевого сигнала размером N•N элементов каждому ее элементу Aj, i, где j = 1, 2, ..., N; j = 1, 2, ..., N присваивают квантованное значение дискретного отсчета речевого сигнала, k-й номер которого определяют в соответствии с выражением: k = j + N•(i -1). 2. The method according to claim 1, characterized in that for the formation of a matrix of quantized samples of a speech signal of size N • N elements to each of its elements Aj, i, where j = 1, 2, ..., N; j = 1, 2, ..., N is assigned the quantized value of the discrete count of the speech signal, the kth number of which is determined in accordance with the expression: k = j + N • (i -1). 3. Способ по п. 1, отличающийся тем, что для преобразования случайных прямоугольных матриц из единичных и нулевых элементов число элементов каждой строки матрицы N•m и каждого столбца матрицы размером m•N делят на сумму единиц соответственно в этой строке и этом столбце. 3. The method according to claim 1, characterized in that for converting random rectangular matrices of unit and zero elements, the number of elements of each row of the matrix N • m and each column of the matrix of size m • N is divided by the sum of units in this row and this column, respectively.
RU98113832A 1998-07-14 1998-07-14 Method for compression and decompression of voice messages RU2152646C1 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
RU98113832A RU2152646C1 (en) 1998-07-14 1998-07-14 Method for compression and decompression of voice messages

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
RU98113832A RU2152646C1 (en) 1998-07-14 1998-07-14 Method for compression and decompression of voice messages

Publications (2)

Publication Number Publication Date
RU98113832A RU98113832A (en) 2000-05-10
RU2152646C1 true RU2152646C1 (en) 2000-07-10

Family

ID=20208651

Family Applications (1)

Application Number Title Priority Date Filing Date
RU98113832A RU2152646C1 (en) 1998-07-14 1998-07-14 Method for compression and decompression of voice messages

Country Status (1)

Country Link
RU (1) RU2152646C1 (en)

Similar Documents

Publication Publication Date Title
US6178405B1 (en) Concatenation compression method
CN1151705C (en) Method and apparatus for encoding and decoding multiple audio channels at low bit rates
US5072308A (en) Communication signal compression system and method
US6198412B1 (en) Method and apparatus for reduced complexity entropy coding
US4270025A (en) Sampled speech compression system
Noll A comparative study of various quantization schemes for speech encoding
EP0099397A1 (en) Adaptive differential pcm coding.
O'Neal Differential pulse-code modulation (PCM) with entropy coding
JP3466080B2 (en) Digital data encoding / decoding method and apparatus
CN1132327C (en) Device for producing confortable noise and voice coding and decoding device including said device
RU2419246C1 (en) Method to compress and recover fixed halftone video images
RU2152646C1 (en) Method for compression and decompression of voice messages
EP1121686B1 (en) Speech parameter compression
RU2195714C1 (en) Voice message compression and recovery method
KR100338801B1 (en) digital data encoder/decoder method and apparatus
RU2195715C1 (en) Process of compression and restoration of speech messages
WO2002047359A2 (en) System to reduce distortion due to coding with a sample-by-sample quantizer
RU2297099C2 (en) Method for transferring additional information in coding voice messages
CN1202513C (en) Audio coding method and apparatus
RU2320027C2 (en) Method for compressing and restoring spoken messages
RU2216791C1 (en) Method for compressing and recovering voice messages
RU2244963C1 (en) Method for compaction and decompaction of speech messages
RU2246798C1 (en) Message compression and recovery process
JPH09503630A (en) Constant bit rate speech encoder / decoder
KR0138868B1 (en) Lsp frequency quantizer