RU2152646C1 - Method for compression and decompression of voice messages - Google Patents
Method for compression and decompression of voice messages Download PDFInfo
- Publication number
- RU2152646C1 RU2152646C1 RU98113832A RU98113832A RU2152646C1 RU 2152646 C1 RU2152646 C1 RU 2152646C1 RU 98113832 A RU98113832 A RU 98113832A RU 98113832 A RU98113832 A RU 98113832A RU 2152646 C1 RU2152646 C1 RU 2152646C1
- Authority
- RU
- Russia
- Prior art keywords
- elements
- matrix
- size
- samples
- speech signal
- Prior art date
Links
Images
Abstract
Description
Изобретение относится к области электросвязи, а именно к области, связанной с сокращением избыточности передаваемой информации. Предлагаемый способ может быть использован для передачи речевых сообщений по цифровым каналам связи со скоростью до 4 кбит/с и может быть отнесен к классу способов кодирования формы речевого сигнала или способов непосредственного кодирования-восстановления. The invention relates to the field of telecommunications, and in particular to the field associated with reducing the redundancy of transmitted information. The proposed method can be used to transmit voice messages over digital communication channels with a speed of up to 4 kbit / s and can be assigned to the class of methods for encoding the shape of the speech signal or methods of direct encoding-recovery.
Известны способы кодирования формы речевого сигнала, см., например, книгу: Дж.Кейтер Компьютеры- синтезаторы речи.- М.: Мир, 1985, с.87-103, включающие выполнение трех операций: временную дискретизацию аналоговых сигналов, их квантование и кодирование (представление квантованных дискретных отсчетов речевого сигнала двоичными цифрами). Рассматриваемый способ главным образом определяет механизм кодирования и декодирования квантованных дискретных отсчетов речевого сигнала. Known methods for encoding the shape of a speech signal, see, for example, the book: J. Keyter Computers-speech synthesizers.- M .: Mir, 1985, p.87-103, including the performance of three operations: temporal sampling of analog signals, their quantization and encoding (representation of quantized discrete samples of the speech signal in binary digits). The considered method mainly determines the encoding and decoding mechanism of quantized discrete samples of the speech signal.
Известны также способы кодирования дискретных квантованных отсчетов речевого сигнала на основе дельта-модуляции, адаптивной дельта-модуляции, импульсно-кодовой модуляции, дифференциальной импульсно-кодовой модуляции, метода блочного кодирования с ортогональным преобразованием, см., например, книгу: М. В. Назаров, Ю.Н. Петров Методы цифровой обработки и передачи цифровых сигналов. - М.: Радио и связь, 1985, с. 142-161. Недостатком перечисленных выше способов - аналогов является относительно низкая информационная эффективность, под которой понимается достижение хорошего качества восстановления речевой информации достигается при скорости передачи более 16 кбит/с. There are also known methods of encoding discrete quantized samples of a speech signal based on delta modulation, adaptive delta modulation, pulse-code modulation, differential pulse-code modulation, orthogonal transform block coding method, see, for example, book: M. V. Nazarov , Yu.N. Petrov Methods of digital processing and transmission of digital signals. - M .: Radio and communications, 1985, p. 142-161. The disadvantage of the above methods - analogues is the relatively low information efficiency, which is understood as the achievement of a good quality of voice information recovery is achieved at a transmission speed of more than 16 kbit / s.
Наиболее близким по своей технической сущности к заявленному способу сжатия и восстановления речевых сообщений является способ, описанный в патенте Великобритании N2280827 A, МНК6 G 10 L 3/02 от 08 02 1995. Способ-прототип включает дискретизацию непрерывного сигнала, квантование дискретных отсчетов, формирование матрицы квантованных отсчетов речевого сигнала, ее преобразование к цифровому виду с использованием американского стандарта сжатия JPEG, передаче цифрового потока по каналу связи, приеме цифрового потока из канала связи, восстановлении матрицы квантованных отсчетов речевого сигнала из цифрового потока с использованием стандарта JPEG и обратном преобразовании квантованных отсчетов в непрерывный речевой сигнал. Однако недостатком способа-прототипа является большая временная задержка речевого сигнала, что исключает возможность применения данного способа для ведения телефонных переговоров по цифровым каналам связи.The closest in technical essence to the claimed method of compression and restoration of voice messages is the method described in UK patent N2280827 A, MNC 6 G 10 L 3/02 of 08 02 1995. The prototype method includes sampling a continuous signal, quantization of discrete samples, formation matrices of quantized samples of a speech signal, its conversion to digital form using the American JPEG compression standard, transmitting a digital stream through a communication channel, receiving a digital stream from a communication channel, restoring matrices quantized samples of a speech signal from a digital stream using the JPEG standard and the inverse of the quantized samples converted to a continuous speech signal. However, the disadvantage of the prototype method is the large time delay of the speech signal, which excludes the possibility of using this method for conducting telephone conversations on digital communication channels.
Целью изобретения является разработка способа сжатия и восстановления речевых сообщений, обеспечивающего снижение временной задержки передаваемой информации при высокой степени ее сжатия, при которой возможно ведение телефонных переговоров по низкоскоростным цифровым каналам связи. The aim of the invention is to develop a method of compression and restoration of voice messages, which reduces the time delay of transmitted information with a high degree of compression, in which it is possible to conduct telephone conversations on low-speed digital communication channels.
Поставленная цель достигается тем, что в известном способе сжатия и восстановления речевых сообщений, включающем дискретизацию непрерывного речевого сигнала, квантование дискретных отсчетов, формирование матрицы квантованных отсчетов речевого сигнала размером N•N элементов, ее преобразование к цифровому виду, передаче цифрового потока по каналу связи, приеме его из канала связи, восстановлении матрицы квантованных отсчетов речевого сигнала размером N•N элементов и обратном преобразовании квантованных дискретных отсчетов в непрерывный речевой сигнал, предварительно идентично на передаче и на приеме генерируют случайную квадратную матрицу квантованных дискретных отсчетов размером m•m элементов, каждый элемент которой принадлежит диапазону квантованных дискретных отсчетов речевого сигнала. Затем для преобразования матрицы квантованных отсчетов речевого сигнала размером N•N элементов к цифровому виду на передаче формируют множество нулевых и единичных элементов в виде прямоугольных матриц размером N•m и m•N элементов и передают их в канал связи. Принимают эти матрицы из канала связи. Затем их преобразуют путем деления элементов каждой строки прямоугольной матрицы размером N•m элементов на сумму единиц соответствующей строки и деления элементов каждого столбца прямоугольной матрицы размером m•N элементов на сумму единиц соответствующего столбца. После этого восстанавливают матрицу квантованных отсчетов речевого сигнала размером N•N элементов путем последовательного перемножения полученной после преобразования прямоугольной матрицы размером N•m элементов, случайной квадратной матрицы квантованных дискретных отсчетов размером m•m элементов и полученной после преобразования прямоугольной матрицы размером m•N элементов. При этом для формирования матрицы квантованных отсчетов речевого сигнала размером N•N элементов каждому ее элементу Aj,i, где j= 1,2,...,N; i=1,2,...,N присваивают квантованное значение дискретного отсчета речевого сигнала, k-й номер которого определяют в соответствии с выражением: k=j+N•(i-1).This goal is achieved by the fact that in the known method of compressing and restoring voice messages, including sampling a continuous speech signal, quantizing discrete samples, forming a matrix of quantized samples of a speech signal of size N • N elements, converting it to digital form, transmitting a digital stream through a communication channel, receiving it from a communication channel, restoring a matrix of quantized samples of a speech signal of size N • N elements, and inverting the quantized discrete samples to continuous A speech signal, previously identical in transmission and reception, generates a random square matrix of quantized discrete samples of size m • m elements, each element of which belongs to the range of quantized discrete samples of the speech signal. Then, to transform the matrix of quantized samples of a speech signal of size N • N elements to a digital form in transmission, a set of zero and single elements is formed in the form of rectangular matrices of size N • m and m • N elements and transmit them to the communication channel. These matrices are received from the communication channel. Then they are transformed by dividing the elements of each row of a rectangular matrix of size N • m elements by the sum of units of the corresponding row and dividing the elements of each column of a rectangular matrix of size m • N elements by the sum of units of the corresponding column. After that, the matrix of quantized samples of the speech signal of size N • N elements is restored by sequentially multiplying the rectangular matrix of size N • m elements obtained after conversion, the random square matrix of quantized discrete samples of size m • m elements and obtained after the transformation of a rectangular matrix of size m • N elements. Moreover, to form a matrix of quantized samples of a speech signal of size N • N elements, each of its elements is A j, i , where j = 1,2, ..., N; i = 1,2, ..., N assign the quantized value of the discrete count of the speech signal, the k-th number of which is determined in accordance with the expression: k = j + N • (i-1).
Для формирования множества нулевых и единичных элементов в виде прямоугольных матриц размером N•m и m•N элементов на передаче предварительно генерируют случайные прямоугольные матрицы из единичных и нулевых элементов. Затем преобразуют их. После этого вычисляют матрицу размером N•N элементов путем последовательного перемножения полученной после преобразования прямоугольной матрицы размером N•m элементов, случайной квадратной матрицы квантованных дискретных отсчетов размером m•m элементов и полученной после преобразования прямоугольной матрицы размером m•N элементов. Далее вычисляют сумму квадратов разностей между элементами полученной в результате перемножения матрицы размером N•N элементов, и элементами матрицы квантованных отсчетов речевого сигнала размером N•N элементов. Затем последовательно инвертируют каждый элемент предварительно сгенерировнных случайным образом прямоугольных матриц размером N•m и m•N элементов, выполняя при этом их преобразование, а затем последовательно перемножают полученную после преобразования прямоугольную матрицу размером N•m элементов, случайную квадратную матрицу квантованных дискретных отсчетов размером m•m элементов и полученную после преобразования прямоугольную матрицу размером m•N элементов. После этого вычисляют сумму квадратов разностей между элементами полученной в результате перемножения матрицы размером N•N элементов и элементами матрицы квантованных отсчетов речевого сигнала размером N•N элементов. Вычитают эту сумму от аналогичной суммы, полученной на предыдущем шаге, и в случае положительной разности сохраняют инвертированное значение элемента, а в противном случае выполняют его повторную инверсию. To form a set of zero and single elements in the form of rectangular matrices of size N • m and m • N elements in the transmission, random rectangular matrices are preliminarily generated from unit and zero elements. Then they are transformed. After that, a matrix of size N • N elements is calculated by sequentially multiplying the obtained rectangular square matrix of size N • m elements, a random square matrix of quantized discrete samples of size m • m, and obtained after the transformation of a rectangular matrix of size m • N elements. Next, the sum of the squared differences between the elements of the matrix obtained by multiplying the size of N • N elements and the elements of the matrix of quantized samples of the speech signal of the size N • N elements is calculated. Then, each element is successively inverted of each element of rectangular matrices of size N • m and m • N elements previously randomly generated in a random manner, while transforming them, and then the rectangular matrix of size N • m elements obtained after the conversion, the random square matrix of quantized discrete samples of size m are multiplied • m elements and a rectangular matrix of m • N elements obtained after the transformation. After that, the sum of the squared differences between the elements of the matrix obtained by multiplying the size of N • N elements and the elements of the matrix of quantized samples of the speech signal of the size N • N elements is calculated. This amount is subtracted from the similar amount obtained in the previous step, and in case of a positive difference, the inverted value of the element is stored, otherwise it is inverted again.
Для преобразования случайных прямоугольных матриц из единичных и нулевых элементов число элементов каждой строки прямоугольной матрицы размером N•m элементов и каждого столбца прямоугольной матрицы размером m•N элементов делят на сумму единиц соответственно в этой строке и этом столбце. To convert random rectangular matrices of unit and zero elements, the number of elements of each row of a rectangular matrix of size N • m elements and each column of a rectangular matrix of size m • N elements is divided by the sum of units in this row and this column, respectively.
Указанная новая совокупность существенных признаков позволяет снизить значение временной задержки передаваемой информации до величины, при которой возможно ведение телефонных переговоров по низкоскоросным цифровым каналам связи. The specified new set of essential features allows to reduce the value of the time delay of the transmitted information to a value at which it is possible to conduct telephone conversations via low-speed digital communication channels.
Заявленный способ поясняется чертежами:
- Фиг.1 График кривой, описывающей форму непрерывного речевого сигнала;
- Фиг.2 Пример квантованных дискретных отсчетов речевого сигнала;
- Фиг.3 Пример формирования матрицы квантованных отсчетов речевого сигнала размером N•N элементов;
- Фиг.4 Представление матрицы восстановленных квантованных отсчетов речевого сигнала в виде произведения трех матриц;
- Фиг.5 Структура матриц [Y]Nxm, [X]mxN и [Ypr]Nxm, [Xpr]mxN;
- Фиг.6 Преобразование матрицы квантованных отсчетов речевого сигнала к цифровому виду и обратное преобразование принятого из канала связи цифрового потока в матрицу восстановленных отсчетов речевого сигнала.The claimed method is illustrated by drawings:
- Figure 1 Graph of a curve describing the shape of a continuous speech signal;
- Figure 2 Example of quantized discrete samples of a speech signal;
- Figure 3 An example of the formation of a matrix of quantized samples of a speech signal with a size of N • N elements;
- Fig. 4 Presentation of a matrix of reconstructed quantized samples of a speech signal in the form of a product of three matrices;
- Figure 5 The structure of the matrices [Y] Nxm , [X] mxN and [Y pr ] Nxm , [X pr ] mxN ;
- Fig.6 Conversion of the matrix of quantized samples of the speech signal to digital form and the inverse transformation of the digital stream received from the communication channel into the matrix of restored samples of the speech signal.
- Фиг.7 Последовательная оптимизация элементов матриц [X]mxN и [Y]T mxN.- Fig.7 Sequential optimization of the elements of the matrices [X] mxN and [Y] T mxN .
Возможность реализации заявленного способа сжатия и восстановления речевых сообщений объясняется следующим. В основе предлагаемого способа сжатия и восстановления речевого сигнала лежит подход, основанный на представлении кодируемого блока отсчетов, представленного матрицей квантованных отсчетов речевого сигнала (в дальнейшем обозначим ее как [A]NxN), в виде произведения трех матриц: прямоугольной матрицы размером N•m элементов (в дальнейшем обозначим ее как [Ypr]Nxm), случайной квадратной матрицы квантованных отсчетов размером m•m элементов (в дальнейшем обозначим ее как [B])mxm и прямоугольной матрицы размером m•N элементов (в дальнейшем обозначим ее как [Xpr] mxN). При этом считается, что матрица [B]mxm известна на передаче и на приеме и не изменяется в процессе передачи/приема информации. Тогда при кодировании матрицы квантованных отсчетов речевого сигнала [A]NxN на передаче необходимо найти такие оптимальные матрицы [Ypr]Nxm и [Xpr]mxN, которые при перемножении с матрицей [B]mxm образуют некоторую матрицу восстановленных дискретных отсчетов речевого сигнала размером N•N элементов (в дальнейшем обозначим эту матрицу как ) наиболее близкую по заданному критерию к матрице квантованных дискретных отсчетов речевого сигнала [A]NxN. После определения оптимальных матриц [Ypr]Nxm и [Xpr]mxN их передают в канал связи, принимают из канала связи и формируют на приеме матрицу восстановленных дискретных отсчетов речевого сигналу на основе выполнения перемножения: [Ypr]Nxm • [B]mxm • [Xpr]mxN. Наглядно представление матрицы восстановленных дискретных отсчетов речевого сигнала в виде произведения трех матриц представлен на фиг. 4. При этом в качестве меры близости матриц [A]NxN и выбирают квадратическую ошибку, определяемую по формуле Особенностью матриц [Ypr]Nxm и [Xpr]mxN является то, что они могут быть легко приведены к цифровому виду. Это достигается тем, что на элементы этих матриц накладываются следующие ограничения:
- элементы матриц [Ypr]Nxm и [Xpr]mxN принимают значения в диапазоне от нуля до единицы;
- ненулевые элементы каждой строки матрицы [Ypr]Nxm равны между собой и в сумме образуют единицу;
- ненулевые элементы каждого столбца матрицы [Xpr]mxN равны между собой и в сумме образуют единицу.The ability to implement the claimed method of compression and restoration of voice messages is explained as follows. The proposed method for compressing and reconstructing a speech signal is based on an approach based on the representation of an encoded block of samples represented by a matrix of quantized samples of a speech signal (hereinafter, denote it as [A] NxN ) in the form of a product of three matrices: a rectangular matrix of size N • m elements (hereinafter denoted it as [Y pr] Nxm), the random quantized samples of a square matrix size m • m elements (hereinafter denoted it as [B]) mxm square matrix, and the size m • N elements (henceforth denoted m it as [X pr] mxN). It is believed that the matrix [B] mxm is known in transmission and in reception and does not change during the transmission / reception of information. Then, when encoding the matrix of quantized samples of the speech signal [A] NxN on the transmission, it is necessary to find such optimal matrices [Y pr ] Nxm and [X pr ] mxN that, when multiplied with the matrix [B] mxm, form some matrix of reconstructed discrete samples of the speech signal of size N • N elements (hereinafter, we denote this matrix as ) closest to a given criterion to the matrix of quantized discrete samples of the speech signal [A] NxN . After determining the optimal matrices [Y pr ] Nxm and [X pr ] mxN, they are transmitted to the communication channel, received from the communication channel, and a matrix of reconstructed discrete samples of the speech signal is generated at the reception based on the execution of the multiplication: [Y pr ] Nxm • [B] mxm • [X pr ] mxN . Visual representation of the matrix of reconstructed discrete samples of the speech signal as a product of three matrices is shown in FIG. 4. Moreover, as a measure of proximity of the matrices [A] NxN and choose the quadratic error, determined by the formula A feature of the matrices [Y pr ] Nxm and [X pr ] mxN is that they can be easily digitized. This is achieved by the following restrictions on the elements of these matrices:
- the elements of the matrices [Y pr ] Nxm and [X pr ] mxN take values in the range from zero to unity;
- nonzero elements of each row of the matrix [Y pr ] Nxm are equal to each other and in total form one;
- nonzero elements of each column of the matrix [X pr ] mxN are equal to each other and form one in total.
При таких ограничениях, если элементы каждой строки матрицы [Ypr]Nxm умножить на сумму ее ненулевых элементов, то будет получена матрица [Y]Nxm, элементы которой определены только на множестве "1" и "0". Аналогично, если элементы каждого столбца матрицы [Xpr]mxN умножить на сумму его ненулевых элементов, то будет получена матрица [X]mxN, элементы которой определены только на множестве "1" и "0". Таким образом, представление матрицы квантованных отсчетов речевого сигнала [A]NxN к цифровому виду на передаче осуществляют на основе формирования множества нулевых и единичных элементов в виде прямоугольных матриц размером N•m (матрица [Y]Nxm) и m•N (матрица [X] mxN) элементов. Затем матрицы [Y]Nxm и [X]mxN передают в канал связи и принимают из канала связи. Далее преобразуют матрицу [Y] Nxm в матрицу [Ypr]Nxm путем деления элементов каждой строки принятой из канала связи матрицы [Y] Nxm на сумму единиц соответствующей строки и преобразуют матрицу [X]mxN в матрицу [Xpr]mxN путем деления элементов каждого столбца принятой из канала связи матрицы [X]mxN на сумму единиц соответствующего столбца. Затем восстанавливают матрицу квантованных отсчетов речевого сигнала размером N•N элементов путем последовательного перемножения полученной после преобразования прямоугольной матрицы [Ypr]Nxm, случайной квадратной матрицы квантованных отсчетов размером m•m элементов [B]mxm и полученной после преобразования прямоугольной матрицы [Xpr]mxN. Наглядно это представлено на фиг 5.Under such restrictions, if the elements of each row of the matrix [Y pr ] Nxm are multiplied by the sum of its nonzero elements, then the matrix [Y] Nxm will be obtained, the elements of which are defined only on the set "1" and "0". Similarly, if the elements of each column of the matrix [X pr ] mxN are multiplied by the sum of its nonzero elements, then the matrix [X] mxN will be obtained, the elements of which are defined only on the set "1" and "0". Thus, the matrix of quantized samples of the speech signal [A] NxN is presented to the digital form in the transmission based on the formation of a set of zero and single elements in the form of rectangular matrices of size N • m (matrix [Y] Nxm ) and m • N (matrix [X] ] mxN ) elements. Then, the matrices [Y] Nxm and [X] mxN are transmitted to the communication channel and received from the communication channel. Next, the matrix [Y] Nxm is transformed into the matrix [Y pr ] Nxm by dividing the elements of each row of the matrix [Y] Nxm received from the communication channel by the sum of the units of the corresponding row and the matrix [X] mxN is transformed into the matrix [X pr ] mxN by dividing the elements each column received from the communication channel of the matrix [X] mxN for the sum of the units of the corresponding column. Then, the matrix of quantized samples of the speech signal of size N • N elements is restored by successively multiplying the rectangular matrix [Y pr ] Nxm obtained after the transformation, the random square matrix of quantized samples of size m • m elements [B] mxm and the rectangular matrix [X pr ] obtained after the transformation mxN . This is illustrated in FIG. 5.
Дискретизацию непрерывного речевого сигнала, представленного на фиг. 1, выполняют в соответствии с теоремой Котельникова. В предлагаемом способе выбрана общепринятая частота дискретизации непрерывного речевого сигнала 8 кГц. Затем осуществляют квантование дискретных отсчетов. Квантование осуществляется на основе способов, описанных, например, в кн.: М.В. Назаров, Ю.Н. Петров Методы цифровой обработки и передачи цифровых сигналов. - М.: Радио и связь, 1985, с. 142-161. Далее на основе множества квантованных дискретных отсчетов речевого сигнала осуществляют формирование матрицы квантованных отсчетов речевого сигнала [A]NxN. Формирование матрицы квантованных отсчетов речевого сигнала [A] NxN показано на фиг.3. При этом матрица квантованных отсчетов формируется из N2 квантованных дискретных отсчетов речевого сигнала, каждому элементу которой Aji, где i=1,2,...,N; r=1,2,...,N присваивают квантованное значение отсчета речевого сигнала, k-й номер которого определяют в соответствии с выражением: k=j+N•(i-1).Sampling the continuous speech signal of FIG. 1, are performed in accordance with the Kotelnikov theorem. In the proposed method, a conventional sampling rate of a continuous speech signal of 8 kHz is selected. Then quantize discrete samples. Quantization is carried out on the basis of the methods described, for example, in the book: M.V. Nazarov, Yu.N. Petrov Methods of digital processing and transmission of digital signals. - M .: Radio and communications, 1985, p. 142-161. Then, based on the set of quantized discrete samples of the speech signal, a matrix of quantized samples of the speech signal [A] NxN is formed . The formation of a matrix of quantized samples of the speech signal [A] NxN is shown in Fig.3 . The matrix of quantized samples is formed from N 2 quantized discrete samples of the speech signal, each element of which A ji , where i = 1,2, ..., N; r = 1,2, ..., N assign a quantized value of the count of the speech signal, the k-th number of which is determined in accordance with the expression: k = j + N • (i-1).
Формирование случайной квадратной матрицы квантованных дискретных отсчетов [B]mxm может быть выполнено на основе датчика случайных чисел, например на основе шумового диода. Для выполнения требования идентичности матрицы [B] mxm приемника аналогичной матрице передатчика перед началом каждого сеанса связи элементы матрицы [B]mxm могут быть сгенерированы на передаче и переданы по цифровому каналу связи на приемную сторону, например, в составе синхропосылки.The formation of a random square matrix of quantized discrete samples [B] mxm can be performed based on a random number sensor, for example, based on a noise diode. To fulfill the identity requirement of the receiver matrix [B] mxm to a similar transmitter matrix, before the start of each communication session, the elements of the [B] mxm matrix can be generated in transmission and transmitted over the digital communication channel to the receiving side, for example, as part of a sync packet.
Для преобразования матрицы квантованных отсчетов речевого сигнала [A]NxN к цифровому виду на передаче формируют множество нулевых и единичных элементов в виде матриц [Y]Nxm и [X]mxN и передают их в цифровой канал связи. Процедура, реализующая поиск на передаче оптимальных матриц [Y]Nxm и [X]mxN подробно описана в приложении 1.To convert the matrix of quantized samples of the speech signal [A] NxN to a digital form in transmission, a set of zero and single elements is formed in the form of matrices [Y] Nxm and [X] mxN and they are transmitted to a digital communication channel. The procedure that implements a search on the transmission of optimal matrices [Y] Nxm and [X] mxN is described in detail in
После приема из цифрового канала связи матриц [Y]Nxm и [X]mxN их преобразуют в матрицы [Ypr]Nxm и [Xpr]mxN соответственно. Преобразование выполняют путем деления элементов каждой строки матрицы [Y]Nxm на сумму единиц соответствующей строки и деления элементов каждого столбца матрицы [X]mxN на сумму единиц соответствующего столбца. После этого восстанавливают матрицу квантованных отсчетов речевого сигнала в соответствии с выражением: и выполняют обратное преобразование из матрицы восстановленных квантованных отсчетов речевого сигнала в непрерывный речевой сигнал.After receiving the matrices [Y] Nxm and [X] mxN from the digital communication channel, they are transformed into the matrices [Y pr ] Nxm and [X pr ] mxN, respectively. The conversion is performed by dividing the elements of each row of the matrix [Y] Nxm by the sum of the units of the corresponding row and dividing the elements of each column of the matrix [X] mxN by the sum of the units of the corresponding column. After that, the matrix of quantized samples of the speech signal is restored in accordance with the expression: and perform the inverse transformation from the matrix of restored quantized samples of the speech signal into a continuous speech signal.
Для оценки эффективности предлагаемого способа сжатия и восстановления речевых сообщений было проведено имитационное моделирование на ПЭВМ. При кодировании речевых сообщений использовалось 8-разрядное АЦП. При этом размер кодируемого блока составлял 24•24 элемента, что обеспечивало задержку передачи речи 0,72 мс. Такая величина временной задержки передаваемой информации существенно ниже временной задержки, реализуемой в способе-прототипе (в способе-прототипе величина временной задержки речевого сигнала составляет 6 с). При этом задержка 0,72 мс позволяет осуществить ведение дуплексных телефонных переговоров по низкоскоростным каналам связи. Размер случайной квадратной матрицы квантованных дискретных отсчетов составлял 12•12 элементов. В предлагаемом способе высокая степень сжатия речевой информации достигалась за счет того, что для восстановления на приеме матрицы квантованных отсчетов речевого сигнала [A]NxN в цифровой канал связи необходимо передать количество двоичных единиц, определяемое размерами матриц [Y]Nxm и [X] mxN. При этом достигаемый коэффициент сжатия (коэффициент уменьшения требуемой скорости передачи цифрового потока) может быть определен по формуле:
где L - число уровней квантования дискретных отсчетов речевого сигнала.To assess the effectiveness of the proposed method of compression and restoration of voice messages, simulation was carried out on a PC. When encoding voice messages, an 8-bit ADC was used. At the same time, the size of the encoded block was 24 • 24 elements, which ensured a delay in speech transmission of 0.72 ms. This value of the time delay of the transmitted information is significantly lower than the time delay implemented in the prototype method (in the prototype method, the value of the time delay of the speech signal is 6 s). At the same time, a delay of 0.72 ms allows for duplex telephone conversations over low-speed communication channels. The size of the random square matrix of quantized discrete samples was 12 • 12 elements. In the proposed method, a high degree of compression of speech information was achieved due to the fact that in order to restore the matrix of quantized samples of the speech signal [A] NxN at the reception , it is necessary to transfer the number of binary units determined by the sizes of the matrices [Y] Nxm and [X] mxN . In this case, the achieved compression ratio (reduction coefficient of the required transmission rate of the digital stream) can be determined by the formula:
where L is the number of quantization levels of discrete samples of the speech signal.
При выборе N= 24, m=12 (L=256) обеспечивался коэффициент сжатия 8 раз (скорость передачи на выходе кодера - 8[кбит/с]). При выборе размера случайной квадратной матрицы квантованных дискретных отсчетов речевого сигнала 6•6 элементов коэффициент сжатия речевых сообщений составил 16 раз (скорость передачи на выходе кодера - 4(кбит/с]). Качество восстановленной речи на приеме оценивалось по соотношению сигнал/шум и составило около 14[db]. При этом восстановленная речь сохраняет свою естественность, натуральность и обладает хорошей разборчивостью. Анализ вычислительной сложности показал, что сложность кодирования/декодирования предлагаемой процедуры (количество операций умножения, деления, сложения, вычитания) пропорционально приблизительно величине m2. Поэтому предлагаемый способ сжатия и восстановления речи может быть реализован на современных процессорах обработки сигналов.When choosing N = 24, m = 12 (L = 256), a compression ratio of 8 times was provided (the transmission rate at the encoder output was 8 [kbit / s]). When choosing the size of a random square matrix of quantized discrete samples of a speech signal of 6 • 6 elements, the compression ratio of voice messages was 16 times (the transmission speed at the encoder output was 4 (kbit / s)). The quality of the restored speech at the reception was estimated by the signal-to-noise ratio and amounted to about 14 [db]. At the same time, the restored speech retains its naturalness, naturalness and has good intelligibility. Analysis of computational complexity showed that the complexity of encoding / decoding the proposed procedure (quantitative of multiplication, division, addition, subtraction) is proportional to the value of about 2 m. Therefore, the proposed method for compression and decompression of speech may be realized on modern signal processors.
Claims (3)
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
RU98113832A RU2152646C1 (en) | 1998-07-14 | 1998-07-14 | Method for compression and decompression of voice messages |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
RU98113832A RU2152646C1 (en) | 1998-07-14 | 1998-07-14 | Method for compression and decompression of voice messages |
Publications (2)
Publication Number | Publication Date |
---|---|
RU98113832A RU98113832A (en) | 2000-05-10 |
RU2152646C1 true RU2152646C1 (en) | 2000-07-10 |
Family
ID=20208651
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
RU98113832A RU2152646C1 (en) | 1998-07-14 | 1998-07-14 | Method for compression and decompression of voice messages |
Country Status (1)
Country | Link |
---|---|
RU (1) | RU2152646C1 (en) |
-
1998
- 1998-07-14 RU RU98113832A patent/RU2152646C1/en active
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US6178405B1 (en) | Concatenation compression method | |
CN1151705C (en) | Method and apparatus for encoding and decoding multiple audio channels at low bit rates | |
US5072308A (en) | Communication signal compression system and method | |
US6198412B1 (en) | Method and apparatus for reduced complexity entropy coding | |
US4270025A (en) | Sampled speech compression system | |
Noll | A comparative study of various quantization schemes for speech encoding | |
EP0099397A1 (en) | Adaptive differential pcm coding. | |
O'Neal | Differential pulse-code modulation (PCM) with entropy coding | |
JP3466080B2 (en) | Digital data encoding / decoding method and apparatus | |
CN1132327C (en) | Device for producing confortable noise and voice coding and decoding device including said device | |
RU2419246C1 (en) | Method to compress and recover fixed halftone video images | |
RU2152646C1 (en) | Method for compression and decompression of voice messages | |
EP1121686B1 (en) | Speech parameter compression | |
RU2195714C1 (en) | Voice message compression and recovery method | |
KR100338801B1 (en) | digital data encoder/decoder method and apparatus | |
RU2195715C1 (en) | Process of compression and restoration of speech messages | |
WO2002047359A2 (en) | System to reduce distortion due to coding with a sample-by-sample quantizer | |
RU2297099C2 (en) | Method for transferring additional information in coding voice messages | |
CN1202513C (en) | Audio coding method and apparatus | |
RU2320027C2 (en) | Method for compressing and restoring spoken messages | |
RU2216791C1 (en) | Method for compressing and recovering voice messages | |
RU2244963C1 (en) | Method for compaction and decompaction of speech messages | |
RU2246798C1 (en) | Message compression and recovery process | |
JPH09503630A (en) | Constant bit rate speech encoder / decoder | |
KR0138868B1 (en) | Lsp frequency quantizer |