RU2757860C1 - Method for automatically assessing the quality of speech signals with low-rate coding - Google Patents
Method for automatically assessing the quality of speech signals with low-rate coding Download PDFInfo
- Publication number
- RU2757860C1 RU2757860C1 RU2021110011A RU2021110011A RU2757860C1 RU 2757860 C1 RU2757860 C1 RU 2757860C1 RU 2021110011 A RU2021110011 A RU 2021110011A RU 2021110011 A RU2021110011 A RU 2021110011A RU 2757860 C1 RU2757860 C1 RU 2757860C1
- Authority
- RU
- Russia
- Prior art keywords
- quality
- values
- value
- cpu
- nscr
- Prior art date
Links
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/20—Speech recognition techniques specially adapted for robustness in adverse environments, e.g. in noise, of stress induced speech
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/008—Multichannel audio signal coding or decoding using interchannel correlation to reduce redundancy, e.g. joint-stereo, intensity-coding or matrixing
Abstract
Description
Изобретение относится к области автоматической оценки качества речевых сигналов и может быть внедрено в системах контроля состояния цифровых телефонных радиолиний, использующих передачу сигналов с низкоскоростным кодированием речи (НСКР), при разработке вокодеров для оценки качества синтезируемых речевых сигналов, а также использовано на этапе анализа исходных данных при автоматическом распознавании речевых сообщений, передаваемых по цифровым линиям связи.The invention relates to the field of automatic assessment of the quality of speech signals and can be implemented in systems for monitoring the state of digital telephone radio lines using signal transmission with low-rate speech coding (NSCR), in the development of vocoders for assessing the quality of synthesized speech signals, and also used at the stage of analysis of the initial data with automatic recognition of speech messages transmitted over digital communication lines.
Заявленное техническое решение повышает эффективность средств аналогичного назначения при отсутствии исходного (сравниваемого) сигнала и исключении процедуры декодирования цифровых потоков, содержащих сообщения с НСКР.The claimed technical solution increases the efficiency of means of a similar purpose in the absence of the original (compared) signal and the exclusion of the decoding procedure for digital streams containing messages with NSCR.
Известен способ машинной оценки качества передачи речи (см. Патент РФ №2435232, МПК G10L 15/14, опубл. 27.11.2011, бюл. 33), в котором осуществляют загрузку звукового сигнала в оперативную память компьютера, выделяют в сигнале фрагменты активной и неактивной фаз, вычисляют спектры для каждой фазы, которые разделяют на критические полосы, рассчитывают значения спектральных параметров для каждой критической полосы как в спектральной, так и во временной областях, исключают из обработки фрагменты активной фазы, соответствующие тональному набору, до деления на критические полосы, осуществляют многоуровневую психоакустическую фильтрацию спектров, полученные параметры обрабатываемого сигнала сравнивают с ассоциациями, хранящимися в базе данных, и выбирают ассоциации, наиболее близкие по всем параметрам к обрабатываемому сигналу, а оценку качества речи определяют как сумму взвешенных значений степеней близости, получают значение машинной оценки качества речевого сигнала путем сравнения параметров обрабатываемого сигнала с параметрами моделей речи, хранящимися в базе ассоциаций.A known method of machine assessment of the quality of speech transmission (see RF Patent No. 2435232, IPC G10L 15/14, publ. 11/27/2011, bul. 33), in which the audio signal is loaded into the computer's RAM, the active and inactive fragments are selected in the signal phases, calculate the spectra for each phase, which are divided into critical bands, calculate the values of the spectral parameters for each critical band both in the spectral and time domains, exclude from processing the fragments of the active phase corresponding to the tonal set, before dividing into critical bands, carry out multilevel psychoacoustic filtering of spectra, the obtained parameters of the processed signal are compared with the associations stored in the database, and the associations that are closest in all parameters to the processed signal are selected, and the speech quality assessment is determined as the sum of the weighted values of the degrees of proximity, the value of the machine assessment of the speech signal quality is obtained by comparing the parameter ditch of the processed signal with the parameters of speech models stored in the association base.
Недостатком аналога является необходимость преобразования исследуемого сигнала в цифровой поток (ЦП) с импульсно-кодовой модуляцией (ИКМ). Данное преобразование для сигналов с низкоскоростным кодированием заключается в декомпрессия сжатого ЦП в приемной части вокодера, которое помимо существенных временных и вычислительных затрат неизбежно вызывает искажения в синтезируемом ЦП формата ИКМ, возрастающие при ухудшении качества канала радиосвязи. Другим недостатком аналога является конечное число ассоциаций (эталонных описаний), к одной из которых относят анализируемый сигнал, что предполагает сравнение образа входного сигнала со всеми эталонными описаниями. Недостаточное число эталонных описаний (например, не более трех эталонных описаний) не позволит оценивать качество речевого сигнала с требуемой точностью, а необоснованное увеличение их числа приведет к многократному увеличению вычислительных затрат.The disadvantage of the analogue is the need to convert the signal under study into a digital stream (CPU) with pulse-code modulation (PCM). This transformation for signals with low-rate coding consists in decompression of the compressed CPU in the receiving part of the vocoder, which, in addition to significant time and computational costs, inevitably causes distortions in the synthesized CPU of the PCM format, which increase with deterioration of the quality of the radio communication channel. Another disadvantage of the analogue is the finite number of associations (reference descriptions), one of which includes the analyzed signal, which implies comparison of the input signal image with all reference descriptions. An insufficient number of reference descriptions (for example, no more than three reference descriptions) will not allow assessing the quality of a speech signal with the required accuracy, and an unreasonable increase in their number will lead to a manifold increase in computational costs.
Наиболее близким к заявленному является способ (прототип) распознавания новых протоколов низкоскоростного кодирования речи (см. Патент РФ №2667462, МПК: G06K9/00, Н04 В1/06, опубл. 19.09.2018, бюл. №26), заключающийся в том, что принимают цифровой информационный поток Y в течение интервала времени ΔT, на основе принятого потока Y формируют нормированную автокорреляционную функцию А, по регулярным с равными интервалами Δτ экстремумам автокорреляционной функции А принимают решение о наличии блочной структуры в цифровом информационном потоке Y, по интервалам между экстремумами автокорреляционной функции А делят цифровой информационный поток Y на информационные блоки объемом Nб бит каждый, последовательно присваивают информационным блокам порядковые номера k=1,2,…, К, начиная с первого информационного блока, формируют прямоугольную информационную матрицу YK×L, L=Nб, строками которой являются последовательно размещенные друг под другом информационные блоки в соответствии с их порядковыми номерами k=1,2,…, К, поочередно выделяют столбцы из матрицы YK×L с номерами по каждому столбцу информационной матрицы YK×L вычисляют значение математического ожидания появления определенных импульсов, формируют вектор вычисленных значений математического ожидания последовательным размещением полученных значений математического ожидания в соответствии с их порядковыми номерами на основе сформированного вектора значений математического ожидания m(0) путем последовательного циркулярного сдвига его значений на величину L - 1 формируют набор М векторов значений математического ожидания формируют эталонные векторы значений математического ожидания mj эт, j=1,2,…,J, по каждому цифровому информационному потоку Yj эт, соответствующему j-му известному протоколу НСКР, каждый вектор значений математического ожидания оцениваемого протокола НСКР последовательно сравнивают с эталонными векторами значений математического ожидания mj эт, j=1,2,…,J, вычисляют значение вероятности правильного распознавания j-го протокола НСКР по каждому вектору значений математического ожидания принимают решение в пользу j-го протокола НСКР, для которого обеспечивается максимальное значение вероятности правильного распознавания The closest to the claimed is a method (prototype) for recognizing new low-speed speech coding protocols (see RF Patent No. 2667462, IPC: G06K9 / 00, H04 B1 / 06, publ. 09/19/2018, bull. No. 26), which consists in that the digital information stream Y is received during the time interval ΔT, on the basis of the received stream Y, the normalized autocorrelation function A is formed, according to the regular with equal intervals Δτ extrema of the autocorrelation function A, a decision is made on the presence of a block structure in the digital information stream Y, according to the intervals between the extrema of the autocorrelation function functions A divide the digital information stream Y into information blocks of N b bits each, sequentially assign sequence numbers k = 1,2, ..., K to the information blocks, starting from the first information block, form a rectangular information matrix Y K × L , L = N b , the lines of which are information blocks sequentially placed one under the other in accordance with their order with numbers k = 1,2, ..., K, columns from the matrix Y K × L with numbers for each column information matrix Y K × L calculate the value of the mathematical expectation the appearance of certain impulses, form a vector of calculated values of the mathematical expectation sequential placement of the obtained values of the mathematical expectation according to their serial numbers based on the generated vector of values of the mathematical expectation m (0) by successive circular shift of its values by the value L - 1 form a set of M vectors values of mathematical expectation form the reference vectors of the values of the mathematical expectation m j et , j = 1,2, ..., J, for each digital information stream Y j et , corresponding to the j-th known NSCR protocol, each vector of the values of the mathematical expectation of the estimated NSCR protocol is sequentially compared with the reference vectors of the values of the mathematical expectation m j et , j = 1,2, ..., J, the value of the probability of correct recognition is calculated j-th NSCR protocol for each vector of values of mathematical expectation make a decision in favor of the jth NSCR protocol, for which the maximum value of the probability of correct recognition is provided
Способ-прототип обеспечивает повышение точности и скорости распознавания протоколов НСКР в условиях воздействия помех. При этом о качестве речевых сигналов с низкоскоростным кодированием косвенно можно судить по величине вероятности правильного распознавания исследуемого ЦП у и соответствующего ему эталонного образа, при условии, что оба образа принадлежат к одному классу - известному j-му протоколу НСКР.The prototype method provides an increase in the accuracy and speed of recognition of the NSCR protocols in conditions of interference. In this case, the quality of speech signals with low-rate coding can be indirectly judged by the value of the probability of correct recognition the studied CPU y and the corresponding reference image, provided that both images belong to the same class - the known j-th protocol of the NSCR.
В качестве недостатка прототипа следует отметить отсутствие точного соответствия между используемой мерой отличия ЦП у от эталонного описания и какой-либо мерой качества речевого сигнала.As a disadvantage of the prototype, it should be noted that there is no exact correspondence between the used measure of difference Cpu y from the reference description and some measure of the quality of the speech signal.
Целью заявленного технического решения является разработка способа автоматической оценки качества сигналов с низкоскоростным кодированием речи без преобразования исследуемого ЦП у с НСКР к формату ИКМ, обеспечивающего установление функциональной (аналитической) зависимости между значениями дивергенции и выбранных мер качества речевого сигнала.The aim of the claimed technical solution is to develop a method for automatically assessing the quality of signals with low-rate speech coding without converting the studied CPU with NSCR to the PCM format, which ensures the establishment of a functional (analytical) relationship between the divergence values and the selected measures of the speech signal quality.
Поставленная цель достигается тем, что в известном способе автоматической оценки качества речевых сигналов с низкоскоростным кодированием, заключающемся в том, что принимают бинарный информационный цифровой поток у объемом NЦП бит в течение интервала времени ΔT, формируют на основе у нормированную автокорреляционную функцию а, принимают решение о наличии блочной структуры в информационном потоке у по регулярным с равными интервалами Δτ экстремумам автокорреляционной функции а, делят информационный ЦП у на информационные блоки объемом Nб бит каждый по интервалам между экстремумами автокорреляционной функции а, присваивают информационным блокам последовательно порядковые номера k=1,2,…,К, начиная с первого информационного блока, формируют прямоугольную информационную матрицу Y размеров К × Z, Z=Nб, строками которой являются последовательно размещенные друг под другом информационные блоки в соответствии с их порядковыми номерами k=1,2,…, К, выделяют из матрицы Y столбцы yz, z=1,2,…,Z, определяют значения математического ожидания (МО) mz по каждому столбцу yz, формируют вектор значений МО последовательным размещением значений МО mz, формируют обучающую выборку {yjw}W, w=1,2,…,W, W - объем обучающей выборки, которая состоит из набора цифровых потоков yjw, сформированных по заданному j-му протоколу НСКР и соответствующих максимально возможной субъективной оценке еj mах качества речевого сигнала, формируют эталонный ЦП уjэт путем последовательной конкатенации цифровых потоков yjw из состава обучающей выборки, формируют прямоугольную эталонную информационную матрицу Yj эт, строками которой являются последовательно размещенные друг под другом ЦП уj эт, вычисляют по эталонной матрице Yj эт эталонный вектор значений МО mj эт, вектор МО m оцениваемого потока НСКР последовательно сравнивают с эталонными векторами МО mj эт, принимают решение о наиболее вероятной принадлежности оцениваемого потока НСКР, в случае принятия решения о использовании неизвестного протокола НСКР при формировании ЦП у оценку качества речевого сигнала прекращают, в противном случае на основе матрицы Y вычисляют ковариационную матрицу С, формируют образ информационного ЦП у в виде совокупности (m, С), вычисляют квадратную эталонную ковариационную матрицу Сj эт, формируют эталонный образ в виде совокупности (mj эт, Сj эт), искажают эталонный ЦП уj эт введением фиксированного числа ошибочных бит пропорционально значению вероятности битовой ошибки G - количество уровней вероятности битовых ошибок в пределах от минимального Рош(1) до максимального Pош(G) значений, формируют набор эталонных цифровых потоков, искаженных битовыми ошибками, по каждому ЦП аналогично составляют матрицу совокупность которых образует набор искаженных эталонных матриц, вычисляют соответствующие им векторы значений и ковариационные матрицы составляют образы (), искаженные битовыми ошибками, осуществляют последовательное сравнение эталонного образа (mj эт, Сj эт) и каждого из G образов ( ), искаженных битовыми ошибками, путем вычисления значения дивергенции между ними, устанавливают соответствие между значениями дивергенции и значениями оценки качества речевого сигнала, полученными на основе экспериментального или экспериментально-аналитического подходов, приводят соответствие между полученными наборами и значений к непрерывной функциональной зависимости вида еj=ƒ(νj) методом интерполяции степенным многочленом, осуществляют сравнение образа (m, С) исследуемого информационного ЦП у с НСКР и эталонного образа (mj эт, Сj эт) путем вычисления значения дивергенции νj, получают значение оценки еj качества сигнала с НСКР путем вычисления степенного многочлена вида ej=ƒ(νj) подстановкой в него известного ранее вычисленного значения νj, при выполнении условия νj<νj (1) значение оценки качества сигнала с НСКР соответствует величине ej max максимальной оценки качества речевого сигнала, при выполнении условия νj>νj (G) значение оценки качества сигнала с НСКР соответствует величине еj min минимальной оценки качества речевого сигнала.This goal is achieved by the fact that in the known method of automatic quality assessment of speech signals with low-rate coding, which consists in the fact that a binary information digital stream with a volume of N CPU bits is received during the time interval ΔT, a normalized autocorrelation function a is formed on the basis of y, a decision is made on the presence of a block structure in the information flow y along the regular with equal intervals Δτ extrema of the autocorrelation function a, divide the information CPU y into information blocks of N b bits each according to the intervals between the extrema of the autocorrelation function a, assign serial numbers k = 1,2 to the information blocks , ..., K, starting from the first information block, form a rectangular information matrix Y of sizes K × Z, Z = N b , the rows of which are information blocks sequentially placed under each other in accordance with their ordinal numbers k = 1,2, ..., K, the columns y z , z = 1,2, ..., Z, determine the values of the mathematical expectation (MO) m z for each column y z , form a vector of MO values by sequentially placing the values of MO m z , a training sample is formed {y jw } W , w = 1,2, ..., W, W - the volume of the training sample, which consists of a set of digital streams y jw formed according to a given j-th NSCR protocol and corresponding to the maximum possible subjective assessment e j max of the quality of the speech signal, form a reference CPU at jet by sequential concatenation of digital streams y jw from the training sample, form a rectangular reference information matrix Y j et , the rows of which are consecutively placed one under the other CPUs at j et is calculated by reference matrix Y j fl reference vector MO m j et vector MO m estimated flow NCIS successively compared with reference vectors MO m j et, make a decision on the most probable supplies estimated flow NCIS values, in case the decision to use an unknown protocol NSCR during the formation of the CPU, the assessment of the quality of the speech signal is stopped, otherwise, on Again, the matrix Y calculates the covariance matrix C, forms the image of the information CPU y in the form of a set (m, C), calculates the square reference covariance matrix C j et , form a reference image in the form of a set (m j et , C j et ), distort the reference CPU y j et by introducing a fixed number of erroneous bits in proportion to the value of the bit error probability G - the number of levels of the probability of bit errors in the range from the minimum P osh (1) to the maximum P osh (G) values, form a set reference digital streams, distorted by bit errors, for each CPU similarly compose the matrix the collection of which forms a set distorted reference matrices, calculate the corresponding vectors of values and covariance matrices make up images ( ), distorted by bit errors, a sequential comparison of the reference image (m j et , C j et ) and each of the G images ( ) corrupted by bit errors by calculating the divergence value between them, set the correspondence between the values of the divergence and values assessments of the quality of the speech signal, obtained on the basis of experimental or experimental-analytical approaches, bring the correspondence between the obtained sets and values to a continuous functional dependence of the form e j = ƒ (ν j ) by the method of interpolation by a power polynomial, compare the image (m, C) of the investigated information CPU y with NSCR and the reference image (m j et , C j et ) by calculating the divergence value ν j , the value of the estimate e j of the signal quality with the NSCR is obtained by calculating the power polynomial of the form e j = ƒ (ν j ) by substituting the previously known value ν j into it , when the condition ν j <ν j (1) is satisfied, the value of the estimate of the signal quality with NSCR corresponds to the value e j max of the maximum estimate of the quality of the speech signal, when the condition ν j > ν j (G) is satisfied, the value of the estimate of the quality of the signal with NSCR corresponds to the value of e j min of the minimum estimate of the quality of the speech signal.
Благодаря новой совокупности существенных признаков в заявленном способе обеспечивается автоматическая оценка качества речевых сигналов с низкоскоростным кодированием за счет сравнения образа (m, С) входной реализации у и эталонного образа (mj эт, Сj эт) с помощью меры различия, которая представлена дивергенцией νj.Thanks to the new set of essential features in the claimed method, an automatic assessment of the quality of speech signals with low-rate coding is provided by comparing the image (m, C) of the input implementation y and the reference image (m j et , C j et ) using the difference measure, which is represented by the divergence ν j .
Заявленный способ поясняется чертежами, на которых показаны:The claimed method is illustrated by drawings, which show:
на фиг. 1 - порядок формирования эталонного ЦП уj эт;in fig. 1 - the order of the formation of the reference CPU at the j floor ;
на фиг. 2 - порядок формирования прямоугольной эталонной информационной матрицы Yj эт;in fig. 2 - the order of forming a rectangular reference information matrix Y j et ;
на фиг. 3 - алгоритм оценки качества речевых сигналов с низкоскоростным кодированием;in fig. 3 is an algorithm for evaluating the quality of speech signals with low-rate coding;
на фиг. 4 - зависимость значений eзj разборчивости звуков речи от вероятности битовой ошибки Рош в речевых сигналах с низкоскоростным кодирование, сформированных по j-му протоколу LPC-10-2400 (STANAG 4197);in fig. 4 - the dependence of the values of e zj intelligibility of speech sounds on the probability of a bit error P osh in speech signals with low-rate coding, formed according to the j-th protocol LPC-10-2400 (STANAG 4197);
на фиг. 5 - табличная форма представления соответствия (3);in fig. 5 - tabular form of presentation of compliance (3);
на фиг. 6 - результаты формирования соответствия (3) для j-го протокола LPC-10-2400 (STANAG 4197) при G=8;in fig. 6 - the results of the formation of correspondence (3) for the j-th protocol LPC-10-2400 (STANAG 4197) with G = 8;
на фиг. 7 - графическая зависимость значений eзj разборчивости звуков речи от дивергенции νj между исследуемым и эталонным образами, соответствующих j-му протоколу LPC-10-2400 (STANAG 4197).in fig. 7 is a graphical dependence of the values of e zj of intelligibility of speech sounds on the divergence ν j between the studied and reference images corresponding to the j-th protocol LPC-10-2400 (STANAG 4197).
Качество речи - величина, характеризующая субъективную оценку звучания речи в испытуемом тракте по пятибалльной шкале в сравнении с эталонным трактом. Одним из важных показателей качества речи является ее разборчивость - относительное количество правильно принятых элементов речи (звуков, слогов, слов, фраз), выраженное в процентах от общего числа переданных элементов. Между различными показателями качества речи установлены функциональные взаимосвязи, что позволяет получать значения требуемых показателей, в том числе и субъективные оценки звучания речи.Speech quality is a value that characterizes the subjective assessment of the sounding of speech in the tested tract on a five-point scale in comparison with the reference tract. One of the important indicators of speech quality is its intelligibility - the relative number of correctly received speech elements (sounds, syllables, words, phrases), expressed as a percentage of the total number of transmitted elements. Functional relationships have been established between various indicators of speech quality, which makes it possible to obtain the values of the required indicators, including subjective assessments of the sound of speech.
Оценку качества речевых сигналов осуществляют при анализе свойств речевого сигнала и его источника, а также для определения эффективности системы передачи речевых сообщений в целом или свойств отдельных ее элементов, в том числе средств НСКР (см. ГОСТ Р 51061-97 Системы низкоскоростной передачи речи по цифровым каналам. Параметры качества речи и методы измерений. - М.: Госстандарт России, 1997. - 24 с. ). Субъективные методы оценки качества речи требуют участия групп подготовленных экспертов, автоматизация в них касается процессов ввода и статистической обработки результатов артикуляционного тестирования. Объективные методы оценки качества основаны на анализе каких-либо параметров и характеристик исследуемого процесса, что позволяет полностью автоматизировать процесс оценки качества речевых сигналов. В известных методах автоматической оценки качества речи предполагается определение параметров речевого сигнала, представляемого в формате ИКМ, и выбор (с некоторой точностью) соответствующих им значений оценок качества речи. В этом случае на этапе обучения осуществляется построение психофизической шкалы и ее математическое или графическое описание, которое далее используется на этапе исследования принимаемых речевых сигналов (см. Михайлов В.Г., Златоустова Л.В. Измерение параметров речи / Под ред. М.А. Сапожкова. - М.: Радио и связь, 1987. - 168 с.; Шелухин О.И., Лукьянцев Н.Ф. Цифровая обработка и передача речи / Под ред. О.И. Шелухина. - М.: Радио и связь, 2000. - 456 с.).The quality of speech signals is assessed when analyzing the properties of a speech signal and its source, as well as to determine the effectiveness of the system for transmitting speech messages as a whole or the properties of its individual elements, including NSCR means (see GOST R 51061-97 Low-speed speech transmission systems for digital channels Speech quality parameters and measurement methods - M .: Gosstandart of Russia, 1997. - 24 p.). Subjective methods for assessing the quality of speech require the participation of groups of trained experts, automation in them concerns the processes of input and statistical processing of the results of articulation testing. Objective methods for assessing the quality are based on the analysis of any parameters and characteristics of the process under study, which makes it possible to fully automate the process of assessing the quality of speech signals. In the known methods of automatic speech quality assessment, it is assumed that the parameters of the speech signal represented in the PCM format are determined and the corresponding values of the speech quality estimates are selected (with some accuracy). In this case, at the training stage, the construction of a psychophysical scale and its mathematical or graphic description is carried out, which is further used at the stage of studying the received speech signals (see Mikhailov V.G., Zlatoustova L.V. Measurement of speech parameters / Ed. By M.A. Sapozhkova. - M .: Radio and communication, 1987. - 168 p .; Shelukhin O.I., Lukyantsev N.F.Digital processing and transmission of speech / Under the editorship of OI Shelukhin. - M .: Radio and communication, 2000 .-- 456 p.).
При исследовании качества речевых сигналов, передаваемых через системы радиосвязи диапазонов ВЧ/ОВЧ с использованием НСКР, рассматривают предположение о нормальных акустических условиях при формировании речевого сигнала по ГОСТ 7153 (см. ГОСТ Р 51061-97 Системы низкоскоростной передачи речи по цифровым каналам. Параметры качества речи и методы измерений. - М.: Госстандарт России, 1997. - 24 с.). При этом основное внимание уделяется исследованию качества сигналов, формируемых на выходе декодера. Результаты исследований представляют в виде зависимости значений ОКРС от вероятности битовой ошибки Рош в ЦП, переданном через канал связи.When studying the quality of speech signals transmitted through radio communication systems of the HF / VHF ranges using NSCR, the assumption of normal acoustic conditions when forming a speech signal according to GOST 7153 is considered (see GOST R 51061-97 Low-speed speech transmission systems over digital channels. Speech quality parameters and measurement methods. - M .: Gosstandart of Russia, 1997. - 24 p.). In this case, the main attention is paid to the study of the quality of signals generated at the output of the decoder. The research results are presented in the form of the dependence of the ORS values on the probability of a bit error P osh in the CPU transmitted through the communication channel.
Таким образом, автоматическая оценка качества речевых сигналов с низкоскоростным кодированием, передаваемых с помощью средств радиосвязи, обеспечивает снижение вычислительных затрат, что определяет необходимость решения этой технической задачи.Thus, the automatic assessment of the quality of speech signals with low-rate coding, transmitted by means of radio communication, provides a reduction in computational costs, which determines the need to solve this technical problem.
Положительный эффект в предлагаемом способе достигается за счет сравнения образа (m, С) входного ЦП у с НСКР, который сформирован в соответствии с известным j-м протоколом, и единственного эталонного образа (mjэт, Сj эт) j-го класса, полученного на основе обучающей выборки с максимальным значением оценки качества речевого сигнала еj mах, при использовании меры различия между ними, в качестве которой выступает дивергенция.A positive effect in the proposed method is achieved by comparing the image (m, C) of the input CPU y with the NSCR, which is formed in accordance with the known j-th protocol, and the only reference image (m jet , C j et ) of the j-th class obtained on the basis of the training sample with the maximum value of the assessment of the quality of the speech signal е j max , using the measure of the difference between them, which is the divergence.
На основе функциональной зависимости еj=ƒ(νj), формируемой на этапе обучения и описываемой аналитически степенным многочленом, при известном значении дивергенции νj между образом (m, С) исследуемого ЦП у с НСКР и одним эталонным образом (mj эт, Сj эт) j-го класса, обеспечивается вычисление значения оценки качества исследуемого ЦП у с НСКР, сформированного по j-му протоколу, без преобразования к формату ИКМ.Based on the functional dependence е j = ƒ (ν j ), formed at the training stage and described analytically by a power polynomial, with a known value of the divergence ν j between the image (m, С) of the studied CP y with NSCR and one reference image (m j et , With j et ) of the j-th class, the calculation of the value of the quality assessment of the investigated CPU y with NSCR, formed according to the j-th protocol, without conversion to the PCM format is provided.
Реализация заявленного способа может быть осуществлена следующим образом (см. фиг. 3). До этапа ввода исходных данных целесообразно определить значения параметров ΔT, Nm информационного ЦП у, установить длительность интервала его анализа, определяемую величиной К - числом строк в прямоугольной информационной матрице Y, а также набор значений {Nб}, определить значение J, выбрать значение G и сформировать соответствующее количество обучающих выборок (yjw}W.The implementation of the claimed method can be carried out as follows (see Fig. 3). Before the stage of inputting the initial data, it is advisable to determine the values of the parameters ΔT, N m of the information CPU y, set the duration of the interval of its analysis, determined by the value of K - the number of rows in the rectangular information matrix Y, as well as the set of values {N b }, determine the value of J, select the value G and form the corresponding number of training samples (y jw } W.
Далее на подготовительном этапе (в режиме «Обучение») по обучающим выборкам {yjw} (j=1, 2,…,J) формируют эталонные цифровые потоки {Уjэт}J путем последовательной конкатенации цифровых потоков {yJw}J (см. фиг. 1). Последние реализуются по j-м протоколам НСКР и имеют максимальное значение ej mах оценки качества речевого сигнала. Далее составляют эталонные матрицы {Yjэт}J и соответствующие им эталонные описания J известных протоколов НСКР вида (mj эт, Сj эт) (см. фиг. 2).Further, at the preparatory stage (in the "Training" mode), using training samples {y jw } (j = 1, 2, ..., J), reference digital streams {У jet } J are formed by sequential concatenation of digital streams {y Jw } J (see Fig. 1). The latter are implemented according to the j-th NSCR protocols and have the maximum value e j max of the speech signal quality assessment. Further, the reference matrices {Y jet } J and the corresponding reference descriptions J of the known NSCR protocols of the form (m j et , C j et ) are made (see Fig. 2).
Устанавливают пределы изменения значений от минимального значения Рош(1), которое соответствует минимально ощутимому снижению качества речевого сообщения, до максимального значения Pош(G), при котором уже невозможно восстановление речевого сообщения. Количество G уровней (значений) вероятности битовых ошибок определяет точность построения психофизической шкалы и, как следствие, точность оценки качества речевых сигналов с НСКР. Вместе с тем, при использовании экспериментального или экспериментально-аналитического подходов к оценке качества речевых сигналов необходимо выбрать достаточное количество 6≤G≤10 уровней вероятности битовых ошибок, например, на основе метода равномерного приближения. Последний обеспечивает минимизацию наибольшего значения абсолютной ошибки интерполяции (см. Корн Г., Корн Т. Справочник по математике для научных работников и инженеров: Пер. с англ. - М.: Наука, 1970. - 720 с.).Sets the limits for changing values from the minimum value P osh (1), which corresponds to the minimum perceptible decrease in the quality of the voice message, to the maximum value P osh (G), at which it is no longer possible to restore the voice message. The number G of levels (values) of the probability of bit errors determines the accuracy of constructing a psychophysical scale and, as a consequence, the accuracy of assessing the quality of speech signals with NSCR. At the same time, when using experimental or experimental-analytical approaches to assessing the quality of speech signals, it is necessary to select a sufficient number of 6≤G≤10 levels of bit error probability, for example, based on the uniform approximation method. The latter ensures the minimization of the largest value of the absolute interpolation error (see G. Korn, T. Korn, Handbook of Mathematics for Scientists and Engineers: Translated from English - Moscow: Nauka, 1970. - 720 p.).
В соответствии со значениями вероятности битовой ошибки в эталонный ЦП уj эт вводят фиксированное количество nош битовых ошибок, определяемое выражениемAccording to the values bit error in the master CPU y j et introduced fixed number n of bit errors err determined by the expression
где Nэ - количество символов (бит) в эталонном ЦП уj эт.where N e - the number of symbols (bits) in the reference CPU at j et .
Формируют G цифровых потоков с объемом Nэ каждый, в которых ошибочные символы принимают значение «1», а остальные символы имеют значение «0». Распределение ошибочных символов в - равновероятное. Формируют G цифровых потоков , искаженных битовыми ошибками, путем поэлементного сложения эталонного ЦП уj эт по модулю 2 с каждым из G цифровых потоков :Form G digital streams with a volume of N e each, in which the erroneous symbols take the value "1", and the rest of the symbols have the value "0". Distribution of erroneous characters in - equiprobable. Form G digital streams , distorted by bit errors, by element-wise addition of the reference CPU at j et
где ⊕ - операция сложения по модулю 2.where ⊕ is the
На основе цифровых потоков , искаженных битовыми ошибками, формируют набор искаженных эталонных матриц . Далее вычисляют соответствующие им векторы значений МО и ковариационные матрицы (см. Аладинский В.А., Кузьминский С.В. Метод формирования признаков распознавания протоколов низкоскоростного кодирования речи // Наукоемкие технологии. - М.: Радиотехника. №12, 2015. - С. 20-25; Патент РФ №2667462, МПК G10L 19/008, Н03М 13/03, опубл. 19.09.2018, бюл. 26). На их основе составляют информационные образы ( ), искаженные битовыми ошибками. После этого осуществляют последовательное сравнение эталонного образа (mjэт, Сjэт) и образов ( ), искаженных битовыми ошибками, путем вычисления значения дивергенции между ними:Based on digital streams corrupted by bit errors form a set of corrupted reference matrices ... Next, the corresponding vectors of MO values are calculated and covariance matrices (see Aladinsky V.A., Kuzminsky S.V. Method of formation of signs of recognition of low-speed speech coding protocols // Science-intensive technologies. - M .: Radio engineering. No. 12, 2015. - P. 20-25; RF Patent No. 2667462,
где , - значения следов матриц Аj, Bj размерности N; ann(j), bnn(j) - соответствующие элементы диагоналей матриц Aj, Вj; where , - values of traces of matrices А j , B j of dimension N; a nn (j), b nn (j) are the corresponding elements of the diagonals of the matrices A j , B j ;
(⋅)T - операция транспонирования. (⋅) T is a transposition operation.
На основе экспериментального (прямого) или экспериментально-аналитического (косвенного) подходов устанавливают соответствие между значениями оценки качества речи и значениями дивергенции :Based on the experimental (direct) or experimental-analytical (indirect) approaches, a correspondence is established between the values of the speech quality assessment and divergence values :
Экспериментальный подход при формировании соответствия (4) заключается в разделении каждой матрицы на элементы декодировании цифровых потоков с помощью синтезатора приемной части вокодера к формату ИКМ и оценке качества этих речевых сигналов, подвергнутых искажению в канале связи. Оценку осуществляют на основе какого-либо известного субъективного либо объективного методов, например, PESQ (см. Recommendation ITU-T P.862. Perceptual Evaluation of Speech Quality. Geneva, 2001.-30 p.).An experimental approach to the formation of correspondence (4) consists in dividing each matrix on elements decoding of digital streams with the help of the synthesizer of the receiving part of the vocoder to the PCM format and assessing the quality of these speech signals subjected to distortion in the communication channel. Evaluation is carried out on the basis of any known subjective or objective methods, for example, PESQ (see Recommendation ITU-T P.862. Perceptual Evaluation of Speech Quality. Geneva, 2001.-30 p.).
Экспериментально-аналитический (косвенный) подход реализуется при наличии априорных сведений о функциональной зависимости еj=ƒj(Pош) значений оценки качества речевых сигналов, синтезируемых в приемной части вокодера в соответствии с j-м протоколом НСКР, которые приведены в стандартах (см. Recommendation ITU-R F.1112-1. Digitized speech transmissions for systems operating below about 30 MHz. - Radiocommunication Study Group 8, Question ITU-R 164/9. 1995 - 15 p.) или представлены разработчиками (см. Бабкин В.В. Защита от ошибок и интерполяция потерь пакетов в низкоскоростных речевых кодеках // Электросвязь, №11, 2009. - С.47-49.) от вероятности битовой ошибки Рош. Зависимость еj=fj(Pош) может быть представлена в графической или аналитической формах, что позволяет получить G значений оценки качества речи при известных величинах Далее осуществляют интерполяцию полученного в (4) соответствия из G сопоставленных друг другу значений дивергенции и оценок качества речи с помощью многочлена наименьшей степени. В результате получают (одним из известных способов) интерполяционную формулу степени не более (G-1) вида:The experimental-analytical (indirect) approach is implemented in the presence of a priori information about the functional dependence е j = ƒ j (P ош ) values for assessing the quality of speech signals synthesized in the receiving part of the vocoder in accordance with the j-th NSCR protocol, which are given in the standards (see . Recommendation ITU-R F.1112-1. Digitized speech transmissions for systems operating below about 30 MHz. -
где a0j - свободный член; - коэффициент степенного многочлена для j-го протокола НСКР.where a 0j - free term; - coefficient of the power polynomial for the j-th NSCR protocol.
Регистрируют полученные результаты и выводят сообщение «Обучение завершено».The results obtained are recorded and the message "Training completed" is displayed.
В режиме «Оценка качества речевых сигналов» рассматривают матрицу Y (подход распространяется и на подобные ей матрицы Yj эт, ) как систему случайных величин (СВ). Текущий символ уkz (i), i=1,2,…, I - порядковый номер элемента (символа) алфавита случайной величины объемом I, которой является дискретной случайной величиной с объемом алфавита I=2 и принимает значение 1 при i=1 или 0 при i=2.In the mode "Assessment of the quality of speech signals", the matrix Y is considered (the approach is extended to similar matrices Yj this,) how system of random variables (SV). Current character ykz (i), i = 1,2, ..., I is the ordinal number of an element (symbol) of the alphabet of a random variable of volume I, which is a discrete random variable with an alphabet volume I = 2 and takes the
Определяют численные характеристики системы СВ Y={y1, y2, …, yn, …, yz, …, yZ), где yz={ylz,y2z,…,ykn,…,ykz,…,yKz) - столбец исследуемой матрицы Y, которыми являются значения МО m и ковариационная матрица С.Determine the numerical characteristics of the SV system Y = {y 1 , y 2 ,…, y n ,…, y z ,…, y Z ), where y z = {y lz , y 2z ,…, y kn ,…, y kz ,…, Y Kz ) is the column of the studied matrix Y, which are the values of MO m and the covariance matrix C.
Вычисляют значение МО mz столбца yz, состоящего из К двоичных символов ykz, по следующей формуле (см. Вентцель Е.С., Овчаров Л.А. Теория вероятностей и ее инженерные приложения. - М.: Наука, 1988. - 480 с. - ISBN 5-02-013748-0):Calculate the value of MO m z of the column y z , consisting of K binary symbols y kz , according to the following formula (see Ventzel E.S., Ovcharov L.A. Probability theory and its engineering applications. - M .: Nauka, 1988. - 480 p. - ISBN 5-02-013748-0):
где pz(i) - вероятность появления i-го значения ykz(i) в столбце yz.where p z (i) is the probability of occurrence of the i-th value y kz (i) in the y z column.
Так как уkz(2)=0, то mz=1⋅pz(1)+0⋅pz(2)=pz(1). Вычисляют вероятность pz(1) появления значения 1 в yz по формуле:Since kz (2) = 0, then m z = 1⋅p z (1) + 0⋅p z (2) = p z (1). Calculate the probability p z (1) of the appearance of the
где Sz(1) - количество символов ykz со значением 1 в yz.where S z (1) is the number of symbols y kz with
Вычисляют последовательно значения МО по столбцам yz матрицы Y, формируют наборThe MO values are sequentially calculated by the columns y z of the matrix Y, a set is formed
Определяют ковариационную матрицу С размерности Z, которая включает значения коэффициента ковариацииDetermine the covariance matrix C of dimension Z, which includes the values of the covariance coefficient
где М[⋅] - математическая операция вычисления МО; - столбцы (векторы), содержащие центрированные СВ:where M [⋅] is a mathematical operation for calculating MO; - columns (vectors) containing centered CBs:
n, z - порядковые номера столбцов уn и yz СВ Y;n, z - ordinal numbers of columns at n and y z CB Y;
mn, mz - столбцы (векторы) размерности К, содержащие только значения mn, mz соответственно.m n , m z - columns (vectors) of dimension K containing only the values m n , m z, respectively.
Составляют образ входного информационного ЦП у с НСКР, описываемого набором (m, С).An image of the input information CPU is compiled with the NSCR described by the set (m, C).
Проверяют гипотезы о том, что входной информационный ЦП у сформирован по одному из J заданных (известных) протоколов НСКР. При подтверждении одной из гипотез считают, что при формировании ЦП у применен j-й протокол НСКР, в противном случае выводят сообщение «Протокол НСКР: не установлен, оценка качества: нет» и прекращают оценку качества речевого сигнала.The hypotheses are tested that the input information CPU y is formed according to one of the J specified (known) NSCR protocols. When one of the hypotheses is confirmed, it is considered that the j-th NSCR protocol is applied during the formation of the CPU, otherwise the message “NSCR protocol: not installed, quality assessment: no” is displayed and the assessment of the speech signal quality is stopped.
Вычисляют по формуле (3) значения дивергенции νj между образом ЦП у, представленным набором (m, С), и эталонным образом (mj эт, Сj эт).Calculate by the formula (3) the values of the divergence ν j between the image of the CPU y, represented by the set (m, C), and the reference image (m j et , C j et ).
Считают, что при выполнении условия νj<νj (1) значение оценки качества сигнала с НСКР соответствует максимальной оценке качества речевого сигнала еj mах. В противном случае, при выполнении условия νj>νj (G), значение оценки качества сигнала с НСКР соответствует минимальной величине ej min. При невыполнении рассмотренных условий рассчитывают по найденному значению дивергенции νj согласно (5) значение еj оценки качества.It is considered that when the condition ν j <ν j (1) is fulfilled, the value of the estimate of the quality of the signal with the LSCR corresponds to the maximum estimate of the quality of the speech signal e j max . Otherwise, when the condition ν j > ν j (G) is satisfied, the value of the estimate of the signal quality with the LSCR corresponds to the minimum value of e j min . If the considered conditions are not met, the value of e j of the quality assessment is calculated from the found value of the divergence ν j according to (5).
Выводят сообщение «Протокол НСКР: j-й, оценка качества: еj». После этого завершают оценку качества сигнала с низкоскоростным кодированием.The message "NSCR protocol: j-th, quality assessment: e j " is displayed. Thereafter, the estimation of the quality of the low-rate coding signal is completed.
Имитационное моделирование заявленного способа автоматической оценки качества речевых сигналов с низкоскоростным кодированием проведено на примере исследования сигналов, сформированных на основе известного протокола НСКР LPC-10-2400 (STANAG 4197), который широко применяется на линиях радиосвязи диапазона высоких частот. По имеющейся обучающей выборке {yjw}W был сформирован эталонный ЦП уjэт, составлена эталонная матрица yjэт и соответствующее эталонное описание вида (mjэт, Сjэт)Simulation modeling of the claimed method for automatic quality assessment of speech signals with low-rate coding was carried out on the example of studying signals generated on the basis of the well-known NSCR protocol LPC-10-2400 (STANAG 4197), which is widely used on radio communication lines in the high frequency range. Based on the available training sample {y jw } W , a reference CPU for jet was formed, a reference matrix y jet and a corresponding reference description of the form (m jet , C jet ) were compiled
В настоящее время известны данные о зависимости значений eзj разборчивости звуков речи от вероятности битовой ошибки Рош в речевых сигналах с низкоскоростным кодированием (см. Recommendation ITU-R F.1112-1. Digitized speech transmissions for systems operating below about 30 MHz. - Radiocommunication Study Group 8, Question ITU-R 164/9. 1995 - 15 p.), сформированных по протоколу LPC-10-2400 (STANAG 4197). Последние приведены в графической форме (см. фиг. 4). В режиме «Обучение» был реализован экспериментально-аналитический (косвенный) подход для G=8, в результате чего получены значения в процентах оценки качества речи при выбранных величинах (см. фиг. 4).At present, data are known on the dependence of the values of e sj intelligibility of speech sounds on the probability of a bit error P osh in speech signals with low-rate coding (see Recommendation ITU-R F.1112-1. Digitized speech transmissions for systems operating below about 30 MHz. -
Для формирования соответствия вида (4) из эталонного ЦП уj эт на основе выражений (1) и (2) и G=8 сформированы цифровые потоки искаженные битовыми ошибками, и соответствующие им матрицы На основе матриц составлены искаженные образы ( ) и реализовано вычисление (выражение 3) соответствующих значений дивергенции между эталонным и искаженными образами.To form a correspondence of the form (4) from the reference CPU at j et on the basis of expressions (1) and (2) and G = 8, digital streams are formed corrupted by bit errors, and their corresponding matrices Matrix-based distorted images ( ) and implemented the calculation (expression 3) of the corresponding values of the divergence between reference and distorted images.
Выполнена интерполяция полученного соответствия (4), представленного строками 2 и 3 (см. фиг. 4). В результате расчетов получена интерполяционная формула видаInterpolation of the obtained correspondence (4), represented by
в которой члены со степенями >3 не приведены ввиду малости величин Последнее косвенно указывает на избыточность выбранного значения G=8. В графической форме зависимость вида (11) приведена на фиг. 7. Представленная интерполяционная формула позволяет оценивать качество речевых сигналов с низкоскоростным кодированием по протоколу LPC-10-2400 (STANAG 4197) с точностью не хуже 5%, что было установлено при исследовании цифровых потоков, сформированных по протоколу LPC-10-2400 (STANAG 4197), с известными значениями eзj качества речевых сигналов.in which terms with powers > 3 are not given due to the smallness of the values The latter indirectly indicates the redundancy of the selected value G = 8. In graphical form, the dependence of the form (11) is shown in Fig. 7. The presented interpolation formula makes it possible to evaluate the quality of speech signals with low-rate coding according to the LPC-10-2400 (STANAG 4197) protocol with an accuracy of at least 5%, which was established by studying digital streams formed according to the LPC-10-2400 (STANAG 4197 ), with known values of e zj quality of speech signals.
Claims (1)
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
RU2021110011A RU2757860C1 (en) | 2021-04-09 | 2021-04-09 | Method for automatically assessing the quality of speech signals with low-rate coding |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
RU2021110011A RU2757860C1 (en) | 2021-04-09 | 2021-04-09 | Method for automatically assessing the quality of speech signals with low-rate coding |
Publications (1)
Publication Number | Publication Date |
---|---|
RU2757860C1 true RU2757860C1 (en) | 2021-10-21 |
Family
ID=78289630
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
RU2021110011A RU2757860C1 (en) | 2021-04-09 | 2021-04-09 | Method for automatically assessing the quality of speech signals with low-rate coding |
Country Status (1)
Country | Link |
---|---|
RU (1) | RU2757860C1 (en) |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
RU2271578C2 (en) * | 2003-01-31 | 2006-03-10 | Ооо "Центр Речевых Технологий" | Method for recognizing spoken control commands |
US20120116759A1 (en) * | 2009-07-24 | 2012-05-10 | Mats Folkesson | Method, Computer, Computer Program and Computer Program Product for Speech Quality Estimation |
US20180226081A1 (en) * | 2011-03-10 | 2018-08-09 | Telefonaktiebolaget Lm Ericsson (Publ) | Filling of Non-Coded Sub-Vectors in Transform Coded Audio Signals |
RU2667462C1 (en) * | 2017-10-24 | 2018-09-19 | федеральное государственное казенное военное образовательное учреждение высшего образования "Военная академия связи имени Маршала Советского Союза С.М. Буденного" Министерства обороны Российской Федерации | Method of recognizing low-speed speech coding protocols |
US20200027467A1 (en) * | 2018-07-20 | 2020-01-23 | Mimi Hearing Technologies GmbH | Systems and methods for encoding an audio signal using custom psychoacoustic models |
-
2021
- 2021-04-09 RU RU2021110011A patent/RU2757860C1/en active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
RU2271578C2 (en) * | 2003-01-31 | 2006-03-10 | Ооо "Центр Речевых Технологий" | Method for recognizing spoken control commands |
US20120116759A1 (en) * | 2009-07-24 | 2012-05-10 | Mats Folkesson | Method, Computer, Computer Program and Computer Program Product for Speech Quality Estimation |
US20180226081A1 (en) * | 2011-03-10 | 2018-08-09 | Telefonaktiebolaget Lm Ericsson (Publ) | Filling of Non-Coded Sub-Vectors in Transform Coded Audio Signals |
RU2667462C1 (en) * | 2017-10-24 | 2018-09-19 | федеральное государственное казенное военное образовательное учреждение высшего образования "Военная академия связи имени Маршала Советского Союза С.М. Буденного" Министерства обороны Российской Федерации | Method of recognizing low-speed speech coding protocols |
US20200027467A1 (en) * | 2018-07-20 | 2020-01-23 | Mimi Hearing Technologies GmbH | Systems and methods for encoding an audio signal using custom psychoacoustic models |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP6535706B2 (en) | Method for creating a ternary bitmap of a data set | |
CN109599093B (en) | Intelligent quality inspection keyword detection method, device and equipment and readable storage medium | |
CN1121681C (en) | Speech processing | |
Sharma et al. | A data-driven non-intrusive measure of speech quality and intelligibility | |
US9786300B2 (en) | Single-sided speech quality measurement | |
CN107293306B (en) | A kind of appraisal procedure of the Objective speech quality based on output | |
Dubey et al. | Non-intrusive speech quality assessment using several combinations of auditory features | |
JP2018141917A (en) | Learning device, speech synthesis system and speech synthesis method | |
Karbasi et al. | Twin-HMM-based non-intrusive speech intelligibility prediction | |
Jassim et al. | WARP-Q: Quality prediction for generative neural speech codecs | |
CN111326170B (en) | Method and device for converting ear voice into normal voice by combining time-frequency domain expansion convolution | |
Cui et al. | An Efficient Subband Linear Prediction for LPCNet-Based Neural Synthesis. | |
Yang et al. | Parametric-based non-intrusive speech quality assessment by deep neural network | |
RU2757860C1 (en) | Method for automatically assessing the quality of speech signals with low-rate coding | |
Picovici et al. | Output-based objective speech quality measure using self-organizing map | |
Mandel et al. | Audio super-resolution using concatenative resynthesis | |
Lin et al. | Speaker-aware speech enhancement with self-attention | |
Iser et al. | Bandwidth extension of telephony speech | |
Huber et al. | Single-ended speech quality prediction based on automatic speech recognition | |
Picovici et al. | New output-based perceptual measure for predicting subjective quality of speech | |
Mahdi et al. | New single-ended objective measure for non-intrusive speech quality evaluation | |
Chen et al. | Sepdiff: Speech separation based on denoising diffusion model | |
RU2801621C1 (en) | Method for transcribing speech from digital signals with low-rate coding | |
CN113327616A (en) | Voiceprint recognition method and device, electronic equipment and storage medium | |
RU2784691C1 (en) | Method for identifying a speaker's personality by digital signals of low-speed speech codecs |