RU2805130C1

RU2805130C1 - Method for building a codec of speech signals adaptive to acoustic noise

Info

Publication number: RU2805130C1
Application number: RU2023102548A
Authority: RU
Inventors: Владимир Тимурович Дмитриев
Filing date: 2023-02-03
Publication date: 2023-10-11

Abstract

FIELD: methods for primary coding of speech signals.

SUBSTANCE: invention relates to methods for adapting speech codecs to acoustic noise by determining the type of acoustic noise and selecting a speech signal coding algorithm, as well as its parameters, providing the best quality of the reconstructed speech. The specified technical result is achieved by combining in one structure the functional blocks of standard codecs of speech signals, the choice of which is based on the type and level of acoustic noise affecting the speech signal and determined at the input of the coding device during the pause period, in accordance with the proposed recommendations received as a result of experimental studies, as well as depending on the assessment of the quality of the restored speech at the output of the decoder.

EFFECT: providing the best quality of the reconstructed speech.

1 cl, 4 dwg, 3 tbl

Description

Изобретение относится к области первичного кодирования речевого сигнала. Техническим результатом является повышение качества передачи речи при действии акустических шумов за счет выбора алгоритмов первичного кодирования и их параметров, обеспечивающих наилучшее качество восстановленной речи на приемной стороне для определенного акустического шума и отношения сигнала и отношения сигнал-шум.The invention relates to the field of primary coding of a speech signal. The technical result is to improve the quality of speech transmission under the influence of acoustic noise by selecting primary coding algorithms and their parameters that provide the best quality of reconstructed speech on the receiving side for a certain acoustic noise and signal ratio and signal-to-noise ratio.

Известны различные алгоритмы построения адаптивных кодеков речи. Примером адаптации параметров речевого кодека может служить известный способ, рассмотренный в патенте, заключающийся в том, что предусматривают адаптивный кодек, способный передавать непрерывный голосовой поток и имеющий информацию о скорости передачи данных источника и полосе пропускания канала, осуществляют проверку канала передачи голосового потока для получения по меньшей мере одного параметра качества, определяют по меньшей мере одно ограничение, связанное с передачей голосового потока, изменяют скорость передачи данных источника и полосу пропускания канала как функцию параметра качества и ограничивающего фактора для получения максимального значения качества получаемого сигнала во время передачи непрерывного голосового потока. Параметром оценки качества передачи речи в указанном способе используется максимальное число медиасимволов в кодовом слове, максимальная длина кодового слова, задержка сети, фактор ухудшения задержки, фактор потерь пакетов, измеренный фактор искажения сигналов, R-фактор для расчета параметра MOS, который используют для согласования скорости передачи данных источника и пропускной способности канала связи (Патент № US 2004160979 Source and channel rate adaptation for VoIP H04L 1/00; H04L 29/06; Н04М 7/00; H04L 12/56, опубл. 19.08.2004 Авторы Christine Pepin, Johnny Matta, Khosrow Lashkari, Ravi Jain).Various algorithms for constructing adaptive speech codecs are known. An example of adapting the parameters of a speech codec is the well-known method discussed in the patent, which consists in providing an adaptive codec capable of transmitting a continuous voice stream and having information about the source data rate and channel bandwidth, checking the transmission channel of the voice stream to receive at least one quality parameter, determining at least one limitation associated with the transmission of the voice stream, changing the source data rate and channel bandwidth as a function of the quality parameter and the limiting factor to obtain a maximum quality value of the received signal during transmission of a continuous voice stream. The parameter for assessing the quality of voice transmission in this method uses the maximum number of media symbols in a codeword, the maximum length of a codeword, network delay, delay degradation factor, packet loss factor, measured signal distortion factor, R-factor to calculate the MOS parameter, which is used for rate matching transmission of source data and communication channel capacity (Patent No. US 2004160979 Source and channel rate adaptation for VoIP H04L 1/00; H04L 29/06; H04M 7/00; H04L 12/56, publ. 08/19/2004 Authors Christine Pepin, Johnny Matta, Khosrow Lashkari, Ravi Jain).

Другое изобретение относится к кодированию с множеством скоростей, более конкретно к речевому кодированию с множеством скоростней для систем связи. В соответствии с вариантом осуществления изобретения предусмотрен способ многоскоростного кодирования в системе связи. Способ включает этап обеспечения кодека с набором настраиваемых параметром для использования при выборе режимов кодека. Каждый набор параметров настройки обеспечивает некоторую среднюю битовую скорость. Принимается заданное значение битовой скорости для кодирования сигнала кодеком, причем это целевое значение битовой скорости имеет некоторое значение между минимальной и максимальной средней битовой скоростью кодека. Затем режим кодирования выбирается на основе целевого значения битовой скорости и наборов параметров настройки, и сигнал кодируется посредством использования выбранного режима кодирования. Также предусмотрен многоскоростной кодек, содержащий селектор для выбора режима кодирования из набора режимов кодирования на основе целевого значения битовой скорости. Технический результат - повышение качества речи за счет кодирования с переменной скоростью в результате более эффективного кодирования (Патент на изобретение № RU 2364958 С2. Кодирование с множеством скоростей. Патентообладатель: Нокиа Корпорейшн (FI). Авторы: Мякинен Яри М. (FI), Вайнио Янне (FI)).Another invention relates to multi-rate coding, more particularly to multi-rate speech coding for communication systems. According to an embodiment of the invention, a multi-rate coding method is provided in a communication system. The method includes the step of providing a codec with a set of configurable parameters for use when selecting codec modes. Each set of settings provides some average bit rate. A target bit rate is received for encoding the signal by the codec, this target bit rate being some value between the minimum and maximum average bit rate of the codec. An encoding mode is then selected based on the target bit rate and the parameter sets, and the signal is encoded using the selected encoding mode. A multi-rate codec is also provided, including a selector for selecting an encoding mode from a set of encoding modes based on a target bit rate. The technical result is improving speech quality due to variable-rate encoding as a result of more efficient encoding (Patent for invention No. RU 2364958 C2. Multiple-rate encoding. Patent holder: Nokia Corporation (FI). Authors: Mäkinen Jari M. (FI), Vainio Janne (FI)).

В следующем патенте описываются различные стратегии управления скоростью/качеством и отказоустойчивости аудиокодеков. Различные стратегии можно использовать в комбинации или независимо. При этом речевой кодек в реальном времени использует внутрикадровое кодирование/декодирование, адаптивную многорежимную прямую коррекцию ошибок «FEC» и методы управления скоростью/качеством. Внутрикадровые кадры помогают декодеру быстро восстановиться после потери кадров, в то время как эффективность сжатия по-прежнему повышается с помощью прогнозируемых кадров. С помощью адаптивного многорежимного FEC, кодер адаптивно выбирает между несколькими режимами, чтобы эффективно и быстро обеспечить уровень FEC, который учитывает полосу пропускания, доступную в настоящее время для FEC. Сама информация FEC может кодироваться и декодироваться с предсказанием относительно первично кодированной информации. Различные стратегии управления скоростью/качеством и FEC позволяют дополнительно адаптироваться к доступной полосе пропускания и условиям сети (Патент № US 7668712 Audio encoding and decoding with intra frames and adaptive forward error correction G10L 19/00, G10L 19/08, G10L 25/93 Авторы Tian Wang, Hosam A. Khalil, Kazuhito Koishida, Wei-ge Chen, Mu Han).The following patent describes various speed/quality control and fault tolerance strategies for audio codecs. Different strategies can be used in combination or independently. The real-time speech codec uses intra-frame encoding/decoding, adaptive multi-mode forward error correction (FEC), and rate/quality control techniques. Intra-frame frames help the decoder quickly recover from frame loss, while compression efficiency is still improved by predictive frames. With adaptive multi-mode FEC, the encoder adaptively selects between multiple modes to efficiently and quickly provide an FEC level that takes into account the bandwidth currently available to the FEC. The FEC information itself can be predictively encoded and decoded with respect to the primary encoded information. Various rate/quality control and FEC strategies allow further adaptation to available bandwidth and network conditions (Patent No. US 7668712 Audio encoding and decoding with intra frames and adaptive forward error correction G10L 19/00, G10L 19/08, G10L 25/93 Authors Tian Wang, Hosam A. Khalil, Kazuhito Koishida, Wei-ge Chen, Mu Han).

Способ адаптации речевого кодека к режиму кодирования в зависимости от преобладающего состояния канала для передачи речевых кадров в телекоммуникационной системе, содержащий этапы определения коэффициента ошибок на бит (BER) из оцененного отношения несущей к источнику помех (С/I) на речевом пакете, генерируют значения BER речевого кадра множества последовательных пакетов и определяют критический уровень BER для множества речевых кадров посредством максимальной операции над значениями BER кадра для множества речевых кадров (Патент № US 20050267743 A1 Method for codec mode adaptation of adaptive multi-rate codec regarding speech quality G10L 19/04, H04L 1/00, H04L 1/20 Автор: Christian Gerlach).A method of adapting a speech codec to a coding mode depending on the prevailing channel state for transmitting speech frames in a telecommunications system, comprising the steps of determining a bit error rate (BER) from an estimated carrier-to-interferer (C/I) ratio on a speech packet, generating BER values speech frame of a plurality of sequential packets and determine the critical BER level for a plurality of speech frames by maximizing the frame BER values for a plurality of speech frames (Patent No. US 20050267743 A1 Method for codec mode adaptation of adaptive multi-rate codec regarding speech quality G10L 19/04, H04L 1/00, H04L 1/20 Author: Christian Gerlach).

Изобретение относится к кодированию с множеством скоростей, более контурно к речевому кодированию с множеством скоростей для систем связи. В соответствии с вариантом осуществления изобретения предусмотрен способ многоскоростного кодирования в системе связи. Способ включает этап обеспечения кодека с набором настраиваемых параметров для использования при выборе режима кодека. Каждый набор параметров настройки обеспечивает некоторую среднюю битовую скорость. Принимается заданное значение битовой скорости для кодирования сигнала кодеком, причем это целевое значение битовой скорости имеет некоторое значение между минимальной и максимальной средней битовой скоростью кодека. Затем режим кодирования выбирается на основе целевого значения битовой скорости и наборов параметров настройки, и сигнал кодируется посредством использования выбранного режима кодирования. Также предусмотрен многоскоростной кодек, содержащий селектор для выбора режима кодирования из набора режимов кодирования на основе целевого значения битовой скорости. Технический результат - повышение качества речи за счет кодирования с переменной скоростью в результате более эффективного кодирования (Патент № RU 2415482 C2 Система и способ управления избыточностью G10L 19/14 Авторы: Паси ОЯЛА (FI), Паси ОЯЛА, Ари ЛАКАНИЕМИ (FI), Ари ЛАКАНИЕМИ).The invention relates to multi-rate coding, more specifically to multi-rate speech coding for communication systems. According to an embodiment of the invention, a multi-rate coding method is provided in a communication system. The method includes the step of providing a codec with a set of configurable parameters for use when selecting a codec mode. Each set of settings provides some average bit rate. A target bit rate is received for encoding the signal by the codec, this target bit rate being some value between the minimum and maximum average bit rate of the codec. An encoding mode is then selected based on the target bit rate and the parameter sets, and the signal is encoded using the selected encoding mode. A multi-rate codec is also provided, including a selector for selecting an encoding mode from a set of encoding modes based on a target bit rate. The technical result is improving speech quality due to variable rate encoding as a result of more efficient encoding (Patent No. RU 2415482 C2 System and method for managing redundancy G10L 19/14 Authors: Pasi OJALA (FI), Pasi OJALA, Ari LAKANIEMI (FI), Ari LAKANIEMI).

Механизм автоматического распознавания речи приспособлен к неблагоприятной акустической среде. Некоторые исходные данные тренировки, собранные в исходной акустической среде, воспроизводятся в неблагоприятной акустической среде. Данные воспроизведения записываются в неблагоприятной акустической среде для создания записанных данных воспроизведения. Затем существующая речевая модель адаптируется к неблагоприятной акустической среде на основе записанных данных воспроизведения и/или исходных обучающих данных (Патент № US 20190318733 A1 Adaptive enhancement of speech signals G10L 15/06, G10L 15/20, G10L 15/00 Автор: Senthil Kumar MANI)The automatic speech recognition engine is adapted to unfavorable acoustic environments. Some original training data collected in the original acoustic environment is reproduced in an unfavorable acoustic environment. Playback data is recorded in an unfavorable acoustic environment to create recorded playback data. The existing speech model is then adapted to the unfavorable acoustic environment based on the recorded playback data and/or the original training data (Patent No. US 20190318733 A1 Adaptive enhancement of speech signals G10L 06/15, G10L 15/20, G10L 15/00 Author: Senthil Kumar MANI )

Таким образом, известные патенты рассматривают адаптивные первичные кодеки, в которых происходит изменение скорости передачи за счет изменения параметров первичного кодека при изменении скорости канала передачи и воздействия ошибок в канале связи при управлении кодеком.Thus, well-known patents consider adaptive primary codecs, in which the transmission speed changes due to changes in the parameters of the primary codec when the transmission channel speed changes and the effects of errors in the communication channel when controlling the codec.

Предлагается алгоритм построения универсального кодека PC адаптивного к акустическим шумам. Суть алгоритма заключается в объединении существующих первичных кодеков речевых сигналов, которые в настоящее время наиболее часто используются в системах передачи PC, в одно устройство. При этом блоки, в разных кодеках выполняющие идентичные функции объединяются в один общий блок, параметры которого могут задаваться устройством управления для каждого алгоритма кодирования.An algorithm for constructing a universal PC codec adaptive to acoustic noise is proposed. The essence of the algorithm is to combine existing primary speech codecs, which are currently most often used in PC transmission systems, into one device. In this case, blocks that perform identical functions in different codecs are combined into one common block, the parameters of which can be set by the control device for each encoding algorithm.

Предложена система адаптивного управления параметрами системы первичного кодирования, в рамках которой разработаны алгоритмы оценки качества восстановленного речевого сигнала на выходе системы и автоматической классификации акустических шумов в адаптивных системах их активного подавления. Одним из новых подходов к кодированию PC являются системы с переменной структурой. Суть данного подхода состоит в изменении не только параметров, но и структуры кодирующего устройства. Система с переменной структурой подразумевает, что количество функциональных элементов, а также связи между ними, и их расположение меняются тем или иным образом в зависимости от класса действующего АШ. В соответствие с полученными результатами анализа о классе АШ будет выбраться одна из возможных структур первичного кодека, которая обеспечит наилучшее качество восстановленной речи в действующей шумовой обстановке.A system for adaptive control of the parameters of the primary coding system has been proposed, within which algorithms have been developed for assessing the quality of the reconstructed speech signal at the system output and for automatically classifying acoustic noise in adaptive systems for their active suppression. One of the new approaches to PC coding is variable structure systems. The essence of this approach is to change not only the parameters, but also the structure of the encoding device. A system with a variable structure implies that the number of functional elements, as well as the connections between them, and their location change in one way or another depending on the class of the operating AS. In accordance with the obtained analysis results about the ANC class, one of the possible structures of the primary codec will be selected, which will provide the best quality of the reconstructed speech in the current noise environment.

В качестве функциональных блоков систем первичного кодирования выберем функциональные блоки следующих основных кодеков источника, описанных в качестве следующих стандартов Международного Союза Электросвязи: G.722.2; G.722.2; G.723.1; G.726; G.727; G.728; G.729.As functional blocks of primary coding systems, we will select functional blocks of the following main source codecs, described as the following standards of the International Telecommunication Union: G.722.2; G.722.2; G.723.1; G.726; G.727; G.728; G.729.

Соответственно технические характеристики адаптивного кодека PC, определяются техническими характеристиками данных первичных кодеков. При этом, поддерживаются следующие режимы скоростей передачи: 5.3 кбит/с; 6,3 кбит/с; 6,6 кбит/с; 8 кбит/с; 8,85 кбит/с; 12,65 кбит/с; 14,25 кбит/с; 15,85 кбит/с; 16 кбит/с; 18,25 кбит/с; 19,85 кбит/с; 23,05 кбит/с; 23,85 кбит/с; 24 кбит/с; 32 кбит/с. Вносимая задержка составляет от 1 до 30 мс в зависимости от выбранного алгоритма. Анализ данных алгоритмов и их структурных схем выявил блоки, выполняющие идентичные функции. Логичным будет оставить только один комплект таких блоков. Это снизит общее количество блоков и тем самым несколько упростит структуру предлагаемого кодека.Accordingly, the technical characteristics of the adaptive PC codec are determined by the technical characteristics of these primary codecs. At the same time, the following transmission speed modes are supported: 5.3 kbit/s; 6.3 kbit/s; 6.6 kbit/s; 8 kbit/s; 8.85 kbps; 12.65 kbps; 14.25 kbps; 15.85 kbps; 16 kbit/s; 18.25 kbps; 19.85 kbps; 23.05 kbps; 23.85 kbps; 24 kbit/s; 32 kbps. The introduced delay ranges from 1 to 30 ms depending on the selected algorithm. Analysis of these algorithms and their block diagrams revealed blocks that perform identical functions. It would be logical to leave only one set of such blocks. This will reduce the total number of blocks and thereby somewhat simplify the structure of the proposed codec.

Для пояснения принципа работы адаптивного к АШ алгоритма кодирования PC приведена обобщенная структурная схема алгоритма, которая показана на Фиг. 1. Адаптивный первичный кодер состоит из следующих блоков: блок предобработки (ПО), блок анализа линейного предсказания (АЛП), блок анализа основного тона (АОТ), адаптивная кодовая книга (АКК), фиксированная кодовая книга (ФКК), блок обновление памяти (ОП), блоки кодеров (G.726 и G.727, блоки кодера G.722, блоки кодера G.723.1 и блоки кодера G.728.To explain the operating principle of the AN-adaptive PC coding algorithm, a generalized block diagram of the algorithm is given, which is shown in Fig. 1. The adaptive primary encoder consists of the following blocks: preprocessing block (PO), linear prediction analysis block (LPA), pitch analysis block (AOT), adaptive codebook (ACC), fixed codebook (FCC), memory update block ( OP), encoder blocks (G.726 and G.727, G.722 encoder blocks, G.723.1 encoder blocks and G.728 encoder blocks.

На Фиг. 2 показана обобщенная структурная схема адаптивного к АШ декодера. При этом универсальный первичный декодер состоит из декодера адаптивной кодовой книги (АКК), декодера фиксированной кодовой книги (ФКК), декодера линейных спектральных пар (ЛСП), декодера спектральных пар иммитанса (СПИ), сумматора (+), синтезирующего фильтра (СФ), блока постобработки (ПО) и блока выходного ИКМ преобразования (ИКМ). Общая схема алгоритма предполагает возможность его реализации, как в программном виде, так и в аппаратном.In FIG. Figure 2 shows a generalized block diagram of an BN-adaptive decoder. In this case, the universal primary decoder consists of an adaptive codebook decoder (ACC), a fixed codebook decoder (FCC), a linear spectral pair decoder (LSP), an immittance spectral pair decoder (SPI), an adder (+), a synthesis filter (SF), post-processing unit (PO) and output PCM conversion unit (PCM). The general scheme of the algorithm assumes the possibility of its implementation, both in software and in hardware.

На Фиг. 3 показана структурная схема адаптивного к АШ кодера речевых сигналов. На Фиг. 4 показана структурная схема адаптивного к АШ декодера речевых сигналов. Каждый блок имеет свой идентификатор. С помощью идентификаторов осуществляется управление адаптивным кодеком.In FIG. Figure 3 shows a block diagram of an AN-adaptive speech signal encoder. In FIG. Figure 4 shows a block diagram of an ANC-adaptive speech signal decoder. Each block has its own identifier. The adaptive codec is controlled using identifiers.

В таблице 1 приведены обозначения блоков адаптивного к АШ кодера речевых сигналов приведенных на Фиг. 3.Table 1 shows the designations of the blocks of the AN-adaptive speech signal encoder shown in Fig. 3.

В таблице 2 приведены обозначения блоков адаптивного к АШ декодера речевых сигналов приведенных на Фиг. 3.Table 2 shows the designations of the blocks of the speech signal adaptive decoder shown in Fig. 3.

В зависимости от выбранного алгоритма кодирования в канал будут передаваться соответствующие данные, представленные в таблице 3.Depending on the selected encoding algorithm, the corresponding data presented in Table 3 will be transmitted to the channel.

Список источниковList of sources

1. Патент № US 2004160979 Source and channel rate adaptation for VoIP H04L 1/00; H04L 29/06; H04M 7/00; H04L 12/56, опубл. 19.08.2004 Авторы Christine Pepin, Johnny Matta, Khosrow Lashkari, Ravi Jain1. Patent No. US 2004160979 Source and channel rate adaptation for VoIP H04L 1/00; H04L 29/06; H04M 7/00; H04L 12/56, publ. 08/19/2004 Authors Christine Pepin, Johnny Matta, Khosrow Lashkari, Ravi Jain

2. Патент на изобретение № RU 2364958 C2. Кодирование с множеством скоростей. Патентообладатель: Нокиа Корпорейшн (FI). Авторы: Мякинен Яри М. (FI), Вайнио Янне (FI). Заявка №2004127121/09. Приоритет изобретения: 09.09.2003 г. Зарегистрировано в Государственном реестре изобретений Российской Федерации 08 сентября 2004 года2. Patent for invention No. RU 2364958 C2. Multi-rate encoding. Patentee: Nokia Corporation (FI). Authors: Mäkinen Jari M. (FI), Vainio Janne (FI). Application No. 2004127121/09. Invention priority: 09.09.2003 Registered in the State Register of Inventions of the Russian Federation on September 08, 2004

3. Патент № US 7668712 Audio encoding and decoding with intra frames and adaptive forward error correction G10L 19/00, G10L 19/08, G10L 25/93 Авторы Tian Wang, Hosam A. Khalil, Kazuhito Koishida, Wei-ge Chen, Mu Han3. Patent No. US 7668712 Audio encoding and decoding with intra frames and adaptive forward error correction G10L 19/00, G10L 19/08, G10L 25/93 Authors Tian Wang, Hosam A. Khalil, Kazuhito Koishida, Wei-ge Chen, Mu Han

4. Патент № US 20050267743 A1 Method for codec mode adaptation of adaptive multi-rate codec regarding speech quality G10L 19/04, H04L 1/00, H04L 1/20 Автор: Christian Gerlach4. Patent No. US 20050267743 A1 Method for codec mode adaptation of adaptive multi-rate codec regarding speech quality G10L 19/04, H04L 1/00, H04L 1/20 Author: Christian Gerlach

5. Патент № RU 2415482 C2 Система и способ управления избыточностью G10L 19/14 Авторы: Паси ОЯЛА (FI), Паси ОЯЛА, Ари ЛАКАНИЕМИ (FI), Ари ЛАКАНИЕМИ5. Patent No. RU 2415482 C2 System and method for managing redundancy G10L 19/14 Authors: Pasi OJALA (FI), Pasi OJALA, Ari LAKANIEMI (FI), Ari LAKANIEMI

6. Патент № US 20190318733 A1 Adaptive enhancement of speech signals G10L 15/06, G10L 15/20, G10L 15/00 Автор: Senthil Kumar MANI.6. Patent No. US 20190318733 A1 Adaptive enhancement of speech signals G10L 06/15, G10L 15/20, G10L 15/00 Author: Senthil Kumar MANI.

Claims

A method for constructing a speech signal codec adaptive to acoustic noise, characterized in that the codec contains functional blocks of known coding algorithms, a block for determining the type and parameters of acoustic noise in a speech signal pause, as well as assessing the speech quality at the output of the encoder and decoder; the selection of a coding algorithm is made in the event of a decrease in the quality of the speech signal, determined in the quality assessment block, or a change in the type or parameters of acoustic noise recorded in the block for determining the type and parameters of acoustic noise during a speech pause, by selecting the recommended speech signal coding algorithm for a given type of acoustic noise and signal-to-noise ratios that provide the highest possible speech quality at the codec output within a given range of transmission rates.