RU2419169C1 - Способ кодирования широкополосного речевого сигнала - Google Patents

Способ кодирования широкополосного речевого сигнала Download PDF

Info

Publication number
RU2419169C1
RU2419169C1 RU2009144612/09A RU2009144612A RU2419169C1 RU 2419169 C1 RU2419169 C1 RU 2419169C1 RU 2009144612/09 A RU2009144612/09 A RU 2009144612/09A RU 2009144612 A RU2009144612 A RU 2009144612A RU 2419169 C1 RU2419169 C1 RU 2419169C1
Authority
RU
Russia
Prior art keywords
code books
vector
subband
block
codebooks
Prior art date
Application number
RU2009144612/09A
Other languages
English (en)
Inventor
Михаил Владимирович Илюшин (RU)
Михаил Владимирович Илюшин
Олег Олегович Басов (RU)
Олег Олегович Басов
Александр Аркадьевич Рыболовлев (RU)
Александр Аркадьевич Рыболовлев
Original Assignee
Государственное образовательное учреждение высшего профессионального образования Академия Федеральной службы охраны Российской Федерации (Академия ФСО России)
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Государственное образовательное учреждение высшего профессионального образования Академия Федеральной службы охраны Российской Федерации (Академия ФСО России) filed Critical Государственное образовательное учреждение высшего профессионального образования Академия Федеральной службы охраны Российской Федерации (Академия ФСО России)
Priority to RU2009144612/09A priority Critical patent/RU2419169C1/ru
Application granted granted Critical
Publication of RU2419169C1 publication Critical patent/RU2419169C1/ru

Links

Images

Landscapes

  • Compression, Expansion, Code Conversion, And Decoders (AREA)

Abstract

Изобретение относится к системе электросвязи и предназначено для кодирования широкополосного речевого сигнала (ШРС) с диапазоном частот от 50 до 7000 Гц. Техническим результатом является повышение качества восстановленных речевых сообщений при фиксированной скорости передачи. Указанный технический результат достигается тем, что перед оцениванием субполосных порогов маскирования обрабатываемый кадр речи идентифицируют на принадлежность к одному из конечного числа непересекающихся классов М, выбирают один из М блоков мультиполосных кодовых книг, а затем оценивают субполосные пороги маскирования, при этом количество субполосных кодовых книг и число уровней в данных кодовых книгах в М блоках мультиполосных кодовых книг различно в зависимости от типа обрабатываемого кадра речи и перцептуальной важности каждой из анализируемых субполос сегмента широкополосного речевого сигнала. После определения величины перцептуальной энтропии формируют вектор, содержащий номер выбранного блока мультиполосных кодовых книг и глубину поиска в субполосных кодовых книгах данного блока, а затем по значению индекса вектора возбуждения из выбранного блока мультиполосных кодовых книг выбирают сигнал возбуждения, при этом выходную битовую последовательность кодера формируют из индекса вектора возбуждения, квантованного значения его коэффициента усиления, индекса квантованного вектора, содержащего номер выбранного блока мультиполосных кодовых книг и глубину поиска в субполосных кодовых книгах данного блока, а также квантованного вектора коэффициентов линейного предсказания. 3 ил.

Description

Предлагаемое техническое решение относится к системе электросвязи, предназначено для кодирования широкополосного речевого сигнала (ШРС) с диапазоном частот от 50 до 7000 Гц и может быть использовано в устройствах анализа-синтеза речи.
Известен способ адаптивного кодирования речевых сигналов на основе системы с переменной структурой (Патент №2343564, от 20.06.2008), заключающийся в осуществлении классификации входных кадров речевого сигнала (PC) и двухконтурной адаптации процедуры кодирования для каждого кадра: первый контур производит оптимизацию структуры кодирующего устройства, а второй - оптимизацию передаваемых параметров для выбранной системы компрессии.
Недостатком указанного способа является недостаточная степень учета процесса слуховой перцепции речевого сигнала аудиторной системой человека, так как способ рассчитан на обработку PC с традиционной полосой частот (от 300 до 3400 Гц). Данный факт не создает необходимых условий для максимального использования имеющейся априорной информации о PC, что предопределяет недостаточно высокое качество восстановления сигнала на приеме.
Наиболее близким по технической сущности к заявляемому способу и выбранным в качестве прототипа является способ кодирования ШРС на основе линейного предсказания (Лившиц М.З. Широкополосный CELP-кодер с мультиполосным возбуждением и многоуровневым векторным квантованием по кодовой книге с реконфигурируемой структурой // Цифровая обработка сигналов. - 2005. - №2. - С.20-35), заключающийся в том, что берут последовательно локально-стационарные участки обрабатываемого речевого сигнала, оценивают субполосные пороги маскирования путем вычисления коэффициентов сжатого дискретного преобразования Фурье, затем определяют величину перцептуальной энтропии кодируемых субполос для текущего фрейма сигнала, формируют вектор, содержащий глубину поиска в субполосных кодовых книгах, затем по значению индекса вектора возбуждения из блока мультиполосных кодовых книг выбирают сигнал возбуждения, обеспечивающий наилучшее приближение синтезированного широкополосного речевого сигнала к входному оригинальному широкополосному речевому сигналу, при этом выходную битовую последовательность кодера формируют из индекса вектора возбуждения, квантованного значения его коэффициента усиления, индекса квантованного вектора, содержащего глубину поиска в субполосных кодовых книгах данного блока, а также квантованного вектора коэффициентов линейного предсказания.
Недостатком способа-прототипа является недостаточно высокое качество восстановления сигнала на приеме при фиксированной скорости передачи, определяемое следующим:
1) фиксированным объемом кодовых книг на каждом уровне квантования во всех субполосах сигнала возбуждения;
2) отсутствием адаптации к типу (вокализованный, слабо вокализованный/переходный, невокализованный, пауза и т.д.) речевого кадра.
При существующих требованиях к качеству восстанавливаемого на приеме PC (ГОСТ Р51061-97. Системы низкоскоростной передачи речи по цифровым каналам. Параметры качества речи и методы измерений. - Введ. 1998.01.01. - М.: Госстандарт России, 1997. - 10 с.) необходима его более тщательная обработка. В данных условиях способы, частично учитывающие статистическую и перцептуальную избыточности ШРС, становятся неприемлемыми и не обеспечивают достаточного качества речепреобразования при его кодировании.
Задачей изобретения является разработка способа кодирования широкополосного речевого сигнала, позволяющего обеспечить повышение качества синтезируемого широкополосного речевого сигнала без увеличения скорости передачи за счет оптимизации объема кодовых книг различных уровней и субполос блока мультиполосных кодовых книг с учетом априорных сведений о перцептуальной значимости субполос сигнала возбуждения и типе кадра PC.
Для оценки качества синтезируемого PC принято использовать субъективные и объективные методы. В общем случае корректность критериев объективной оценки качества PC характеризуется корреляцией оценок, вычисленных с их использованием, с оценками, полученными субъективными методами.
Превалирование интересов абонентов среди факторов, определяющих тенденции развития речевых служб в системе электросвязи, делает более актуальными методы субъективной оценки, характерной особенностью которых является участие в них бригад дикторов и аудиторов с определением последними качества звучания речи. Рекомендациями сектора стандартизации в области телефонии Международного союза электросвязи введена шкала средней субъективной оценки MOS (Mean Opinion Score), определяющая пять классов качества синтезированного PC. В Российской Федерации методы измерений и нормы качества передачи (воспроизведения) речи регламентированы ГОСТ Р50840-95 и Р51061-97. Данные документы устанавливают пять классов качества звучания речи на основе измерения разборчивости речи артикуляционным методом, что обусловлено высокой коррелированностью общей оценки качества звучания речи и степени разборчивости.
Критериальный аппарат объективной оценки качества речи достаточно обширен и отличается от субъективных методов оперативностью измерений, стабильностью результатов и экономической эффективностью. Наибольшее распространение для оценки качества восстановления ШРС получила величина искажения спектра барков BSD (Bark Spectral Distortion) (W. Yang, M. Dixon, R. Yantomo. "A modified bark spectral distortion measure whish uses noise masking threshold," IEEE Speech Coding Workshop, pp.55-56, Pocono Manor, 1997).
В заявленном способе задача изобретения решается тем, что в известном способе кодирования широкополосного речевого сигнала, заключающемся в том, берут последовательно локально-стационарные участки обрабатываемого речевого сигнала, оценивают субполосные пороги маскирования путем вычисления коэффициентов сжатого дискретного преобразования Фурье, затем определяют величину перцептуальной энтропии кодируемых субполос для текущего фрейма сигнала, формируют вектор, содержащий глубину поиска в субполосных кодовых книгах, затем по значению индекса вектора возбуждения из блока мультиполосных кодовых книг выбирают сигнал возбуждения, обеспечивающий наилучшее приближение синтезированного широкополосного речевого сигнала к входному оригинальному широкополосному речевому сигналу, дополнительно перед оцениванием субполосных порогов маскирования обрабатываемый кадр речи идентифицируют на принадлежность к одному из конечного числа непересекающихся классов M, выбирают один из М блоков мультиполосных кодовых книг, а затем оценивают субполосные пороги маскирования. Количество субполосных кодовых книг и число уровней в данных кодовых книгах в М блоках мультиполосных кодовых книг различно в зависимости от типа обрабатываемого кадра речи и перцептуальной важности каждой из анализируемых субполос сегмента широкополосного речевого сигнала. Кроме того, после определения величины перцептуальной энтропии формируют вектор, содержащий номер выбранного блока мультиполосных кодовых книг и глубину поиска в субполосных кодовых книгах данного блока, а затем по значению индекса вектора возбуждения из выбранного блока мультиполосных кодовых книг выбирают сигнал возбуждения. Выходную битовую последовательность кодера формируют из индекса вектора возбуждения, квантованного значения его коэффициента усиления, индекса квантованного вектора, содержащего номер выбранного блока мультиполосных кодовых книг и глубину поиска в субполосных кодовых книгах данного блока, а также квантованного вектора коэффициентов линейного предсказания.
Новая совокупность существенных признаков позволяет достичь указанного технического результата за счет того, что обрабатываемый кадр речи идентифицируют на принадлежность к одному из конечного числа непересекающихся классов М, выбирают один из М блоков мультиполосных кодовых книг. При этом количество субполосных кодовых книг и число уровней в данных кодовых книгах в М блоках мультиполосных кодовых книг различно в зависимости от типа обрабатываемого кадра речи и перцептуальной важности каждой из анализируемых субполос сегмента широкополосного речевого сигнала.
Проведенный анализ уровня техники позволил установить, что аналоги, характеризующиеся совокупностью признаков, тождественных всем признакам заявленного способа кодирования широкополосного речевого сигнала, отсутствуют. Следовательно, заявленное изобретение соответствует условию патентоспособности «новизна».
Результаты поиска известных решений в данной и смежных областях техники с целью выявления признаков, совпадающих с отличительными от прототипа признаками заявленного объекта, показали, что они не следуют явным образом из уровня техники. Из уровня техники также не выявлена известность влияния предусматриваемых существенными признаками заявленного изобретения преобразований на достижение указанного технического результата. Следовательно, заявленное изобретение соответствует условию патентоспособности «изобретательский уровень».
Заявленные объекты изобретения поясняются чертежами, на которых показаны:
фиг.1 - структурная схема устройства кодирования широкополосного речевого сигнала;
фиг.2 - схема блока мультиполосных кодовых книг;
фиг.3 - диаграмма качества восстановления ШРС по пятибалльной шкале MOS, достигаемого прототипом и предлагаемым способом кодирования широкополосного речевого сигнала.
Заявленный способ кодирования широкополосного речевого сигнала рассмотрим на примере его реализации в устройстве кодирования широкополосного речевого сигнала (фиг.1).
Берут последовательно локально-стационарные участки обрабатываемого речевого сигнала и в блоке 101 производят аналого-цифровое преобразование при помощи 16 бит/отсчет с частотой дискретизации fd=16 кГц. Процесс аналого-цифрового преобразования достаточно подробно описан в (Попов О.Б., Рихтер С.Г. Цифровая обработка сигналов в трактах звукового вещания: Учебное пособие для вузов. - М.: Горячая линия - Телеком, 2007. - С.74-80; Радзишевский А.Ю. Основы аналогового и цифрового звука. - М.: Издательский дом "Вильямс", 2006. - С.157-171). После этого речевой сигнал подают на блок формирования и начальной обработки сегмента анализа ШРС 102. В данном блоке оцифрованный речевой сигнал подвергают сегментированию на одинаковые кадры, равные периоду квазистационарности. Функционирование блока 102 описано в (Шелухин О.И., Лукьянцев Н.Ф. Цифровая обработка и передача речи / Под ред. Шелухина О.И. - М.: Радио и связь, 2000. - С.135). С выхода блока 102 речевые сегменты подают на блок WDFT - анализа 104 (Warped Discrete Fourier Transform), реализованного на базе дискретного преобразования Фурье с неравномерным разложением коэффициентов Фурье по частотной шкале, блок CELP - анализа (Code Excited Linear Prediction) с многоуровневым векторным квантованием 109 и идентификатор типа кадра речевого сигнала (блок 103), в котором кадры PC классифицируют на конечное число непересекающихся классов М.
Варианты классификации сегментов речи, реализуемой в блоке 103, на основе которой будет происходить изменение структуры кодирующего устройства, описаны в (Быков С.В., Журавлев В.И., Шалимов И.А. Цифровая телефония: Учеб. пособие для вузов. - М.: Радио и связь, 2003. - С.96-109). Используемый в предлагаемом способе кодирования широкополосного речевого сигнала вариант классификации PC на конечное количество типов кадров отражен в (Патент №2343564, от 20.06.2008).
Результаты классификации блоком 103 подают на блок 104 и блок выбора блока мультиполосных кодовых книг (блок 106), осуществляющий выбор одного из четырех блоков мультиполосных кодовых книг (блоки 108.1 …, 108.M) и управление работой векторного квантователя (блок 107).
Каждому типу речевого кадра ставят в соответствие свой блок мультиполосных кодовых книг (блоки 108.1-108.М), причем количество субполос в мультиполосной кодовой книги выбирают в зависимости от характера речевого сегмента. Структура блока мультиполосных кодовых книг представлена на фиг.2. Количество уровней и глубину каждого уровня в кодовых книгах (блоки 201.1 …, 201.N) выбирают в зависимости от перцептуальной значимости анализируемой субполосы SPEb.
Функционирование блоков 104, 105, 106, 108.1…108М и последовательность вычисления величины SPEb описана в (Лившиц, М.З. Широкополосный CELP-кодер с мультиполосным возбуждением и многоуровневым векторным квантованием по кодовой книге с реконфигурируемой структурой // Цифровая обработка сигналов. - 2005. - №2. - С.23-31).
Далее оценивают субполосные пороги маскирования в каждой из восьми частотных полос, на которые анализируемый речевой сегмент разбивают в блоке 104. После определения величины перцептуальной энтропии SPEb формируют вектор, содержащий номер выбранного блока мультиполосных кодовых книг и глубину поиска в субполосных кодовых книгах данного блока, а затем по значению индекса вектора возбуждения из выбранного блока мультиполосных кодовых книг выбирают сигнал возбуждения.
Информационные сигналы, полученные в результате векторного квантования (блок 107) и работы блока CELP-анализа с многоуровневым векторным квантованием (блок 109), подают на вход блока формирования кадра передачи 110, в котором формируют выходную битовую последовательность кодера путем объединения индекса вектора возбуждения, квантованного значения его коэффициента усиления, индекса квантованного вектора, содержащего номер выбранного блока мультиполосных кодовых книг и глубину поиска в субполосных кодовых книгах данного блока, а также квантованного вектора коэффициентов линейного предсказания.
Функционирование блока 107 достаточно подробно описано в (Шелухин О.И., Лукьянцев Н.Ф. Цифровая обработка и передача речи / Под ред. Шелухина О.И. - М.: Радио и связь, 2000. - С.113-122).
Функционирование блока 109 достаточно подробно описано в (Петровский А.А., Лившиц М.З. Многоуровневое векторное квантование речевого сигнала по мультиполосной кодовой книге в широкополосном CELP-кодере с психоакустической мотивацией // Цифровая обработка сигналов и ее применение, труды РНТОРЭС им. А.С.Попова. Москва, 2005 - С.120-121).
Процедура декодирования на приемной стороне заключается в выделении из принятой последовательности кадра передачи информации о типе структуры и параметрах кодированного ШРС, выборе соответствующего блока мультиполосных кодовых книг и восстановлении ШРС по принятым сигналу возбуждения и параметрам синтезирующего устройства.
Заявленный способ кодирования широкополосного речевого сигнала обеспечивает повышение качества синтезируемого широкополосного речевого сигнала без увеличения скорости передачи за счет оптимизации объема кодовых книг различных уровней и субполос блока мультиполосных кодовых книг с учетом априорных сведений о перцептуальной значимости субполос сигнала возбуждения и типе кадра PC.
Правомерность теоретических предпосылок проверялась с помощью имитационной модели устройства кодирования широкополосного речевого сигнала при следующих условиях:
- тестовый материал - речевые данные с частотой дискретизации fд=16 кГц и квантованием 16 бит/отсчет из базы данных TIMIT;
- длительность речевого материала - 5 мин;
- скорость потока - 23,5 кбит/с.
Оценка качества восстановленного ШРС осуществлялась по методике, описанной в (А.А.Петровский. Объективная оценка качества восстановленного аудиосигнала перцептуальным ПДВП-кодером на базе периферийной модели уха человека, труды РНТОРЭС им. А.С.Попова, т.2, стр.123-126, Москва, 2003). Сравнительный анализ оценки качества восстановленного ШРС по критерию BSD для прототипа и предлагаемого способа кодирования ШРС приведен на фиг.3. Следует отметить высокую степень корреляции величины BSD с субъективной оценкой качества, проводимой по методике MOS.
Из приведенных данных следует, что после оптимизации объема кодовых книг различных уровней в каждой из полос с учетом априорных знаний о перцептуальной значимости субполос сигнала возбуждения и типе речевого кадра качество восстановленного ШРС повысилось на 0,24 балла по пятибалльной шкале MOS.

Claims (1)

  1. Способ кодирования широкополосного речевого сигнала, заключающийся в том, что берут последовательно локально-стационарные участки обрабатываемого речевого сигнала, оценивают субполосные пороги маскирования путем вычисления коэффициентов сжатого дискретного преобразования Фурье, затем определяют величину перцептуальной энтропии кодируемых субполос для текущего фрейма сигнала, формируют вектор, содержащий глубину поиска в субполосных кодовых книгах, затем по значению индекса вектора возбуждения из блока мультиполосных кодовых книг выбирают сигнал возбуждения, обеспечивающий наилучшее приближение синтезированного широкополосного речевого сигнала к входному оригинальному широкополосному речевому сигналу, при этом выходную битовую последовательность кодера формируют из индекса вектора возбуждения, квантованного значения его коэффициента усиления, индекса квантованного вектора, содержащего глубину поиска в субполосных кодовых книгах данного блока, а также квантованного вектора коэффициентов линейного предсказания, отличающийся тем, что перед оцениванием субполосных порогов маскирования обрабатываемый кадр речи идентифицируют на принадлежность к одному из конечного числа непересекающихся классов М, выбирают один из М блоков мультиполосных кодовых книг, а затем оценивают субполосные пороги маскирования, при этом количество субполосных кодовых книг и число уровней в данных кодовых книгах в М блоках мультиполосных кодовых книг различно в зависимости от типа обрабатываемого кадра речи и перцептуальной важности каждой из анализируемых субполос сегмента широкополосного речевого сигнала, кроме того, после определения величины перцептуальной энтропии формируют вектор, содержащий номер выбранного блока мультиполосных кодовых книг и глубину поиска в субполосных кодовых книгах данного блока, а затем по значению индекса вектора возбуждения из выбранного блока мультиполосных кодовых книг выбирают сигнал возбуждения, при этом выходную битовую последовательность кодера формируют из индекса вектора возбуждения, квантованного значения его коэффициента усиления, индекса квантованного вектора, содержащего номер выбранного блока мультиполосных кодовых книг и глубину поиска в субполосных кодовых книгах данного блока, а также квантованного вектора коэффициентов линейного предсказания.
RU2009144612/09A 2009-12-01 2009-12-01 Способ кодирования широкополосного речевого сигнала RU2419169C1 (ru)

Priority Applications (1)

Application Number Priority Date Filing Date Title
RU2009144612/09A RU2419169C1 (ru) 2009-12-01 2009-12-01 Способ кодирования широкополосного речевого сигнала

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
RU2009144612/09A RU2419169C1 (ru) 2009-12-01 2009-12-01 Способ кодирования широкополосного речевого сигнала

Publications (1)

Publication Number Publication Date
RU2419169C1 true RU2419169C1 (ru) 2011-05-20

Family

ID=44733809

Family Applications (1)

Application Number Title Priority Date Filing Date
RU2009144612/09A RU2419169C1 (ru) 2009-12-01 2009-12-01 Способ кодирования широкополосного речевого сигнала

Country Status (1)

Country Link
RU (1) RU2419169C1 (ru)

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
ЛИВШИЦ М.З., Широкополосный CELP-кодер с мультиполосным возбуждением и многоуровневым векторным квантованием по кодовой книге с реконфигурируемой структурой, Цифровая обработка сигналов, 2005, №2, с.20-35. *

Similar Documents

Publication Publication Date Title
KR101143724B1 (ko) 부호화 장치 및 부호화 방법, 및 부호화 장치를 구비한 통신 단말 장치 및 기지국 장치
US11521625B2 (en) Audio signal coding apparatus, audio signal decoding apparatus, audio signal coding method, and audio signal decoding method
US8099275B2 (en) Sound encoder and sound encoding method for generating a second layer decoded signal based on a degree of variation in a first layer decoded signal
CN103325375B (zh) 一种极低码率语音编解码设备及编解码方法
US10446159B2 (en) Speech/audio encoding apparatus and method thereof
MXPA96004161A (en) Quantification of speech signals using human auiditive models in predict encoding systems
JP2020204784A (ja) 信号符号化方法及びその装置、並びに信号復号方法及びその装置
US11232803B2 (en) Encoding device, decoding device, encoding method, decoding method, and non-transitory computer-readable recording medium
CN115171709B (zh) 语音编码、解码方法、装置、计算机设备和存储介质
EP1672619A2 (en) Speech coding apparatus and method therefor
RU2419169C1 (ru) Способ кодирования широкополосного речевого сигнала
Jax et al. An embedded scalable wideband codec based on the GSM EFR codec
Li et al. A low-delay audio coder with constrained-entropy quantization
Noll Speech coding for communications.
RU2445719C2 (ru) Способ улучшения восприятия синтезированной речи при реализации процедуры анализа через синтез в вокодерах с линейным предсказанием
Ito et al. A band extension of G. 711 speech with low computational cost for data hiding application
KR20130047630A (ko) 통신 시스템에서 신호 부호화 장치 및 방법
Tamrakar et al. An 800 bps MBE vocoder with low delay
Averbuch et al. Speech compression using wavelet packet and vector quantizer with 8-msec delay
Kader EFFECT OF GSM SYSTEM ON TEXT-INDEPENDENT SPEAKER RECOGNITION PERFORMANCE.
Geiser et al. Super-wideband bandwidth extension for wideband audio codecs using switched spectral replication and pitch synthesis
Ilyushin A mathematical model of the adaptive system for coding a wideband speech signal by a psychoacoustic model

Legal Events

Date Code Title Description
MM4A The patent is invalid due to non-payment of fees

Effective date: 20111202