RU2419169C1

RU2419169C1 - Способ кодирования широкополосного речевого сигнала

Info

Publication number: RU2419169C1
Application number: RU2009144612/09A
Authority: RU
Inventors: Михаил Владимирович Илюшин (RU); Михаил Владимирович Илюшин; Олег Олегович Басов (RU); Олег Олегович Басов; Александр Аркадьевич Рыболовлев (RU); Александр Аркадьевич Рыболовлев
Priority date: 2009-12-01
Filing date: 2009-12-01
Publication date: 2011-05-20

Abstract

Изобретение относится к системе электросвязи и предназначено для кодирования широкополосного речевого сигнала (ШРС) с диапазоном частот от 50 до 7000 Гц. Техническим результатом является повышение качества восстановленных речевых сообщений при фиксированной скорости передачи. Указанный технический результат достигается тем, что перед оцениванием субполосных порогов маскирования обрабатываемый кадр речи идентифицируют на принадлежность к одному из конечного числа непересекающихся классов М, выбирают один из М блоков мультиполосных кодовых книг, а затем оценивают субполосные пороги маскирования, при этом количество субполосных кодовых книг и число уровней в данных кодовых книгах в М блоках мультиполосных кодовых книг различно в зависимости от типа обрабатываемого кадра речи и перцептуальной важности каждой из анализируемых субполос сегмента широкополосного речевого сигнала. После определения величины перцептуальной энтропии формируют вектор, содержащий номер выбранного блока мультиполосных кодовых книг и глубину поиска в субполосных кодовых книгах данного блока, а затем по значению индекса вектора возбуждения из выбранного блока мультиполосных кодовых книг выбирают сигнал возбуждения, при этом выходную битовую последовательность кодера формируют из индекса вектора возбуждения, квантованного значения его коэффициента усиления, индекса квантованного вектора, содержащего номер выбранного блока мультиполосных кодовых книг и глубину поиска в субполосных кодовых книгах данного блока, а также квантованного вектора коэффициентов линейного предсказания. 3 ил.

Description

Предлагаемое техническое решение относится к системе электросвязи, предназначено для кодирования широкополосного речевого сигнала (ШРС) с диапазоном частот от 50 до 7000 Гц и может быть использовано в устройствах анализа-синтеза речи.

Известен способ адаптивного кодирования речевых сигналов на основе системы с переменной структурой (Патент №2343564, от 20.06.2008), заключающийся в осуществлении классификации входных кадров речевого сигнала (PC) и двухконтурной адаптации процедуры кодирования для каждого кадра: первый контур производит оптимизацию структуры кодирующего устройства, а второй - оптимизацию передаваемых параметров для выбранной системы компрессии.

Недостатком указанного способа является недостаточная степень учета процесса слуховой перцепции речевого сигнала аудиторной системой человека, так как способ рассчитан на обработку PC с традиционной полосой частот (от 300 до 3400 Гц). Данный факт не создает необходимых условий для максимального использования имеющейся априорной информации о PC, что предопределяет недостаточно высокое качество восстановления сигнала на приеме.

Наиболее близким по технической сущности к заявляемому способу и выбранным в качестве прототипа является способ кодирования ШРС на основе линейного предсказания (Лившиц М.З. Широкополосный CELP-кодер с мультиполосным возбуждением и многоуровневым векторным квантованием по кодовой книге с реконфигурируемой структурой // Цифровая обработка сигналов. - 2005. - №2. - С.20-35), заключающийся в том, что берут последовательно локально-стационарные участки обрабатываемого речевого сигнала, оценивают субполосные пороги маскирования путем вычисления коэффициентов сжатого дискретного преобразования Фурье, затем определяют величину перцептуальной энтропии кодируемых субполос для текущего фрейма сигнала, формируют вектор, содержащий глубину поиска в субполосных кодовых книгах, затем по значению индекса вектора возбуждения из блока мультиполосных кодовых книг выбирают сигнал возбуждения, обеспечивающий наилучшее приближение синтезированного широкополосного речевого сигнала к входному оригинальному широкополосному речевому сигналу, при этом выходную битовую последовательность кодера формируют из индекса вектора возбуждения, квантованного значения его коэффициента усиления, индекса квантованного вектора, содержащего глубину поиска в субполосных кодовых книгах данного блока, а также квантованного вектора коэффициентов линейного предсказания.

Недостатком способа-прототипа является недостаточно высокое качество восстановления сигнала на приеме при фиксированной скорости передачи, определяемое следующим:

1) фиксированным объемом кодовых книг на каждом уровне квантования во всех субполосах сигнала возбуждения;

2) отсутствием адаптации к типу (вокализованный, слабо вокализованный/переходный, невокализованный, пауза и т.д.) речевого кадра.

При существующих требованиях к качеству восстанавливаемого на приеме PC (ГОСТ Р51061-97. Системы низкоскоростной передачи речи по цифровым каналам. Параметры качества речи и методы измерений. - Введ. 1998.01.01. - М.: Госстандарт России, 1997. - 10 с.) необходима его более тщательная обработка. В данных условиях способы, частично учитывающие статистическую и перцептуальную избыточности ШРС, становятся неприемлемыми и не обеспечивают достаточного качества речепреобразования при его кодировании.

Задачей изобретения является разработка способа кодирования широкополосного речевого сигнала, позволяющего обеспечить повышение качества синтезируемого широкополосного речевого сигнала без увеличения скорости передачи за счет оптимизации объема кодовых книг различных уровней и субполос блока мультиполосных кодовых книг с учетом априорных сведений о перцептуальной значимости субполос сигнала возбуждения и типе кадра PC.

Для оценки качества синтезируемого PC принято использовать субъективные и объективные методы. В общем случае корректность критериев объективной оценки качества PC характеризуется корреляцией оценок, вычисленных с их использованием, с оценками, полученными субъективными методами.

Превалирование интересов абонентов среди факторов, определяющих тенденции развития речевых служб в системе электросвязи, делает более актуальными методы субъективной оценки, характерной особенностью которых является участие в них бригад дикторов и аудиторов с определением последними качества звучания речи. Рекомендациями сектора стандартизации в области телефонии Международного союза электросвязи введена шкала средней субъективной оценки MOS (Mean Opinion Score), определяющая пять классов качества синтезированного PC. В Российской Федерации методы измерений и нормы качества передачи (воспроизведения) речи регламентированы ГОСТ Р50840-95 и Р51061-97. Данные документы устанавливают пять классов качества звучания речи на основе измерения разборчивости речи артикуляционным методом, что обусловлено высокой коррелированностью общей оценки качества звучания речи и степени разборчивости.

Критериальный аппарат объективной оценки качества речи достаточно обширен и отличается от субъективных методов оперативностью измерений, стабильностью результатов и экономической эффективностью. Наибольшее распространение для оценки качества восстановления ШРС получила величина искажения спектра барков BSD (Bark Spectral Distortion) (W. Yang, M. Dixon, R. Yantomo. "A modified bark spectral distortion measure whish uses noise masking threshold," IEEE Speech Coding Workshop, pp.55-56, Pocono Manor, 1997).

В заявленном способе задача изобретения решается тем, что в известном способе кодирования широкополосного речевого сигнала, заключающемся в том, берут последовательно локально-стационарные участки обрабатываемого речевого сигнала, оценивают субполосные пороги маскирования путем вычисления коэффициентов сжатого дискретного преобразования Фурье, затем определяют величину перцептуальной энтропии кодируемых субполос для текущего фрейма сигнала, формируют вектор, содержащий глубину поиска в субполосных кодовых книгах, затем по значению индекса вектора возбуждения из блока мультиполосных кодовых книг выбирают сигнал возбуждения, обеспечивающий наилучшее приближение синтезированного широкополосного речевого сигнала к входному оригинальному широкополосному речевому сигналу, дополнительно перед оцениванием субполосных порогов маскирования обрабатываемый кадр речи идентифицируют на принадлежность к одному из конечного числа непересекающихся классов M, выбирают один из М блоков мультиполосных кодовых книг, а затем оценивают субполосные пороги маскирования. Количество субполосных кодовых книг и число уровней в данных кодовых книгах в М блоках мультиполосных кодовых книг различно в зависимости от типа обрабатываемого кадра речи и перцептуальной важности каждой из анализируемых субполос сегмента широкополосного речевого сигнала. Кроме того, после определения величины перцептуальной энтропии формируют вектор, содержащий номер выбранного блока мультиполосных кодовых книг и глубину поиска в субполосных кодовых книгах данного блока, а затем по значению индекса вектора возбуждения из выбранного блока мультиполосных кодовых книг выбирают сигнал возбуждения. Выходную битовую последовательность кодера формируют из индекса вектора возбуждения, квантованного значения его коэффициента усиления, индекса квантованного вектора, содержащего номер выбранного блока мультиполосных кодовых книг и глубину поиска в субполосных кодовых книгах данного блока, а также квантованного вектора коэффициентов линейного предсказания.

Новая совокупность существенных признаков позволяет достичь указанного технического результата за счет того, что обрабатываемый кадр речи идентифицируют на принадлежность к одному из конечного числа непересекающихся классов М, выбирают один из М блоков мультиполосных кодовых книг. При этом количество субполосных кодовых книг и число уровней в данных кодовых книгах в М блоках мультиполосных кодовых книг различно в зависимости от типа обрабатываемого кадра речи и перцептуальной важности каждой из анализируемых субполос сегмента широкополосного речевого сигнала.

Проведенный анализ уровня техники позволил установить, что аналоги, характеризующиеся совокупностью признаков, тождественных всем признакам заявленного способа кодирования широкополосного речевого сигнала, отсутствуют. Следовательно, заявленное изобретение соответствует условию патентоспособности «новизна».

Результаты поиска известных решений в данной и смежных областях техники с целью выявления признаков, совпадающих с отличительными от прототипа признаками заявленного объекта, показали, что они не следуют явным образом из уровня техники. Из уровня техники также не выявлена известность влияния предусматриваемых существенными признаками заявленного изобретения преобразований на достижение указанного технического результата. Следовательно, заявленное изобретение соответствует условию патентоспособности «изобретательский уровень».

Заявленные объекты изобретения поясняются чертежами, на которых показаны:

фиг.1 - структурная схема устройства кодирования широкополосного речевого сигнала;

фиг.2 - схема блока мультиполосных кодовых книг;

фиг.3 - диаграмма качества восстановления ШРС по пятибалльной шкале MOS, достигаемого прототипом и предлагаемым способом кодирования широкополосного речевого сигнала.

Заявленный способ кодирования широкополосного речевого сигнала рассмотрим на примере его реализации в устройстве кодирования широкополосного речевого сигнала (фиг.1).

Берут последовательно локально-стационарные участки обрабатываемого речевого сигнала и в блоке 101 производят аналого-цифровое преобразование при помощи 16 бит/отсчет с частотой дискретизации f_d=16 кГц. Процесс аналого-цифрового преобразования достаточно подробно описан в (Попов О.Б., Рихтер С.Г. Цифровая обработка сигналов в трактах звукового вещания: Учебное пособие для вузов. - М.: Горячая линия - Телеком, 2007. - С.74-80; Радзишевский А.Ю. Основы аналогового и цифрового звука. - М.: Издательский дом "Вильямс", 2006. - С.157-171). После этого речевой сигнал подают на блок формирования и начальной обработки сегмента анализа ШРС 102. В данном блоке оцифрованный речевой сигнал подвергают сегментированию на одинаковые кадры, равные периоду квазистационарности. Функционирование блока 102 описано в (Шелухин О.И., Лукьянцев Н.Ф. Цифровая обработка и передача речи / Под ред. Шелухина О.И. - М.: Радио и связь, 2000. - С.135). С выхода блока 102 речевые сегменты подают на блок WDFT - анализа 104 (Warped Discrete Fourier Transform), реализованного на базе дискретного преобразования Фурье с неравномерным разложением коэффициентов Фурье по частотной шкале, блок CELP - анализа (Code Excited Linear Prediction) с многоуровневым векторным квантованием 109 и идентификатор типа кадра речевого сигнала (блок 103), в котором кадры PC классифицируют на конечное число непересекающихся классов М.

Варианты классификации сегментов речи, реализуемой в блоке 103, на основе которой будет происходить изменение структуры кодирующего устройства, описаны в (Быков С.В., Журавлев В.И., Шалимов И.А. Цифровая телефония: Учеб. пособие для вузов. - М.: Радио и связь, 2003. - С.96-109). Используемый в предлагаемом способе кодирования широкополосного речевого сигнала вариант классификации PC на конечное количество типов кадров отражен в (Патент №2343564, от 20.06.2008).

Результаты классификации блоком 103 подают на блок 104 и блок выбора блока мультиполосных кодовых книг (блок 106), осуществляющий выбор одного из четырех блоков мультиполосных кодовых книг (блоки 108.1 …, 108.M) и управление работой векторного квантователя (блок 107).

Каждому типу речевого кадра ставят в соответствие свой блок мультиполосных кодовых книг (блоки 108.1-108.М), причем количество субполос в мультиполосной кодовой книги выбирают в зависимости от характера речевого сегмента. Структура блока мультиполосных кодовых книг представлена на фиг.2. Количество уровней и глубину каждого уровня в кодовых книгах (блоки 201.1 …, 201.N) выбирают в зависимости от перцептуальной значимости анализируемой субполосы SPE_b.

Функционирование блоков 104, 105, 106, 108.1…108М и последовательность вычисления величины SPE_b описана в (Лившиц, М.З. Широкополосный CELP-кодер с мультиполосным возбуждением и многоуровневым векторным квантованием по кодовой книге с реконфигурируемой структурой // Цифровая обработка сигналов. - 2005. - №2. - С.23-31).

Далее оценивают субполосные пороги маскирования в каждой из восьми частотных полос, на которые анализируемый речевой сегмент разбивают в блоке 104. После определения величины перцептуальной энтропии SPE_b формируют вектор, содержащий номер выбранного блока мультиполосных кодовых книг и глубину поиска в субполосных кодовых книгах данного блока, а затем по значению индекса вектора возбуждения из выбранного блока мультиполосных кодовых книг выбирают сигнал возбуждения.

Информационные сигналы, полученные в результате векторного квантования (блок 107) и работы блока CELP-анализа с многоуровневым векторным квантованием (блок 109), подают на вход блока формирования кадра передачи 110, в котором формируют выходную битовую последовательность кодера путем объединения индекса вектора возбуждения, квантованного значения его коэффициента усиления, индекса квантованного вектора, содержащего номер выбранного блока мультиполосных кодовых книг и глубину поиска в субполосных кодовых книгах данного блока, а также квантованного вектора коэффициентов линейного предсказания.

Функционирование блока 107 достаточно подробно описано в (Шелухин О.И., Лукьянцев Н.Ф. Цифровая обработка и передача речи / Под ред. Шелухина О.И. - М.: Радио и связь, 2000. - С.113-122).

Функционирование блока 109 достаточно подробно описано в (Петровский А.А., Лившиц М.З. Многоуровневое векторное квантование речевого сигнала по мультиполосной кодовой книге в широкополосном CELP-кодере с психоакустической мотивацией // Цифровая обработка сигналов и ее применение, труды РНТОРЭС им. А.С.Попова. Москва, 2005 - С.120-121).

Процедура декодирования на приемной стороне заключается в выделении из принятой последовательности кадра передачи информации о типе структуры и параметрах кодированного ШРС, выборе соответствующего блока мультиполосных кодовых книг и восстановлении ШРС по принятым сигналу возбуждения и параметрам синтезирующего устройства.

Заявленный способ кодирования широкополосного речевого сигнала обеспечивает повышение качества синтезируемого широкополосного речевого сигнала без увеличения скорости передачи за счет оптимизации объема кодовых книг различных уровней и субполос блока мультиполосных кодовых книг с учетом априорных сведений о перцептуальной значимости субполос сигнала возбуждения и типе кадра PC.

Правомерность теоретических предпосылок проверялась с помощью имитационной модели устройства кодирования широкополосного речевого сигнала при следующих условиях:

- тестовый материал - речевые данные с частотой дискретизации f_д=16 кГц и квантованием 16 бит/отсчет из базы данных TIMIT;

- длительность речевого материала - 5 мин;

- скорость потока - 23,5 кбит/с.

Оценка качества восстановленного ШРС осуществлялась по методике, описанной в (А.А.Петровский. Объективная оценка качества восстановленного аудиосигнала перцептуальным ПДВП-кодером на базе периферийной модели уха человека, труды РНТОРЭС им. А.С.Попова, т.2, стр.123-126, Москва, 2003). Сравнительный анализ оценки качества восстановленного ШРС по критерию BSD для прототипа и предлагаемого способа кодирования ШРС приведен на фиг.3. Следует отметить высокую степень корреляции величины BSD с субъективной оценкой качества, проводимой по методике MOS.

Из приведенных данных следует, что после оптимизации объема кодовых книг различных уровней в каждой из полос с учетом априорных знаний о перцептуальной значимости субполос сигнала возбуждения и типе речевого кадра качество восстановленного ШРС повысилось на 0,24 балла по пятибалльной шкале MOS.

Claims

Способ кодирования широкополосного речевого сигнала, заключающийся в том, что берут последовательно локально-стационарные участки обрабатываемого речевого сигнала, оценивают субполосные пороги маскирования путем вычисления коэффициентов сжатого дискретного преобразования Фурье, затем определяют величину перцептуальной энтропии кодируемых субполос для текущего фрейма сигнала, формируют вектор, содержащий глубину поиска в субполосных кодовых книгах, затем по значению индекса вектора возбуждения из блока мультиполосных кодовых книг выбирают сигнал возбуждения, обеспечивающий наилучшее приближение синтезированного широкополосного речевого сигнала к входному оригинальному широкополосному речевому сигналу, при этом выходную битовую последовательность кодера формируют из индекса вектора возбуждения, квантованного значения его коэффициента усиления, индекса квантованного вектора, содержащего глубину поиска в субполосных кодовых книгах данного блока, а также квантованного вектора коэффициентов линейного предсказания, отличающийся тем, что перед оцениванием субполосных порогов маскирования обрабатываемый кадр речи идентифицируют на принадлежность к одному из конечного числа непересекающихся классов М, выбирают один из М блоков мультиполосных кодовых книг, а затем оценивают субполосные пороги маскирования, при этом количество субполосных кодовых книг и число уровней в данных кодовых книгах в М блоках мультиполосных кодовых книг различно в зависимости от типа обрабатываемого кадра речи и перцептуальной важности каждой из анализируемых субполос сегмента широкополосного речевого сигнала, кроме того, после определения величины перцептуальной энтропии формируют вектор, содержащий номер выбранного блока мультиполосных кодовых книг и глубину поиска в субполосных кодовых книгах данного блока, а затем по значению индекса вектора возбуждения из выбранного блока мультиполосных кодовых книг выбирают сигнал возбуждения, при этом выходную битовую последовательность кодера формируют из индекса вектора возбуждения, квантованного значения его коэффициента усиления, индекса квантованного вектора, содержащего номер выбранного блока мультиполосных кодовых книг и глубину поиска в субполосных кодовых книгах данного блока, а также квантованного вектора коэффициентов линейного предсказания.