RU2297099C2

RU2297099C2 - Способ передачи дополнительной информации при кодировании речевых сообщений

Info

Publication number: RU2297099C2
Application number: RU2005111459/09A
Authority: RU
Inventors: Александр Васильевич Тезин (RU); Александр Васильевич Тезин; Олег Владимирович Моисеев (RU); Олег Владимирович Моисеев; Александр Витальевич Шмойлов (RU); Александр Витальевич Шмойлов
Priority date: 2005-04-18
Filing date: 2005-04-18
Publication date: 2007-04-10
Also published as: RU2005111459A

Abstract

Изобретение относится к области электросвязи, а именно к области, связанной с сокращением избыточности передаваемой информации. Сущность изобретения состоит в том, что при передаче дополнительной информации из одномерного речевого сигнала формируют вектор квантованных отсчетов речевого сигнала, состоящий из N элементов, который с учетом встраивания дополнительной информации преобразуют к цифровому виду. Причем в каждый блок исходного речевого сигнала, состоящий из n разрядов, вводят m разрядов дополнительной информации на определенные места данного блока, а к оставшимся k=n-m разрядам применяют оптимизирующую процедуру пробной инверсии. Далее в цифровой канал связи передают блоки, содержащие оптимизированные разряды и дополнительную информацию. На основе принятых из канала связи блоков происходит выделение дополнительной информации и восстановление исходного речевого сообщения. Технический результат состоит в том, что при осуществлении изобретения возможно ведение телефонных переговоров по низкоскоростным цифровым каналам связи. 5 ил., 1 табл.

Description

Изобретение относится к области электросвязи, а именно к области, связанной с сокращением избыточности передаваемой информации. Основанием для этого по существу является то, что с помощью современных технологий кодирования и уплотнения данных можно значительно сократить частотный диапазон, необходимый для передачи речевых сообщений.

Техническим результатом изобретения является разработка способа передачи дополнительной информации при кодировании речевых сообщений, обеспечивающего передачу дополнительной информации без увеличения объема передаваемых данных. Передача дополнительной информации осуществляется следующим образом. Первоначально из одномерного речевого сигнала формируют вектор квантованных отсчетов речевого сигнала, состоящий из N элементов (фиг.1). Полученный вектор, с учетом встраивания дополнительной информации, преобразуют к цифровому виду. После чего в каждый блок исходного речевого сигнала, состоящий из n разрядов, вводятся m разрядов дополнительной информации на определенные места данного блока. К оставшимся k=n-m разрядам применяется оптимизирующая процедура пробной инверсии. Далее в цифровой канал связи передаются блоки, содержащие оптимизированные разряды и дополнительную информацию. На основе принятых из канала связи блоков происходит выделение дополнительной информации и восстановление исходного речевого сообщения. В качестве дополнительной информации может выступать изображение или другое речевое сообщение.

Известны способы кодирования формы речевого сигнала, см., например, книгу: Дж.Кейтер. Компьютеры - синтезаторы речи. - М.: Мир, 1985, с.87-103, включающие выполнение трех операций: временную дискретизацию аналоговых сигналов, их квантование и кодирование (представление квантованных дискретных отсчетов речевого сигнала двоичными цифрами).

Известны способы кодирования дискретных квантованных отсчетов речевого сигнала на основе дельта-модуляции, адаптивной дельта-модуляции, импульсно-кодовой модуляции, дифференциальной импульсно-кодовой модуляции, метода блочного кодирования с ортогональным преобразованием, см., например, книгу: М.В.Назаров, Ю.Н.Петров. Методы цифровой обработки и передачи цифровых сигналов. - М.: Радио и связь, 1985, с.142-161. Недостатком перечисленных выше способов является относительно низкая информационная эффективность, под которой понимается достижение хорошего качества восстановления речевой информации при скорости передачи не более 16 кбит/с.

Наиболее близким по своей технической сущности к заявленному способу передачи дополнительной информации при сжатии и восстановлении речевых сообщений является способ, описанный в патенте №2212769, МПК⁷ H 04 N 7/08. Способ-прототип исключает не требующуюся часть информации изображения, т.е. физиологически едва или вовсе не воспринимаемую тонкую структуру изображения, за счет необратимого уплотнения и последующей декомпрессии сигнала изображения, т.е. осуществляет сокращение данных и в полученное таким образом свободное пространство вставляет полезную и управляющую информацию.

Целью данного изобретения является разработка способа, который позволяет при кодировании речевых сообщений передавать дополнительную полезную информацию и тем самым помогает решать, в частности, указанные проблемы с пропускной способностью при ведении телефонных переговоров по низкоскоростным цифровым каналам связи.

Поставленная цель достигается тем, что речевое сообщение преобразуют к цифровому виду с использованием регулярного импульсного возбуждения, долговременного предсказания и линейного кодирования с предсказанием, которое используется в стандарте GSM с учетом встраивания дополнительной информации. При этом в каждый блок исходного речевого сигнала, состоящий из n разрядов, вводятся m разрядов дополнительной информации на определенные места данного блока. К оставшимся k=n-m разрядам применяется оптимизирующая процедура пробной инверсии.

Рассмотрим алгоритм передачи дополнительной информации при использовании принятой в Европе системы сотовой цифровой радиотелефонной связи GSM, стандартная скорость передачи в которой составляет 13 кбит/с. Для точного описания формы речевого сигнала его дискретизацию необходимо проводить с частотой 8 кГц (т.е. брать отсчеты через каждые 125 мкс), а для получения нормального качества воспроизведения речи квантовать каждый отсчет на 8192 уровня. Чтобы закодировать каждое значение отсчета с помощью двоичного числа, потребуется 13 разрядов. В результате для передачи речевого сообщения с помощью последовательности двоичных импульсов потребуется 8×13=104 кбит/с. Для кодирования речевого сообщения исходный цифровой поток со скоростью передачи 104 кбит/с разделяется на отдельные блоки по 160 отсчетов, которые записываются. Каждый из таких блоков занимает промежуток времени 20 мс (запоминаются последовательности 160×13=2080 разрядов). Для устранения избыточности при произнесении долгих гласных применяется долгосрочное предсказание. Поскольку записанные в передатчике последовательности приемнику известны, нужно передать лишь указатель о том, с какой из них проведено сравнение. В результате описанной обработки получается блок исходногоо речевого сигнала продолжительностью 20 мс, содержащий 260 разрядов и имеющий скорость передачи 13 кбит/с.

В предлагаемом способе при кодировании речевого сообщения в каждый блок исходного речевого сигнала из 260 разрядов осуществляется вставка дополнительной информации. Число и места вставки разрядов определялись с помощью имитационного моделирования на ПЭВМ, при котором качество восстановленной речи было бы не хуже определенного порогового значения соотношения сигнал/шум. Значение выбранного порога определяется объемом встраиваемой дополнительной информации. В данном случае объем встраиваемой дополнительной информации составил 50 бит, который встраивался на заранее определенные места блока исходного речевого сигнала, состоящего из 260 бит. Места для вставки разрядов с дополнительной информацией в блоке исходного речевого сигнала приведены в таблице.

К оставшимся исходным 210 разрядам применялась процедура пробной инверсии. В данной процедуре предложено использовать известный метод Гаусса-Зейделя. Процедура пробной инверсии осуществляет оптимизацию элементов вектора

путем пробной инверсии ее каждого элемента. Процесс поиска оптимальных элементов вектора в заявленном способе предлагается осуществить в виде следующей последовательности действий:

1. Положить n=1.

1. Сформировать вектор квантованных отсчетов речевого сигнала. Дискретизацию непрерывного речевого сигнала, представленного на фиг.1, выполняют в соответствии с теоремой Котельникова. В предлагаемом способе выбрана общепринятая частота дискретизации непрерывного речевого сигнала 8 кГц, которая также используется в GSM. Затем осуществляют квантование дискретных отсчетов. Квантование осуществляется на основе способов, описанных, например, в кн.: М.В.Назаров, Ю.Н.Петров. Методы цифровой обработки и передачи цифровых сигналов. - М.: Радио и связь, 1985, с.142-161. Далее на основе множества квантованных отсчетов речевого сигнала формируют вектор квантованных отсчетов речевого сигнала, что показано на фиг.1:

.

3. Вычислить сумму квадратов разностей между элементами вектора квантованных отсчетов речевого сигнала

и элементами вектора восстановленных квантованных отсчетов речевого сигнала

.

4. Положить i=1.

5. Выполнить инверсию i-го элемента вектора

, где

.

6. Сформировать вектор:

.

7. Вычислить вектор восстановленных отсчетов речевого сигнала

при инверсии i-го элемента вектора

.

8. Вычислить сумму квадратов разностей между элементами вектора квантованных отсчетов речевого сигнала

при инверсии i-го элемента вектора

.

9. Вычислить

.

10. Выполнить: если u>0, то значению е² присвоить значение

и значению x_i присвоить

; если u<0, то значения е² и x_i оставить без изменения.

11. Выполнить: если i<k, то увеличить i на единицу и перейти к пункту 5; если i=k, то положить n=n+1 и перейти к пункту 2 для оптимизации следующего вектора.

После приема данных векторов из цифрового канала связи из каждого вектора происходит выделение дополнительной информации и восстановление исходного речевого сообщения. Качество восстановленной речи на приеме оценивалось по соотношению сигнал/шум и составило 9 дБ. При этом восстановленная речь сохраняет свою естественность, натуральность и обладает хорошей разборчивостью.

Заявленный способ поясняется чертежами:

фиг.1 - дискретизация непрерывного речевого сигнала в соответствии с теоремой Котельникова;

фиг.2 - процедура встраивания дополнительной информации;

фиг.3 - структура исходного вектора и вектора дополнительной информации;

фиг.4 - упрощенная схема речевого кодера согласно рекомендации GSM 06.10 с указанием места вставки дополнительной информации;

фиг.5 - алгоритм поиска оптимальных элементов исходного вектора для передачи по каналу связи.

Дискретизацию непрерывного речевого сигнала, представленного на фиг.1, выполняют в соответствии с теоремой Котельникова. В предлагаемом способе выбрана общепринятая частота дискретизации непрерывного речевого сигнала 8 кГц. Затем осуществляют квантование дискретных отсчетов. Квантование осуществляется на основе способов, описанных, например, в [2]. Далее на основе множества квантованных дискретных отсчетов речевого сигнала осуществляют формирование вектора квантованных отсчетов речевого сигнала

. На фиг.2 представлена процедура встраивания дополнительной информации в блок исходного речевого сигнала, содержащий 260 разрядов. Поскольку эти данные не добавляются дополнительно к первоначальному сигналу, то ширина полосы сигнала не увеличивается за счет встраивания дополнительной информации. Элементы блока исходного речевого сигнала и дополнительной информации определены только на множестве "1" и "0", что представлено на фиг.3. На фиг.4 приведена упрощенная схема речевого кодера согласно рекомендации GSM 06.10 с указанием места вставки дополнительной информации. Вставка осуществляется в блоке кодирования импульсов возбуждения. На фиг.5 представлен алгоритм поиска оптимальных элементов исходного вектора для передачи по каналу связи. В данной процедуре предложено использовать метод Гаусса-Зейделя. Процедура пробной инверсии осуществляет оптимизацию элементов вектора

путем пробной инверсии ее каждого элемента.

Источники информации

1. Дж.Кейтер. Компьютеры - синтезаторы речи. М.: Мир, 1985.

2. М.В.Назаров, Ю.Н.Петров. Методы цифровой обработки и передачи цифровых сигналов. - М.: Радио и связь, 1985.

3. Патент №2212769, МПК⁷ Н 04 N 7/08, Бюл. №26 от 20.09.2003 г.

Claims

Способ передачи дополнительной информации при кодировании речевых сообщений, содержащий стадии а) перевода в цифровую форму блока исходного речевого сигнала, b) сжатия блока исходного речевого сигнала с помощью использования регулярного импульсного возбуждения, долговременного предсказания и линейного кодирования с предсказанием, с) вставки дополнительной информации, d) декомпрессии сжатого блока исходного речевого сигнала, е) выделения дополнительной информации, f) преобразования принятого блока исходного речевого сигнала к аналоговому виду, отличающийся тем, что перед сжатием блока исходного речевого сообщения при кодировании блока исходного речевого сигнала происходит вставка дополнительной информации в определенные разряды блока исходного речевого сигнала, в качестве которой выступает изображение или другое речевое сообщение, при этом объем встраиваемой дополнительной информации составляет 50 бит, которые встраивают на определенные места блока исходного речевого сигнала, состоящего из 260 бит, к оставшимся исходным разрядам применяют процедуру пробной инверсии, при которой производят поочередную инверсию (замена "1" на "0" или "0" на "1") каждого разряда блока исходного речевого сигнала, за исключением разрядов, содержащих дополнительную информацию, тем самым осуществляют оптимизацию разрядов блока исходного речевого сигнала, после чего блок исходного речевого сигнала с дополнительной информацией передают по каналу связи.