RU1775730C

RU1775730C - Способ автоматического распознавани речевых сигналов

Info

Publication number: RU1775730C
Application number: SU914916882A
Authority: RU
Inventors: Алексей Яковлевич Дрюченко
Original assignee: А.Я.Дрюченко
Priority date: 1991-01-08
Filing date: 1991-01-08
Publication date: 1992-11-15

Abstract

Изобретение относитс к приборостроению . Цель изобретени - упрощение и по- вышение быстродействи , Способ заключаетс в сегментации речевого сигнала , формировании эталонов к определении степени подоби речевого сигнала с эталонами , по результатам которого производ т распознавание речевых сигналов. Согласно изобретению формируют непрерывную последовательность отсчетов входного речевого сигнала в заданные моменты изменени направлений приращени его амплитуд. Полученное сжатое параметрическое отображение сигнала сегментируют по инвариантным к диктору признакам, эталоны речевых сигналов формируют по фиксированному числу классифицирующих параметров, не завис щих от темпа произнесени и изменени частоты основного тона голоса, на каждом сегменте, на этапе распознавани формируют с учетом классифицирующих параметров модели входных речевых сигналов, наход т эталон по максимальной степени его подоби с моделью, а степень подоби речевого сигнала с эталонами определ ют при нормированном срав- нении модели только с полученным эталоном. 2 ил. 10 С

Description

Изобретение относитс к приборостроению и может быть использовано при автоматическом распознавании речевых сигналов,

Подавл ющее большинство известных в насто щее врем способов автоматического распознавани речевых сигналов базируетс на определенных математических формализмах, как например, матстатисти- ка, теори веро тности, теори нечетких множеств, скрытые марковские модели, быстрое преобразование Фурье, функции Уол- ша, способы линейного и нелинейного предсказани и другие.

Недостатком таких способов вл етс сложность процесса распознавани речевых сигналов. Устройства распознавани речевых сигналов, реализующие такие способы , используют достаточно дорогое специализированное оборудовайие. Дл выделени отличительных параметров требуетс либо высокоскоростной цифровой компьютер, либо большое количество аналоговых каналов св зи, ели они работают в реальном времени. Сопоставление образов также вл етс трудоемким процессом с вычислительной точки зрени и сопр жено со значительными временными затратами.

Наиболее близким к предлагаемому изобретению вл етс способ распознавани речевых сигналов, заключающийс в сегментации речевого сигнала, формировэXI

х|

3

со

О

нии эталонов и определении степени подоби речевого сигнала с эталонами, по результатам которого производ т распознавание речевых сигналов. В качестве сегмента в этом способе используют Г- С-Г слоги (гласна -согласна -гласна ), В качестве отличительного параметра входного речевого сигнала выдел ют коэффициент автокоррел ции речевого сигнала на основании спектрального анализа методом мак- симального правдоподоби . При осуществлении согласовани выделенных из входного речевого сигнала сегментов со стандартными кодами-эталонами осуществл ют и: нейное согласование без фикси- ровани конечных точек, в результате чего обеспечиваетс возможность распознавани сегментов с высокой точностью, а также повышаетс степень распознавани отдельных слов.

Способ вычислени коэффициентов автокоррел ции речевого сигнала на основании спектрального анализа вл етс сложным и громоздким, так как требует анализа большого количества спектральных со- ставл ющих. Его реализаци сопр жена со значительными временными затратами, затратами специальных аппаратных средств и пам ти, что, в свою очередь, приводит к удорожанию устройства..

Целью изобретени вл етс упрощение процесса распознавани речевых сигналов и повышение его быстродействи .

Поставленна цель достигаетс тем, что в способе распознавани речевых сигналов, заключающемс в сегментации речевого сигнала, формировании эталонов и определении степени подоби речевого сигнала с эталонами, по результатам которого производ т распознавание речевых сигналов, со- гласно изобретению, формируют непрерывную последовательность отсчетов входного речевого сигнала в заданные моменты изменени направлений приращени его амплитуд, полученное сжатое параметрическое отображение сигнала сегментируют по инвариантным к диктбру при- знакам, эталоны речевых сигналов формируют по фиксированкому числу классифицирующих параметров, не завис щих от темпа произнесени и изменени частоты основного тона голоса, на каждом сегменте , на этапе распознавани формируют с учетом классифицирующих параметров модели входных речевых сигналов, наход т эталон по максимальной степени его подоби с моделью, а степень подоби речевого сигнала с эталонами определ ют при нормированном сравнении модели только с полученным эталоном.

Формирование сжатого параметрического отображени входного речевого сигнала при сохранении достаточного минимума продуктивных элементов дл анализа и классификации обеспечивает по сравнению с прототипом сокращение объема пам ти и уменьшение времени на анализ . Дл последующего анализа в отличие от примен емых в прототипе универсальных математических методов обработки сигнала в за вл емом способе используетс система правил, основанных на точных знани х определенных общих свойств речевых сигналов, заключающихс в сегментации речевого сигнала по инвариантным к диктору признакам, формировании на каждом сегменте эталонов речевых сигналов по фиксированному числу классифицирующих параметров, не завис щих от темпа произнесени и изменени частоты основного тона голоса, формировании на этапе распознавани параметров модели входных речевых сигналов с учетом классифицирующих параметров, нахождении эталона по максимальной степени его подоби с моделью и определении степени подоби речевого сигнала с эталонами при нормированном сравнении модели только с полученным эталоном. Причем эти правила реализуютс преимущественно элементарными логическими операци ми проверки типа равно-не равно, больше- меньше, в результате чего также упрощаетс процесс обработки речевого сигнала и уменьшаютс затраты на его выполнение.

На фиг,1 представлена блок-схема одного из возможных вариантов устройства дл осуществлени предложенного способа автоматического распознавани речевых сигналов; на фиг.2 - блок-схема анализатора речевых сигналов.

Предлагаемый способ заключаетс в следующем.

Входной речевой сигнал преобразуют в последовательность чисел (отсчетов), вл ющихс параметрическим отображением соответствующих фрагментов речевого сигнала на фиксированных отрезках времени длительностью 10-12 миллисекунд. При этом сигнал сжимают до нескольких сот бит в секунду. Преобразованный входной речевой сигнал расчлен ют на отдельные участки , называемые сегментами, по инвериантным к диктору признакам, например в местах разрывов. Полученное число таких сегментов запоминают как классифицирующий параметр. На каждом сегменте определ ют 6 локальных классифицирующих параметров, не завис щих от темпа произнесени и изменени частоты основного тона голоса: начальное среднее, начальный пик-максимум, конечное среднее, конечный пик-максимум, глобальный пик- максимум и глобальный средний максимум. Начальное среднее определ ют путем ус- реднени первых L отсчетов сегмента. Начальное среднее всегда попадает в область первого звука сегмента, который несет на себе отпечатки коартикул ционных процессов . Начальный пик-максимум опреде- л ют как максимальное собственное значение, вы вленное на первых L отсчетах сегмента. Как и начальное среднее, начальный пик-максимум всегда характеризует первый звук сегмента, испытывающий на себе вли ние последующего звука в силу дейстг.и закона коартикул ции. Конечное среднее определ ют в конце сегмента аналогично определению начального среднего. Конечный пик-максимум определ ют в кон- це сегмента аналогично определению начального пик-максимума. Глобальный пик-максимум определ ют как максималь- ноа собственное значение отсчета, вы вленное на сегменте в целом. Глобальный пик-максимум, независимо от того, какое место он занимает на сегменте, всегда вл етс признаком одного и того же функционального фрагмента, испытывающего воздействие коартикул ции, обусловлен- ной только данным фонетическим наполнением . Глобальный средний максимум получают путем усреднени каждых L смежных отсчетов на всем сегменте. Глобальный средний максимум представл ет собой фун- кционально детерминированную область, отражающую фонетическое окружение на конкретном сегменте. Вышеуказанные классифицирующие параметры, полученные дл каждого сегмента, а также число сегментов в речевом сигнале на этапе обучени занос т в пам ть как эталоны речевых сигналов. На этапе распознавани по правилам , перечисленным выше, формируют модели входных речевых сигналов, которые сравнивают с хран щимис в пам ти эталонами . Первоначально сравнивают только те эталоны, число сегментов в которых равно числу сегментов в модели. Сравнение осу- ществл ют путем вычитани меньшего соб- ственного значени одноименного классифицирующего параметра из большего . Полученные при каждом таком вычитании разности суммируют и запоминают. Запоминают также пор дковые номера эта- лонов, дл которых были получены соответствующие суммы разностей, и их адреса в пам ти. После сравнени модели речевого сигнала с последним эталоном наход т эталон , дл которого была получена минимальна сумма разностей. Далее осуществл ют процедуру нормированного сравнени модели с этим единственным эталоном. Сравнение производ т также путем вычитани меньшего собственного значени одноименного классифицирующего параметра из большего и накоплени суммы разностей , предварительно провер , вл етс ли большее больше некоторого эмпирически получен ного числа К. Если получают отрицательный результат, то оба сравниваемых числа удваивают, после чего вновь осуществл ют проверку, вл етс ли большее больше К. Вычитание меньшего из большего и накопление суммы разностей выполн ют после выполнени вышеуказанного услови . После завершени сравнени всех одноименных классифицирующих параметров эталона и модели полученную сумму разностей дел т на число сегментов, подвергавшихс анализу, и частное сравнивают с некоторым эмпирически полученным числом Р. Если частное меньше числа Р, то предъ вленный дл распознавани речевой сигнал принадлежит к тому же классу, что и выбранный эталон. Задача распознавани считаетс решенной.

Изобретение иллюстрируетс следующими примерами.

Устройство дл реализации предлагаемого способа (фиг.1) содержит микрофон 1, подключенный ко входу блока 2 перекодировани речевого сигнала, выход которого соединен с первым входом блока 3 определени границы начала и конца речевого сигнала . Выход блока 3 св зан с первым входом блока 4 сегментации, выход которого подключен ко входу блока 5 формировани классифицирующих параметров. Первый выход блока 5 формировани классифицирующих параметров подключен ко второму входу блока 4 сегментации, второй выход - к первому входу блока 6 сравнени классифицирующих параметров, а третий выход - ко входу блока 7 эталонов, выход которого соединен со вторым входом блока 6 сравнени классифицирующих -параметров . Выход блока 6 сравнени классифицирующих параметров через блок 8 нормировани св зан со входом классификатора 9, выход которого подключен ко второму входу блока 3 определени границ начала и конца речевого сигнала. Выход классификатора 9 вл етс выходом устройства .

Способ осуществл етс следующим образом .

Входной речевой сигнал с микрофона 1 поступает на блок 2 перекодировани речевого сигнала посто нно, независимо от того , содержитс в нем полезна информаци или нет. Блок 2 перекодировани речевого сигнала осуществл ет непрерывный подсчет моментов изменени направлени при- ращени амплитуд сигнала в его положительной области на фиксированных отрезках длительностью 10-12 миллисекунд . В результате через каждые 10-12 миллисекунд на выходе блока 2 перекодировани речевого сигнала по вл етс семиразр дный код целевого положительного числа, называемый отсчетом, Непрерывна последовательность отсчетов , полученна на всем прот жении исходного речевого сигнала, вл етс его полным и сжатым параметрическим отображением. При этом дл кодировани исходного речевого сигнала длительностью в 1 секунду понадобитс в данном случае не более 700 бит. С выхода блока 2 перекодировани речевого сигнала сигнал поступает на первый вход блока 3 определени границы начала и конца речевого сигнала, который осуществл ет текущую проверку каждого отсчета. Если собственное значение провер емых отсчетов меньше J и на текущий момент начало речевого сигнала в потоке данных не вы влено , то он блокирует их передачу на последующие блоки. В том случае, когда хот бы М следующих подр д отсчетов превыс т знач&ние J, блок 3 определени границы начала и конца речевого сигнала обеспечивает передачу всех отсчетов в блок 4 сегментации и их запись в буферную пам ть до того момента, пока не будут вы влены N следующих подр д отсчетов с собственным значением J, В этом случае блок 3 определени границы начала и конца речевого сигнала прекращает проверку отсчетов, продолжающих поступать с выхода блока 2 перекодировани речевого сигнала, и вырабатывает сигнал, разрешающий дальнейшую обработку содержимого буферной пам ти в блоке 4 сегментации. Блок 4 сегментации осуществл ет расчленение последовательности отсчетов на сегменты в местах разрывов. Под разрывами прдразу- меваютс те участки последовательности параметричесхого отображени , на которых собственные значени смежных отсчетов меньше J. Адреса границ сегментов передаютс в блок 5 формировани классифицирующих параметров, в котором на каждом сегменте определ ютс 6 классифицирующих параметров: начальное среднее сегмента на L отсчетах, начальный пик-максимум на L отсчетах, конечное среднее сегмента на L отсчетах, конечный пик- максимум на L отсчетах, глобальный пик-максимум на сегменте, глобальный

средний максимум сегмента на L отсчетах. Дл каждого классифицирующего параметра резервируетс 1 байт пам ти. Максимальное число анализируемых сегментов

равно 5. Если в речевом сигнале более 5 сегментов, анализируютс только первые п ть. Фактическое число сегментов, вы вленных на &сей последовательности параметрического отображени входного

0 речевого сигнала, запоминаетс в отдельном ведущем байте и в дальнейшем используетс как классифицирующий параметр и как указатель направлени перебора эталонов в процессе их сравнени с моделью

5 входного речевого сигнала при его распознавании . На этапе обучени данные, полученные в блоке 5 формировани классифицирующих параметров, запоминаютс в блоке 7 эталонов как исходные эта0 лоны. В режиме распознавани схема работает аналогичным образом с той разницей , что после завершени формировани классифицирующих параметров, т.е. получени модели речевого сообщени , управ5 ление пеоедаетс блоку б сравнени классифицирующих параметров. Блок 6 сравнени классифицирующих параметров осуществл ет сравнение эталонов, хран щихс в блоке 7 эталонов, с полученной мо0 делью речевого сигнала, причем сравниваютс только те эталоны, сегментный состав которых адекватен модели. В процессе сравнени вычисл етс сумма разностей одноименных классифицирую5 щих параметров модели и эталона. Пор дковый номер эталона, дл которого была получена минимальна сумма разностей, запоминаетс в специальной чейке пам ти . Кроме того, в другой чейке пам ти запо0 минаетс адрес начала эталона в блоке 7 эталонов, После завершени сравнени модели входного речевого сигнала с эталонами из пам ти блока 7 эталонов извлекаетс эталон, давший минимальную сумму разно5 стей, и управление передаетс блоку 8 нор- мировани . Блок 8 нормировани осуществл ет ступенчатое нормированное сравнение по правилам параметров эталона и модели и вычисл ет нормированную сум0 му разностей. В классификаторе 9 осуществл етс сравнение нормированной суммы разностей с эмпирически полученной константой доверительного интервала Р. Влчэм случае, когда вычисленна нормированна

5 сумма разностей больше Р, устройство выдает сообщение Повторите, в противном случае оно выдает пор дковый номер распознанного речевого сигнала согласно используемому рабочему словарю Дальнейшее преобразование результата

распознавани в адекватную реакцию конкретной системы обеспечиваетс пользователем по его усмотрению с учетом специфики решаемой задачи. После выдачи результата распознавани классификатор 9 снимает блокировку в блоке 3 определени границы начала и конца речевого сигнала и процесс обработки сигнала, поступающего с микрофона, повтор етс аналогичным образом .

Анализатор речевых сигналов (фиг.2) представл ет собой конкретную конструктивную реализацию блоков 2-9, представленных на фиг.1. Анализатор (на схеме выделен штриховыми лини ми) выполнен на основе однокристального микропроцессора К1801ВМ1 и БИС серии К 588.

Анализатор речевых сигналов содержит блок 1 магистральных приемопередатчиков, выполненный на интегральных микросхе- мах (ИМС) К588ВА1; регистр 2 начального пуска, выполненный на элементах дискретной логики; однокристальный микропроцессор 3 на ИМС К1801ВМ1; узел 4 тактового генератора, выполненный на отдельных ло- гических элементах; схему 5 управлени оперативным запоминающим устройством (ОЗУ), собранную на ИМС К588ВГ2; регистр 6 адреса на ИМС К588ИР1; схему 7 управлени посто нным запоминающим устройст- вом, выполненную на ИМС К588ВГ2; блок 8 ОЗУ на ИМС К537РУЗ и блокЗПЗУ, выполненный на ИМС К573РФ4. Данные в анализатор поступают по каналу параллельного интерфейса с преобразовател 10 речевого сигнала. Результат распознавани выдаетс по каналу параллельного интерфейса на устройство 11 отображени (например, дисплей ).

При включении питани регистр 2 на- чального пуска автоматически запускает однокристальный микропроцессор 3. Св зь однокристального микропроцессора 3 со всеми блоками анализатора осуществл етс через магистральную шину. Работой од- нокристального микропроцессора 3 управл ет через магистральную шину блок 9 ПЗУ. В блоке 9 ПЗУ физически зашиты в виде дискретных сигналов все инструкции, которые должен выполнить однокристаль- ный микропроцессор 3 при обработке данных , поступающих с преобразовател 10 речевых сигналов через канал параллельного интерфейса и блок 1 магистральных приемопередатчиков на магистральную шину.

Речевой сигнал в виде последовательности отсчетов помещаетс в блок 8 ОЗУ. Здесь, в блоке 8 ОЗУ. осуществл етс его полна обработка: на этапе обучени выполн етс анализ, формируютс и запоминаютс эталоны речевых сигналов, на этапе распознавани выполн етс анализ. Формируютс модели входных речевых сигналов. которые затем сравниваютс с эталонами и результат выдаетс через блок 1 магистральных приемопередатчиков и канал параллельного интерфейса на устройство 11 отображени . Адресным пространством ОЗУ и ПЗУ управл ет регистр б адреса. Схема 5 управлени ОЗУ обеспечивает режим записи и чтени данных в ОЗУ. Схема 7 управлени ПЗУ обеспечивает считывание управл ющих инструкций из блока 9 ПЗУ в однокристальный микропроцессор 3.

При реализации способа по изобретению в качестве речевых сигналов, предъ вл емых дл распознавани , могут использоватьс как отдельные слова, так и короткие фразы любого индо-европёйского зыка, произносимые слитно.

Таким образом, использование изобретени обеспечивает по сравнению с прототипом существенную простоту процесса распознавани речевых сигналов и повышение его быстродействи . Устройство, реализующее предлагаемый способ, не содержит громоздких и дорогосто щих блоков. Контрольные испытани устройства проводились в комплексе с микро-ЭВМ ДВК-3. Устройство имело статус речевого терминала , к которому могла обратитс люба программа пользовател . Устройство ориентировано на произвольный предметный словарь средней трудности объемом до 200 фиксированных речевых сигналов, в качестве которых использовались кзк отдельные слова, так и короткие фразы длительностью до 3-4 секунд, произносимые слитно. Быстродействие устройства составило 0,1 с. Расход оперативной пам ти: дл средств программной поддержки - не более 2 кбайт, дл эталонов - из расчета 32 байта на слово. Аппаратные средства выполнены на плате размерами 250x135x22 мм, на которой установлены 10 корпусов микросхем с малой степенью интеграции, Ориентировочна стоимость платы при условии мелкосерийного производства 300 руб.

Claims

Формула изобретени

Способ автоматического распознавани речевых сигналов, заключающийс в сегментации речевого сигнала, формировании эталонов и определении степени подоби речевого сигнала с эталонами, по результатам которого производ т распознавание речевых сигналов, отличающий- с тем, что, с целью упрощени и повышени быстродействи , формируют непрерывную последовательность отсч-етов входного речевого сигнала в заданные моменты изменени направлени приращени его амплитуд , полученное сжатое параметрическое отображение сигнала сегментируют по инвариантным к диктору признакам, эталоны речевых сигналов формируют по фиксированному числу классифицирующих параметров , не завис щих от темпа произнесени и изменени частоты о снов- ного тона голоса, на каждом сегменте на

аэтапе распознавани формируют с учетом классифицирующих параметров модели входных речевых сигналов, наход т эталон по максимальной степени его подоби с моделью , а степень подоби речевого сигнала с эталонами определ ют при нормированном сравнении модели только с полученным эталоном.

Канал параллельного интерфейса

Фиг. I