RU2589851C2 - Система и способ перевода речевого сигнала в транскрипционное представление с метаданными - Google Patents

Система и способ перевода речевого сигнала в транскрипционное представление с метаданными Download PDF

Info

Publication number
RU2589851C2
RU2589851C2 RU2014134745/08A RU2014134745A RU2589851C2 RU 2589851 C2 RU2589851 C2 RU 2589851C2 RU 2014134745/08 A RU2014134745/08 A RU 2014134745/08A RU 2014134745 A RU2014134745 A RU 2014134745A RU 2589851 C2 RU2589851 C2 RU 2589851C2
Authority
RU
Russia
Prior art keywords
speech signal
sounds
sound
speech
determining
Prior art date
Application number
RU2014134745/08A
Other languages
English (en)
Other versions
RU2014134745A (ru
Inventor
Эммануил Григорьевич Кнеллер
Денис Владимирович Караульных
Original Assignee
Общество С Ограниченной Ответственностью "Истрасофт"
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Общество С Ограниченной Ответственностью "Истрасофт" filed Critical Общество С Ограниченной Ответственностью "Истрасофт"
Priority to RU2014134745/08A priority Critical patent/RU2589851C2/ru
Priority to PCT/RU2015/000459 priority patent/WO2016032365A1/ru
Publication of RU2014134745A publication Critical patent/RU2014134745A/ru
Application granted granted Critical
Publication of RU2589851C2 publication Critical patent/RU2589851C2/ru

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/02Feature extraction for speech recognition; Selection of recognition unit
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/06Transformation of speech into a non-audible representation, e.g. speech visualisation or speech processing for tactile aids
    • G10L21/10Transforming into visible information
    • G10L21/14Transforming into visible information by displaying frequency domain information

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Computational Linguistics (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Quality & Reliability (AREA)
  • Data Mining & Analysis (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Electrically Operated Instructional Devices (AREA)
  • Machine Translation (AREA)

Abstract

Данное изобретение относится к технологиям распознавания речи, т.е. перевода звукового сигнала, содержащего речь, в транскрипционное представление. Технический результат заключается в повышении точности распознавания звуков речи. Производят прием и предварительную обработку речевого сигнала, далее преобразуют речевой сигнал группой цифровых фильтров в частотные зоны, превышение относительной энергии в которых во времени создает ощущение звуков языка, затем нормализуют полученные частотные зоны с учетом характеристик чувствительности улитки уха по частоте, амплитуде и времени, после чего определяют акустические признаки речевого сигнала и типы звуков, в конечном итоге нормализуют временные параметры и отображают обработанный речевой сигнал. 2 н. и 16 з.п. ф-лы, 7 ил.

Description

ОБЛАСТЬ ТЕХНИКИ
Данное изобретение относится к технологиям распознавания речи, т.е. перевода звукового сигнала, содержащего речь, в транскрипционное представление, состоящую из символов отдельных звуков, транскрипции слов, предложений и их метаданных, визуализацию физических характеристик речевого сигнала, создающих ощущение звуков речи, оценку правильности произношения, входящих в произносительный словарь системы обучения произношению речи.
УРОВЕНЬ ТЕХНИКИ
Известен способ, описанный в заявке на патент RU 2234746 «СПОСОБ ДИКТОРОНЕЗАВИСИМОГО РАСПОЗНАВАНИЯ ЗВУКОВ РЕЧИ», опубликовано 20.08.2004, патентообладатель «Пермский государственный университет». Его использование позволяет получить технический результат в виде повышения вероятности правильного распознавания звуков речи. Способ включает в себя сегментацию речевого сигнала по времени, определение периодичности каждого звукового сегмента для соотнесения звукового сегмента к конкретному виду звуков речи, определение амплитуды и частоты каждой из первых трех формант в спектре звукового сегмента в качестве информативных признаков, интеграция этих признаков для каждого звукового сегмента, фонемное распознавание каждого звукового сегмента путем сопоставления его интегральных значений, принятие решения о распознаваемом звуке речи и представление его в виде буквенного обозначения. Технический результат достигается благодаря тому, что соотнесение звукового сегмента осуществляют к голосовому, шумному или шумно-голосовому виду звуков речи, выполняют основную сегментацию речевого сигнала по трем основным режимам, при фонемном распознавании сопоставляют интегральные значения информативных признаков каждого звукового сегмента в зависимости от числа формант в звуковом сегменте, устанавливают временные границы звуков речи в зависимости от изменения фонемной принадлежности звукового сегмента, после чего и принимают решение относительно распознаваемого звука речи.
Недостатком данного технического решения является низкая различительная способность, связанная с тем, что форманты не являются теми характеристиками, которые определяют звук, - это только один из способов создания в речевом сигнале соответствующих физических характеристик, создающих ощущение звука. Известно, например, что звук А может иметь от одной до трех формант в зависимости от голоса говорящего.
Известен способ, описанный в заявке на патент RU2297676 «СПОСОБ РАСПОЗНАВАНИЯ СЛОВ В СЛИТНОЙ РЕЧИ», опубликовано 20.04.2007, патентообладатель Федеральное государственное научное учреждение научно-исследовательский институт "Специализированные вычислительные устройства защиты и автоматика"
Изобретение относится к автоматике и вычислительной технике. Его использование в системах управления технологическим, бытовым и другим оборудованием, в автоматических справочных системах, системах автоматического перевода, системах понимания речи и т.д. позволяет получить технический результат в виде повышения точности распознавания слов в слитной речи. Способ состоит в том, что с произнесением речевого высказывания периодически берут выборки акустического сигнала этого высказывания, оцифрованного с заданной частотой квантования, через фиксированные интервалы времени и по совокупности этих выборок вычисляют функционал, определяющий текущее акустическое состояние, при этом полученную последовательность текущих акустических состояний используют для восстановления последовательности слов (рабочей гипотезы), произнесенных в исходном речевом высказывании, для чего применяют сеть лексического декодирования, которая задает закономерности следования эталонных акустических состояний в языке. Технический результат достигается за счет того, что проводится поиск рабочей гипотезы, являющийся оптимальным в смысле максимума степени ее совпадения с исходным речевым сигналом, что обеспечивается использованием алгоритма перемещаемого маркера, при этом рабочую гипотезу восстанавливают из маркера, который в этот момент времени находится в конечной вершине сети лексического декодирования.
Несмотря на то, что в данном способе различительная способность выше, чем в предыдущем способе, однако, аналогично с предыдущим известным способом распознавания речи к числу недостатков данного метода следует также отнести длительность процесса распознавания, обусловленного необходимостью обращения к эталонным образцам, а также поочередным распознавания каждой форманты в слове.
СУЩНОСТЬ ИЗОБРЕТЕНИЯ
Данное изобретение направлено на устранение недостатков, присущих существующим решениям.
Техническим результатом данного изобретения является распознавание звуков речи с высокой точностью, в реальном времени, вне зависимости от голоса говорящего, его индивидуальных особенностей, шума окружающей среды, специфических особенностей разных языковых систем, основанный на выделении и измерении только тех физических характеристик акустического сигнала, которые непосредственно создают ощущения звуков данного языка.
Способ перевода речевого сигнала в транскрипционное представление с метаданными реализуется согласно изобретению следующим образом:
Производят прием и предварительную обработку речевого сигнала, далее преобразуют речевой сигнал группой цифровых фильтров в частотные зоны, превышение относительной энергии в которых во времени создает ощущение звуков языка, затем нормализуют полученные частотные зоны с учетом характеристик чувствительности улитки уха по частоте, амплитуде и времени, после чего определяют акустические признаки речевого сигнала и типы звуков, в конечном итоге нормализуют временные параметры и отображают обработанный речевой сигнал.
В некоторых вариантах осуществления изобретения, принятый речевой сигнал очищают от шумов и обрабатывают аналого-цифровым преобразователем с предустановленной частотой дискретизации.
В некоторых вариантах осуществления изобретения, на этапе распознавания в исходном речевом сигнале одновременно с получением параметров траекторий из акустических эталонов формируются последовательности символов транскрипции, звука, слова, предложения, визуализация признаков звуков и оценка их правильности произношения относительно акустических эталонов.
В некоторых вариантах осуществления изобретения определение комбинаторного набора акустических признаков сегмента речевого сигнала осуществляют параллельно и одномоментно.
В альтернативных вариантах осуществления изобретения визуализацию значимых параметров выводят в виде понятных 2D и 3D графических представлений, показывающих отличие оцениваемых характеристик эталонного произношения от произносимого.
В некоторых вариантах осуществления изобретения, что при определении акустических признаков речевого сигнала анализируют данные частотные зоны и выделяют группы звуков по похожим траекториям энергий.
В некоторых вариантах осуществления изобретения осуществляют формирование словаря на основе размеченных траекторий энергии зон, определяющих звуки, слова, предложения, полученные из акустических эталонов языка, входящих в произносительный словарь системы обучения произношению речи.
В некоторых вариантах осуществления изобретения звук определяется превышением относительной энергией в одной, двух или нескольких значащих зонах на временном отрезке сигнала в пределах 30-50 мс.
В некоторых вариантах осуществления изобретения звуки по временным параметрам определяются как статические, если количество энергетических зон, создающих ощущения звуков, не изменяется в течение 30-100 мс и более.
В некоторых вариантах осуществления изобретения звуки по временным параметрам определяются как взрывные, если предшествует отсутствие превышение энергии во всех значащих зонах на длине 5-25 мс, затем скачок энергии в большой группе фильтров, занимающий 15-20 мс, с последующим переходом в зоны, определяющие звук.
В некоторых вариантах осуществления изобретения для определения амплитудно-модулированных звуков измеряют частоту модуляции и отклики фильтров.
В некоторых вариантах осуществления изобретения для определения интонации измеряют относительное изменение траектории частоты основного тона, на основе которой определяют тип интонации, на длине звуков, слов или предложений.
В некоторых вариантах осуществления изобретения для определения акцента и ритмики сравнивают относительное время звучания звуков в слове относительно эталонного.
В некоторых вариантах осуществления изобретения для визуализации оцениваемых характеристик эталонного произношения от произносимого осуществляют нормализацию по времени произнесения выводимого сигнала относительно эталонного.
В некоторых вариантах реализации изобретение представляет собой распределенную систему перевода речевого сигнала, в транскрипционное представление с метаданными, включающую:
i. одно или более устройств обработки команд;
ii. одно или более устройств хранения данных;
iii. одну или более программ, реализующих вышеуказанный способ перевода речевого сигнала в транскрипционное представление с метаданными, причем шаги данного способа могут выполняться на разных компьютерных системах.
КРАКТОЕ ОПИСАНИЕ ИЗОБРАЖЕНИЙ
Признаки и преимущества настоящего изобретения станут очевидными из приводимого ниже подробного описания изобретения и прилагаемых чертежей, на которых:
Фиг. 1 - структурная схема системы транскрибации речи.
Фиг. 2 - функциональная схема выделения признаков транскрипции, включая этапы преобразования в частотные зоны, анализ траекторий, энергий в них, сравнение с эталонными, оценка соответствия объединенных признаков звукам и формирования последовательности символов, обозначающих группы фонем и ее декодирования в текст.
Фиг. 3 - параметры спектральных зон речевого сигнала, создающие ощущения звуков речи.
Фиг. 4 - графическое представление характеристик речевого сигнала для визуального сравнения правильности произношения относительно эталона, оценка производится на сравнении параметров интегрированной энергии за время звучания звука в зонах, соответствующих звуков.
Фиг. 5 - схема математической модели артикуляционного аппарата.
ПОДРОБНОЕ ОПИСАНИЕ ИЗОБРЕТЕНИЯ
Данное изобретение в различных своих вариантах осуществления может быть выполнено в виде способа, реализуемого на компьютере, в виде системы или машиночитаемого носителя, содержащего инструкции для выполнения вышеупомянутого способа.
В некоторых вариантах реализации изобретение может быть реализовано в виде распределенной компьютерной системы.
В данном изобретении под системой подразумевается компьютерная система, ЭВМ (электронно-вычислительная машина), ЧПУ (числовое программное управление), ПЛК (программируемый логический контроллер), компьютеризированные системы управления и любые другие устройства, способные выполнять заданную, четко определенную последовательность операций (действий, инструкций).
Под устройством обработки команд подразумевается электронный блок либо интегральная схема (микропроцессор), исполняющая машинные инструкции (программы).
Устройство обработки команд считывает и выполняет машинные инструкции (программы) с одного или более устройства хранения данных. В роли устройства хранения данных могут выступать, но не ограничиваясь, жесткие диски (HDD), флеш-память, ПЗУ (постоянное запоминающее устройство), твердотельные накопители (SSD), оптические приводы.
Программа - последовательность инструкций, предназначенных для исполнения устройством управления вычислительной машины или устройством обработки команд.
Ниже будут описаны понятия и определения, необходимые для подробного раскрытия осуществляемого изобретения.
Метаданные - информация об интонации, акценте, ритмике, тоне (мелодики речи), громкости, темпе речи и ее отдельных отрезков, особенностей фонации.
Звуки классифицируются по временным параметрам.
Статические звуки - энергетика зон незначительно изменяются в течение 30-100 мс (миллисекунда).
Динамические звуки - энергетика зон изменяются по определенным траекториям в течение 30-100 мс (миллисекунда).
Взрывные звуки - отсутствие энергии на длине 5-25 мс (миллисекунда), затем скачок энергии в группе фильтров, занимающий 15-20 мс (миллисекунда), с последующим переходом в зоны определяющие звук.
Произносительный словарь - это словарь фонетических разборов, в котором каждое слово рассматривается с точки зрения его фонетической структуры, учитывая метаданные.
Спектр сигнала - в радиотехнике это результат разложения сигнала на более простые частотные зоны в базисе ортогональных функций.
Согласно изобретению способ перевода речевого сигнала в транскрипционное представление с метаданными,включает следующие шаги:
производят прием и предварительную обработку речевого сигнала:
Речевой сигнал в виде звукового потока данных поступает на вход блока приема речевого сигнала (Фиг. 1) системы распознавания речи и передается далее на вход аналого-цифрового преобразователя, где осуществляют преобразование сигнала в цифровой вид. Полученный цифровой речевой сигнал очищают от шумов и сохраняют для дальнейшей обработки, передают на вход преобразователя - нормализатора;
преобразуют речевой сигнал группой цифровых фильтров в частотные зоны, превышение относительной энергии в которых во времени создает ощущение звуков языка:
С помощью преобразователя - нормализатора осуществляют спектральное преобразование группой цифровых фильтров с параметрами преобразования, нормализованными с учетом характеристик чувствительности улитки уха по частоте, амплитуде и времени, выбор отсечки частотных полос фильтров определяют на основании частотных зон, превышение относительной энергии в которых создает ощущения звуков соответствующего языка;
определяют акустические признаки речевого сигнала и типы звуков:
Акустические признаки речевого сигнала, характерные для групп фонем, используемых в качестве базовых элементов для распознавания, основаны на физических принципах генерации звуков артикуляционным аппаратом человека, поясняются на схеме математической модели артикуляционного аппарата (Фиг. 5). Возбуждающий сигнал, тон, шум или их комбинация, проходя через модулятор, резонаторы и ключи, управляемые мозгом, изменяют распределение энергии в частотных зонах в зависимости от требуемого звука, при этом положение резонаторов артикуляционных органов для многих пар звонких - глухих звуков типа [А]-[X], [З]-[С], одинаковое, что вызывает одинаковые отклики в зонах фильтров, отличие заключается только в типе возбуждающей функции, что позволяет при одинаковых откликах наряду с другими признаками классифицировать звуки, превышение относительной энергии в одной или двух значащих частотных зонах, ширина и положение которых в частотном спектре на значимом отрезке времени определяет звук языка (Фиг. 3, 3а, 3б).
Акустический сигнал ощущается как звук речи, если длительность характеристик, определяющих звук не менее 30-100 мс, при меньших или больших значениях теряется ощущение звука, то есть мы слышим акустический сигнал, но не можем определить, что это за звук. Экспериментально установлено, что при произношении слова, предложения, звуки в слове имеют постоянные временные пропорции к общему времени его произнесения, то есть время произнесения каждого звука имеет постоянную относительную длину, говорим быстро или медленно соотношение звуков в процентном отношении к общему времени остается постоянным для одного типа произношения данного языка. Время произнесения звука является одним из основных параметров, влияющих на ощущение звуков. Обычно, когда произносится не тоновый звук в непрерывной речи, например не тоновый звук [t], остановка и запуск связок занимает намного дольше времени и энергии. Связки продолжают генерировать. Обозначают звук [t] только временем, хотя реально в это время связки генерируют звук, а воспринимается он как не тоновый звук [t]. Изменением во времени звука создаются и другие ощущения речи, так ударный слог имеет относительное время произнесения в два раза большее, чем безударный. Уменьшение времени паузы перед взрывным звуком меняет ощущение звука, например звук [k] мы ощутим как звук [r]. Изменение времени звучания звуков в слове от принятого в данном регионе воспринимается как региональный говор или акцент.
Как указано выше, для определения акустических признаков речевого сигнала используют как исходный речевой сигнал, так и эталонный. На основе комбинаций значений акустических признаков определяется группа фонем, к которой относится речевой сигнал, после чего производится оценка их соответствия эталонному и визуализируются признаки, позволяющие увидеть отличие физических характеристик, на основании которых даются рекомендации обучаемому в рамках текущего шага обучения (Фиг. 4).
При этом процедура выделения акустических признаков, применяемых для определения групп фонем, из сигнала согласно изобретению осуществляется следующим образом: сканируют выходы фильтров, находят глобальный и локальные максимумы энергии, затем в пределах ±30 мс (миллисекунда) от максимума анализируют изменения энергии в зонах, определяют временной тип звука, то есть статический, динамический или взрывной, находят близкие по траекториям отклики в эталоне, по которым идентифицируют тип фонемы, сканируют дальше и ищут следующий локальный максимум и процедуру повторяют дальше;
При классификации групп фонем в рамках каждого окна локального энергетического максимума речевого сигнала параллельно и одновременно программно-аппаратным образом используют следующий набор акустических признаков, позволяющих однозначно определить каждую из рассматриваемых в рамках изобретения групп признаков фонем: превышение относительной энергии в частотных зонах выделенных цифровыми фильтрами зонах, в том числе отдельной зоны определяющей наличие/отсутствие основного тона, время воздействия, изменения динамических характеристик энергии и пауз в зонах, наличие/отсутствие пауз и признаков взрывного звука, анализ речевого сигнала в каждом окне осуществляют на наличие/отсутствие акустических признаков, присущих группам фонем в речевом сигнале;
нормализуют временные параметры и отображают обработанный речевой сигнал;
В процессе обучения из произносительного словаря системы обучения произношению речи, в соответствии с методикой обучения выбирается и произносится, звук, слово или фраза. Обучаемый старается произнести услышанный им звуковой фрагмент с таким же темпом, интонацией и акцентом. Произнесенный фрагмент нормализуется по времени. Все характеристики этого фрагмента как эталонного, так и произносимого обучаемым, выводятся в виде звукового и графического представления (Фиг. 4), позволяющего визуально сравнить правильность произношения характеристик звукового объекта относительно эталона, получить оценку проклассифицированных на основе данного изобретения признаков соответствующих звуков. При несоответствии произнесения звукового фрагмента эталону определяется отклонение характеристики, и при их наличии даются рекомендации в соответствии с методикой обучения по их устранению.
Специалисту в данной области очевидно, что конкретные варианты осуществления способа и системы перевода речевого сигнала в транскрипционное представление с метаданными были описаны здесь в целях иллюстрации, допустимы различные модификации, не выходящие за рамки и сущности объема изобретения.

Claims (18)

1. Способ перевода речевого сигнала в транскрипционное представление с метаданными, включающий следующие шаги:
- производят прием и предварительную обработку речевого сигнала;
- преобразуют речевой сигнал группой цифровых фильтров в частотные зоны;
- нормализуют полученные частотные зоны с учетом характеристик чувствительности улитки уха по частоте, амплитуде и времени;
- определяют акустические признаки речевого сигнала и типы звуков;
- нормализуют временные параметры принятого речевого сигнала и отображают его после обработки.
2. Способ по п. 1, характеризующийся тем, что принятый речевой сигнал очищают от шумов и обрабатывают аналого-цифровым преобразователем с фиксированной частотой дискретизации.
3. Способ по п. 1, характеризующийся тем, что цифровой фильтр может быть программным и/или аппаратным.
4. Способ по п. 1, характеризующийся тем, что при преобразовании речевого сигнала в частотные зоны формируют последовательности символов транскрипции звука, слова, предложения и производят визуализацию параметров звуков и оценку их правильности произношения относительно акустических эталонов.
5. Способ по п. 1, характеризующийся тем, что отображают акустические параметры звука в виде 2D и 3D графических представлений, позволяющие сравнить правильность произношения характеристик звукового объекта относительно акустического эталона.
6. Способ по п. 1, характеризующийся тем, что отображают превышение относительной энергии по времени речевого сигнала в режиме реального времени.
7. Способ по п. 1, характеризующийся тем, что звуки речи классифицируются в зависимости от физических параметров генерации на тоновые, шумовые, амплитудно-модулированные, частотно-модулированные, взрывные и паузы.
8. Способ по п. 1, характеризующийся тем, что при определении типа звука зона тона не используется.
9. Способ по п. 1, характеризующийся тем, что при преобразовании речевого сигнала группой цифровых фильтров звук определяется превышением относительной энергии по крайней мере в одной зоне на временном отрезке сигнала в пределах 30-50 мс (миллисекунда).
10. Способ по п. 1, характеризующийся тем, что при определении акустических признаков речевого сигнала сравнивают принятый речевой сигнал с эталонным.
11. Способ по п. 1, характеризующийся тем, что при определении акустических признаков речевого сигнала звуки по временным параметрам определяются как статические, если количество энергетических зон, создающих ощущения звуков, не изменяется в течение 30-100 мс (миллисекунда) и более.
12. Способ по п. 1, характеризующийся тем, что при определении акустических признаков речевого сигнала звуки по временным параметрам определяются как динамические, если количество энергетических зон, создающих ощущения звуков, изменяется по определенным траекториям в течение 30-100 мс (миллисекунда).
13. Способ по п. 1, характеризующийся тем, что при определении акустических признаков речевого сигнала звуки по временным параметрам определяются как взрывные, если энергия отсутствует на длине 5-25 мс (миллисекунда), затем происходит скачок энергии в группе фильтров, занимающий 15-20 мс (миллисекунда), с последующим переходом в зоны, определяющие звук.
14. Способ по п. 1, характеризующийся тем, что при определении акустических признаков речевого сигнала для определения амплитудно-модулированных звуков типа [з], [ж] измеряют частоту модуляции и отклики фильтров.
15. Способ по п. 1, характеризующийся тем, что при определении акустических признаков речевого сигнала для определения интонации измеряют относительное изменение траектории частоты основного тона, на основе которой определяют тип интонации, на длине звуков, слов или предложений.
16. Способ по п. 1, характеризующийся тем, что при определении акустических признаков речевого сигнала для определения акцента и ритмики сравнивают относительное время звучания звуков в слове относительно эталонного.
17. Способ по п. 1, характеризующийся тем, что при определении акустических признаков речевого сигнала на основании отличий физических характеристик принятого речевого сигнала от эталонных дают рекомендации обучаемому в рамках текущего шага обучения.
18. Система перевода речевого сигнала в транскрипционное представление с метаданными включает:
- одно или более устройств хранения информации;
- средства, обеспечивающие сетевое взаимодействие с удаленными компьютерными системами;
- по крайней мере один дисплей;
- по крайней мере одно устройство ввода;
- один или более процессоров, где одна или более компьютерных программ считываются с одного и более устройств хранения информации и выполняются на одном и более процессорах, причем одна или более программ содержат инструкции для выполнения способа по п. 1.
RU2014134745/08A 2014-08-26 2014-08-26 Система и способ перевода речевого сигнала в транскрипционное представление с метаданными RU2589851C2 (ru)

Priority Applications (2)

Application Number Priority Date Filing Date Title
RU2014134745/08A RU2589851C2 (ru) 2014-08-26 2014-08-26 Система и способ перевода речевого сигнала в транскрипционное представление с метаданными
PCT/RU2015/000459 WO2016032365A1 (ru) 2014-08-26 2015-07-17 Система и способ перевода речевого сигнала, в транскрипционное представление с метаданными

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
RU2014134745/08A RU2589851C2 (ru) 2014-08-26 2014-08-26 Система и способ перевода речевого сигнала в транскрипционное представление с метаданными

Publications (2)

Publication Number Publication Date
RU2014134745A RU2014134745A (ru) 2016-03-20
RU2589851C2 true RU2589851C2 (ru) 2016-07-10

Family

ID=55400126

Family Applications (1)

Application Number Title Priority Date Filing Date
RU2014134745/08A RU2589851C2 (ru) 2014-08-26 2014-08-26 Система и способ перевода речевого сигнала в транскрипционное представление с метаданными

Country Status (2)

Country Link
RU (1) RU2589851C2 (ru)
WO (1) WO2016032365A1 (ru)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108566483A (zh) * 2018-03-19 2018-09-21 百度在线网络技术(北京)有限公司 一种录入语音的展示方法、装置、终端及存储介质

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
RU2103753C1 (ru) * 1997-02-03 1998-01-27 Олег Геннадьевич Малеев Способ дикторонезависимого распознавания изолированных речевых команд
RU2199157C2 (ru) * 1997-03-03 2003-02-20 Телефонактиеболагет Лм Эрикссон (Пабл) Способ последующей обработки с высокой разрешающей способностью для речевого декодера
RU2234746C2 (ru) * 2002-10-30 2004-08-20 Пермский государственный университет Способ дикторонезависимого распознавания звуков речи
RU2376656C1 (ru) * 2005-08-30 2009-12-20 ЭлДжи ЭЛЕКТРОНИКС ИНК. Способ кодирования и декодирования аудиосигнала и устройство для его осуществления

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20130134195A (ko) * 2012-05-30 2013-12-10 삼성전자주식회사 오디오 스트림을 고속 시각화시키는 전자 장치 및 방법

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
RU2103753C1 (ru) * 1997-02-03 1998-01-27 Олег Геннадьевич Малеев Способ дикторонезависимого распознавания изолированных речевых команд
RU2199157C2 (ru) * 1997-03-03 2003-02-20 Телефонактиеболагет Лм Эрикссон (Пабл) Способ последующей обработки с высокой разрешающей способностью для речевого декодера
RU2234746C2 (ru) * 2002-10-30 2004-08-20 Пермский государственный университет Способ дикторонезависимого распознавания звуков речи
RU2376656C1 (ru) * 2005-08-30 2009-12-20 ЭлДжи ЭЛЕКТРОНИКС ИНК. Способ кодирования и декодирования аудиосигнала и устройство для его осуществления

Also Published As

Publication number Publication date
RU2014134745A (ru) 2016-03-20
WO2016032365A1 (ru) 2016-03-03

Similar Documents

Publication Publication Date Title
Gangamohan et al. Analysis of emotional speech—A review
Cheng Automatic assessment of prosody in high-stakes English tests.
Yin et al. Automatic cognitive load detection from speech features
Yap et al. Voice source under cognitive load: Effects and classification
Hirst et al. Measuring Speech. Fundamental frequency and pitch.
CN102184654B (zh) 诵读监督方法及装置
Gontier et al. Estimation of the perceived time of presence of sources in urban acoustic environments using deep learning techniques
Tamburini Automatic prosodic prominence detection in speech using acoustic features: an unsupervised system.
Přibil et al. GMM-based speaker gender and age classification after voice conversion
Tamburini Prosodic prominence detection in speech
Arias-Vergara et al. Automatic detection of Voice Onset Time in voiceless plosives using gated recurrent units
Afroz et al. Recognition and classification of pauses in stuttered speech using acoustic features
Wang Detecting pronunciation errors in spoken English tests based on multifeature fusion algorithm
Haque et al. Modification of energy spectra, epoch parameters and prosody for emotion conversion in speech
Vieira et al. Non-Stationarity-Based Adaptive Segmentation Applied to Voice Disorder Discrimination
Kabashima et al. Dnn-based scoring of language learners’ proficiency using learners’ shadowings and native listeners’ responsive shadowings
Van Moere et al. Using speech processing technology in assessing pronunciation
RU2589851C2 (ru) Система и способ перевода речевого сигнала в транскрипционное представление с метаданными
Yousfi et al. Isolated Iqlab checking rules based on speech recognition system
Mitra et al. From acoustics to vocal tract time functions
Rengaswamy et al. Robust f0 extraction from monophonic signals using adaptive sub-band filtering
Mertens et al. Comparing approaches to pitch contour stylization for speech synthesis
CN113763992A (zh) 语音测评方法、装置、计算机设备和存储介质
Airas Methods and studies of laryngeal voice quality analysis in speech production
Wang et al. Beijing opera synthesis based on straight algorithm and deep learning

Legal Events

Date Code Title Description
MM4A The patent is invalid due to non-payment of fees

Effective date: 20180827