RU160585U1 - Система распознавания речи с моделью вариативности произношения - Google Patents
Система распознавания речи с моделью вариативности произношения Download PDFInfo
- Publication number
- RU160585U1 RU160585U1 RU2015138280/08U RU2015138280U RU160585U1 RU 160585 U1 RU160585 U1 RU 160585U1 RU 2015138280/08 U RU2015138280/08 U RU 2015138280/08U RU 2015138280 U RU2015138280 U RU 2015138280U RU 160585 U1 RU160585 U1 RU 160585U1
- Authority
- RU
- Russia
- Prior art keywords
- block
- speech
- pronunciation
- output
- input
- Prior art date
Links
- 238000012545 processing Methods 0.000 claims abstract description 8
- 230000015572 biosynthetic process Effects 0.000 claims abstract description 7
- 238000006243 chemical reaction Methods 0.000 claims abstract description 6
- 238000007781 pre-processing Methods 0.000 claims abstract description 5
- 102000043859 Dynamin Human genes 0.000 claims abstract 2
- 108700021058 Dynamin Proteins 0.000 claims abstract 2
- YWXYYJSYQOXTPL-SLPGGIOYSA-N isosorbide mononitrate Chemical compound [O-][N+](=O)O[C@@H]1CO[C@@H]2[C@@H](O)CO[C@@H]21 YWXYYJSYQOXTPL-SLPGGIOYSA-N 0.000 claims abstract 2
- 238000000034 method Methods 0.000 description 16
- 238000013518 transcription Methods 0.000 description 16
- 230000035897 transcription Effects 0.000 description 16
- 238000012549 training Methods 0.000 description 6
- 230000001419 dependent effect Effects 0.000 description 4
- 239000011159 matrix material Substances 0.000 description 3
- 239000000203 mixture Substances 0.000 description 3
- 230000006978 adaptation Effects 0.000 description 2
- 238000009826 distribution Methods 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 230000011218 segmentation Effects 0.000 description 2
- 230000003044 adaptive effect Effects 0.000 description 1
- 238000004458 analytical method Methods 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 238000007796 conventional method Methods 0.000 description 1
- 230000006866 deterioration Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- 238000001914 filtration Methods 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 230000007774 longterm Effects 0.000 description 1
- 239000003550 marker Substances 0.000 description 1
- 239000000463 material Substances 0.000 description 1
- 238000010606 normalization Methods 0.000 description 1
- 238000001228 spectrum Methods 0.000 description 1
- 238000010183 spectrum analysis Methods 0.000 description 1
- 238000013179 statistical model Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/18—Speech classification or search using natural language modelling
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/18—Speech classification or search using natural language modelling
- G10L15/1815—Semantic context, e.g. disambiguation of the recognition hypotheses based on word meaning
Landscapes
- Engineering & Computer Science (AREA)
- Artificial Intelligence (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Machine Translation (AREA)
Abstract
Система распознавания речи с моделью вариативности произношения, характеризующаяся тем, что включает блок акустических моделей, блок модели языка, блок произносительного словаря, блок ввода и предобработки сигнала, блок параметризации речевого сигнала, блок детектора речи, блок декодера слитной речи, блок детектора вариативности произношения, блок формирователя моделей, блок пересчета, блок формирования результата, при этом выход блока акустических моделей соединен со входами блоков детектора речи, декодера слитной речи, детектора вариативности произношения и формирователя моделей, выход блока модели языка соединен со входами блоков декодера слитной речи и детектора вариативности произношения, выход блока произносительного словаря соединен со входами блоков декодера слитной речи и детектора вариативности произношения, выход блока ввода и предобработки сигнала соединен с входом блока параметризации речевого сигнала, выход которого соединен со входом блока детектора речи, выход блока детектора речи соединен с входом блока декодера слитной речи, выход которого соединен со входом блока детектора вариативности произношения, выход блока детектора вариативности произношения соединен с входом блока формирователя моделей, выход которого соединен с входом блока пересчета, выход блока пересчета соединен с входом блока формирования результата.
Description
МПК8
G10L 15/18
Система распознавания речи с моделью вариативности произношения.
Система распознавания речи с моделью вариативности произношения относится к области автоматического распознавания речи и предназначена для решения задач, связанных с обработкой и распознаванием естественной, разговорной речи.
Одной их главных составных частей современных систем и устройств для обработки и распознавания речи является модель произношения, с помощью которой определяются акустические образы слов, словосочетаний и фраз. Модель произношения обычно включает в себя набор моделей для производных от фонем звуков и произносительный словарь, состоящий из фонемных транскрипций слов. Обычно большинство слов словаря имеет один вариант транскрипции, базовую (или каноническую) фонемную, которая соответствует их нормативному произношению.
Общеизвестно (Fosler-Lussier E., Greenberg S., Morgan N. Incorporating contextual phonetics into automatic speech recognition. \\ Proc. ICPhs USA, pp. 611-614), что в естественной, разговорной речи произношение слов и словосочетаний часто существенно отличается от нормативного. Это служит одной из основных причин ошибок систем обработки и распознавания речи. Модельные эксперименты с английской речью показали, что использование экспертным образом определенных фонемных транскрипций позволяет на 47% снизить уровень пословной ошибки распознавания (Saraclar, M., Nock, H., Khudanpur, S. Pronunciation modeling by sharing Gaussian densities across phonetic models \\ Computer Speech and Language. Vol. 14, Pp. 137-160, 2000). Поэтому разработка и реализация моделей вариативности произношения сейчас рассматриваются как один из основных путей создания технически совершенных систем распознавания разговорной речи.
Из существующего уровня техники известны:
- комплексная система автоматического распознавания речевых сигналов (полезная модель 75074 от 20.07.2008г.), состоящая из состоящая из аналого-цифрового блока обработки речевого сигнала, детектора огибающей, детектора основного тона, нормализатора уровня, спектрально-полосового анализатора, исполнительного блока состоящий из переключателя, устройств описания и верификации голосов, формирования эталонов, нормализации эталонов команд, распознавания команд и ключа;
- система ввода речевой информации (полезная модель 62261 от 27.03.2007), содержащая микрофон, устройство записи в файл аудиоданных произносимых диктором слов (фраз), словарь (фразарь), устройство считывания элементов текста словаря (фразаря), устройство визуализации элементов текста словаря (фразаря) и таймер, отличающаяся тем, что в нее введены блок вычисления длительности произнесения гласных и пауз, блок темпа диктования, блок умножения, блок вычисления длительности согласных, сумматор, блок функционального преобразования;
- способ распознавания фонем речи и устройство для реализации способа (патент RU 2268504 от 20.01.2006), где предложен способ формирования признаков фонем для распознавания фонем речи, основанный на применении би-спектрального анализа, базирующегося на преобразовании цифровых последовательностей кодов, соответствующих речевым сигналам, в би-спектральную область, характеризующую взаимодействия между значениями компонентов Фурье на разных частотах в диапазоне речи, таким образом, обеспечивается выделение дополнительной, существенно новой информации из речевых сигналов, что повышает точность при распознавании фонем и устройство, реализующее заявленный способ распознавания фонем речи, которое содержит: вычислительную систему, включающую тактовый генератор, контроллер, оперативное запоминающее устройство, процессор, предназначенный для формирования би-спектральных признаков и распознавания на их основе фонем речи, цифроаналоговый преобразователь, долговременное запоминающее устройство, видеоконтроллер и аналого-цифровой преобразователь, а также клавиатуру, дисплей, наушники и микрофон;
- устройство для фонетического анализа и распознавания речи (полезная модель 111944 от 27.12.2011), которое содержит микрофон, блок сегментации сигнала, спектроанализатор, блок нормализации, блок измерения сходства между фонемами, блок принятия решений, блок коммутации, блок памяти эталонов фонем, блок измерения сходства между словами, второй блок принятия решений, блок оперативной памяти, блок выделения слогов, блок формирования фонетического кода слога, блок выделения слов и блок памяти эталонов слов.
Общим недостатком всех приведенных выше технических решений является то, что в них отсутствует компоненты, которые обеспечивают моделирование вариативности произношения. Эти решения предназначены для распознавания раздельно и четко произносимых речевых команд или слов. Способ произнесения речевых команд в процессе эксплуатации предполагается неизменным. Для распознавания естественной, разговорной речи использование описанных выше решений неэффективно.
Из существующего уровня техники известна система и метод для распознавания речи, основанные на произносительном моделировании (Патент US 8532993 B2, от 10.09.2013 г.). На этапе обучения для каждого диктора и заранее известного и неизменного словаря определяются наблюдаемые в обучающей выборке фонемные транскрипции слов с частотами их появления. Во время распознавания в качестве возможных вариантов произношения слова используются найденные при обучении транскрипции, при этом модель языка модифицируется в соответствии с вероятностями появления соответствующих вариантов транскрипций.
Недостатками приведенного технического решения является то, что разработанная модель произношения должна быть предварительно обучена на заданного диктора, а вариативность произношения трактуется как наличие более чем одной фонемной транскрипции для слова из заданного, фиксированного наперед словаря. Эти недостатки снижают эффективность данного решения при распознавании разговорной речи.
Известна также система и метод для дискриминантного произносительного моделирования (патент US 8296141 B2, от 23.10.2012 г.) при распознавании поисковых запросов в сети Интернет, которая основана на моделировании вариативности произношения различных речевых единиц: слов, контекстно-зависимых и контекстно-независимых фонем, фраз. В режиме обучения каждой фонемной транскрипции присваиваются частотные веса. По обучающей выборке эти веса настраиваются итерационной процедурой таким образом, чтобы минимизировать частоту ошибок распознавания. Полученные значения весов используются далее в режиме распознавания поисковых запросов.
Недостатком данного решения является известный факт, что присваивание фиксированных весов вариантам произношения без учета контекстной информации на практике часто приводит к ухудшению показателей эффективности распознавания.
Известна также модель «дикторозависимой адаптации фонемного словаря для распознавания речи» (патент US 8731928 B2, от 20.05.2014 г.), которая заключается в динамическом выборе индивидуального для каждого диктора варианта произношения слов. Предполагается, что произносительный словарь заведомо включает все наиболее вероятные варианты произнесения слов в виде соответствующих фонемных транскрипций. В процедуре настройки на речь конкретного человека осуществляется распознавание специальных фраз и определение использованных при этом вариантов произношения слов. По результатам этого распознавания определяются фонемные транскрипции слов, то есть варианты их произношения, которые наиболее вероятны для данного человека. Эти транскрипции затем фиксируются в произносительном словаре при распознавании речи данного конкретного лица.
Недостатками данного подхода является то, что его эффективное применение предполагает наличие произносительного словаря с множественными вариантами произнесений для слова, а также прохождение предварительной процедуры настройки на произношение конкретного человека.
Известна также система и метод для адаптации произношения при автоматическом распознавании речи путем реструктуризации акустических моделей (патент US 8812315 B2, от 19.08.2014 г.). Вариативность произношения предлагается моделировать путем модификации акустико-фонетических моделей звуков. Предполагается, что для некоторого, например английского, языка известными процедурами уже построены акустические модели реализаций фонем. Для повышения точности распознавания речи определенного человека или группы лиц используется адаптация этих акустических моделей. При этом слова словаря системы распознавания определяются только базовыми транскрипциями, без других вариантов транскрипций. На этапе обучения для данного словаря, диктора или группы дикторов (если решается задача настройки под региональные особенности произношения, акценты) осуществляется распознавание речи обычными методами и для каждого слова определяются фактические варианты произношения, образующие матрицу из возможных фонемных транскрипций (с частотными весами). Эта матрица используется далее для замены моделей фонем из базовой транскрипции. В результате произносительная модель слова, которая будет использоваться при распознавании, определяется как последовательность новых моделей, каждая из которых есть взвешенная сумма всех возможных в данной позиции фонем из матрицы.
Недостатки данного технического решения вытекают из назначения системы: распознавания речи данного человека или группы лиц, имеющих общий диалект. Во-первых, вариативность произношения звуков или слогов рассматривается в данном случае безотносительно контекста, например, темпа речи или позиции звука. Таким образом, предложенное решение малопригодно для распознавания разговорной речи, когда значительная часть ошибок распознавания приходится на последствия коартикуляции в виде пропусков или замен фонем. Во-вторых, поскольку естественные языки, например, русский, содержит миллионы словоформ, то вычисление описанные выше модифицированных моделей слов (для данного лица, например) выглядит практически трудно реализуемым.
Задачей, на решение которой направлено заявляемое техническое решение является уменьшение количества ошибок при автоматическом декодировании, распознавании и обработке естественной разговорной речи.
Указанное техническое решение достигается системой распознавания речи с моделью вариативности произношения, которая характеризуется тем, что включает блок акустических моделей, блок модели языка, блок произносительного словаря, блок ввода и предобработки сигнала, блок параметризации речевого сигнала, блок детектора речи, блок декодера слитной речи, блок детектора вариативности произношения, блок формирователя моделей, блок пересчета, блок формирования результата таким образом, что выход блока акустических моделей соединен со входами блоков детектора речи, декодера слитной речи, детектора вариативности произношения и формирователя моделей, выход блока модели языка соединен со входами блоков декодера слитной речи и детектора вариативности произношения, выход блока произносительного словаря соединен со входами блоков декодера слитной речи и детектора вариативности произношения, выход блока ввода и предобработки сигнала соединен с входом блока параметризации речевого сигнала, выход которого соединен со входом блока детектора речи, выход блока детектора речи соединен с входом блока декодера слитной речи, выход которого соединен со входом блока детектора вариативности произношения, выход блока детектора вариативности произношения соединен с входом блока формирователя моделей, выход которого с входом блока пересчета, выход блока пересчета соединен с входом блока формирования результата.
Техническим результатом, обеспечиваемым приведенной совокупностью признаков, является повышение эффективности распознавания разговорной речи, которое выражается в снижении уровня пословной ошибки распознавания или уровня ложных тревог на ключевое слово в час при обнаружении ключевых слов в потоке речи. Этот технический результат достигается за счет введения в состав системы блоков прогноза вариативности произношения звуков, формирования комбинированных моделей вариативных звуков и переоценки правдоподобия гипотез с использованием комбинированных моделей.
Сущность полезной модели поясняется чертежом. На Фиг. представлена схема системы распознавания речи с моделью учета вариативности произношения.
Система распознавания речи с моделью вариативности произношения, которая содержит блок акустических моделей 1, блок модели языка 2, блок произносительного словаря 3, блок ввода и предобработки сигналов 4, блок параметризации речевого сигнала 5, блок детектора речи 6, блок декодера слитной речи 7, блок детектора вариативности произношения 8, блок формирователя моделей 9, блок пересчета 10 и блок формирования результата 11. При этом выход блока 1 соединен со входами блоков 6, 7, 8, 9, выход блока 2 соединен со входами блоков 7 и 8, выход блока 3 соединен со входами блоков 7 и 8, выход блока 4 соединен со входом блока 5, выход блока 5 соединен со входом блока 6, выход блока 6 соединен со входом блока 7, выход которого соединен с входом блока 8, выход блока 8 соединен со входом блока 9, выход блока 9 соединен с входом блока 10, выход которого соединен со входом блока 11.
Функционирует система следующим образом (см. Фиг.): исходные данные предоставляются следующими блоками: блоком 1, в котором хранятся параметры акустических моделей звуков, например, параметры смесей нормальных распределений контекстно-зависимых реализаций фонем, вычисленные предварительно на аккуратно произнесенном речевом материале; блоком 2, в котором хранятся параметры статистической модели языка, например, триграмм; блоком 3, в котором хранится произносительный словарь с фонемной транскрипцией слов и с указанием части речи каждого слова. Во время работы системы блок 4 обеспечивает поступление речевого сигнала с оконечного устройства ввода, которым может быть микрофон или сетевое соединение. В блоке 4 сигнал также подвергается предварительной обработке для компенсации шумов, например, с помощью метода фильтрации стационарных шумов по стандарту ETSI ES 202 050 V1.1.5. В блоке 5 осуществляется параметризация сигнала, оцениваются его кратковременные параметры, например, мел-кепстральные коэффициенты в соответствии со стандартом ETSI ES 202 050 V1.1.5, которые затем передаются в блок 6 детектора речи, выполненный, например, аналогично детектору ETSI EN 301 708, который принимает решение о наличии речевого сигнала на входе системы, после чего вычисленные параметры передаются далее в блок декодера слитной речи 7, где методом поиска на лексической сети, в качестве которого, например, может использоваться модель перемещения маркера (Young, S. "Token Passing: A Simple Conceptual Model for Connected Speech Recognition Systems. \\ Technical Report CUED/F-INFENG/TR38, Cambridge University Engineering Department, England, 1989) осуществляется декодирование речевого высказывания в список наиболее вероятных цепочек из произнесенных слов совместно с сегментацией, определяющей моменты начала и конца каждого звука. Этот список передается в блок детектора вариативности произношения 8, в котором оцениваются темп речи, например, известной моделью (Zheng J., at al. “Modeling word-level rate-of-speech variation in large vocabulary conversational speech recognition” \\ Speech Communication, Vol. 41. pp.273-285, 2003) и потенциальная вариативность звуков по признакам их вхождения в состав функциональных слов, межсловных промежутков, окончаний фраз, словосочетаний или слов, которые имели высокую вероятность в блоке статистической модели языка. Вектор признаков вариативности передается на вход блока формирователя моделей 9 где осуществляется замена исходных акустических моделей звуков на комбинированные модели, которые учитывают изменения параметров, вызванные вариативностью произношения. При этом исходная акустическая модель текущего звука преобразуется в комбинированную модель таким образом, что параметры комбинированных акустических моделей выбираются как взвешенное среднее (арифметическое, с суммой весов, равной единице) значений соответствующих параметров текущей модели и модели следующего за ней звука, с весами, значения которых в каждый момент времени формируются блоком детектора вариативности. Эффективные значения весов, обусловленные параметрами вектора вариативности определяются предварительно, например, с помощью общеизвестной процедуры Баума-Уелча (Baum-Welch procedure). В блоке пересчета 10 с помощью общеизвестной процедуры Витерби (Viterbi procedure) осуществляется переоценка правдоподобия каждой цепочки слов с использованием полученных комбинированных моделей звуков. После перебора всех цепочек в блоке 11 осуществляется сравнение и выбор наиболее вероятной из них, которая затем передается на выход как результат распознавания речи.
В блоке 1 могут храниться параметры акустических контекстно-зависимых реализаций фонем, выполненных в виде скрытых марковских моделей с состояниями как в форме смесей нормальных распределений, так и в форме кодовых книг для описания дискретных плотностей вероятностей параметров речевого сигнала.
Предлагаемое техническое решение позволяет повысить эффективность обработки и распознавания естественной, разговорной речи поскольку оно адаптивно: комбинирование акустических моделей осуществляется с учетом текущей позиционной и синтаксической информации. Комбинируются смежные во времени акустические модели, что адекватно источникам произносительной вариативности. В частности, таким образом моделируются полные или частичные замены фонем, которые являются распространенной причиной ошибок при автоматическом распознавании разговорной речи.
Claims (1)
-
Система распознавания речи с моделью вариативности произношения, характеризующаяся тем, что включает блок акустических моделей, блок модели языка, блок произносительного словаря, блок ввода и предобработки сигнала, блок параметризации речевого сигнала, блок детектора речи, блок декодера слитной речи, блок детектора вариативности произношения, блок формирователя моделей, блок пересчета, блок формирования результата, при этом выход блока акустических моделей соединен со входами блоков детектора речи, декодера слитной речи, детектора вариативности произношения и формирователя моделей, выход блока модели языка соединен со входами блоков декодера слитной речи и детектора вариативности произношения, выход блока произносительного словаря соединен со входами блоков декодера слитной речи и детектора вариативности произношения, выход блока ввода и предобработки сигнала соединен с входом блока параметризации речевого сигнала, выход которого соединен со входом блока детектора речи, выход блока детектора речи соединен с входом блока декодера слитной речи, выход которого соединен со входом блока детектора вариативности произношения, выход блока детектора вариативности произношения соединен с входом блока формирователя моделей, выход которого соединен с входом блока пересчета, выход блока пересчета соединен с входом блока формирования результата.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
RU2015138280/08U RU160585U1 (ru) | 2015-09-09 | 2015-09-09 | Система распознавания речи с моделью вариативности произношения |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
RU2015138280/08U RU160585U1 (ru) | 2015-09-09 | 2015-09-09 | Система распознавания речи с моделью вариативности произношения |
Publications (1)
Publication Number | Publication Date |
---|---|
RU160585U1 true RU160585U1 (ru) | 2016-03-27 |
Family
ID=55659408
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
RU2015138280/08U RU160585U1 (ru) | 2015-09-09 | 2015-09-09 | Система распознавания речи с моделью вариативности произношения |
Country Status (1)
Country | Link |
---|---|
RU (1) | RU160585U1 (ru) |
-
2015
- 2015-09-09 RU RU2015138280/08U patent/RU160585U1/ru not_active IP Right Cessation
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11496582B2 (en) | Generation of automated message responses | |
US11062694B2 (en) | Text-to-speech processing with emphasized output audio | |
US11373633B2 (en) | Text-to-speech processing using input voice characteristic data | |
Capes et al. | Siri on-device deep learning-guided unit selection text-to-speech system. | |
US10140973B1 (en) | Text-to-speech processing using previously speech processed data | |
US10163436B1 (en) | Training a speech processing system using spoken utterances | |
Arora et al. | Automatic speech recognition: a review | |
US10176809B1 (en) | Customized compression and decompression of audio data | |
US20160379638A1 (en) | Input speech quality matching | |
Hazen et al. | Pronunciation modeling using a finite-state transducer representation | |
CN112435654B (zh) | 通过帧插入对语音数据进行数据增强 | |
Stolcke et al. | Highly accurate phonetic segmentation using boundary correction models and system fusion | |
Yeh et al. | An improved framework for recognizing highly imbalanced bilingual code-switched lectures with cross-language acoustic modeling and frame-level language identification | |
RU160585U1 (ru) | Система распознавания речи с моделью вариативности произношения | |
Khalifa et al. | Statistical modeling for speech recognition | |
Salvi | Developing acoustic models for automatic speech recognition | |
Razavi et al. | Pronunciation lexicon development for under-resourced languages using automatically derived subword units: a case study on Scottish Gaelic | |
Mizera | Applying Articulatory Features within Speech Recognition | |
Ni et al. | Prosody dependent Mandarin speech recognition | |
Cai et al. | The DKU Speech Synthesis System for 2019 Blizzard Challenge | |
Akther et al. | AUTOMATED SPEECH-TO-TEXT CONVERSION SYSTEMS IN BANGLA LANGUAGE: A SYSTEMATIC LITERATURE REVIEW | |
Shah et al. | Influence of various asymmetrical contextual factors for TTS in a low resource language | |
Phan et al. | Extracting MFCC, F0 feature in Vietnamese HMM-based speech synthesis | |
Mizera | Rozpoznávání Spontánní Řeči na Bázi Artikulačních Příznaků | |
Lu et al. | Improving Speech Enhancement Performance by Leveraging Contextual Broad Phonetic Class Information |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
MM1K | Utility model has become invalid (non-payment of fees) |
Effective date: 20160910 |