RU2181481C2 - Синтезатор и способ для речевого синтеза (варианты) и радиоустройство - Google Patents
Синтезатор и способ для речевого синтеза (варианты) и радиоустройство Download PDFInfo
- Publication number
- RU2181481C2 RU2181481C2 RU98101107/28A RU98101107A RU2181481C2 RU 2181481 C2 RU2181481 C2 RU 2181481C2 RU 98101107/28 A RU98101107/28 A RU 98101107/28A RU 98101107 A RU98101107 A RU 98101107A RU 2181481 C2 RU2181481 C2 RU 2181481C2
- Authority
- RU
- Russia
- Prior art keywords
- signal
- speech
- excitation
- scaling factor
- gain
- Prior art date
Links
- 230000015572 biosynthetic process Effects 0.000 title claims abstract description 47
- 238000003786 synthesis reaction Methods 0.000 title claims abstract description 46
- 238000000034 method Methods 0.000 title claims description 33
- 230000005284 excitation Effects 0.000 claims abstract description 197
- 230000003044 adaptive effect Effects 0.000 claims abstract description 107
- 238000012545 processing Methods 0.000 claims abstract description 15
- 230000002194 synthesizing effect Effects 0.000 claims abstract description 6
- 230000006872 improvement Effects 0.000 claims description 47
- 230000008447 perception Effects 0.000 claims description 22
- 230000006870 function Effects 0.000 claims description 18
- 238000012805 post-processing Methods 0.000 claims description 12
- 230000004048 modification Effects 0.000 claims description 10
- 238000012986 modification Methods 0.000 claims description 10
- 230000006978 adaptation Effects 0.000 claims description 5
- 230000000694 effects Effects 0.000 abstract description 8
- 239000000126 substance Substances 0.000 abstract 1
- 230000001427 coherent effect Effects 0.000 description 7
- 230000003595 spectral effect Effects 0.000 description 5
- 230000005540 biological transmission Effects 0.000 description 4
- 238000001914 filtration Methods 0.000 description 4
- 230000008569 process Effects 0.000 description 3
- 230000009471 action Effects 0.000 description 2
- 238000004458 analytical method Methods 0.000 description 2
- 230000008901 benefit Effects 0.000 description 2
- 239000002131 composite material Substances 0.000 description 2
- 238000012937 correction Methods 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 238000010348 incorporation Methods 0.000 description 2
- 230000007774 longterm Effects 0.000 description 2
- 238000001228 spectrum Methods 0.000 description 2
- 230000003321 amplification Effects 0.000 description 1
- 230000007423 decrease Effects 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 230000002708 enhancing effect Effects 0.000 description 1
- 239000011094 fiberboard Substances 0.000 description 1
- 238000009472 formulation Methods 0.000 description 1
- 230000008571 general function Effects 0.000 description 1
- 239000000203 mixture Substances 0.000 description 1
- 238000010606 normalization Methods 0.000 description 1
- 238000003199 nucleic acid amplification method Methods 0.000 description 1
- 230000000737 periodic effect Effects 0.000 description 1
- 238000011045 prefiltration Methods 0.000 description 1
- 238000013139 quantization Methods 0.000 description 1
- 230000004044 response Effects 0.000 description 1
- 230000001360 synchronised effect Effects 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
- 210000001260 vocal cord Anatomy 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/04—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
- G10L19/26—Pre-filtering or post-filtering
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/04—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
Landscapes
- Engineering & Computer Science (AREA)
- Multimedia (AREA)
- Human Computer Interaction (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- Physics & Mathematics (AREA)
- Signal Processing (AREA)
- Acoustics & Sound (AREA)
- Compression, Expansion, Code Conversion, And Decoders (AREA)
- Transmission And Conversion Of Sensor Element Output (AREA)
- Analogue/Digital Conversion (AREA)
- Telephonic Communication Services (AREA)
- Reduction Or Emphasis Of Bandwidth Of Signals (AREA)
- Transmission Systems Not Characterized By The Medium Used For Transmission (AREA)
- Soundproofing, Sound Blocking, And Sound Damping (AREA)
- Magnetically Actuated Valves (AREA)
Abstract
Изобретение относится к звуковому или речевому синтезатору для использования со сжатыми закодированными в цифровом виде звуковыми или речевыми сигналами и может быть использовано для постпроцессорной обработки сигналов, выделенных из словаря кодов возбуждения и словаря адаптивных кодов речевого декодера типа линейного кодирования с предсказанием (ЛКП). Постпроцессор работает по сигналу, выделенному из источника возбуждения, путем добавления к нему масштабированного сигнала, выделенного из адаптивного кодового словаря. Коэффициент масштабирования определяется речевыми коэффициентами, вводимыми в генератор возбуждения. Полученный сигнал нормируется и вводится в декодер типа ЛКП или речевой синтезирующий фильтр перед подачей на блок звуковой обработки. Это позволяет улучшить воспринимаемое качество синтезированной речи. 8 с. и 31 з.п. ф-лы, 7 ил.
Description
Изобретение относится к звуковому или речевому синтезатору для использования со сжатыми закодированными в цифровом виде звуковыми или речевыми сигналами. В частности, оно относится к пост-процессору для обработки сигналов, выделенных из словаря кодов возбуждения и словаря адаптивных кодов речевого декодера типа линейного кодирования с предсказанием (ЛКП).
В цифровых радиотелефонных системах информация, т.е. речь, кодируется в цифровом виде перед передачей по эфиру. Затем закодированная речь декодируется в приемнике. Сначала аналоговый речевой сигнал кодируется в цифровом виде с использованием, к примеру, импульсно-кодовой модуляции (ИКМ). Затем речевыми кодерами и декодерами осуществляется речевое кодирование и декодирование ИКМ речи (или исходной речи). Вследствие возрастания использования радиотелефонных систем доступный для таких систем радиоспектр становится тесным. Для того чтобы обеспечить использование доступного радиоспектра наилучшим возможным образом, радиотелефонные системы используют методы речевого кодирования, которые требуют малого числа разрядов при кодирования речи для сужения требуемой при передаче полосы частот. Постоянно предпринимаются попытки снизить число разрядов, требуемых при речевом кодировании для дальнейшего уменьшения необходимой для передачи речи полосы пропускания.
Известный способ речевого кодирования/декодирования основан на методах линейного кодирования с предсказанием (ЛКП) и использует кодирование возбуждения с анализом через синтез. В использующем такой способ кодере речевой отсчет сначала анализируется для выделения параметров, которые представляют такие характеристики, как информация (ЛКП) о форме сигналов речевого отсчета. Эти параметры используются как входы в синтезирующий фильтр с малой постоянной времени. Синтезирующий фильтр с малой постоянной времени возбуждается сигналами, которые выделены из кодового словаря сигналов. Эти сигналы возбуждения могут быть случайными, например, от словаря стохастических кодов, либо могут быть адаптивными или специально оптимизированными для использования в речевом кодировании. Обычно кодовый словарь содержит две части - фиксированный кодовый словарь и адаптивный кодовый словарь. Выходы возбуждения соответствующих кодовых словарей объединяются, и полное возбуждение поступает в синтезирующий фильтр с малой постоянной времени. Каждый сигнал полного возбуждения фильтруется, и результат сравнивается с исходным речевым отсчетом (закодированным ИКМ) для выделения "ошибки" или разности между синтезированным речевым отсчетом и исходным речевым отсчетом. Полное возбуждение, которое приводит к наименьшей ошибке, выбирается в качестве возбуждения для представления речевого отсчета. Кодово-словарные указатели, или адреса местоположения соответствующих частичных оптимальных сигналов возбуждения в фиксированном и адаптивном кодовом словаре передаются на приемник вместе с параметрами или коэффициентами ЛКП. Составной кодовый словарь, такой же как в передатчике, находится и в приемнике, и переданные кодово-словарные указатели и параметры используются для генерирования соответствующего сигнала полного возбуждения из кодового словаря приемника. Этот сигнал полного возбуждения подается затем в синтезирующий фильтр с малой постоянной времени, идентичный такому же фильтру в передатчике и имеющий переданные коэффициенты ЛКП в качестве входов. Выход из синтезирующего фильтра с малой постоянной времени представляет собой кадр синтезированной речи, который является тем же самым, что и генерируемый в передатчике способом анализа через синтез.
Хотя синтезированная речь объективно точна, она звучит искусственно вследствие природы цифрового кодирования. Кроме того, в синтезированную речь вносятся ослабления, искажения и артефакты из-за эффектов квантования и других аномалий вследствие электронной обработки. Такие артефакты, в частности, происходят при малоразрядном кодировании, поскольку информации для точного воспроизведения исходной речи недостаточно. Поэтому предпринимались попытки улучшить воспринимаемое качество синтезированной речи. Это пытались осуществить путем использования пост-фильтров, которые работают на синтезированных отсчетах для улучшения воспринимаемого качества. Известные пост-фильтры расположены на выходе декодера и обрабатывают сигнал синтезированной речи, чтобы подчеркнуть или ослабить то, что в общем случае рассматривается как наиболее важные частотные области в речи. Важность соответствующих областей речевых частот проанализирована заранее путем использования субъективных тестов на качество результирующего речевого сигнала для человеческого уха. Речь можно разделить на две основные части: спектральную огибающую (формантную структуру) или структуру спектральных гармоник (линейную структуру), и обычно пост-фильтрация подчеркивает одну или другую, либо обе эти части речевого сигнала. Фильтровые коэффициенты пост-фильтра адаптируются в зависимости от характеристик речевого сигнала для согласования звуков речи. Фильтр, подчеркивающий или ослабляющий гармоническую структуру, обычно называется пост-фильтром с большой постоянной времени, или пост-фильтром основного тона, или пост-фильтром длительной задержки, а фильтр, подчеркивающий структуру спектральной огибающей, обычно называется пост-фильтром краткой задержки, или пост-фильтром с малой постоянной времени.
Известный, кроме того, способ фильтрации для улучшения воспринимаемого качества синтезированной речи рассматривается в международной патентной заявке WO 91/06091. В заявке WO 91/06091 рассматривается предварительный фильтр основного тона, содержащий фильтр улучшения основного тона, обычно расположенный в позиции после речевого синтеза или фильтра ЛКП, перемещенный в позицию перед речевым синтезом или фильтром ЛКП, где он фильтрует информацию основного тона, содержащуюся в сигналах возбуждения, входящих в речевой синтез или фильтр ЛКП.
Однако существует все же желание получить синтезированную речь, которая имеет еще лучшее воспринимаемое качество.
Согласно первому аспекту данного изобретения, имеется синтезатор речи ЛКП типа, содержащий пост-процессорное средство для работы на первом сигнале, включающем информацию о периодичности речи, выделенную из источника сигнала возбуждения,
где источник сигнала возбуждения содержит фиксированный кодовый словарь и адаптивный кодовый словарь, и средство получения первого сигнала путем комбинирования первого и второго сигналов частичного возбуждения, происходящих из фиксированного и адаптивного кодовых словарей,
где пост-процессорное средство способно видоизменять содержание информации о периодичности речи первого сигнала в соответствии со вторым сигналом, происходящим из источника сигнала возбуждения, посредством содержания средства регулирования коэффициента усиления для масштабирования второго сигнала в соответствии с первым коэффициентом масштабирования (р), выделяемым из информации основного тона, связанной с первым сигналом, и средства для комбинирования второго сигнала с первым сигналом.
где источник сигнала возбуждения содержит фиксированный кодовый словарь и адаптивный кодовый словарь, и средство получения первого сигнала путем комбинирования первого и второго сигналов частичного возбуждения, происходящих из фиксированного и адаптивного кодовых словарей,
где пост-процессорное средство способно видоизменять содержание информации о периодичности речи первого сигнала в соответствии со вторым сигналом, происходящим из источника сигнала возбуждения, посредством содержания средства регулирования коэффициента усиления для масштабирования второго сигнала в соответствии с первым коэффициентом масштабирования (р), выделяемым из информации основного тона, связанной с первым сигналом, и средства для комбинирования второго сигнала с первым сигналом.
Согласно второму аспекту данного изобретения, имеется способ последующей обработки для улучшения ЛКП-синтезированной речи, включающий в себя этапы выделения первого сигнала, включающего информацию о периодичности речи, из источника сигнала возбуждения, причем источник сигнала возбуждения содержит фиксированный кодовый словарь и адаптивный кодовый словарь, получения первого сигнала путем комбинирования первого и второго сигналов частичного возбуждения, исходящих из фиксированного и адаптивного кодовых словарей, видоизменения содержания информации о периодичности речи первого сигнала в соответствии со вторым сигналом, происходящим из источника сигнала возбуждения путем масштабирования второго сигнала в соответствии с первым коэффициентом масштабирования, выделенным из информации основного тона, связанной с первым сигналом, и комбинирования второго сигнала с первым сигналом.
Преимущество настоящего изобретения состоит в том, что первый сигнал видоизменяется вторым сигналом, возникающим из того же самого источника, что и первый сигнал, тем самым не вводится никаких дополнительных источников искажений или артефактов, таких, как излишние фильтры. Используются лишь сигналы, генерируемые в источнике возбуждения. Относительные вклады сигналов, присущих генератору возбуждения, в речевом синтезаторе видоизменяются для изменения масштаба синтезируемых сигналов в отсутствие искусственно добавочных сигналов.
Хорошее улучшение речи можно получить, если пост-обработка возбуждения основана на видоизменении относительных вкладов компонент возбуждения, выделенных в генераторе возбуждения самого речевого синтезатора.
Обработка возбуждения путем фильтрации полного возбуждения ех(n) без рассмотрения или видоизменения относительных вкладов сигналов, присущих генератору возбуждения, т. е. v(n) и сi(n) обычно не дает наилучшего возможного улучшения. Видоизменение первого сигнала согласно второму сигналу от того же самого источника возбуждения повышает непрерывность формы сигнала в возбуждении и в результирующем синтезированном речевом сигнале, тем самым улучшая воспринимаемое качество.
В предпочтительном выполнении источник возбуждения содержит фиксированный кодовый словарь и адаптивный кодовый словарь, при этом первый сигнал выделяется из комбинации первого и второго частичных сигналов возбуждения, соответственно выбираемых из фиксированного и адаптивного кодовых словарей, что представляет собой чрезвычайно удобный источник возбуждения для речевого синтезатора.
Предпочтительно, имеется усилительный элемент для масштабирования второго сигнала согласно масштабному коэффициенту (р), выделяемому из информации основного тона, связанной с первым сигналом из источника возбуждения, что имеет преимущество, т.к. содержание информации о периодичности речи первого сигнала видоизменяется, что имеет больший эффект на воспринимаемое качество речи, чем иные видоизменения.
Соответственно масштабный коэффициент (р) выделяется из масштабного коэффициента (b) адаптивного кодового словаря, и масштабный коэффициент (р) выделяется в соответствии со следующим уравнением:
b < Пнижн, то р = 0,0,
Пниз ≤ b < П2, то р = аулучш1f1(b),
если П2 ≤ b < П3, то р = аулучш2f2(b),
ПN-1 ≤ b < Пверх, то р = аулучшN-1fN-1(b),
b > Пверх, то р = аулучшNfN (b),
где П представляет пороговые значения, b является коэффициентом усиления адаптивного кодового словаря, р представляет собой масштабный коэффициент пост-процессорного средства, aулучш является линейным множителем, a f(b) есть функция от усиления b.
b < Пнижн, то р = 0,0,
Пниз ≤ b < П2, то р = аулучш1f1(b),
если П2 ≤ b < П3, то р = аулучш2f2(b),
ПN-1 ≤ b < Пверх, то р = аулучшN-1fN-1(b),
b > Пверх, то р = аулучшNfN (b),
где П представляет пороговые значения, b является коэффициентом усиления адаптивного кодового словаря, р представляет собой масштабный коэффициент пост-процессорного средства, aулучш является линейным множителем, a f(b) есть функция от усиления b.
В конкретном выполнении масштабный коэффициент (р) выделяется согласно
b < Пнижн, то р = 0,0,
если Пнижн ≤ b ≤ Пверх, то р = аулучшb2,
b > Пверх, то р = аулучшb,
где аулучш представляет собой постоянную, которая управляет интенсивностью операции улучшения, b является усилением адаптивного кодового словаря, П есть пороговые значения, а р является пост-процессорным масштабным коэффициентом, который использует понимание того, что улучшение речи наиболее эффективно для огласованной речи, где b обычно имеет высокое значение, тогда как для неогласованных звуков, где b имеет низкое значение, требуется не настолько сильное улучшение.
b < Пнижн, то р = 0,0,
если Пнижн ≤ b ≤ Пверх, то р = аулучшb2,
b > Пверх, то р = аулучшb,
где аулучш представляет собой постоянную, которая управляет интенсивностью операции улучшения, b является усилением адаптивного кодового словаря, П есть пороговые значения, а р является пост-процессорным масштабным коэффициентом, который использует понимание того, что улучшение речи наиболее эффективно для огласованной речи, где b обычно имеет высокое значение, тогда как для неогласованных звуков, где b имеет низкое значение, требуется не настолько сильное улучшение.
Второй сигнал может возникать из адаптивного кодового словаря и может также быть практически тем же самым, что и второй частичный сигнал возбуждения. Альтернативно, второй сигнал может возникать из фиксированного кодового словаря и может быть также практически тем же самым, что и первый частичный сигнал возбуждения.
Для второго сигнала, возникающего из фиксированного кодового словаря, средство регулирования усиления приспособлено масштабировать второй сигнал согласно второму коэффициенту (р'), где
где g является масштабным коэффициентом фиксированного кодового словаря, b есть масштабный коэффициент адаптивного кодового словаря.
где g является масштабным коэффициентом фиксированного кодового словаря, b есть масштабный коэффициент адаптивного кодового словаря.
Первый сигнал может быть первым сигналом возбуждения, пригодным для введения в речевой синтезирующий фильтр, а второй сигнал может быть вторым сигналом возбуждения, пригодным для введения в речевой синтезирующий фильтр. Второй сигнал возбуждения может быть практически тем же самым, что и второй частичный сигнал возбуждения.
В некоторых случаях первый сигнал может быть выходом первого синтезированного речевого сигнала из первого речевого синтезирующего фильтра, выделяемым из первого сигнала возбуждения, а второй сигнал может быть выходом из второго речевого синтезирующего фильтра, выделяемым из второго сигнала возбуждения. Преимущество этого в том, что улучшение речи осуществляется над действительно синтезированной речью, и тем самым имеется меньше электронных компонент, влияющих на внесение искажений в сигнал перед тем, как он воспроизводится в звуке.
Выгодно, чтобы предусматривалось адаптивное средство управления энергией, приспособленное для масштабирования видоизмененного первого сигнала согласно следующему соотношению:
где N есть соответственно выбранный период адаптации, eх(n) представляет собой первый сигнал, ew'(n) есть видоизмененный первый сигнал, a k является масштабным коэффициентом энергии, который нормирует результирующий улучшенный сигнал к мощности входа в речевой синтезатор.
где N есть соответственно выбранный период адаптации, eх(n) представляет собой первый сигнал, ew'(n) есть видоизмененный первый сигнал, a k является масштабным коэффициентом энергии, который нормирует результирующий улучшенный сигнал к мощности входа в речевой синтезатор.
В третьем аспекте согласно этому изобретению предлагается радиоустройство, содержащее:
высокочастотное средство для приема радиосигнала и восстановления закодированной информации, содержащейся в этом радиосигнале, и синтезатор в соответствии с любым из пп.1-14.
высокочастотное средство для приема радиосигнала и восстановления закодированной информации, содержащейся в этом радиосигнале, и синтезатор в соответствии с любым из пп.1-14.
В четвертом аспекте изобретения имеется синтезатор речи ЛКП-типа, включающий в себя:
адаптивный кодовый словарь и фиксированный кодовый словарь для генерирования первого и второго сигналов частичного возбуждения, соответственно,
средство масштабирования для масштабирования первого и второго сигналов частично возбуждения посредством коэффициентов масштабирования, полученных из адаптивного и фиксированного кодовых словарей, соответственно, видоизменяющее средство для видоизменения первого сигнала возбуждения в соответствии с еще одним коэффициентом масштабирования, причем коэффициент масштабирования является функцией информации основного тона, связанной с первым сигналом возбуждения, и средство комбинирования второго сигнала частичного возбуждения с видоизмененным первым сигналом частичного возбуждения.
адаптивный кодовый словарь и фиксированный кодовый словарь для генерирования первого и второго сигналов частичного возбуждения, соответственно,
средство масштабирования для масштабирования первого и второго сигналов частично возбуждения посредством коэффициентов масштабирования, полученных из адаптивного и фиксированного кодовых словарей, соответственно, видоизменяющее средство для видоизменения первого сигнала возбуждения в соответствии с еще одним коэффициентом масштабирования, причем коэффициент масштабирования является функцией информации основного тона, связанной с первым сигналом возбуждения, и средство комбинирования второго сигнала частичного возбуждения с видоизмененным первым сигналом частичного возбуждения.
В пятом аспекте имеется синтезатор речи ЛКП-типа, включающий в себя: адаптивный кодовый словарь и фиксированный кодовый словарь для генерирования первого и второго сигналов частичного возбуждения, соответственно,
средство масштабирования для масштабирования первого и второго сигналов частичного возбуждения посредством коэффициентов масштабирования, полученных из адаптивного и фиксированного кодовых словарей, соответственно, видоизменяющее средство для видоизменения второго сигнала возбуждения в соответствии с еще одним коэффициентом масштабирования, причем коэффициент масштабирования является функцией информации основного тона, связанной с первым сигналом возбуждения, и
средство комбинирования видоизмененного второго сигнала частичного возбуждения с первым сигналом частичного возбуждения.
средство масштабирования для масштабирования первого и второго сигналов частичного возбуждения посредством коэффициентов масштабирования, полученных из адаптивного и фиксированного кодовых словарей, соответственно, видоизменяющее средство для видоизменения второго сигнала возбуждения в соответствии с еще одним коэффициентом масштабирования, причем коэффициент масштабирования является функцией информации основного тона, связанной с первым сигналом возбуждения, и
средство комбинирования видоизмененного второго сигнала частичного возбуждения с первым сигналом частичного возбуждения.
Четвертый и пятый аспекты изобретения выгодно интегрируют масштабирование сигналов возбуждения в самом генераторе возбуждения.
Рассмотрим теперь выполнения согласно изобретению посредством только примеров и со ссылками на сопровождающие чертежи.
Фиг. 1 показывает схему известного кодера кодовых возбуждений с линейным предсказанием (КВЛП).
Фиг.2 показывает схему известного декодера КВЛП.
Фиг.3 показывает схему декодера КВЛП согласно первому варианту выполнения изобретения.
Фиг.4 показывает второй вариант выполнения согласно изобретению.
Фиг.5 показывает третий вариант выполнения согласно изобретению.
Фиг.6 показывает четвертый вариант выполнения согласно изобретению.
Фиг.7 показывает пятый вариант выполнения согласно изобретению.
На фиг.1 показан известный кодер 100 КВЛП. Исходные речевые сигналы входят в кодер 102, и коэффициенты Т, b долговременного предсказания (ДВП) определяются с использованием адаптивного кодового словаря 104. Эти коэффициенты ДВП определяются для сегментов речи, обычно содержащих 40 отсчетов, и имеют длину 5 мс. Эти коэффициенты ДВП относятся к периодическим характеристикам исходной речи. Это включает в себя любую периодичность в исходной речи, а не только ту периодичность, которая соответствует основному тону исходной речи вследствие колебаний голосовых связок человека, произносящего исходную речь.
Долговременное предсказание выполняется с использованием адаптивного кодового словаря 104 и усилительного элемента 114, который содержит часть генератора 126 сигнала (ех(n)) возбуждения, показанного пунктиром на фиг.1. Предыдущие сигналы ех(n) возбуждения запоминаются в адаптивном кодовом словаре 104 посредством петли 122 обратной связи. Во время процесса ДВП адаптивный кодовый словарь просматривается путем изменения адреса Т, известного как задержка или запаздывание, указывающего предыдущие сигналы ех(n) возбуждения. Эти сигналы последовательно выводятся и усиливаются в усилительном элементе 114 с масштабным коэффициентом b для образования сигналов v(n) перед добавлением в элементе 118 к сигналу сi(n) возбуждения, выделенному из фиксированного кодового словаря 112 и умноженного на коэффициент g в усилительном элементе 116. Коэффициенты линейного предсказания (ЛП) для речевого отсчета вычисляются в элементе 106. Коэффициенты ЛП квантуются затем в элементе 108. Квантованные коэффициенты ЛП доступны затем для передачи по эфиру и для введения в фильтр 110 с малой постоянной времени. Коэффициенты ЛП (r(i), i=1,..., m, где m является порядком предсказания) вычисляются для сегментов речи, содержащих 160 отсчетов на 20 мс. Вся дальнейшая обработка обычно выполняется в сегментах из 40 отсчетов, т.е. на длине кадра возбуждения в 5 мс. Коэффициенты ЛП относятся к спектральной огибающей исходного речевого сигнала.
Генератор 126 возбуждения фактически содержит составной кодовый словарь 104, 112, содержащий набор кодов для возбуждения синтезирующего фильтра 110 с малой постоянной времени. Эти коды содержат последовательности амплитуд напряжения, каждая из которых соответствует речевому отсчету в речевом кадре.
Каждый сигнал eх(n) полного возбуждения является входом для синтезирующего фильтра 110 ЛКП или с малой постоянной времени для образования синтезированного речевого отсчета s(n). Этот синтезированный речевой отсчет s(n) является входом для отрицательного входа сумматора 120, положительным входом для которого является исходный речевой отсчет. Сумматор 120 выдает разность между исходным речевым отсчетом и синтезированным речевым отсчетом, причем эта разность известна как объективная ошибка. Эта объективная ошибка вводится в элемент 124 выбора наилучшего возбуждения, который выбирает полное возбуждение eх(n), проявляющееся в синтезированном речевом кадре s(n) с наименьшей объективной ошибкой. В процессе этого выбора объективная ошибка далее обычно взвешивается для подчеркивания тех спектральных областей речевого сигнала, которые важны для человеческого восприятия. Затем соответствующие параметры адаптивного и фиксированного кодовых словарей (усиление b и задержка Т, а также усиление g и указатель i), дающие сигнал eх(n) наилучшего возбуждения, передаются вместе с коэффициентами r(i) фильтра ЛКП на приемник для использования в синтезировании речевого кадра для восстановления исходного речевого сигнала.
На фиг. 2 показан декодер, пригодный для декодирования речевых параметров, генерируемых кодером, описанным со ссылкой на фиг.1. Высокочастотный (ВЧ) блок 201 принимает кодированный речевой сигнал через антенну 212. Принятый высокочастотный сигнал преобразуется с понижением на частоту модулирующих сигналов и демодулируется в ВЧ блоке 201 для восстановления речевой информации. В общем случае, кодированная речь дополнительно кодируется перед передачей, чтобы включать в себя канальное кодирование и кодирование с исправлением ошибок. Это канальное кодирование и кодирование с исправлением ошибок должно декодироваться в приемнике перед тем, как можно обратиться к речевому кодированию или выделить его. Параметры речевого кодирования выделяются параметрическим декодером 202. Параметры речевого кодирования в речевом кодировании с линейным предсказанием представляют собой набор коэффициентов r(i) синтезирующего фильтра ЛКП (i=1,..., m, где m - порядок предсказания), указатель i фиксированного кодового словаря и усиление g. Выделяются также такие параметры речевого кодирования адаптивного кодового словаря, как задержка Т и усиление b.
Речевой декодер 200 использует вышеупомянутые параметры речевого кодирования для получения от генератора 211 возбуждения сигнала eх(n) возбуждения для введения в синтезирующий фильтр 208 ЛКП, который выдает на своем выходе сигнал s(n) синтезированного речевого кадра в качестве отклика на сигнал eх(n) возбуждения. Сигнал е(n) синтезированного речевого кадра обрабатывается далее в блоке 209 звуковой обработки и выдается в звуковом виде через соответствующий звуковой преобразователь 210.
В обычных речевых декодерах с линейным предсказанием сигнал ех(n) возбуждения для синтезирующего фильтра 208 ЛКП образуется в генераторе 211 возбуждения, содержащем фиксированный кодовый словарь 203, генерирующий последовательность сi(n) возбуждения, и адаптивный кодовый словарь 204. Положение кодово-словарной последовательности ех(n) возбуждения в соответствующих кодовых словарях 203, 204 указывается параметром i речевого кодирования и задержкой Т. Последовательность сi(n) возбуждения фиксированного кодового словаря, частично используемая для образования сигнала eх(n) возбуждения, берется из фиксированного кодового словаря 203 возбуждения из положения, указанного указателем i, и затем соответственно масштабируется переданным коэффициентом g усиления в масштабирующем блоке 205. Аналогично, последовательность v(n) возбуждения адаптивного кодового словаря, также частично используемая для образования сигнала eх(n) возбуждения, берется из адаптивного кодового словаря 204 из положения, указанного задержкой Т, с использованием логики выбора, присущей адаптивному кодовому словарю, а затем соответственно масштабируется переданным коэффициентом b усиления в масштабирующем блоке 206.
Адаптивный кодовый словарь 204 работает на последовательности сi(n) возбуждения фиксированного кодового словаря путем добавления компоненты v(n) частичного возбуждения к последовательности g сi(n) возбуждения кодового словаря. Вторая компонента выделяется из прошлых сигналов возбуждения с помощью уже описанного со ссылкой на фиг.1 способа и выбирается из адаптивного кодового словаря 204 с использованием логики выбора, соответственно включенной в адаптивный кодовый словарь. Компонента v(n) соответственно масштабируется в масштабирующем блоке 206 переданным усилением b адаптивного кодового словаря, а затем добавляется к g сi(n) в сумматоре 207 для образования сигнала ех(n) полного возбуждения, где
eх(n) = g сi(n) + b v(n). (1)
Затем адаптивный кодовый словарь 204 обновляется за счет использования сигнала ех(n) полного возбуждения.
eх(n) = g сi(n) + b v(n). (1)
Затем адаптивный кодовый словарь 204 обновляется за счет использования сигнала ех(n) полного возбуждения.
Положение второй компоненты v(n) частичного возбуждения в адаптивном кодовом словаре 204 указывается параметром Т речевого кодирования. Адаптивная компонента возбуждения выбирается из адаптивного кодового словаря с использованием параметра Т речевого кодирования и логики выбора, включенной в адаптивный кодовый словарь.
Декодер 300 речевого синтеза ЛКП согласно изобретению показан на фиг.3. Действие речевого синтеза согласно фиг.3 то же самое, что и для фиг.2, за исключением того, что сигнал eх(n) полного возбуждения перед тем, как быть использованным в качестве возбуждения для синтезирующего фильтра 208 ЛКП, обрабатывается в пост-процессорном блоке 317 (блоке пост-обработки). Действие схемных элементов 201-212 на фиг.3 такое же, как у элементов с теми же позициями на фиг.2.
Согласно аспекту изобретения, в речевом декодере 300 для полного возбуждения eх(n) используется пост-процессорный блок 317. Этот пост-процессорный блок 317 содержит сумматор 313 для добавления третьей компоненты к полному возбуждению eх(n). Затем усилительный блок 315 соответственно масштабирует результирующий сигнал ew'(n) для образования сигнала ew(n), который используется потом для возбуждения синтезирующего фильтра 208 ЛКП, чтобы получить синтезированный речевой сигнал Sew(n). Речевое синтезирование согласно изобретению улучшает воспринимаемое качество по сравнению с речевым сигналом s(n), синтезированным известным декодером речевого синтеза, показанным на фиг.2.
Пост-процессорный блок 317 имеет вход полного возбуждения ех(n) и выдает полное возбуждение ew(n) улучшенного восприятия. Пост-процессорный блок 317 имеет также усиление b адаптивного кодового словаря и немасштабированную компоненту v(n) частичного возбуждения, которая берется из адаптивного кодового словаря 204 в положении, указанном параметрами речевого кодирования как дополнительными входами. Компонента v(n) частичного возбуждения практически та же самая компонента, которая используется в генераторе 211 возбуждения для образования второй компоненты bv(n) возбуждения, которая добавляется к масштабированному возбуждению gci(n) кодового словаря для образования полного возбуждения eх(n). При использовании последовательности возбуждения, которая выделяется из адаптивного кодового словаря 204, никакие источники артефактов не добавляются к электронике речевой обработки, как в случае с известными методами пост- или предварительной фильтрации, которые используют лишние фильтры. Блок 317 пост-обработки возбуждения содержит также масштабирующий блок 314, который масштабирует компоненту v(n) частичного возбуждения масштабным коэффициентом р, и масштабированная компонента pv(n) добавляется сумматором 313 к компоненте ех(n) полного возбуждения. Выход сумматора 313 представляет собой промежуточный сигнал ew'(n) полного возбуждения. Он имеет вид
ew'(n) = gci(n) + bv(n) + pv(n) = gci(n) + (b + p) v(n). (2)
Масштабный коэффициент р для масшибирующего блока 314 определяется в блоке 312 регулировки усиления улучшенного восприятия с использованием усиления b адаптивного кодового словаря. Масштабный коэффициент р перемасштабирует вклад двух компонент возбуждения из фиксированного и адаптивного кодовых словарей, соответственно сi(n) и v(n). Масштабный коэффициент p регулируется так, что во время отсчетов синтезированного речевого кадра, которые имеют высокое значение усиления b адаптивного кодового словаря, этот масштабный коэффициент р увеличивается, в во время речи, которая имеет низкое значение усиления b адаптивного кодового словаря, масштабный коэффициент р снижается. Кроме того, когда b меньше, чем пороговое значение (b <Пнижн), масштабный коэффициент р устанавливается на нуль. Блок 312 регулировки усиления улучшенного восприятия работает в соответствии с приведенным ниже уравнением (3).
ew'(n) = gci(n) + bv(n) + pv(n) = gci(n) + (b + p) v(n). (2)
Масштабный коэффициент р для масшибирующего блока 314 определяется в блоке 312 регулировки усиления улучшенного восприятия с использованием усиления b адаптивного кодового словаря. Масштабный коэффициент р перемасштабирует вклад двух компонент возбуждения из фиксированного и адаптивного кодовых словарей, соответственно сi(n) и v(n). Масштабный коэффициент p регулируется так, что во время отсчетов синтезированного речевого кадра, которые имеют высокое значение усиления b адаптивного кодового словаря, этот масштабный коэффициент р увеличивается, в во время речи, которая имеет низкое значение усиления b адаптивного кодового словаря, масштабный коэффициент р снижается. Кроме того, когда b меньше, чем пороговое значение (b <Пнижн), масштабный коэффициент р устанавливается на нуль. Блок 312 регулировки усиления улучшенного восприятия работает в соответствии с приведенным ниже уравнением (3).
b < Пнижн, р = 0,0,
если Пнижн ≤ b ≤ Пвeрх , р = aулучшb2,
b > Пвeрх, р = aулучшb (3),
где aулучш является постоянной, которая управляет интенсивностью операции улучшения. Заявитель обнаружил, что хорошим значением для аулучш является 0,25, а хорошие значения для Пнижн и Пверх составляют, соответственно, 0,5 и 1,0.
если Пнижн ≤ b ≤ Пвeрх , р = aулучшb2,
b > Пвeрх, р = aулучшb (3),
где aулучш является постоянной, которая управляет интенсивностью операции улучшения. Заявитель обнаружил, что хорошим значением для аулучш является 0,25, а хорошие значения для Пнижн и Пверх составляют, соответственно, 0,5 и 1,0.
Уравнение (3) может иметь более общий вид, и обобщенная формулировка функции улучшения дана ниже в уравнении (4). В общем случае может быть больше, чем два порога для улучшенного усиления b. Кроме того, усиление можно определить как более общую функцию от b.
b < Пнижн, р = 0,0,
Пнижн ≤ b <П2, р = aулучш1f1(b),
П2≤b < П3, р = аупучш2f2(b),
если
ПN-1 ≤ b ≤ Пверх, р = аулучшN-1fN-1(b),
b > Пверх, р = aулучшNfN(b). (4)
В описанном ранее предпочтительном выполнении N = 2, Пнижн = 0,5, П2= 1,0, П3 = ∞, аулучш1 = 0,25, аулучш = 0,25, f1(b) = b2, f2(b) = b.
Пнижн ≤ b <П2, р = aулучш1f1(b),
П2≤b < П3, р = аупучш2f2(b),
если
ПN-1 ≤ b ≤ Пверх, р = аулучшN-1fN-1(b),
b > Пверх, р = aулучшNfN(b). (4)
В описанном ранее предпочтительном выполнении N = 2, Пнижн = 0,5, П2= 1,0, П3 = ∞, аулучш1 = 0,25, аулучш = 0,25, f1(b) = b2, f2(b) = b.
Пороговые значения (П), улучшенные значения (аулучш) и функции (f(b)) усиления получены эмпирически. Поскольку единственную естественную меру качества воспринимаемой речи можно получить людьми, прослушивающими речь и дающими их субъективные мнения по качеству этой речи, значения, использованные в уравнениях (3) и (4), определены экспериментально. Пробовались различные значения для улучшенных порогов и функций усиления, и выбирались их результаты в наилучшем звучании речи. Заявитель использовал понимание того, что улучшение в качестве речи при использовании этого способа особенно эффективно для огласованной речи, где b обычно имеет высокое значение, тогда как для менее огласованных звуков, которые имеют более низкое значение b, не требуется такого сильного улучшения. Таким образом, значение р управляется так, что для огласованных звуков, где искажения наиболее слышны, эффект силен, а для неогласованных звуков эффект слабее или не используется вовсе. Таким образом, как общее правило, функции (fn) должны выбираться так, чтобы больший эффект был для более высоких значений b, чем для более низких значений b. Это увеличивает разность между компонентами основного тона речи и иными компонентами.
В предпочтительном варианте выполнения, работающем в соответствии с уравнением (3), функции, меняющиеся от значения b усиления, имеют квадратичную зависимость от средних по диапазону значений b и линейную зависимость от высоких по диапазону значений b. Нынешнее понимание заявителя состоит в том, что это дает хорошее качество речи, т.к. для высоких значений b, т.е. высоко огласованной речи, эффект больше, а для низких значений b эффект меньше. Это имеет место потому, что b лежит обычно в диапазоне -1<b<1 и поэтому b2<b.
Чтобы обеспечить единое усиление мощности между входным сигналом eх(n) и выходным сигналом ew(n) блока 317 пост-обработки возбуждения, масштабный коэффициент вычисляется и используется в масштабирующем блоке 315 для масштабирования промежуточного сигнала ew'(n) возбуждения, чтобы получить пост-процессорный сигнал ew(n) возбуждения. Масштабный коэффициент k задан как
где N представляет собой соответственно выбранный период адаптации. Обычно N устанавливается равным длине кадра возбуждения речевого кодека ЛКП.
где N представляет собой соответственно выбранный период адаптации. Обычно N устанавливается равным длине кадра возбуждения речевого кодека ЛКП.
В адаптивном кодовом словаре кодера для значений Т, которые меньше, чем длина кадра или длина возбуждения, часть последовательности возбуждения неизвестна. Для этих неизвестных частей в адаптивном кодовом словаре генерируется на месте заменяющая последовательность путем использования соответствующей логики выбора. Из уровня техники известно несколько методов в адаптивном кодовом словаре для генерирования этой заменяющей последовательности. Обычно копия части известного возбуждения копируется туда, где расположена неизвестная часть, благодаря чему создается законченная последовательность возбуждения. Скопированная часть может каким-либо образом приспосабливаться для улучшения качества результирующего речевого сигнала. При выполнении такой копии значение задержки Т не используется, т.к. оно указывало бы неизвестную часть. Вместо этого используется конкретная логика выбора, дающая в результате видоизмененное значение для Т (например, с использованием Т, умноженного на целочисленный коэффициент, так что оно всегда указывает на известную часть сигнала). Поскольку декодер синхронизируется с кодером, сходные модификации осуществляются и в адаптивном кодовом словаре декодера. За счет использования в адаптивном кодовом словаре логики выбора для генерирования заменяющей последовательности, этот адаптивный кодовый словарь способен адаптироваться к голосам с высоким основным тоном, таким, как женские и детские голоса, что приводит в результате к эффективному генерированию возбуждения и улучшенному качеству речи для этих голосов.
Для получения хорошего улучшения восприятия, в улучшенной пост-обработке принимаются во внимание все видоизменения, присущие адаптивному кодовому словарю, например, для значений Т меньше, чем длина кадра. Согласно изобретению, это достигается использованием последовательности v(n) частичного возбуждения из адаптивного кодового словаря и перемасштабированием компонент возбуждения, присущих генератору возбуждения речевого синтезатора.
Вкратце, способ улучшает воспринимаемое качество синтезированной речи и снижает звуковые артефакты за счет адаптивного масштабирования, в соответствии с уравнениями (2), (3), (4) и (5), вклада компонент частичного возбуждения, взятых их кодового словаря 203 и из адаптивного кодового словаря 204.
Фиг.4 показывает второй вариант выполнения согласно изобретению, в котором блок 417 пост-обработки возбуждения расположен после синтезирующего фильтра 208 ЛКП, как представлено. В этом выполнении дополнительный синтезирующий фильтр 408 ЛКП требуется для третьей компоненты возбуждения, которая выделяется из адаптивного кодового словаря 204. На фиг.4 элементы, которые имеют те же самые позиции, что и на фиг.2 и 3, также имеют те же самые функции.
Во втором варианте выполнения, показанном на фиг.4, синтезирующий фильтр ЛКП улучшает восприятие пост-процессором 417. Сигнал eх(n) полного восприятия, выделенный из кодового словаря 203 и адаптивного кодового словаря 204, вводится в синтезирующий фильтр 208 ЛКП и обрабатывается обычным образом в соответствии с коэффициентами r(i). Дополнительная или третья компонента v(n) частичного возбуждения, выделенная из адаптивного кодового словаря 204 способом, описанным в отношении фиг.3, вводится без масштабирования во второй синтезирующий фильтр 408 ЛКП и обрабатывается в соответствии с коэффициентами r(i). Выходы s(n) и sv(n) соответствующих фильтров 208, 408 ЛКП вводятся в пост-процессор 417 и складываются в сумматоре 413. Перед введением в сумматор 413 сигнал sv(n) масштабируется масштабным коэффициентом р. Как описано для фиг.3, значения для масштабного коэффициента обработки или усиления р можно получить эмпирически. Вдобавок, третья компонента частичного возбуждения может быть выделена из фиксированного кодового словаря 203, а масштабированный речевой сигнал р'sv(n) вычитается из речевого сигнала s(n).
Результирующий выход sw(n) улучшенного восприятия вводится затем в блок 209 звуковой обработки.
Можно выполнить дальнейшую модификацию улучшенной системы путем перемещения масштабирующего блока 414 на фиг.4 в положение перед синтезирующим фильтром 408 ЛКП. Расположение пост-процессора 417 после синтезирующих фильтров 208, 408 ЛКП или с малой постоянной времени может обеспечить лучшее управление подчеркиванием речевого сигнала, поскольку оно выполняется прямо на речевом сигнале, а не на сигнале возбуждения. Тем самым, вероятно, будет меньше искажений.
Улучшения можно достичь и такой модификацией вариантов, описанных со ссылками на фиг. 3 и 4, что дополнительная (третья) компонента возбуждения выделяется из фиксированного кодового словаря 203 вместо адаптивного кодового словаря 204. Затем следует использовать отрицательный масштабный коэффициент вместо исходного положительного коэффициента р усиления, чтобы понизить усиление для последовательности сi(n) возбуждения из фиксированного кодового словаря. Это приводит к такому же видоизменению относительных вкладов сигналов сi(n) и v(n) частичного возбуждения в речевой синтез, как и достигаемое вариантами по фиг.3 и 4.
Фиг.5 показывает вариант выполнения согласно изобретению, в котором можно достичь того же результата, что и при использовании масштабного коэффициента р и дополнительной компоненты возбуждения из адаптивного кодового словаря. В этом варианте выполнения последовательность сi(n) возбуждения фиксированного кодового словаря вводится в масштабирующий блок 314, который работает в соответствии с масштабным коэффициентом р', выводимым из второй регулировки 512 усиления улучшенного восприятия. Масштабированное возбуждение p'ci(n) фиксированного кодового словаря, выводимое из масштабирующего блока 314, вводится в сумматор 313, где оно добавляется к последовательности eх(n) полного возбуждения, содержащей компоненты сi(n) и v(n) из фиксированного кодового словаря 203 и адаптивного кодового словаря 204, соответственно.
При увеличении усиления для сигнала v(n) последовательности возбуждения из адаптивного кодового словаря 204 полное возбуждение (перед адаптивной регулировкой 316 энергии) задается уравнением (2), а именно:
ew'(n) = gci(n) + (b + р) v(n). (2)
При понижении усиления для последовательности сi(n) возбуждения из фиксированного кодового словаря 203 полное возбуждение (перед адаптивной регулировкой 316 энергии) задается как
ew'(n) = (g + p')ci(n) + bv(n), (6)
где р' представляет собой масштабный коэффициент, выделенный из второй регулировки 512 усиления улучшенного восприятия, показанной на фиг.5. Взяв уравнение (2) и переписав его в виде, аналогичном уравнению (6), получим:
Таким образом, выбирая
в варианте по фиг.5 получается такое же улучшение, как и достигнутое в варианте по фиг. 3. Когда промежуточный сигнал ew'(n) масштабируется адаптивной регулировкой 316 энергии до такой же величины энергии, что и ех(n), оба варианта выполнения, на фиг.3 и фиг.5, дают один и тот же сигнал ew(n) полного возбуждения.
ew'(n) = gci(n) + (b + р) v(n). (2)
При понижении усиления для последовательности сi(n) возбуждения из фиксированного кодового словаря 203 полное возбуждение (перед адаптивной регулировкой 316 энергии) задается как
ew'(n) = (g + p')ci(n) + bv(n), (6)
где р' представляет собой масштабный коэффициент, выделенный из второй регулировки 512 усиления улучшенного восприятия, показанной на фиг.5. Взяв уравнение (2) и переписав его в виде, аналогичном уравнению (6), получим:
Таким образом, выбирая
в варианте по фиг.5 получается такое же улучшение, как и достигнутое в варианте по фиг. 3. Когда промежуточный сигнал ew'(n) масштабируется адаптивной регулировкой 316 энергии до такой же величины энергии, что и ех(n), оба варианта выполнения, на фиг.3 и фиг.5, дают один и тот же сигнал ew(n) полного возбуждения.
Вторая регулировка 512 усиления улучшенного восприятия может поэтому использовать ту же самую обработку, которая используется в отношении вариантов по фиг. 3 и 4, для генерирования "р", а затем использовать уравнение (8) для получения р'.
Промежуточный сигнал ew'(n) полного возбуждения, выводимый из сумматора 313, масштабируется в масштабном блоке 315 под управлением адаптивной регулировки 316 энергии так же, как описано выше в отношении первого и второго вариантов выполнении.
На фиг.4 синтезированная речь ЛКП может улучшаться по восприятию пост-процессором 417 с помощью синтезированной речи, выделенной из дополнительных сигналов возбуждения из фиксированного кодового словаря.
Пунктир 420 на фиг.4 показывает вариант выполнения, в котором сигналы ci(n) возбуждения фиксированного кодового словаря соединяются с синтезирующим фильтром 408 ЛКП. Выход синтезирующего фильтра 408 ЛКП (sci(n)) затем масштабируется в блоке 414 в соответствии с масштабным коэффициентом р', выделенным из регулировки 512 усиления улучшенного восприятия, и добавляется к синтезированному сигналу s(n) в сумматоре 413 для получения промежуточного синтезированного сигнала s'w(n). После нормировки в масштабирующем блоке 415 результирующий синтезированный сигнал sw(n) подается на блок 209 звуковой обработки.
Предыдущие варианты выполнения содержат добавление компоненты, выделенной из адаптивного кодового словаря 204 или фиксированного кодового словаря 203 к возбуждению ех(n) или синтезированному s(n) для образования промежуточного возбуждения ew'(n) или синтезированного сигнала s'w(n).
Можно обойтись и без пост-обработки, а сигналы сi(n) и v(n) возбуждения адаптивного кодового словаря или фиксированного кодового словаря могут масштабироваться и объединяться непосредственно. Тем самым устраняется добавление компонент к немасштабированным объединенным сигналам фиксированного и адаптивного кодовых словарей.
Фиг. 6 показывает вариант выполнения согласно аспекту изобретения с сигналами v(n) возбуждения адаптивного кодового словаря, масштабированными и затем объединенными с сигналами сi(n) возбуждения фиксированного кодового словаря для непосредственного образования промежуточного сигнала ew'(n).
Регулировка 612 усиления улучшенного восприятия выдает параметр "а" для управления масштабирующим блоком 614. Масштабирующий блок 614 работает по сигналу v(n) возбуждения адаптивного кодового словаря для растягивания или усиления сигнала v(n) возбуждения с помощью коэффициента b усиления, используемого для получения нормального возбуждения. Нормальное возбуждение ех(n) образуется и соединяется с адаптивным кодовым словарем 204 и адаптивной регулировкой 316 энергии. Сумматор 613 объединяет растянутый сигнал av(n) возбуждения и возбуждение ci(n) фиксированного кодового словаря, чтобы получить промежуточный сигнал:
ew'(n) = g ci(n) + av(n). (9)
Если а = b+p, то можно достичь той обработки, которая задается уравнением (2).
ew'(n) = g ci(n) + av(n). (9)
Если а = b+p, то можно достичь той обработки, которая задается уравнением (2).
Фиг.7 показывает вариант выполнения, работающий аналогично тому, который показан на фиг. 6, но осуществляющий сжатие или ослабление сигнала возбуждения ci(n) фиксированного кодового словаря. Для этого варианта промежуточный сигнал ew'(n) возбуждения задается:
ew'(n) = (g + р') сi(n) + bv(n) = а'сi(n) + bv(n), (10)
Регулировка 712 усиления улучшенного восприятия выводит управляющий сигнал а' в соответствии с уравнением (11), чтобы получить тот же результат, что и полученный с помощью уравнения (6) в соответствии с уравнением (8). Сжатый сигнал а'сi(n) объединяется с сигналом v(n) возбуждения адаптивного кодового словаря в сумматоре 713 для образования промежуточного сигнала ew'(n) возбуждения. Остальная обработка выполняется, как описано выше, для нормирования сигнала возбуждения и образованного синтезированного сигнала sew(n).
ew'(n) = (g + р') сi(n) + bv(n) = а'сi(n) + bv(n), (10)
Регулировка 712 усиления улучшенного восприятия выводит управляющий сигнал а' в соответствии с уравнением (11), чтобы получить тот же результат, что и полученный с помощью уравнения (6) в соответствии с уравнением (8). Сжатый сигнал а'сi(n) объединяется с сигналом v(n) возбуждения адаптивного кодового словаря в сумматоре 713 для образования промежуточного сигнала ew'(n) возбуждения. Остальная обработка выполняется, как описано выше, для нормирования сигнала возбуждения и образованного синтезированного сигнала sew(n).
Варианты, описанные со ссылками на фиг.6 и 7, осуществляют масштабирование сигналов возбуждения в генераторе возбуждения и прямо из кодовых словарей.
Определение масштабирующего коэффициента "р" для вариантов, описанных со ссылками на фиг.5, 6 и 7, можно производить согласно уравнениям (3) или (4), описанным выше.
Можно использовать различные способы управления уровнем улучшения (aулучш). В дополнение к усилению b адаптивного кодового словаря, величина улучшения может быть функцией от значения Т отставания или задержки для адаптивного кодового словаря 204. К примеру, пост-обработка может включаться (или подчеркиваться) при работе в диапазоне высоких основных тонов, либо когда параметр Т адаптивного кодового словаря короче, чем длина блока возбуждения (фактического диапазона отставания). В результате будут подвергаться наибольшей пост-обработке женские и детские голоса, для которых изобретение наиболее выигрышно.
Управление пост-обработкой может также основываться на решениях об огласованной/неогласованной речи. К примеру, улучшение может быть сильнее для огласованной речи и оно может полностью выключаться, когда речь классифицируется как неогласованная. Это можно выделить из значения b усиления адаптивного кодового словаря, которое само по себе является простой мерой огласованной/неогласованной речи, - иначе говоря, чем выше b, тем более огласованная речь присутствует в исходном речевом сигнале.
Варианты согласно настоящему изобретению можно видоизменять, так что третья последовательность частичного возбуждения не будет той самой последовательностью частичного возбуждения, выделенной из адаптивного кодового словаря или фиксированного кодового словаря в соответствии с обычным синтезом речи, но может выбираться с помощью логики выбора, обычно включенной в соответствующие кодовые словари для выбора другой третьей последовательности частичного возбуждения. Эта третья последовательность частичного возбуждения может выбираться так, чтобы быть непосредственно перед этим использованной последовательностью возбуждения, либо всегда быть одной и той же последовательностью возбуждения, запомненной в фиксированном кодовом словаре. Это приведет к уменьшению разности между речевыми кадрами и, тем самым, к улучшению непрерывности речи. Факультативно, b или/и Т можно пересчитать в декодере из синтезированной речи и использовать для выделения третьей последовательности частичного возбуждения. Кроме того, к последовательности ех(n) полного возбуждения или к речевому сигналу s(n) можно добавить фиксированное усиление р или/и фиксированную последовательность возбуждения, либо при необходимости вычесть их из последовательности eх(n) полного возбуждения или из речевого сигнала s(n) в зависимости от положения пост-процессора.
Ввиду предыдущего описания специалисту будет ясно, что можно сделать различные видоизменения в объеме изобретения. К примеру, в кодере можно использовать кодирование с переменной скоростью кадров, быстрый поиск кодового словаря, реверсирование порядка предсказания основного тона и ЛКП. В дополнение к этому, последующая обработка в соответствии с данным изобретением могла бы тоже включаться в кодер, а не только в декодер. Кроме того, аспекты соответствующих вариантов выполнении, описанные со ссылкой на чертежи, можно объединить для получения дальнейших вариантов согласно изобретению.
Claims (39)
1. Синтезатор для речевого синтеза, действующий на основании коэффициентов линейного предсказания и содержащий постпроцессорное средство для обработки первого сигнала (ех(n)), включающего в себя информацию о периодичности речи, выделенного из источника сигнала возбуждения, содержащего фиксированный кодовый словарь и адаптивный кодовый словарь, и средство для получения первого сигнала путем комбинирования первого и второго сигналов частичного возбуждения, исходящих соответственно из фиксированного и адаптивного кодовых словарей, причем постпроцессорное средство выполнено с возможностью видоизменять содержание информации о периодичности речи первого сигнала в соответствии с вторым сигналом, выделяемым из источника сигнала возбуждения, благодаря наличию средства регулировки усиления для масштабирования второго сигнала в соответствии с первым коэффициентом (р) масштабирования, выделенного из информации основного тона, связанной с первым сигналом, и средства для комбинирования второго сигнала с первым сигналом.
2. Синтезатор по п. 1, отличающийся тем, что он выполнен с возможностью выделения первого коэффициента (р) масштабирования из коэффициента (b) масштабирования адаптивного кодового словаря.
3. Синтезатор по п. 2, отличающийся тем, что он выполнен с обеспечением выделения первого коэффициента (р) масштабирования из следующего соотношения:
b < Пнижн p - 0,0
Пнижн ≤ b < П2 p - аулучш1f1 (b)
П2 ≤ b < П3 p - aулучш2f2(b)
если
ПN-1 ≤ b ≤ Пверх p - аулучшN-1fN-1 (b)
b > Пверх p - аулучшNfN(b)
где П - пороговые значения;
b - коэффициент усиления адаптивного кодового словаря;
р - коэффициент масштабирования первого постпроцессорного средства;
аулучш - линейный множитель;
f(b) - функция усиления b.
b < Пнижн p - 0,0
Пнижн ≤ b < П2 p - аулучш1f1 (b)
П2 ≤ b < П3 p - aулучш2f2(b)
если
ПN-1 ≤ b ≤ Пверх p - аулучшN-1fN-1 (b)
b > Пверх p - аулучшNfN(b)
где П - пороговые значения;
b - коэффициент усиления адаптивного кодового словаря;
р - коэффициент масштабирования первого постпроцессорного средства;
аулучш - линейный множитель;
f(b) - функция усиления b.
4. Синтезатор по п. 2 или 3, отличающийся тем, что он выполнен с возможностью выделения коэффициента (р) масштабирования в соответствии с соотношением
b < Пнижн p - 0,0
если
Пнижн ≤ b ≤ Пверх p - аулучшb2
b > Пверх p - аулучшb
где аулучш - постоянная, которая управляет интенсивностью операции улучшения;
b - коэффициент усиления адаптивного кодового словаря;
П - пороговые значения;
р - коэффициент масштабирования первого постпроцессорного средства.
b < Пнижн p - 0,0
если
Пнижн ≤ b ≤ Пверх p - аулучшb2
b > Пверх p - аулучшb
где аулучш - постоянная, которая управляет интенсивностью операции улучшения;
b - коэффициент усиления адаптивного кодового словаря;
П - пороговые значения;
р - коэффициент масштабирования первого постпроцессорного средства.
5. Синтезатор по любому из пп. 2-4, отличающийся тем, что в нем второй сигнал исходит из адаптивного кодового словаря.
6. Синтезатор по п. 5, отличающийся тем, что в нем второй сигнал соответствует практически второму сигналу частичного возбуждения.
7. Синтезатор по любому из пп. 2-4, отличающийся тем, что в нем второй сигнал исходит из фиксированного кодового словаря.
8. Синтезатор по п. 7, отличающийся тем, что в нем второй сигнал соответствует практически первому сигналу частичного возбуждения.
9. Синтезатор по п. 7 или 8, отличающийся тем, что в нем средство регулировки усиления выполнено с возможностью масштабирования второго сигнала в соответствии с вторым коэффициентом (р') масштабирования, где
где g - коэффициент масштабирования фиксированного кодового словаря;
b - коэффициент масштабирования адаптивного кодового словаря;
р - первый коэффициент масштабирования.
где g - коэффициент масштабирования фиксированного кодового словаря;
b - коэффициент масштабирования адаптивного кодового словаря;
р - первый коэффициент масштабирования.
10. Синтезатор по любому из предыдущих пунктов, отличающийся тем, что в нем первый сигнал представляет собой первый сигнал возбуждения, пригодный для введения в речевой синтезирующий фильтр, а второй сигнал представляет собой второй сигнал возбуждения, пригодный для введения в речевой синтезирующий фильтр.
11. Синтезатор по любому из пп. 1-9, отличающийся тем, что в нем первый сигнал представляет собой первый речевой синтезированный сигнал, выходящий из первого речевого фильтра, а второй сигнал представляет собой выход из второго речевого синтезирующего фильтра.
12. Синтезатор по п. 11, отличающийся тем, что средство регулировки усиления выполнено с работой по сигналам, вводимым во второй речевой синтезирующий фильтр.
13. Синтезатор по любому из предыдущих пунктов, отличающийся тем, что он выполнен для модифицирования первого сигнала путем объединения второго сигнала с первым сигналом.
14. Синтезатор по п. 13, отличающийся тем, что постпроцессорное средство дополнительно содержит средство адаптивной регулировки энергии, выполненное с возможностью масштабирования видоизмененного первого сигнала в соответствии со следующим соотношением:
где N - соответственно выбранный период адаптации;
ех(n) - первый сигнал;
ew'(n) - видоизмененный первый сигнал;
k - масштабный коэффициент энергии.
где N - соответственно выбранный период адаптации;
ех(n) - первый сигнал;
ew'(n) - видоизмененный первый сигнал;
k - масштабный коэффициент энергии.
15. Способ улучшения синтезированной речи путем последующей обработки на основании коэффициентов линейного предсказания, включающий выделение первого сигнала, содержащего информацию о периодичности речи, из источника сигнала возбуждения, содержащего фиксированный кодовый словарь и адаптивный кодовый словарь, получение первого сигнала путем комбинирования первого и второго сигналов частичного возбуждения, исходящих соответственно из фиксированного и адаптивного кодовых словарей, видоизменение содержания информации о периодичности речи первого сигнала в соответствии с вторым сигналом, выделяемым из источника сигнала возбуждения путем масштабирования второго сигнала в соответствии с первым коэффициентом (р) масштабирования, выделенного из информации основного тона, связанной с первым сигналом, и комбинирования второго сигнала с первым сигналом.
16. Способ по п. 15, отличающийся тем, что первый коэффициент (р) масштабирования выделяют из коэффициента (b) усиления для информации основного тона первого сигнала.
17. Способ по п. 16, отличающийся тем, что первый коэффициент (р) масштабирования выделяют в соответствии со следующим уравнением:
b < Пнижн p - 0,0
Пнижн ≤ b < П2 р - аулучш1а1(b)
П2 ≤ b < П3 p - аулучш2f2(b)
если
ПN-1 ≤ b ≤ Пверх p - аулучшN-1fN-1(b)
b > Пверх p - аулучшNfN(b)
где П - пороговые значения;
b - коэффициент усиления для информации основного тона первого сигнала;
р - коэффициент масштабирования первого сигнала;
aулучш - линейный множитель;
f(b) - функция b.
b < Пнижн p - 0,0
Пнижн ≤ b < П2 р - аулучш1а1(b)
П2 ≤ b < П3 p - аулучш2f2(b)
если
ПN-1 ≤ b ≤ Пверх p - аулучшN-1fN-1(b)
b > Пверх p - аулучшNfN(b)
где П - пороговые значения;
b - коэффициент усиления для информации основного тона первого сигнала;
р - коэффициент масштабирования первого сигнала;
aулучш - линейный множитель;
f(b) - функция b.
18. Способ по п. 16 или 17, отличающийся тем, что коэффициент (р) масштабирования выделяют в соответствии с соотношением
b < Пнижн p - 0,0
если Пнижн ≤ b ≤ Пверх p - aулучшb2
b > Пверх p - аулучшb
где aулучш - постоянная, которая управляет интенсивностью операции улучшения;
b - коэффициент усиления для информации основного тона первого сигнала;
П - пороговые значения;
р - коэффициент масштабирования второго сигнала.
b < Пнижн p - 0,0
если Пнижн ≤ b ≤ Пверх p - aулучшb2
b > Пверх p - аулучшb
где aулучш - постоянная, которая управляет интенсивностью операции улучшения;
b - коэффициент усиления для информации основного тона первого сигнала;
П - пороговые значения;
р - коэффициент масштабирования второго сигнала.
19. Способ по любому из пп. 15-18, отличающийся тем, что второй сигнал исходит из адаптивного кодового словаря.
20. Способ по п. 19, отличающийся тем, что второй сигнал соответствует практически второму сигналу частичного возбуждения.
21. Способ по любому из пп. 15-18, отличающийся тем, что второй сигнал исходит из фиксированного кодового словаря.
22. Способ по п. 21, отличающийся тем, что второй сигнал соответствует практически первому сигналу частичного возбуждения.
23. Способ по п. 21 или 22, отличающийся тем, что второй сигнал масштабируют в соответствии с вторым коэффициентом (р') масштабирования, где
где g - коэффициент масштабирования фиксированного кодового словаря;
b - коэффициент масштабирования адаптивного кодового словаря;
р - первый коэффициент масштабирования.
где g - коэффициент масштабирования фиксированного кодового словаря;
b - коэффициент масштабирования адаптивного кодового словаря;
р - первый коэффициент масштабирования.
24. Способ по любому из пп. 15-23, отличающийся тем, что в нем первый сигнал представляет собой первый сигнал возбуждения, пригодный для введения в первый речевой синтезирующий фильтр, а второй сигнал представляет собой второй сигнал возбуждения, пригодный для введения во второй речевой синтезирующий фильтр.
25. Способ по любому из пп. 15-23, отличающийся тем, что в нем первый сигнал представляет собой первый речевой синтезированный сигнал, выходящий из первого речевого фильтра, а второй сигнал представляет собой выход из второго речевого синтезирующего фильтра.
26. Способ по любому из пп. 15-25, отличающийся тем, что его осуществляют для видоизменения первого сигнала путем объединения второго сигнала с первым сигналом.
28. Радиоустройство, содержащее высокочастотное средство для приема радиосигнала и восстановления кодированной информации, содержащейся в этом радиосигнале, и синтезатор по любому из пп. 1-14.
29. Радиоустройство, выполненное с возможностью работы для улучшения синтезированной речи в соответствии со способом по любому из пп. 15-27.
30. Синтезатор для речевого синтеза, действующий на основании коэффициентов линейного предсказания и содержащий адаптивный кодовый словарь и фиксированный кодовый словарь для генерирования соответственно первого и второго сигналов частичного возбуждения, средство для масштабирования первого и второго сигналов частичного возбуждения соответственно с помощью полученных коэффициентов масштабирования адаптивного и фиксированного кодовых словарей, средство для видоизменения первого сигнала возбуждения в соответствии с еще одним коэффициентом масштабирования, причем коэффициент масштабирования является функцией информации основного тона, связанной с первым сигналом возбуждения, и средство для комбинирования второго сигнала частичного возбуждения с видоизмененным первым сигналом частичного возбуждения.
31. Синтезатор для речевого синтеза, действующий на основании коэффициентов линейного предсказания и содержащий адаптивный кодовый словарь и фиксированный кодовый словарь для генерирования соответственно первого и второго сигналов частичного возбуждения, средство для масштабирования первого и второго сигналов частичного возбуждения с помощью полученных коэффициентов масштабирования соответственно адаптивного и фиксированного кодовых словарей, средство для видоизменения второго сигнала возбуждения в соответствии с еще одним коэффициентом масштабирования, причем коэффициент масштабирования является функцией информации основного тона, связанной с первым сигналом возбуждения, и средство для комбинирования видоизмененного второго сигнала частичного возбуждения с первым сигналом частичного возбуждения.
32. Синтезатор по п. 30, отличающийся тем, что в нем первый коэффициент (а) масштабирования представлен в виде а - b + р, где b - усиление адаптивного кодового словаря, а р - коэффициент усиления улучшенного восприятия, выделяемый из следующего соотношения:
b < Пнижн p - 0,0
Пнижн ≤ b < П2 p - aулучш1f1(b)
П2 ≤ b < П3 p - аулучш2f2(b)
если
ПN-1 ≤ b ≤ Пверх p - аулучшN-1fN-1 (b)
b > Пверх p - aулучшNfN (b)
где П - пороговые значения;
b - коэффициент усиления адаптивного кодового словаря;
р - коэффициент усиления улучшенного восприятия;
aулучш - линейный множитель;
f(b) - функция усиления b.
b < Пнижн p - 0,0
Пнижн ≤ b < П2 p - aулучш1f1(b)
П2 ≤ b < П3 p - аулучш2f2(b)
если
ПN-1 ≤ b ≤ Пверх p - аулучшN-1fN-1 (b)
b > Пверх p - aулучшNfN (b)
где П - пороговые значения;
b - коэффициент усиления адаптивного кодового словаря;
р - коэффициент усиления улучшенного восприятия;
aулучш - линейный множитель;
f(b) - функция усиления b.
33. Синтезатор по п. 32, отличающийся тем, что он выполнен с обеспечением выделения коэффициента р усиления улучшенного восприятия в соответствии с соотношением
b < Пнижн p - 0,0
если
Пнижн ≤ b ≤ Пверх p - aулучшb2
b > Пверх p - aулучшb
и определяемого для р, представляющего собой коэффициент усиления улучшенного восприятия.
b < Пнижн p - 0,0
если
Пнижн ≤ b ≤ Пверх p - aулучшb2
b > Пверх p - aулучшb
и определяемого для р, представляющего собой коэффициент усиления улучшенного восприятия.
34. Синтезатор по п. 31, отличающийся тем, что в нем второй коэффициент (а') масштабирования удовлетворяет следующему соотношению:
где g - коэффициент масштабирования фиксированного кодового словаря;
b - коэффициент масштабирования адаптивного кодового словаря;
р - коэффициент усиления улучшенного восприятия, выделяемый в соответствии с соотношением
b < Пнижн p - 0,0
Пнижн ≤ b < П2 p - аулучш1f1(b)
П2 ≤ b < П3 p - аулучш2f2(b)
если
ПN-1 ≤ b ≤ Пверх p - аулучшN-1fN-1(b)
b > Пверх p - aулучшN fN(b)
где П - пороговые значения;
b - коэффициент усиления адаптивного кодового словаря;
р - коэффициент усиления улучшенного восприятия;
аулучш - линейный множитель;
f(b) - функция усиления b.
где g - коэффициент масштабирования фиксированного кодового словаря;
b - коэффициент масштабирования адаптивного кодового словаря;
р - коэффициент усиления улучшенного восприятия, выделяемый в соответствии с соотношением
b < Пнижн p - 0,0
Пнижн ≤ b < П2 p - аулучш1f1(b)
П2 ≤ b < П3 p - аулучш2f2(b)
если
ПN-1 ≤ b ≤ Пверх p - аулучшN-1fN-1(b)
b > Пверх p - aулучшN fN(b)
где П - пороговые значения;
b - коэффициент усиления адаптивного кодового словаря;
р - коэффициент усиления улучшенного восприятия;
аулучш - линейный множитель;
f(b) - функция усиления b.
35. Синтезатор по п. 34, отличающийся тем, что он выполнен с возможностью выделения коэффициента р усиления улучшенного восприятия в соответствии с соотношением
b < Пнижн p - 0,0
еcли
Пнижн ≤ b ≤ Пверх p - aулучшb2
b > Пверх p - aулучшb
и определяемого для р, представляющего собой коэффициент усиления улучшенного восприятия.
b < Пнижн p - 0,0
еcли
Пнижн ≤ b ≤ Пверх p - aулучшb2
b > Пверх p - aулучшb
и определяемого для р, представляющего собой коэффициент усиления улучшенного восприятия.
36. Синтезатор по любому из пп. 30-35, отличающийся тем, что он выполнен с возможностью объединения первого и второго сигналов возбуждения после видоизменения.
37. Синтезатор по п. 36, отличающийся тем, что он дополнительно содержит адаптивное средство регулировки энергии для видоизменения объединенных масштабированных первого и второго сигналов в соответствии со следующим соотношением:
где N - соответственно выбранный период адаптации;
ех(n) - объединенные первый и второй сигналы;
ew'(n) - объединенные масштабированные первый и второй сигналы;
k - масштабный коэффициент энергии.
где N - соответственно выбранный период адаптации;
ех(n) - объединенные первый и второй сигналы;
ew'(n) - объединенные масштабированные первый и второй сигналы;
k - масштабный коэффициент энергии.
38. Способ речевого синтеза на основании коэффициентов линейного предсказания, включающий в себя выделение первого сигнала частичного возбуждения из адаптивного кодового словаря и второго сигнала частичного возбуждения из фиксированного кодового словаря, масштабирование первого и второго сигналов частичного возбуждения соответственно с помощью полученных коэффициентов масштабирования адаптивного и фиксированного кодовых словарей, видоизменение первого сигнала частичного возбуждения в соответствии с еще одним коэффициентом масштабирования, причем коэффициент масштабирования является функцией информации основного тона, связанной с первым сигналом частичного возбуждения, и комбинирование второго сигнала частичного возбуждения с видоизмененным первым сигналом частичного возбуждения.
39. Способ речевого синтеза на основании коэффициентов линейного предсказания, включающий в себя выделение первого сигнала частичного возбуждения из адаптивного кодового словаря и второго сигнала частичного возбуждения из фиксированного кодового словаря, масштабирование первого и второго сигналов частичного возбуждения соответственно с помощью полученных коэффициентов масштабирования адаптивного и фиксированного кодовых словарей, видоизменение второго сигнала частичного возбуждения в соответствии с еще одним коэффициентом масштабирования, причем коэффициент масштабирования является функцией информации основного тона, связанной с первым сигналом частичного возбуждения, и комбинирование видоизмененного второго сигнала частичного возбуждения с первым сигналом частичного возбуждения.
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
GB9512284.2 | 1995-06-16 | ||
GBGB9512284.2A GB9512284D0 (en) | 1995-06-16 | 1995-06-16 | Speech Synthesiser |
Publications (2)
Publication Number | Publication Date |
---|---|
RU98101107A RU98101107A (ru) | 1999-11-27 |
RU2181481C2 true RU2181481C2 (ru) | 2002-04-20 |
Family
ID=10776197
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
RU98101107/28A RU2181481C2 (ru) | 1995-06-16 | 1996-06-13 | Синтезатор и способ для речевого синтеза (варианты) и радиоустройство |
Country Status (12)
Country | Link |
---|---|
US (2) | US6029128A (ru) |
EP (1) | EP0832482B1 (ru) |
JP (1) | JP3483891B2 (ru) |
CN (2) | CN1652207A (ru) |
AT (1) | ATE206843T1 (ru) |
AU (1) | AU714752B2 (ru) |
BR (1) | BR9608479A (ru) |
DE (1) | DE69615839T2 (ru) |
ES (1) | ES2146155B1 (ru) |
GB (1) | GB9512284D0 (ru) |
RU (1) | RU2181481C2 (ru) |
WO (1) | WO1997000516A1 (ru) |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7529660B2 (en) | 2002-05-31 | 2009-05-05 | Voiceage Corporation | Method and device for frequency-selective pitch enhancement of synthesized speech |
US7933769B2 (en) | 2004-02-18 | 2011-04-26 | Voiceage Corporation | Methods and devices for low-frequency emphasis during audio compression based on ACELP/TCX |
RU2469422C2 (ru) * | 2007-10-25 | 2012-12-10 | Моторола Мобилити, Инк. | Способ и устройство для формирования уровня улучшения в системе кодирования звука |
RU2607262C2 (ru) * | 2012-08-27 | 2017-01-10 | Фраунхофер-Гезелльшафт Цур Фердерунг Дер Ангевандтен Форшунг Е.Ф. | Устройство и способ для воспроизведения аудиосигнала, устройство и способ для генерирования кодированного аудиосигнала, компьютерная программа и кодированный аудиосигнал |
Families Citing this family (45)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5913187A (en) * | 1997-08-29 | 1999-06-15 | Nortel Networks Corporation | Nonlinear filter for noise suppression in linear prediction speech processing devices |
US6260010B1 (en) * | 1998-08-24 | 2001-07-10 | Conexant Systems, Inc. | Speech encoder using gain normalization that combines open and closed loop gains |
US7117146B2 (en) * | 1998-08-24 | 2006-10-03 | Mindspeed Technologies, Inc. | System for improved use of pitch enhancement with subcodebooks |
US6104992A (en) * | 1998-08-24 | 2000-08-15 | Conexant Systems, Inc. | Adaptive gain reduction to produce fixed codebook target signal |
US7072832B1 (en) * | 1998-08-24 | 2006-07-04 | Mindspeed Technologies, Inc. | System for speech encoding having an adaptive encoding arrangement |
JP3365360B2 (ja) * | 1999-07-28 | 2003-01-08 | 日本電気株式会社 | 音声信号復号方法および音声信号符号化復号方法とその装置 |
US6480827B1 (en) * | 2000-03-07 | 2002-11-12 | Motorola, Inc. | Method and apparatus for voice communication |
US6581030B1 (en) * | 2000-04-13 | 2003-06-17 | Conexant Systems, Inc. | Target signal reference shifting employed in code-excited linear prediction speech coding |
US6466904B1 (en) * | 2000-07-25 | 2002-10-15 | Conexant Systems, Inc. | Method and apparatus using harmonic modeling in an improved speech decoder |
EP1944760B1 (en) * | 2000-08-09 | 2009-09-23 | Sony Corporation | Voice data processing device and processing method |
US7283961B2 (en) * | 2000-08-09 | 2007-10-16 | Sony Corporation | High-quality speech synthesis device and method by classification and prediction processing of synthesized sound |
JP3558031B2 (ja) * | 2000-11-06 | 2004-08-25 | 日本電気株式会社 | 音声復号化装置 |
US7103539B2 (en) * | 2001-11-08 | 2006-09-05 | Global Ip Sound Europe Ab | Enhanced coded speech |
DE10236694A1 (de) * | 2002-08-09 | 2004-02-26 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Vorrichtung und Verfahren zum skalierbaren Codieren und Vorrichtung und Verfahren zum skalierbaren Decodieren |
US7516067B2 (en) * | 2003-08-25 | 2009-04-07 | Microsoft Corporation | Method and apparatus using harmonic-model-based front end for robust speech recognition |
US7447630B2 (en) * | 2003-11-26 | 2008-11-04 | Microsoft Corporation | Method and apparatus for multi-sensory speech enhancement |
JP4398323B2 (ja) * | 2004-08-09 | 2010-01-13 | ユニデン株式会社 | デジタル無線通信装置 |
US20070147518A1 (en) * | 2005-02-18 | 2007-06-28 | Bruno Bessette | Methods and devices for low-frequency emphasis during audio compression based on ACELP/TCX |
US20060217983A1 (en) * | 2005-03-28 | 2006-09-28 | Tellabs Operations, Inc. | Method and apparatus for injecting comfort noise in a communications system |
US20060215683A1 (en) * | 2005-03-28 | 2006-09-28 | Tellabs Operations, Inc. | Method and apparatus for voice quality enhancement |
US20060217988A1 (en) * | 2005-03-28 | 2006-09-28 | Tellabs Operations, Inc. | Method and apparatus for adaptive level control |
US20060217970A1 (en) * | 2005-03-28 | 2006-09-28 | Tellabs Operations, Inc. | Method and apparatus for noise reduction |
US20060217972A1 (en) * | 2005-03-28 | 2006-09-28 | Tellabs Operations, Inc. | Method and apparatus for modifying an encoded signal |
US7562021B2 (en) * | 2005-07-15 | 2009-07-14 | Microsoft Corporation | Modification of codewords in dictionary used for efficient coding of digital media spectral data |
US7590523B2 (en) * | 2006-03-20 | 2009-09-15 | Mindspeed Technologies, Inc. | Speech post-processing using MDCT coefficients |
US8005671B2 (en) * | 2006-12-04 | 2011-08-23 | Qualcomm Incorporated | Systems and methods for dynamic normalization to reduce loss in precision for low-level signals |
WO2008072671A1 (ja) * | 2006-12-13 | 2008-06-19 | Panasonic Corporation | 音声復号化装置およびパワ調整方法 |
US8249860B2 (en) * | 2006-12-15 | 2012-08-21 | Panasonic Corporation | Adaptive sound source vector quantization unit and adaptive sound source vector quantization method |
CN101286319B (zh) * | 2006-12-26 | 2013-05-01 | 华为技术有限公司 | 改进语音丢包修补质量的语音编码方法 |
US8688437B2 (en) | 2006-12-26 | 2014-04-01 | Huawei Technologies Co., Ltd. | Packet loss concealment for speech coding |
CN101266797B (zh) * | 2007-03-16 | 2011-06-01 | 展讯通信(上海)有限公司 | 语音信号后处理滤波方法 |
CN100578620C (zh) * | 2007-11-12 | 2010-01-06 | 华为技术有限公司 | 固定码书搜索方法及搜索器 |
CN101179716B (zh) * | 2007-11-30 | 2011-12-07 | 华南理工大学 | 一种压缩域的传输数据流音频自动增益控制方法 |
US20090287489A1 (en) * | 2008-05-15 | 2009-11-19 | Palm, Inc. | Speech processing for plurality of users |
US8442837B2 (en) * | 2009-12-31 | 2013-05-14 | Motorola Mobility Llc | Embedded speech and audio coding using a switchable model core |
US8990094B2 (en) * | 2010-09-13 | 2015-03-24 | Qualcomm Incorporated | Coding and decoding a transient frame |
US8862465B2 (en) * | 2010-09-17 | 2014-10-14 | Qualcomm Incorporated | Determining pitch cycle energy and scaling an excitation signal |
DK3067888T3 (en) | 2011-04-15 | 2017-07-10 | ERICSSON TELEFON AB L M (publ) | DECODES FOR DIMAGE OF SIGNAL AREAS RECONSTRUCTED WITH LOW ACCURACY |
US9117455B2 (en) * | 2011-07-29 | 2015-08-25 | Dts Llc | Adaptive voice intelligibility processor |
CN107818789B (zh) | 2013-07-16 | 2020-11-17 | 华为技术有限公司 | 解码方法和解码装置 |
US9620134B2 (en) * | 2013-10-10 | 2017-04-11 | Qualcomm Incorporated | Gain shape estimation for improved tracking of high-band temporal characteristics |
CN105745705B (zh) * | 2013-10-18 | 2020-03-20 | 弗朗霍夫应用科学研究促进协会 | 编码和解码音频信号的编码器、解码器及相关方法 |
EP3058569B1 (en) * | 2013-10-18 | 2020-12-09 | Fraunhofer Gesellschaft zur Förderung der angewandten Forschung E.V. | Concept for encoding an audio signal and decoding an audio signal using deterministic and noise like information |
CN110444192A (zh) * | 2019-08-15 | 2019-11-12 | 广州科粤信息科技有限公司 | 一种基于语音技术的智能语音机器人 |
CN113241082B (zh) * | 2021-04-22 | 2024-02-20 | 杭州网易智企科技有限公司 | 变声方法、装置、设备和介质 |
Family Cites Families (20)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPS5681900A (en) * | 1979-12-10 | 1981-07-04 | Nippon Electric Co | Voice synthesizer |
US4815135A (en) * | 1984-07-10 | 1989-03-21 | Nec Corporation | Speech signal processor |
US4969192A (en) * | 1987-04-06 | 1990-11-06 | Voicecraft, Inc. | Vector adaptive predictive coder for speech and audio |
GB8806185D0 (en) * | 1988-03-16 | 1988-04-13 | Univ Surrey | Speech coding |
US5029211A (en) * | 1988-05-30 | 1991-07-02 | Nec Corporation | Speech analysis and synthesis system |
US5247357A (en) * | 1989-05-31 | 1993-09-21 | Scientific Atlanta, Inc. | Image compression method and apparatus employing distortion adaptive tree search vector quantization with avoidance of transmission of redundant image data |
US5241650A (en) * | 1989-10-17 | 1993-08-31 | Motorola, Inc. | Digital speech decoder having a postfilter with reduced spectral distortion |
CA2066568A1 (en) * | 1989-10-17 | 1991-04-18 | Ira A. Gerson | Lpc based speech synthesis with adaptive pitch prefilter |
CA2010830C (en) * | 1990-02-23 | 1996-06-25 | Jean-Pierre Adoul | Dynamic codebook for efficient speech coding based on algebraic codes |
JP3102015B2 (ja) * | 1990-05-28 | 2000-10-23 | 日本電気株式会社 | 音声復号化方法 |
EP0588932B1 (en) * | 1991-06-11 | 2001-11-14 | QUALCOMM Incorporated | Variable rate vocoder |
JP3076086B2 (ja) * | 1991-06-28 | 2000-08-14 | シャープ株式会社 | 音声合成装置用ポストフィルタ |
US5233660A (en) * | 1991-09-10 | 1993-08-03 | At&T Bell Laboratories | Method and apparatus for low-delay celp speech coding and decoding |
WO1993018505A1 (en) * | 1992-03-02 | 1993-09-16 | The Walt Disney Company | Voice transformation system |
US5495555A (en) * | 1992-06-01 | 1996-02-27 | Hughes Aircraft Company | High quality low bit rate celp-based speech codec |
US5327520A (en) * | 1992-06-04 | 1994-07-05 | At&T Bell Laboratories | Method of use of voice message coder/decoder |
FI91345C (fi) * | 1992-06-24 | 1994-06-10 | Nokia Mobile Phones Ltd | Menetelmä kanavanvaihdon tehostamiseksi |
CA2108623A1 (en) * | 1992-11-02 | 1994-05-03 | Yi-Sheng Wang | Adaptive pitch pulse enhancer and method for use in a codebook excited linear prediction (celp) search loop |
WO1994025959A1 (en) * | 1993-04-29 | 1994-11-10 | Unisearch Limited | Use of an auditory model to improve quality or lower the bit rate of speech synthesis systems |
US5664055A (en) * | 1995-06-07 | 1997-09-02 | Lucent Technologies Inc. | CS-ACELP speech compression system with adaptive pitch prediction filter gain based on a measure of periodicity |
-
1995
- 1995-06-16 GB GBGB9512284.2A patent/GB9512284D0/en active Pending
-
1996
- 1996-06-13 AU AU62309/96A patent/AU714752B2/en not_active Expired
- 1996-06-13 BR BR9608479-0A patent/BR9608479A/pt not_active IP Right Cessation
- 1996-06-13 JP JP50280997A patent/JP3483891B2/ja not_active Expired - Lifetime
- 1996-06-13 WO PCT/GB1996/001428 patent/WO1997000516A1/en active IP Right Grant
- 1996-06-13 RU RU98101107/28A patent/RU2181481C2/ru active
- 1996-06-13 ES ES009750009A patent/ES2146155B1/es not_active Expired - Fee Related
- 1996-06-13 CN CN200510052904.XA patent/CN1652207A/zh active Pending
- 1996-06-13 CN CN96196226.7A patent/CN1199151C/zh not_active Expired - Lifetime
- 1996-06-13 US US08/662,991 patent/US6029128A/en not_active Expired - Lifetime
- 1996-06-13 AT AT96920925T patent/ATE206843T1/de not_active IP Right Cessation
- 1996-06-13 EP EP96920925A patent/EP0832482B1/en not_active Expired - Lifetime
- 1996-06-13 DE DE69615839T patent/DE69615839T2/de not_active Expired - Lifetime
-
1998
- 1998-08-18 US US09/135,936 patent/US5946651A/en not_active Expired - Lifetime
Non-Patent Citations (1)
Title |
---|
ПРОХОРОВ Ю.Н. Статистические модели и рекуррентное предсказание речевых сигналов, - М.: 1984, с. 7, 35, 88, 149, 161, 162, 168 и 181. * |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7529660B2 (en) | 2002-05-31 | 2009-05-05 | Voiceage Corporation | Method and device for frequency-selective pitch enhancement of synthesized speech |
US7933769B2 (en) | 2004-02-18 | 2011-04-26 | Voiceage Corporation | Methods and devices for low-frequency emphasis during audio compression based on ACELP/TCX |
US7979271B2 (en) | 2004-02-18 | 2011-07-12 | Voiceage Corporation | Methods and devices for switching between sound signal coding modes at a coder and for producing target signals at a decoder |
RU2469422C2 (ru) * | 2007-10-25 | 2012-12-10 | Моторола Мобилити, Инк. | Способ и устройство для формирования уровня улучшения в системе кодирования звука |
RU2607262C2 (ru) * | 2012-08-27 | 2017-01-10 | Фраунхофер-Гезелльшафт Цур Фердерунг Дер Ангевандтен Форшунг Е.Ф. | Устройство и способ для воспроизведения аудиосигнала, устройство и способ для генерирования кодированного аудиосигнала, компьютерная программа и кодированный аудиосигнал |
Also Published As
Publication number | Publication date |
---|---|
CN1652207A (zh) | 2005-08-10 |
ES2146155B1 (es) | 2001-02-01 |
GB9512284D0 (en) | 1995-08-16 |
DE69615839D1 (de) | 2001-11-15 |
EP0832482A1 (en) | 1998-04-01 |
JP3483891B2 (ja) | 2004-01-06 |
DE69615839T2 (de) | 2002-05-16 |
US6029128A (en) | 2000-02-22 |
BR9608479A (pt) | 1999-07-06 |
EP0832482B1 (en) | 2001-10-10 |
AU6230996A (en) | 1997-01-15 |
US5946651A (en) | 1999-08-31 |
AU714752B2 (en) | 2000-01-13 |
JPH11507739A (ja) | 1999-07-06 |
WO1997000516A1 (en) | 1997-01-03 |
ES2146155A1 (es) | 2000-07-16 |
CN1192817A (zh) | 1998-09-09 |
ATE206843T1 (de) | 2001-10-15 |
CN1199151C (zh) | 2005-04-27 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
RU2181481C2 (ru) | Синтезатор и способ для речевого синтеза (варианты) и радиоустройство | |
US7020605B2 (en) | Speech coding system with time-domain noise attenuation | |
KR101039343B1 (ko) | 디코딩된 음성의 피치 증대를 위한 방법 및 장치 | |
Chen et al. | Real-time vector APC speech coding at 4800 bps with adaptive postfiltering | |
EP0732686B1 (en) | Low-delay code-excited linear-predictive coding of wideband speech at 32kbits/sec | |
Chen et al. | Adaptive postfiltering for quality enhancement of coded speech | |
US7151802B1 (en) | High frequency content recovering method and device for over-sampled synthesized wideband signal | |
JP3653826B2 (ja) | 音声復号化方法及び装置 | |
US4969192A (en) | Vector adaptive predictive coder for speech and audio | |
JP4662673B2 (ja) | 広帯域音声及びオーディオ信号復号器における利得平滑化 | |
JP3678519B2 (ja) | オーディオ周波数信号の線形予測解析方法およびその応用を含むオーディオ周波数信号のコーディングならびにデコーディングの方法 | |
US20040181411A1 (en) | Voicing index controls for CELP speech coding | |
JP3319556B2 (ja) | ホルマント強調方法 | |
CA2224688C (en) | Speech coder | |
JP3468862B2 (ja) | 音声符号化装置 | |
JP3274451B2 (ja) | 適応ポストフィルタ及び適応ポストフィルタリング方法 | |
KR100421816B1 (ko) | 음성복호화방법 및 휴대용 단말장치 | |
Shoham et al. | pyyy. p. AY CODE-EXCITED LINEAR-PREDICTIVE (ypN (; OF WIDEBAND SPEECH AT 32 KBPS | |
GB2338630A (en) | Voice decoder reduces buzzing |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PD4A | Correction of name of patent owner | ||
PC41 | Official registration of the transfer of exclusive right |
Effective date: 20160602 |