RU2005106251A

RU2005106251A - Устройство и способ распределенного распознования речи с помощью речевой активности во внутреннем интерфейсе

Info

Publication number: RU2005106251A
Application number: RU2005106251/09A
Authority: RU
Inventors: Тенкаси РАМАБАДРАН (US); Тенкаси РАМАБАДРАН
Original assignee: Моторола, Инк. (US); Моторола, Инк.
Priority date: 2002-08-09
Filing date: 2003-08-01
Publication date: 2005-10-10
Also published as: AU2003254288A8; EP1540645A2; EP1540645A4; AU2003254288A1; US7024353B2; CN1675684A; WO2004015685A3; MXPA05001593A; JP2005535920A; WO2004015685A2; ZA200500792B; KR20060007363A; US20040030544A1

Claims

1. Способ, облегчающий распознавание речи, заключающийся в том, что принимают несколько спектральных компонент для распознавания речи, обрабатывают по меньшей мере некоторые из нескольких спектральных компонент для распознавания речи для обеспечения по меньшей мере аппроксимации предшествующей информации, которая произвела несколько спектральных компонент для распознавания речи, обрабатывают по меньшей мере аппроксимацию предшествующей информации для обнаружения участков, которые, вероятно, соответствуют речи, и обеспечения соответствующей идентификации участков речи, обрабатывают несколько спектральных компонент для распознавания речи, как функцию, по меньшей мере частично, идентификации участков речи, для облегчения распознавания речевого содержимого, представленного по меньшей мере некоторыми из спектральных компонент для распознавания речи.

2. Способ по п.1, в котором прием нескольких спектральных компонент для распознавания речи включает в себя прием нескольких спектральных компонент для распознавания речи через радиоканал.

3. Способ по п.1, в котором прием нескольких спектральных компонент для распознавания речи включает в себя прием нескольких спектральных компонент для распознавания речи, в которые входит по меньшей мере один коэффициент косинусного преобразования Фурье Mel-частоты.

4. Способ по п.3, в котором прием нескольких спектральных компонент для распознавания речи, в которые входит по меньшей мере один коэффициент косинусного преобразования Фурье Mel-частоты, включает в себя прием нескольких коэффициентов косинусного преобразования Фурье Mel-частоты.

5. Способ по п.4, в котором прием нескольких коэффициентов косинусного преобразования Фурье Mel-частоты включает в себя прием по меньшей мере 13 коэффициентов косинусного преобразования Фурье Mel-частоты для каждой выборки предшествующей информации.

6. Способ по п.1, в котором обработка по меньшей мере некоторых из нескольких спектральных компонент для распознавания речи для обеспечения по меньшей мере аппроксимации предшествующей информации, которая произвела несколько спектральных компонент для распознавания речи, включает в себя обработку по меньшей мере некоторых из нескольких спектральных компонент для распознавания речи посредством обратного дискретного косинусного преобразования для обеспечения нескольких результирующих значений.

7. Способ по п.6, в котором обработка по меньшей мере некоторых из нескольких спектральных компонент для распознавания речи посредством обратного дискретного косинусного преобразования дополнительно включает в себя обработку по меньшей мере одного из результирующих значений посредством возведения в степень.

8. Способ по п.1, в котором дополнительно обрабатывают по меньшей мере аппроксимацию предшествующей информации для определения значений отношения сигнал-шум, которые, вероятно, соответствуют речи, которая произвела несколько спектральных компонент для распознавания речи.

9. Способ по п.1, в котором обработка нескольких спектральных компонент для распознавания речи, как функции, по меньшей мере частично, идентификации участков речи, для облегчения распознавания речевого содержимого, представленного по меньшей мере некоторыми из спектральных компонент для распознавания речи, дополнительно включает в себя обработку нескольких спектральных компонент для распознавания речи, как функции, по меньшей мере частично, идентификации участков речи и значений отношения сигнал-шум для облегчения распознавания речевого содержимого, представленного по меньшей мере некоторыми из спектральных компонент для распознавания речи.

10. Устройство, используемое для облегчения распределенного распознавания речи, содержащее детектор речевой активности, имеющий вход, подсоединенный с возможностью приема спектральных компонент для распознавания речи, которые получены из предшествующей информации, и имеющий по меньшей мере первый выход, который обеспечивает сигнал обнаружения речи, идентифицирующий каждую выборку по меньшей мере аппроксимации предшествующей информации, которая, вероятно, соответствует речи, блок сегментации, имеющий вход с возможностью подсоединения к первому выходу детектора речевой активности, и имеющий выход, который обеспечивает сигнал обнаружения речи, идентифицирующий участки по меньшей мере аппроксимации предшествующей информации, которые, вероятно, соответствуют речи, и блок сопоставления с эталоном, имеющий входы, подсоединенные с возможностью приема спектральных компонент для распознавания речи и сигнала обнаружения речи, и имеющий выход, который обеспечивает распознанную речь, соответствующую спектральным компонентам распознавания речи.

11. Устройство по п.10, в котором детектор речевой активности дополнительно содержит второй выход, который обеспечивает сигнал отношения сигнал-шум, соответствующий речи, которая произвела несколько спектральных компонент для распознавания речи.

12. Устройство по п.11, в котором блок сопоставления с эталоном дополнительно имеет вход, подсоединенный с возможностью приема сигнала отношения сигнал-шум.

13. Устройство по п.10, в котором спектральные компоненты для распознавания речи включают в себя несколько коэффициентов косинусного преобразования Фурье Mel-частоты.

14. Устройство по п.13, в котором детектор речевой активности содержит средство обратного дискретного косинусного преобразования, облегчающее использование нескольких коэффициентов косинусного преобразования Фурье Mel-частоты для обеспечения по меньшей мере аппроксимации предшествующей информации.

15. Устройство по п.14, в котором детектор речевой активности дополнительно содержит средство возведения в степень, дополнительно облегчающее использование коэффициентов косинусного преобразования Фурье Mel-частоты для обеспечения по меньшей мере аппроксимации предшествующей информации.

16. Устройство по п.10, дополнительно содержащее декодер, имеющий вход, подсоединенный с возможностью приема кодированного потока битов, и выход, который обеспечивает спектральные компоненты для распознавания речи.

17. Устройство по п.16, дополнительно содержащее радиоприемник, выполненный с возможностью подсоединения к декодеру.

18. Способ, облегчающий распознавание речи, заключающийся в том, что принимают через радиоканал сигнал, включающий в себя поток битов, содержащий информацию, полученную из нескольких входных выборок, декодируют поток битов для восстановления тринадцати коэффициентов косинусного преобразования Фурье Mel-частоты и логарифмического значения энергии, которые соответствуют каждому кадру входных выборок, используют обратное дискретное косинусное преобразование и возведение в степень для преобразования коэффициентов косинусного преобразования Фурье Mel-частоты в их спектральное представление, используют спектральное представление для идентификации его участков, которые, вероятно, включают в себя речь, используют коэффициенты косинусного преобразования Фурье Mel-частоты, логарифмическое значение для каждого кадра входных выборок и информацию, идентифицирующую участки, которые, вероятно, включают в себя речь, для облегчения процесса сопоставления с эталоном для распознавания речевого содержимого во входных данных.

19. Способ по п.18, в котором дополнительно используют спектральное представление входных данных для определения значений отношения сигнал-шум.

20. Способ по п.19, в котором использование коэффициентов косинусного преобразования Фурье Mel-частоты, логарифмического значения для каждой из выборок, и информации, идентифицирующей участки входных данных, которые, вероятно, включают в себя речь, для облегчения процесса сопоставления с эталоном для распознавания речевого содержимого во входных данных включает в себя использование коэффициентов косинусного преобразования Фурье Mel-частоты, логарифмического значения для каждой из выборок, и информации, идентифицирующей участки входных данных, которые, вероятно, включают в себя речь, и значений отношения сигнал-шум, для облегчения процесса сопоставления с эталоном для распознавания речевого содержимого во входных данных.