RU2005127871A

RU2005127871A - Квантование классов для распределенного распознавания речи

Info

Publication number: RU2005127871A
Application number: RU2005127871/09A
Authority: RU
Inventors: Тенкаси В РАМАБАДРАН (US); Тенкаси В РАМАБАДРАН; Александр СОРИН (IL); Александр СОРИН
Original assignee: Моторола, Инк. (US); Моторола, Инк.; Интернэшнл Бизнес Машинз Корпорейшн (US); Интернэшнл Бизнес Машинз Корпорейшн
Priority date: 2003-02-07
Filing date: 2004-02-05
Publication date: 2006-01-20
Also published as: KR20050097928A; US6961696B2; EP1595249A4; US20040158461A1; EP1595249A2; WO2004072948A2; RU2348019C2; WO2004072948A3; EP1595249B1; KR100763325B1; CN101160380B; TW200501055A; CN101160380A; BRPI0406952A; TWI326447B; BRPI0406952B1

Claims

1. Способ в системе обработки информации для квантования информации о классе и информации об основном тоне звука, заключающийся в том, что принимают звук, захватывают кадр звука, определяют основной тон кадра, вычисляют ключевое слово, представляющее основной тон кадра, причем первое значение ключевого слова указывает неопределенный основной тон, определяют класс кадра, причем класс представляет собой любой один из по меньшей мере двух классов, указывающих неопределенный основной тон, и по меньшей мере одного класса, указывающего определенный основной тон, и вычисляют ключевое слово, представляющее класс кадра, причем длина ключевого слова составляет максимум минимальное количество битов, требуемых для представления по меньшей мере двух классов, указывающих неопределенный основной тон, и минимальное количество битов, требуемых для представления по меньшей мере одного класса, указывающего определенный основной тон, при этом основной тон и класс кадра представляют двумя ключевыми словами.

2. Способ по п.1, в котором, если ключевое слово, представляющее основной тон кадра, указывает неопределенный основной тон, то ключевое слово, представляющее класс кадра, указывает один из по меньшей мере двух классов, указывающих неопределенный основной тон.

3. Способ по п.2, в котором, если ключевое слово, представляющее основной тон кадра, указывает определенный основной тон, то ключевое слово, представляющее класс кадра, указывает один из по меньшей мере одного класса, указывающего определенный основной тон.

4. Способ по п.3, в котором по меньшей мере два класса, указывающие неопределенный основной тон, включают в себя класс отсутствия речи и невокализованный класс.

5. Способ по п.1, в котором система обработки информации представляет собой любую из клиентского компьютера и беспроводного устройства типа мобильного телефона.

6. Способ по п.5, в котором звук относится к речи.

7. Способ по п.6, в котором продолжительность кадра составляет от, приблизительно, 20 до, приблизительно, 30 мс, и последовательные кадры перекрывают друг друга в течение от, приблизительно, 10 до, приблизительно, 15 мс.

8. Способ по п.1, в котором дополнительно передают ключевое слово, представляющее основной тон кадра, и ключевое слово, представляющее класс кадра, на сервер.

9. Система обработки информации для квантования информации о классе и информации об основном тоне звука, содержащая микрофон для приема звука и цифровой процессор сигналов для захвата кадра звука, определения основного тона кадра, вычисления ключевого слова, представляющего основной тон кадра, причем первое значение ключевого слова указывает неопределенный основной тон, определения класса кадра, причем класс представляет собой любой один из по меньшей мере двух классов, указывающих неопределенный основной тон, и по меньшей мере одного класса, указывающего определенный основной тон, и вычисления ключевого слова, представляющего класс кадра, причем длина ключевого слова представляет собой максимум минимальное количество битов, требуемых для представления по меньшей мере двух классов, указывающих неопределенный основной тон, и минимальное количество битов, требуемых для представления по меньшей мере одного класса, указывающего определенный основной тон, при этом основной тон и класс кадра представлены двумя ключевыми словами.

10. Система обработки информации по п.9, в которой, если ключевое слово, представляющее основной тон кадра, указывает неопределенный основной тон, то ключевое слово, представляющее класс кадра, указывает один из по меньшей мере двух классов, указывающих неопределенный основной тон.

11. Система обработки информации по п.10, в которой если ключевое слово, представляющее основной тон кадра, указывает определенный основной тон, то ключевое слово, представляющее класс кадра, указывает один из по меньшей мере одного класса, указывающего определенный основной тон.

12. Система обработки информации по п.11, в которой по меньшей мере два класса, указывающие неопределенный основной тон, включают в себя класс отсутствия речи и невокализованный класс.

13. Система обработки информации по п.9, в которой система обработки информации представляет собой любой из клиентского компьютера и беспроводного устройства типа мобильного телефона.

14. Система обработки информации по п.13, в которой звук относится к речи.

15. Система обработки информации по п.14, в которой продолжительность кадра составляет от, приблизительно, 20 до, приблизительно, 30 мс, и последующие кадры перекрывают друг друга в течение от, приблизительно, 10 до, приблизительно, 15 мс.

16. Система обработки информации по п.9, дополнительно содержащая передатчик для передачи ключевого слова, представляющего основной тон кадра, и ключевого слова, представляющего класс кадра, на сервер.

17. Способ в системе распределенного распознавания речи, заключающийся в том, что принимают звук, организуют принятый звук в кадры, квантуют информацию об основном тоне звука для каждого кадра, причем квантованную информацию об основном тоне звука для каждого кадра представляют одним из множества квантованных значений основного тона, и квантуют информацию о классе для каждого кадра, причем квантованную информацию о классе для каждого кадра представляют одним из множества квантованных значений класса, и при этом одно из множества квантованных значений основного тона резервируют для указания, является ли квантованная информация о классе для каждого кадра одной из категорий категорией невокализованного класса или категорией вокализованного класса, причем квантованное значение класса для каждого кадра выбирают из одной из категорий категории невокализованного класса или категории вокализованного класса.

18. Способ по п.17, в котором дополнительно обеспечивают по меньшей мере одно ключевое слово, включающее в себя квантованную информацию об основном тоне и квантованную информацию о классе по меньшей мере для одного кадра.

19. Способ по п.17, в котором квантованное значение класса для каждого кадра представляют минимальным количеством битов, требуемых для представления одного из по меньшей мере двух классов.