RU2005127863A

RU2005127863A - Квантование основного тона для распределенного распознавания речи

Info

Publication number: RU2005127863A
Application number: RU2005127863/09A
Authority: RU
Inventors: Тенкаси В. РАМАБАДРАН (US); Тенкаси В. РАМАБАДРАН; Александр СОРИН (IL); Александр СОРИН
Original assignee: Моторола, Инк. (US); Моторола, Инк.; Интернэшнл Бизнес Машинз Корпорейшн (US); Интернэшнл Бизнес Машинз Корпорейшн
Priority date: 2003-02-07
Filing date: 2004-02-05
Publication date: 2006-01-27
Also published as: TWI333640B; RU2331932C2; EP1595244A2; US6915256B2; US20040172243A1; KR100641673B1; EP1595244B1; EP1595244A4; BRPI0406956A; CN1748244A; TW200506814A; CN1748244B; KR20050097929A; ES2395717T3; WO2004072949A3; WO2004072949A2; BRPI0406956B1

Claims

1. Способ в системе обработки информации для квантования информации об основном тоне звука, содержащий захват звука, с представлением пронумерованного кадра из множества пронумерованных кадров, вычисление класса кадра, в котором класс представляет собой любой из вокализированного класса и невокализированного класса, если кадр представляет собой вокализированный класс, вычисление основного тона для кадра, если кадр представляет собой кадр с четным номером и вокализированный класс, вычисление ключевого слова первой длины посредством абсолютного квантования основного тона кадра, если кадр представляет собой кадр с четным номером и невокализированный класс, вычисление ключевого слова первой длины, указывающего кадр невокализированного класса, если кадр представляет собой кадр с нечетным номером и вокализированный класс, и по меньшей мере один из трех кадров, непосредственно предшествующих этому кадру, является достоверным, вычисление ключевого слова второй длины посредством дифференциального квантования основного тона кадра, ссылаясь на квантованный основной тон самого близкого предшествующего достоверного кадра, в котором первая длина больше, чем вторая длина, если кадр представляет собой кадр с нечетным номером и вокализированный класс, и каждый из трех кадров, непосредственно предшествующих этому кадру, является недостоверным, вычисление ключевого слова второй длины посредством абсолютного квантования основного тона кадра, и если кадр представляет собой кадр с нечетным номером и невокализированный класс, вычисление ключевого слова второй длины, указывающего кадр невокализированного класса.

2. Способ по п.1, в котором кадр с четным номером является достоверным, если он представляет собой вокализированный класс.

3. Способ по п.2, в котором кадр с нечетным номером является достоверным, если он представляет собой вокализированный класс, а основной тон кадра квантуется абсолютно или квантуется дифференциально, ссылаясь на основной тон непосредственно предшествующего кадра.

4. Способ по п.1, в котором система обработки информации представляет собой любой из клиентского компьютера и беспроводного устройства типа мобильного телефона.

5. Способ по п.4, в котором звук относится к речи.

6. Способ по п.5, в котором кадр включает в себя от, приблизительно, 20 до, приблизительно, 30 мс звука, а последовательные кадры могут перекрывать друг друга в течение периода от, приблизительно, 10 до, приблизительно, 15 мс.

7. Способ по п.1, дополнительно содержащий передачу ключевого слова, которое было рассчитано, на сервер.

8. Система обработки информации для квантования информации об основном тоне звука, содержащая микрофон для захвата звука, с представлением пронумерованного кадра из множества пронумерованных кадров, и цифровой процессор сигналов, предназначенный для вычисления класса кадра, в котором класс представляет собой любой из вокализированного класса и невокализированного класса, если кадр представляет собой вокализированный класс, вычисления основного тона для кадра, если кадр представляет собой кадр с четным номером и вокализированный класс, вычисления ключевого слова первой длины посредством абсолютного квантования основного тона кадра, если кадр представляет собой кадр с четным номером и невокализированный класс, вычисление ключевого слова первой длины, указывающего кадр невокализированного класса, если кадр представляет собой кадр с нечетным номером и вокализированный класс, и по меньшей мере один из трех кадров, непосредственно предшествующих этому кадру, является достоверным, вычисления ключевого слова второй длины посредством дифференциального квантования основного тона кадра, ссылаясь на квантованный основной тон ближайшего предшествующего достоверного кадра, в котором первая длина больше, чем вторая длина, если кадр представляет собой кадр с нечетным номером и вокализированный класс, и каждый из трех кадров, непосредственно предшествующих этому кадру, является недостоверным, вычисления ключевого слова второй длины посредством абсолютного квантования основного тона кадра, и если кадр представляет собой кадр с нечетным номером и невокализированный класс, вычисления ключевого слова второй длины, указывающего кадр невокализированного класса.

9. Система обработки информации по п.8, в которой кадр с четным номером является достоверным, если он представляет собой вокализированный класс.

10. Система обработки информации по п.9, в которой кадр с нечетным номером является достоверным, если он представляет собой вокализированный класс, а основной тон кадра квантуется абсолютно или квантуется дифференциально, ссылаясь на основной тон непосредственно предшествующего кадра.

11. Система обработки информации по п.8, в которой система обработки информации представляет собой любой из клиентского компьютера и беспроводного устройства типа мобильного телефона.

12. Система обработки информации по п.11, в которой звук относится к речи.

13. Система обработки информации по п.12, в которой кадр включает в себя от, приблизительно, 20 до, приблизительно, 30 мс звука, а последовательные кадры могут перекрывать друг друга в течение периода от, приблизительно, 10 до, приблизительно, 15 мс.

14. Система обработки информации по п.8, дополнительно содержащая передатчик для передачи ключевого слова, которое было рассчитано, на сервер.

15. Система обработки информации для квантования информации об основном тоне звука, содержащая средство для захвата звука, с представлением пронумерованного кадра из множества пронумерованных кадров, средство для вычисления класса кадра, в котором класс представляет собой любой из вокализированного класса и невокализированного класса, если кадр представляет собой вокализированный класс, средство для вычисления основного тона для кадра, если кадр представляет собой кадр с четным номером и вокализированный класс, средство для вычисления ключевого слова первой длины посредством абсолютного квантования основного тона кадра, если кадр представляет собой кадр с четным номером и невокализированный класс, средство для вычисления ключевого слова первой длины, указывающего кадр невокализированного класса, если кадр представляет собой кадр с нечетным номером и вокализированный класс, и по меньшей мере один из трех кадров, непосредственно предшествующих кадру, является достоверным, средство для вычисления ключевого слова второй длины посредством дифференциального квантования основного тона кадра, ссылаясь на квантованный основной тон ближайшего предшествующего достоверного кадра, в котором первая длина больше, чем вторая длина, если кадр представляет собой кадр с нечетным номером и вокализированный класс, и каждый из трех кадров, непосредственно предшествующих кадру, является недостоверным, средство для вычисления ключевого слова второй длины посредством абсолютного квантования основного тона кадра, и если кадр представляет собой кадр с нечетным номером и невокализированный класс, средство для вычисления ключевого слова второй длины, указывающего кадр невокализированного класса.

16. Система обработки информации по п.15, в которой кадр с четным номером является достоверным, если он представляет собой вокализированный класс.

17. Система обработки информации по п.16, в которой кадр с нечетным номером является достоверным, если он представляет собой вокализированный класс, а основной тон кадра квантуется абсолютно или квантуется дифференциально, ссылаясь на основной тон непосредственно предшествующего кадра.

18. Система обработки информации по п.15, в которой система обработки информации представляет собой любой из клиентского компьютера и беспроводного устройства типа мобильного телефона.

19. Система обработки информации по п.18, в которой звук относится к речи.

20. Система обработки информации по п.15, дополнительно содержащая передатчик для передачи ключевого слова, которое было рассчитано, на сервер.

21. Способ в системе обработки информации для квантования информации об основном тоне звука, содержащий захват звука, с представлением пронумерованного кадра из множества пронумерованных кадров, вычисление класса кадра, в котором класс представляет собой любой из вокализированного класса и невокализированного класса, если кадр представляет собой вокализированный класс, вычисление основного тона для кадра, если кадр представляет собой вокализированный класс, а номер n кадра является кратным предварительно определенному числу N > 0, вычисление ключевого слова первой длины посредством абсолютного квантования основного тона кадра, если кадр представляет собой невокализированный класс, а номер n кадра является кратным N, вычисление ключевого слова первой длины, указывающего кадр невокализированного класса, если кадр представляет собой невокализированный класс, а номер n кадра не является кратным N, вычисление ключевого слова второй длины, указывающего кадр невокализированного класса, в котором первая длина больше, чем вторая длина, если кадр представляет собой вокализированный класс, а номер n кадра не является кратным N, и основной тон кадра может быть квантован дифференциально, ссылаясь на квантованный основной тон предшествующего вокализированного кадра так, что полная длина зависимости кадра не превышает значение, заданное предварительно определенной функцией D(n) номера n кадра, вычисление ключевого слова второй длины посредством дифференциального квантования основного тона кадра, ссылаясь на квантованный основной тон предшествующего вокализированного кадра, в котором полная длина зависимости кадра, основной тон которого квантуется абсолютно, составляет 0, и полная длина зависимости кадра, основной тон которого квантуется дифференциально, составляет сумму полной длины зависимости кадра исходной точки и расстояния, измеренного в кадре, считая номера между этим кадром и кадром исходной точки, и если кадр представляет собой вокализированный класс, а номер n кадра не является кратным N, и основной тон кадра не может быть квантован дифференциально, ссылаясь на квантованный основной тон предшествующего вокализированного кадра, так что полная длина зависимости кадра не превышает значение, заданное предварительно определенной функцией D(n) номера кадра n, вычисление ключевого слова второй длины посредством абсолютного квантования основного тона кадра.

22. Способ по п.21, в котором дифференциальное квантование основного тона кадра выполняется с использованием самого близкого предшествующего кадра в качестве кадра исходной точки так, чтобы полная длина зависимости кадра не превышала значение, заданное предварительно определенной функцией D(n) номера n кадра.

23. Способ по п.21, в котором D(n) = kN + n модуль N, где k - предварительно определенное неотрицательное число.

24. Способ по п.23, в котором N=2 и k=1.