RU2008134112A

RU2008134112A - Аутентификация говорящего

Info

Publication number: RU2008134112A
Application number: RU2008134112/09A
Authority: RU
Inventors: Чженью ЧЖАН (US); Чженью ЧЖАН; Мин ЛИУ (US); Мин ЛИУ
Original assignee: Майкрософт Корпорейшн (Us); Майкрософт Корпорейшн
Priority date: 2006-02-20
Filing date: 2007-02-13
Publication date: 2010-02-27
Also published as: JP4876134B2; EP2410514B1; US7539616B2; CN101385074A; CN102646416B; MX2008010478A; CA2643481A1; KR20080102373A; US20070198257A1; WO2007098039A1; CA2861876C; EP2410514A2; JP2009527798A; EP1989701A4; CA2643481C; EP1989701A1; EP1989701B1; CA2861876A1; EP2410514A3; CN101385074B

Abstract

1. Способ, содержащий этапы, на которых: ! получают (600) речевой сигнал (700); ! формируют (604) адаптивные средние (714) для каждого из множества компонентов смеси путем адаптации фоновой модели (412), содержащей фоновые средние для каждого из множества компонентов смеси, основанных на речевом сигнале (700); ! определяют (906) оценку сходства (1012) путем определения суммы функций, определенных для множества компонентов смеси, где каждая функция содержит произведение апостериорной вероятности компонента смеси, основанного на речевом сигнале, и разность между адаптивным средним (714) и фоновым средним (412). ! 2. Способ по п.1, дополнительно содержащий этап, на котором: ! формируют (312) обучающие средние для каждого из множества компонентов смеси путем адаптации (312) фоновой модели, основанной на обучающем речевом сигнале (420) от пользователя. ! 3. Способ по п.2, в котором каждая функция дополнительно содержит произведение апостериорной вероятности компонента смеси, основанного на обучающем речевом сигнале, и разность между обучающим средним и фоновым средним. ! 4. Способ по п.3, дополнительно содержащий этап, на котором: ! получают (900) идентификацию (1000) номинального пользователя и выбирают (902) обучающие средние (1002) для использования в функциях, основанных на идентификации номинального пользователя. ! 5. Способ по п.1, дополнительно содержащий этап, на котором: ! формируют (306) средние (418) набора говорящих для каждого из множества говорящих в наборе (400) говорящих, причем средние набора говорящих формируются адаптацией фоновой модели, основанной на речи от говорящего. ! 6. Способ по п.5, в котором каждая функция дополнительно содержит соответствующие п

Claims

1. Способ, содержащий этапы, на которых:

получают (600) речевой сигнал (700);

формируют (604) адаптивные средние (714) для каждого из множества компонентов смеси путем адаптации фоновой модели (412), содержащей фоновые средние для каждого из множества компонентов смеси, основанных на речевом сигнале (700);

определяют (906) оценку сходства (1012) путем определения суммы функций, определенных для множества компонентов смеси, где каждая функция содержит произведение апостериорной вероятности компонента смеси, основанного на речевом сигнале, и разность между адаптивным средним (714) и фоновым средним (412).

2. Способ по п.1, дополнительно содержащий этап, на котором:

формируют (312) обучающие средние для каждого из множества компонентов смеси путем адаптации (312) фоновой модели, основанной на обучающем речевом сигнале (420) от пользователя.

3. Способ по п.2, в котором каждая функция дополнительно содержит произведение апостериорной вероятности компонента смеси, основанного на обучающем речевом сигнале, и разность между обучающим средним и фоновым средним.

4. Способ по п.3, дополнительно содержащий этап, на котором:

получают (900) идентификацию (1000) номинального пользователя и выбирают (902) обучающие средние (1002) для использования в функциях, основанных на идентификации номинального пользователя.

5. Способ по п.1, дополнительно содержащий этап, на котором:

формируют (306) средние (418) набора говорящих для каждого из множества говорящих в наборе (400) говорящих, причем средние набора говорящих формируются адаптацией фоновой модели, основанной на речи от говорящего.

6. Способ по п.5, в котором каждая функция дополнительно содержит соответствующие пороговые величины, где каждая пороговая величина (722) основана на средних (720) набора говорящих для подмножества говорящих в наборе говорящих.

7. Способ по п.6, дополнительно содержащий этап, на котором:

выбирают (800) подмножество говорящих из набора говорящих, на основании оценки сходства, определенной из средних (418) набора говорящих и адаптивных средних (714).

8. Способ по п.7, дополнительно содержащий этапы, на которых:

формируют (312) обучающие средние (426) для каждого из множества компонентов смеси путем адаптации фоновой модели, основанной на обучающем речевом сигнале (420) от пользователя; и

определяют (314) пороговые величины (436) номинального пользователя, основанные на средних наборах говорящих для второго подмножества говорящих из набора говорящих, причем второе подмножество выбирают (502) из набора говорящих на основании оценки сходства, определенной из средних набора говорящих и обучающих средних.

9. Способ по п.8, в котором каждая функция дополнительно содержит вторую пороговую величину.

10. Машиночитаемый носитель, содержащий машиноисполняемые инструкции для выполнения этапов, на которых:

определяют (800) оценку сходства между тестовым произнесением (714) и каждым из набора обучающих произнесений (418);

используют (800) оценку сходства для выбора подмножества (720) из множества обучающих произнесений;

используют (802) подмножество (720) обучающих произнесений для определения пороговой величины (724); и

используют (906) пороговую величину для определения аутентификационной оценки сходства между тестовым произнесением и сохраненным пользовательским произнесением.

11. Машиночитаемый носитель по п.10, в котором определение (906) оценки сходства содержит адаптацию (604) фоновой модели, основанной на тестовом произнесении для формирования адаптивного среднего, и использование (906) адаптивного среднего в оценке сходства.

12. Машиночитаемый носитель по п.11, в котором использование (906) адаптивного среднего содержит определение разности между адаптивным средним и фоновым средним фоновой модели и использование разности для определения оценки схожести.

13. Машиночитаемый носитель по п.12, в котором определение оценки сходства дополнительно содержит определение (602) вероятности для компонента смеси, основанного на тестовом произнесении, и использование произведения вероятности для компонента смеси и разности между адаптивным средним и фоновым средним для определения оценки сходства.

14. Машиночитаемый носитель по п.10, в котором этап, на котором используют пороговую величину для определения аутентификационной оценки сходства, дополнительно содержит этапы, на которых:

используют (804, 800) пороговую величину для определения новой оценки сходства между тестовым произнесением и каждым из набора обучающих произнесений;

используют (800) новую оценку сходства для выбора второго подмножества множества обучающих произнесений;

используют (802) второе подмножество обучающих произнесений для определения второй пороговой величины;

используют (906) пороговую величину и вторую пороговую величину для определения оценки сходства между тестовым произнесением и сохраненным пользовательским произнесением.

15. Машиночитаемый носитель по п.10, дополнительно содержащий этапы, на которых:

определяют (502) оценку сходства между сохраненным пользовательским произнесением и каждым из набора обучающих произнесений;

используют (502) оценку сходства для выбора зависимого от пользователя подмножества множества обучающих произнесений;

используют (504) зависимое от пользователя подмножество обучающих произнесений для определения зависимой от пользователя пороговой величины; и

используют (906) зависимую от пользователя пороговую величину для определения аутентификационной оценки сходства между тестовым произнесением и сохраненным пользовательским произнесением.

16. Машиночитаемый носитель по п.15, в котором этап, на котором используют зависимое от пользователя подмножество обучающих произнесений для определения зависимой от пользователя пороговой величины, содержит этап, на котором используют адаптивные средние (418) из фоновой модели для каждого обучающего произнесения в подмножестве обучающих произнесений.

17. Способ, содержащий этапы, на которых:

обучают (1100) Модель (1212) Гауссовых Смесей, используя независимую от текста речь (1200) от множества говорящих;

принимают (1102) обучающее произнесение (1216) от пользователя;

адаптируют (1103) Модель Гауссовых Смесей, основанную на обучающем произнесении, для формирования параметров (1404) вероятности состояний Скрытой Модели Маркова для пользователя;

устанавливают (1106) параметры (1406) вероятности перехода Скрытой Модели Маркова; и

используют параметры (1404) вероятности состояний Скрытой Модели Маркова и параметров (1406) вероятности перехода Скрытой Модели Маркова для определения (1312) того, было ли тестовое произнесение (1408) произведено пользователем.

18. Способ по п.17, в котором этап, на котором устанавливают параметры вероятности перехода Скрытой Модели Маркова, содержит этап, на котором:

устанавливают (1106) начальные параметры (1232) вероятности перехода Скрытой Модели Маркова;

используют (1108) параметры вероятности состояний Скрытой Модели Маркова и начальные параметры (1232) вероятности перехода Скрытой Модели Маркова для декодирования тестового произнесения в декодированную последовательность состояний (1230) Скрытой Модели Маркова; и

обновляют (1106) параметры (1232) вероятности перехода Скрытой Модели Маркова на основе декодирования последовательности состояний Скрытой Модели Маркова.

19. Способ по п.17, дополнительно содержащий этап, на котором:

используют (1101) Модель Гауссовых Смесей для формирования базисных параметров (1213) вероятности состояния Скрытой Модели Маркова, причем определение того, было ли контрольное произнесение произведено пользователем, содержит использование базисных параметров (1213) вероятности состояний Скрытой Модели Маркова для определения того, было ли контрольное произнесение произведено пользователем.

20. Способ по п.19, в котором определение того, было ли контрольное произнесение произведено пользователем, содержит этапы, на которых:

декодируют (1308) тестовое произнесение с использованием параметров (1404) вероятности состояний Скрытой Модели Маркова и параметров (1406) вероятности перехода Скрытой Модели Маркова для определения пользовательской вероятности (1424);

декодируют (1306) тестовое произнесение с использованием базисных параметров (1213) вероятности состояний Скрытой Модели Маркова и параметров (1406) вероятности перехода Скрытой Модели Маркова для определения базисной вероятности (1422); и

используют (1310) пользовательскую вероятность и базисную вероятность, чтобы сформировать оценку схожести.