RU2008134112A - Аутентификация говорящего - Google Patents
Аутентификация говорящего Download PDFInfo
- Publication number
- RU2008134112A RU2008134112A RU2008134112/09A RU2008134112A RU2008134112A RU 2008134112 A RU2008134112 A RU 2008134112A RU 2008134112/09 A RU2008134112/09 A RU 2008134112/09A RU 2008134112 A RU2008134112 A RU 2008134112A RU 2008134112 A RU2008134112 A RU 2008134112A
- Authority
- RU
- Russia
- Prior art keywords
- user
- average
- probability
- pronunciation
- hidden markov
- Prior art date
Links
- 238000000034 method Methods 0.000 claims abstract 19
- 239000000203 mixture Substances 0.000 claims abstract 18
- 230000003044 adaptive effect Effects 0.000 claims abstract 11
- 230000006870 function Effects 0.000 claims abstract 11
- 230000007704 transition Effects 0.000 claims 8
- 230000001419 dependent effect Effects 0.000 claims 6
- 230000006978 adaptation Effects 0.000 abstract 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/14—Speech classification or search using statistical models, e.g. Hidden Markov Models [HMMs]
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification techniques
- G10L17/20—Pattern transformations or operations aimed at increasing system robustness, e.g. against channel noise or different working conditions
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification techniques
- G10L17/06—Decision making techniques; Pattern matching strategies
- G10L17/08—Use of distortion metrics or a particular distance between probe pattern and reference templates
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Business, Economics & Management (AREA)
- Game Theory and Decision Science (AREA)
- Probability & Statistics with Applications (AREA)
- Computational Linguistics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Electrically Operated Instructional Devices (AREA)
- Collating Specific Patterns (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
1. Способ, содержащий этапы, на которых: ! получают (600) речевой сигнал (700); ! формируют (604) адаптивные средние (714) для каждого из множества компонентов смеси путем адаптации фоновой модели (412), содержащей фоновые средние для каждого из множества компонентов смеси, основанных на речевом сигнале (700); ! определяют (906) оценку сходства (1012) путем определения суммы функций, определенных для множества компонентов смеси, где каждая функция содержит произведение апостериорной вероятности компонента смеси, основанного на речевом сигнале, и разность между адаптивным средним (714) и фоновым средним (412). ! 2. Способ по п.1, дополнительно содержащий этап, на котором: ! формируют (312) обучающие средние для каждого из множества компонентов смеси путем адаптации (312) фоновой модели, основанной на обучающем речевом сигнале (420) от пользователя. ! 3. Способ по п.2, в котором каждая функция дополнительно содержит произведение апостериорной вероятности компонента смеси, основанного на обучающем речевом сигнале, и разность между обучающим средним и фоновым средним. ! 4. Способ по п.3, дополнительно содержащий этап, на котором: ! получают (900) идентификацию (1000) номинального пользователя и выбирают (902) обучающие средние (1002) для использования в функциях, основанных на идентификации номинального пользователя. ! 5. Способ по п.1, дополнительно содержащий этап, на котором: ! формируют (306) средние (418) набора говорящих для каждого из множества говорящих в наборе (400) говорящих, причем средние набора говорящих формируются адаптацией фоновой модели, основанной на речи от говорящего. ! 6. Способ по п.5, в котором каждая функция дополнительно содержит соответствующие п
Claims (20)
1. Способ, содержащий этапы, на которых:
получают (600) речевой сигнал (700);
формируют (604) адаптивные средние (714) для каждого из множества компонентов смеси путем адаптации фоновой модели (412), содержащей фоновые средние для каждого из множества компонентов смеси, основанных на речевом сигнале (700);
определяют (906) оценку сходства (1012) путем определения суммы функций, определенных для множества компонентов смеси, где каждая функция содержит произведение апостериорной вероятности компонента смеси, основанного на речевом сигнале, и разность между адаптивным средним (714) и фоновым средним (412).
2. Способ по п.1, дополнительно содержащий этап, на котором:
формируют (312) обучающие средние для каждого из множества компонентов смеси путем адаптации (312) фоновой модели, основанной на обучающем речевом сигнале (420) от пользователя.
3. Способ по п.2, в котором каждая функция дополнительно содержит произведение апостериорной вероятности компонента смеси, основанного на обучающем речевом сигнале, и разность между обучающим средним и фоновым средним.
4. Способ по п.3, дополнительно содержащий этап, на котором:
получают (900) идентификацию (1000) номинального пользователя и выбирают (902) обучающие средние (1002) для использования в функциях, основанных на идентификации номинального пользователя.
5. Способ по п.1, дополнительно содержащий этап, на котором:
формируют (306) средние (418) набора говорящих для каждого из множества говорящих в наборе (400) говорящих, причем средние набора говорящих формируются адаптацией фоновой модели, основанной на речи от говорящего.
6. Способ по п.5, в котором каждая функция дополнительно содержит соответствующие пороговые величины, где каждая пороговая величина (722) основана на средних (720) набора говорящих для подмножества говорящих в наборе говорящих.
7. Способ по п.6, дополнительно содержащий этап, на котором:
выбирают (800) подмножество говорящих из набора говорящих, на основании оценки сходства, определенной из средних (418) набора говорящих и адаптивных средних (714).
8. Способ по п.7, дополнительно содержащий этапы, на которых:
формируют (312) обучающие средние (426) для каждого из множества компонентов смеси путем адаптации фоновой модели, основанной на обучающем речевом сигнале (420) от пользователя; и
определяют (314) пороговые величины (436) номинального пользователя, основанные на средних наборах говорящих для второго подмножества говорящих из набора говорящих, причем второе подмножество выбирают (502) из набора говорящих на основании оценки сходства, определенной из средних набора говорящих и обучающих средних.
9. Способ по п.8, в котором каждая функция дополнительно содержит вторую пороговую величину.
10. Машиночитаемый носитель, содержащий машиноисполняемые инструкции для выполнения этапов, на которых:
определяют (800) оценку сходства между тестовым произнесением (714) и каждым из набора обучающих произнесений (418);
используют (800) оценку сходства для выбора подмножества (720) из множества обучающих произнесений;
используют (802) подмножество (720) обучающих произнесений для определения пороговой величины (724); и
используют (906) пороговую величину для определения аутентификационной оценки сходства между тестовым произнесением и сохраненным пользовательским произнесением.
11. Машиночитаемый носитель по п.10, в котором определение (906) оценки сходства содержит адаптацию (604) фоновой модели, основанной на тестовом произнесении для формирования адаптивного среднего, и использование (906) адаптивного среднего в оценке сходства.
12. Машиночитаемый носитель по п.11, в котором использование (906) адаптивного среднего содержит определение разности между адаптивным средним и фоновым средним фоновой модели и использование разности для определения оценки схожести.
13. Машиночитаемый носитель по п.12, в котором определение оценки сходства дополнительно содержит определение (602) вероятности для компонента смеси, основанного на тестовом произнесении, и использование произведения вероятности для компонента смеси и разности между адаптивным средним и фоновым средним для определения оценки сходства.
14. Машиночитаемый носитель по п.10, в котором этап, на котором используют пороговую величину для определения аутентификационной оценки сходства, дополнительно содержит этапы, на которых:
используют (804, 800) пороговую величину для определения новой оценки сходства между тестовым произнесением и каждым из набора обучающих произнесений;
используют (800) новую оценку сходства для выбора второго подмножества множества обучающих произнесений;
используют (802) второе подмножество обучающих произнесений для определения второй пороговой величины;
используют (906) пороговую величину и вторую пороговую величину для определения оценки сходства между тестовым произнесением и сохраненным пользовательским произнесением.
15. Машиночитаемый носитель по п.10, дополнительно содержащий этапы, на которых:
определяют (502) оценку сходства между сохраненным пользовательским произнесением и каждым из набора обучающих произнесений;
используют (502) оценку сходства для выбора зависимого от пользователя подмножества множества обучающих произнесений;
используют (504) зависимое от пользователя подмножество обучающих произнесений для определения зависимой от пользователя пороговой величины; и
используют (906) зависимую от пользователя пороговую величину для определения аутентификационной оценки сходства между тестовым произнесением и сохраненным пользовательским произнесением.
16. Машиночитаемый носитель по п.15, в котором этап, на котором используют зависимое от пользователя подмножество обучающих произнесений для определения зависимой от пользователя пороговой величины, содержит этап, на котором используют адаптивные средние (418) из фоновой модели для каждого обучающего произнесения в подмножестве обучающих произнесений.
17. Способ, содержащий этапы, на которых:
обучают (1100) Модель (1212) Гауссовых Смесей, используя независимую от текста речь (1200) от множества говорящих;
принимают (1102) обучающее произнесение (1216) от пользователя;
адаптируют (1103) Модель Гауссовых Смесей, основанную на обучающем произнесении, для формирования параметров (1404) вероятности состояний Скрытой Модели Маркова для пользователя;
устанавливают (1106) параметры (1406) вероятности перехода Скрытой Модели Маркова; и
используют параметры (1404) вероятности состояний Скрытой Модели Маркова и параметров (1406) вероятности перехода Скрытой Модели Маркова для определения (1312) того, было ли тестовое произнесение (1408) произведено пользователем.
18. Способ по п.17, в котором этап, на котором устанавливают параметры вероятности перехода Скрытой Модели Маркова, содержит этап, на котором:
устанавливают (1106) начальные параметры (1232) вероятности перехода Скрытой Модели Маркова;
используют (1108) параметры вероятности состояний Скрытой Модели Маркова и начальные параметры (1232) вероятности перехода Скрытой Модели Маркова для декодирования тестового произнесения в декодированную последовательность состояний (1230) Скрытой Модели Маркова; и
обновляют (1106) параметры (1232) вероятности перехода Скрытой Модели Маркова на основе декодирования последовательности состояний Скрытой Модели Маркова.
19. Способ по п.17, дополнительно содержащий этап, на котором:
используют (1101) Модель Гауссовых Смесей для формирования базисных параметров (1213) вероятности состояния Скрытой Модели Маркова, причем определение того, было ли контрольное произнесение произведено пользователем, содержит использование базисных параметров (1213) вероятности состояний Скрытой Модели Маркова для определения того, было ли контрольное произнесение произведено пользователем.
20. Способ по п.19, в котором определение того, было ли контрольное произнесение произведено пользователем, содержит этапы, на которых:
декодируют (1308) тестовое произнесение с использованием параметров (1404) вероятности состояний Скрытой Модели Маркова и параметров (1406) вероятности перехода Скрытой Модели Маркова для определения пользовательской вероятности (1424);
декодируют (1306) тестовое произнесение с использованием базисных параметров (1213) вероятности состояний Скрытой Модели Маркова и параметров (1406) вероятности перехода Скрытой Модели Маркова для определения базисной вероятности (1422); и
используют (1310) пользовательскую вероятность и базисную вероятность, чтобы сформировать оценку схожести.
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US11/358,302 US7539616B2 (en) | 2006-02-20 | 2006-02-20 | Speaker authentication using adapted background models |
US11/358,302 | 2006-02-20 |
Publications (1)
Publication Number | Publication Date |
---|---|
RU2008134112A true RU2008134112A (ru) | 2010-02-27 |
Family
ID=38429414
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
RU2008134112/09A RU2008134112A (ru) | 2006-02-20 | 2007-02-13 | Аутентификация говорящего |
Country Status (11)
Country | Link |
---|---|
US (1) | US7539616B2 (ru) |
EP (2) | EP2410514B1 (ru) |
JP (1) | JP4876134B2 (ru) |
KR (1) | KR101323061B1 (ru) |
CN (2) | CN101385074B (ru) |
AU (1) | AU2007217884A1 (ru) |
CA (2) | CA2861876C (ru) |
MX (1) | MX2008010478A (ru) |
NO (1) | NO20083580L (ru) |
RU (1) | RU2008134112A (ru) |
WO (1) | WO2007098039A1 (ru) |
Families Citing this family (47)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7877255B2 (en) * | 2006-03-31 | 2011-01-25 | Voice Signal Technologies, Inc. | Speech recognition using channel verification |
KR20080090034A (ko) * | 2007-04-03 | 2008-10-08 | 삼성전자주식회사 | 음성 화자 인식 방법 및 시스템 |
AU2012200605B2 (en) * | 2008-09-05 | 2014-01-23 | Auraya Pty Ltd | Voice authentication system and methods |
WO2010025523A1 (en) * | 2008-09-05 | 2010-03-11 | Auraya Pty Ltd | Voice authentication system and methods |
CN101833951B (zh) * | 2010-03-04 | 2011-11-09 | 清华大学 | 用于说话人识别的多背景模型建立方法 |
US8645136B2 (en) * | 2010-07-20 | 2014-02-04 | Intellisist, Inc. | System and method for efficiently reducing transcription error using hybrid voice transcription |
US9224388B2 (en) * | 2011-03-04 | 2015-12-29 | Qualcomm Incorporated | Sound recognition method and system |
US9159324B2 (en) | 2011-07-01 | 2015-10-13 | Qualcomm Incorporated | Identifying people that are proximate to a mobile device user via social graphs, speech models, and user context |
US9489950B2 (en) * | 2012-05-31 | 2016-11-08 | Agency For Science, Technology And Research | Method and system for dual scoring for text-dependent speaker verification |
US9036890B2 (en) | 2012-06-05 | 2015-05-19 | Outerwall Inc. | Optical coin discrimination systems and methods for use with consumer-operated kiosks and the like |
CN102737633B (zh) * | 2012-06-21 | 2013-12-25 | 北京华信恒达软件技术有限公司 | 一种基于张量子空间分析的说话人识别方法及其装置 |
US20140095161A1 (en) * | 2012-09-28 | 2014-04-03 | At&T Intellectual Property I, L.P. | System and method for channel equalization using characteristics of an unknown signal |
EP2713367B1 (en) | 2012-09-28 | 2016-11-09 | Agnitio, S.L. | Speaker recognition |
US9240184B1 (en) * | 2012-11-15 | 2016-01-19 | Google Inc. | Frame-level combination of deep neural network and gaussian mixture models |
US8739955B1 (en) * | 2013-03-11 | 2014-06-03 | Outerwall Inc. | Discriminant verification systems and methods for use in coin discrimination |
US9443367B2 (en) | 2014-01-17 | 2016-09-13 | Outerwall Inc. | Digital image coin discrimination for use with consumer-operated kiosks and the like |
US9542948B2 (en) | 2014-04-09 | 2017-01-10 | Google Inc. | Text-dependent speaker identification |
US9384738B2 (en) * | 2014-06-24 | 2016-07-05 | Google Inc. | Dynamic threshold for speaker verification |
US9653093B1 (en) * | 2014-08-19 | 2017-05-16 | Amazon Technologies, Inc. | Generative modeling of speech using neural networks |
JP6239471B2 (ja) * | 2014-09-19 | 2017-11-29 | 株式会社東芝 | 認証システム、認証装置および認証方法 |
CN105513588B (zh) * | 2014-09-22 | 2019-06-25 | 联想(北京)有限公司 | 一种信息处理方法及电子设备 |
CN106384587B (zh) * | 2015-07-24 | 2019-11-15 | 科大讯飞股份有限公司 | 一种语音识别方法及系统 |
CN105096941B (zh) * | 2015-09-02 | 2017-10-31 | 百度在线网络技术(北京)有限公司 | 语音识别方法以及装置 |
US10311219B2 (en) * | 2016-06-07 | 2019-06-04 | Vocalzoom Systems Ltd. | Device, system, and method of user authentication utilizing an optical microphone |
US10141009B2 (en) | 2016-06-28 | 2018-11-27 | Pindrop Security, Inc. | System and method for cluster-based audio event detection |
US20180018973A1 (en) * | 2016-07-15 | 2018-01-18 | Google Inc. | Speaker verification |
US9824692B1 (en) | 2016-09-12 | 2017-11-21 | Pindrop Security, Inc. | End-to-end speaker recognition using deep neural network |
WO2018053531A1 (en) * | 2016-09-19 | 2018-03-22 | Pindrop Security, Inc. | Dimensionality reduction of baum-welch statistics for speaker recognition |
AU2017327003B2 (en) | 2016-09-19 | 2019-05-23 | Pindrop Security, Inc. | Channel-compensated low-level features for speaker recognition |
WO2018053537A1 (en) | 2016-09-19 | 2018-03-22 | Pindrop Security, Inc. | Improvements of speaker recognition in the call center |
FR3058558B1 (fr) * | 2016-11-07 | 2020-01-10 | Pw Group | Procede et systeme d'authentification par biometrie vocale d'un utilisateur |
CN106782564B (zh) * | 2016-11-18 | 2018-09-11 | 百度在线网络技术(北京)有限公司 | 用于处理语音数据的方法和装置 |
US10397398B2 (en) | 2017-01-17 | 2019-08-27 | Pindrop Security, Inc. | Authentication using DTMF tones |
US10950243B2 (en) * | 2017-11-29 | 2021-03-16 | ILLUMA Labs Inc. | Method for reduced computation of t-matrix training for speaker recognition |
US10832683B2 (en) * | 2017-11-29 | 2020-11-10 | ILLUMA Labs LLC. | System and method for efficient processing of universal background models for speaker recognition |
US10950244B2 (en) * | 2017-11-29 | 2021-03-16 | ILLUMA Labs LLC. | System and method for speaker authentication and identification |
CN111566729B (zh) * | 2017-12-26 | 2024-05-28 | 罗伯特·博世有限公司 | 用于远场和近场声音辅助应用的利用超短语音分段进行的说话者标识 |
US11893999B1 (en) * | 2018-05-13 | 2024-02-06 | Amazon Technologies, Inc. | Speech based user recognition |
US10762905B2 (en) * | 2018-07-31 | 2020-09-01 | Cirrus Logic, Inc. | Speaker verification |
WO2020159917A1 (en) | 2019-01-28 | 2020-08-06 | Pindrop Security, Inc. | Unsupervised keyword spotting and word discovery for fraud analytics |
US11019201B2 (en) | 2019-02-06 | 2021-05-25 | Pindrop Security, Inc. | Systems and methods of gateway detection in a telephone network |
US11646018B2 (en) | 2019-03-25 | 2023-05-09 | Pindrop Security, Inc. | Detection of calls from voice assistants |
US12015637B2 (en) | 2019-04-08 | 2024-06-18 | Pindrop Security, Inc. | Systems and methods for end-to-end architectures for voice spoofing detection |
CN110379433B (zh) * | 2019-08-02 | 2021-10-08 | 清华大学 | 身份验证的方法、装置、计算机设备及存储介质 |
US11158325B2 (en) * | 2019-10-24 | 2021-10-26 | Cirrus Logic, Inc. | Voice biometric system |
CN111564152B (zh) * | 2020-07-16 | 2020-11-24 | 北京声智科技有限公司 | 语音转换方法、装置、电子设备及存储介质 |
US20220148600A1 (en) * | 2020-11-11 | 2022-05-12 | Rovi Guides, Inc. | Systems and methods for detecting a mimicked voice input signal |
Family Cites Families (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5625748A (en) * | 1994-04-18 | 1997-04-29 | Bbn Corporation | Topic discriminator using posterior probability or confidence scores |
US5864810A (en) * | 1995-01-20 | 1999-01-26 | Sri International | Method and apparatus for speech recognition adapted to an individual speaker |
US5839103A (en) * | 1995-06-07 | 1998-11-17 | Rutgers, The State University Of New Jersey | Speaker verification system using decision fusion logic |
US5787394A (en) * | 1995-12-13 | 1998-07-28 | International Business Machines Corporation | State-dependent speaker clustering for speaker adaptation |
WO1998014934A1 (en) * | 1996-10-02 | 1998-04-09 | Sri International | Method and system for automatic text-independent grading of pronunciation for language instruction |
US5897616A (en) | 1997-06-11 | 1999-04-27 | International Business Machines Corporation | Apparatus and methods for speaker verification/identification/classification employing non-acoustic and/or acoustic models and databases |
US6807537B1 (en) * | 1997-12-04 | 2004-10-19 | Microsoft Corporation | Mixtures of Bayesian networks |
US6141644A (en) * | 1998-09-04 | 2000-10-31 | Matsushita Electric Industrial Co., Ltd. | Speaker verification and speaker identification based on eigenvoices |
EP1178467B1 (en) * | 2000-07-05 | 2005-03-09 | Matsushita Electric Industrial Co., Ltd. | Speaker verification and identification |
MXPA03010751A (es) * | 2001-05-25 | 2005-03-07 | Dolby Lab Licensing Corp | Segmentacion de senales de audio en eventos auditivos. |
WO2003088534A1 (en) * | 2002-04-05 | 2003-10-23 | International Business Machines Corporation | Feature-based audio content identification |
KR100611562B1 (ko) | 2003-09-17 | 2006-08-11 | (주)한국파워보이스 | 음성 암호를 이용한 컴퓨터 보안 방법 |
-
2006
- 2006-02-20 US US11/358,302 patent/US7539616B2/en not_active Expired - Fee Related
-
2007
- 2007-02-13 KR KR1020087020272A patent/KR101323061B1/ko active IP Right Grant
- 2007-02-13 CN CN200780005880XA patent/CN101385074B/zh not_active Expired - Fee Related
- 2007-02-13 JP JP2008556366A patent/JP4876134B2/ja not_active Expired - Fee Related
- 2007-02-13 CA CA2861876A patent/CA2861876C/en active Active
- 2007-02-13 MX MX2008010478A patent/MX2008010478A/es not_active Application Discontinuation
- 2007-02-13 RU RU2008134112/09A patent/RU2008134112A/ru not_active Application Discontinuation
- 2007-02-13 CN CN201210055759.0A patent/CN102646416B/zh not_active Expired - Fee Related
- 2007-02-13 CA CA2643481A patent/CA2643481C/en active Active
- 2007-02-13 EP EP11008117.1A patent/EP2410514B1/en not_active Not-in-force
- 2007-02-13 EP EP07750936A patent/EP1989701B1/en not_active Not-in-force
- 2007-02-13 WO PCT/US2007/004137 patent/WO2007098039A1/en active Application Filing
- 2007-02-13 AU AU2007217884A patent/AU2007217884A1/en not_active Abandoned
-
2008
- 2008-08-19 NO NO20083580A patent/NO20083580L/no not_active Application Discontinuation
Also Published As
Publication number | Publication date |
---|---|
JP4876134B2 (ja) | 2012-02-15 |
EP2410514B1 (en) | 2013-05-29 |
US7539616B2 (en) | 2009-05-26 |
CN101385074A (zh) | 2009-03-11 |
CN102646416B (zh) | 2014-10-29 |
MX2008010478A (es) | 2008-10-23 |
CA2643481A1 (en) | 2007-08-30 |
KR20080102373A (ko) | 2008-11-25 |
US20070198257A1 (en) | 2007-08-23 |
WO2007098039A1 (en) | 2007-08-30 |
CA2861876C (en) | 2016-04-26 |
EP2410514A2 (en) | 2012-01-25 |
JP2009527798A (ja) | 2009-07-30 |
EP1989701A4 (en) | 2011-06-22 |
CA2643481C (en) | 2016-01-05 |
EP1989701A1 (en) | 2008-11-12 |
EP1989701B1 (en) | 2012-06-27 |
CA2861876A1 (en) | 2007-08-30 |
EP2410514A3 (en) | 2012-02-22 |
CN101385074B (zh) | 2012-08-15 |
CN102646416A (zh) | 2012-08-22 |
AU2007217884A1 (en) | 2007-08-30 |
NO20083580L (no) | 2008-09-10 |
KR101323061B1 (ko) | 2013-10-29 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
RU2008134112A (ru) | Аутентификация говорящего | |
CN103003875B (zh) | 用于执行音频和相应文本转录的同步并确定该同步的置信值的方法和系统 | |
JP2009527798A5 (ru) | ||
Abdou et al. | Computer aided pronunciation learning system using speech recognition techniques | |
WO2011070972A1 (ja) | 音声認識システム、音声認識方法および音声認識プログラム | |
WO2004063902A3 (en) | Speech training method with color instruction | |
WO2004100638A3 (en) | Source-dependent text-to-speech system | |
WO2008117626A1 (ja) | 話者選択装置、話者適応モデル作成装置、話者選択方法、話者選択用プログラムおよび話者適応モデル作成プログラム | |
WO2006033044A3 (en) | Method of training a robust speaker-dependent speech recognition system with speaker-dependent expressions and robust speaker-dependent speech recognition system | |
KR101487005B1 (ko) | 문장입력을 통해 발음교정을 실시하는 외국어 학습장치 및 그 학습방법 | |
ATE401644T1 (de) | Verfahren zur spracherkennung | |
WO2017162281A1 (en) | Speaker verification computer system with textual transcript adaptations of universal background model and enrolled speaker model | |
CN110246489B (zh) | 用于儿童的语音识别方法及系统 | |
DE602004023555D1 (de) | Spracherkennungsverfahren das Variationsinferenz mit veränderlichen Zustandsraummodellen benuzt | |
KR20190012419A (ko) | 발화 유창성 자동 평가 시스템 및 방법 | |
TW201411602A (zh) | 可控制語速的韻律訊息產生裝置及語速相依之階層式韻律模組 | |
Wang et al. | Joint Speaker and Lexical Modeling for Short-Term Characterization of Speaker. | |
JP2003177779A5 (ru) | ||
JP2016024325A (ja) | 言語モデル生成装置、およびそのプログラム、ならびに音声認識装置 | |
JP2003177779A (ja) | 音声認識のための話者学習法 | |
KR20150107520A (ko) | 음성인식 방법 및 장치 | |
KR101487007B1 (ko) | 사용자의 발음을 분석하여 교정해주는 외국어 학습장치 및 그 학습방법 | |
KR101487006B1 (ko) | 연음법칙이 적용되는 발음의 발음교정을 실시하는 외국어 학습장치 및 그 학습방법 | |
CN110164414B (zh) | 语音处理方法、装置及智能设备 | |
KR20160082150A (ko) | 불완전 사전을 이용한 자연어 음성 인식 방법 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
FA93 | Acknowledgement of application withdrawn (no request for examination) |
Effective date: 20100215 |