RU2011149321A - Распознование с помощью повторного распознавания и статистической классификации - Google Patents
Распознование с помощью повторного распознавания и статистической классификации Download PDFInfo
- Publication number
- RU2011149321A RU2011149321A RU2011149321/08A RU2011149321A RU2011149321A RU 2011149321 A RU2011149321 A RU 2011149321A RU 2011149321/08 A RU2011149321/08 A RU 2011149321/08A RU 2011149321 A RU2011149321 A RU 2011149321A RU 2011149321 A RU2011149321 A RU 2011149321A
- Authority
- RU
- Russia
- Prior art keywords
- recognition
- results
- recognition result
- context
- result
- Prior art date
Links
- 238000000034 method Methods 0.000 claims abstract 15
- 230000001419 dependent effect Effects 0.000 claims abstract 5
- 239000012634 fragment Substances 0.000 claims abstract 5
- 230000001934 delay Effects 0.000 claims abstract 2
- 230000015572 biosynthetic process Effects 0.000 claims 1
- 238000007619 statistical method Methods 0.000 claims 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/24—Querying
- G06F16/245—Query processing
- G06F16/2458—Special types of queries, e.g. statistical queries, fuzzy queries or distributed queries
- G06F16/2462—Approximate or statistical queries
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/28—Constructional details of speech recognition systems
- G10L15/32—Multiple recognisers used in sequence or in parallel; Score combination systems therefor, e.g. voting systems
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F11/00—Error detection; Error correction; Monitoring
- G06F11/30—Monitoring
- G06F11/34—Recording or statistical evaluation of computer activity, e.g. of down time, of input/output operation ; Recording or statistical evaluation of user activity, e.g. usability assessment
- G06F11/3452—Performance evaluation by statistical analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F17/00—Digital computing or data processing equipment or methods, specially adapted for specific functions
- G06F17/10—Complex mathematical operations
- G06F17/18—Complex mathematical operations for evaluating statistical data, e.g. average values, frequency distributions, probability functions, regression analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B40/00—ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16C—COMPUTATIONAL CHEMISTRY; CHEMOINFORMATICS; COMPUTATIONAL MATERIALS SCIENCE
- G16C20/00—Chemoinformatics, i.e. ICT specially adapted for the handling of physicochemical or structural data of chemical particles, elements, compounds or mixtures
- G16C20/70—Machine learning, data mining or chemometrics
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/18—Speech classification or search using natural language modelling
- G10L15/183—Speech classification or search using natural language modelling using context dependencies, e.g. language models
- G10L15/19—Grammatical context, e.g. disambiguation of the recognition hypotheses based on word sequence rules
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
- G10L2015/226—Procedures used during a speech recognition process, e.g. man-machine dialogue using non-speech characteristics
- G10L2015/228—Procedures used during a speech recognition process, e.g. man-machine dialogue using non-speech characteristics of application context
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Software Systems (AREA)
- Health & Medical Sciences (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Life Sciences & Earth Sciences (AREA)
- Computational Linguistics (AREA)
- Medical Informatics (AREA)
- Mathematical Physics (AREA)
- Evolutionary Computation (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Databases & Information Systems (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Artificial Intelligence (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Probability & Statistics with Applications (AREA)
- Computing Systems (AREA)
- Evolutionary Biology (AREA)
- Mathematical Optimization (AREA)
- Computational Mathematics (AREA)
- Pure & Applied Mathematics (AREA)
- General Health & Medical Sciences (AREA)
- Mathematical Analysis (AREA)
- Operations Research (AREA)
- Bioethics (AREA)
- Fuzzy Systems (AREA)
- Crystallography & Structural Chemistry (AREA)
- Computer Hardware Design (AREA)
- Quality & Reliability (AREA)
- Algebra (AREA)
- Chemical & Material Sciences (AREA)
- Biophysics (AREA)
- Epidemiology (AREA)
Abstract
1. Компьютерно-реализуемая система (100) распознавания, содержащая:- компонент (102) ограничений для зависящих от контекста ограничений для процесса распознавания входных данных в результаты распознавания; и- компонент (110) согласования для согласования результатов распознавания в единый результат распознавания.2. Система по п.1, в которой ограничения включают в себя грамматики для процесса распознавания входных данных параллельными путями.3. Система по п.1, в которой компонент согласования согласовывает результаты с помощью повторного распознавания, чтобы формировать единый результат распознавания.4. Система по п.3, в которой повторное распознавание применяет динамически составленную грамматику на основе результатов распознавания.5. Система по п.1, в которой компонент согласования согласовывает результаты с помощью статистического классификатора, который работает по классификационным признакам, извлеченным из результатов распознавания, чтобы формировать единый результат распознавания.6. Система по п.1, в которой зависящие от контекста ограничения включают в себя непересекающийся и пересекающийся охваты контекста.7. Система по п.1, в которой процесс распознавания обрабатывает релевантные для задачи данные, чтобы достичь единого результата распознавания, причем релевантные для задачи данные включают в себя, по меньшей мере, одно из распознанных строк, оценок достоверности уровня фрагмента речи и уровня субфрагмента речи, охвата речи, относительных задержек среди одновременных распознаваний, априорных вероятностей контекстов, относительной трудности каждого распознавания или согласованности между резуль
Claims (15)
1. Компьютерно-реализуемая система (100) распознавания, содержащая:
- компонент (102) ограничений для зависящих от контекста ограничений для процесса распознавания входных данных в результаты распознавания; и
- компонент (110) согласования для согласования результатов распознавания в единый результат распознавания.
2. Система по п.1, в которой ограничения включают в себя грамматики для процесса распознавания входных данных параллельными путями.
3. Система по п.1, в которой компонент согласования согласовывает результаты с помощью повторного распознавания, чтобы формировать единый результат распознавания.
4. Система по п.3, в которой повторное распознавание применяет динамически составленную грамматику на основе результатов распознавания.
5. Система по п.1, в которой компонент согласования согласовывает результаты с помощью статистического классификатора, который работает по классификационным признакам, извлеченным из результатов распознавания, чтобы формировать единый результат распознавания.
6. Система по п.1, в которой зависящие от контекста ограничения включают в себя непересекающийся и пересекающийся охваты контекста.
7. Система по п.1, в которой процесс распознавания обрабатывает релевантные для задачи данные, чтобы достичь единого результата распознавания, причем релевантные для задачи данные включают в себя, по меньшей мере, одно из распознанных строк, оценок достоверности уровня фрагмента речи и уровня субфрагмента речи, охвата речи, относительных задержек среди одновременных распознаваний, априорных вероятностей контекстов, относительной трудности каждого распознавания или согласованности между результатами распознавания.
8. Система по п.1, дополнительно содержащая компонент распознавания для отдельного процесса распознавания входных данных с помощью соответствующего зависящего от контекста ограничения в каждом из параллельных путей.
9. Система по п.1, дополнительно содержащая компонент правил для наложения одного или более правил, которые задают определение единого результата распознавания.
10. Компьютерно-реализуемый способ распознавания, содержащий этапы, на которых:
- принимают отдельные зависящие от контекста грамматики для обработки входных данных фрагмента речи (500);
- распознают входные данные фрагмента речи параллельными путями с помощью соответствующей зависящей от контекста грамматики для каждого пути (502);
- формируют промежуточный результат распознавания от каждого пути (504); и
- согласовывают промежуточные результаты распознавания в конечный результат (506) распознавания.
11. Способ по п.10, дополнительно содержащий этап, на котором согласовывают промежуточные результаты распознавания с помощью повторного распознавания динамической грамматики, сформированной из результатов распознавания.
12. Способ по п.10, дополнительно содержащий этапы, на которых:
- вводят знания другой области во время согласования промежуточных результатов распознавания посредством повторного распознавания; и
- накладывают одно или более правил, чтобы формировать конечный результат распознавания.
13. Способ по п.10, дополнительно содержащий этапы, на которых:
- вводят знания другой области во время согласования промежуточных результатов распознавания посредством статистической классификации; и
- накладывают одно или более правил, чтобы формировать конечный результат распознавания.
14. Способ по п.10, дополнительно содержащий этапы, на которых:
- выполняют статистический анализ; и
- назначают относительные весовые коэффициенты каждому пути в повторном распознавании динамической грамматики.
15. Способ по п.10, дополнительно содержащий этапы, на которых:
- ожидают в течение предварительно определенного интервала времени для формирования промежуточного результата распознавания пути; и
- формируют конечный результат распознавания на основе промежуточных результатов распознавания, которые формируются в течение интервала времени.
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US12/477,918 US8930179B2 (en) | 2009-06-04 | 2009-06-04 | Recognition using re-recognition and statistical classification |
US12/477,918 | 2009-06-04 | ||
PCT/US2010/036964 WO2010141513A2 (en) | 2009-06-04 | 2010-06-01 | Recognition using re-recognition and statistical classification |
Publications (2)
Publication Number | Publication Date |
---|---|
RU2011149321A true RU2011149321A (ru) | 2013-06-10 |
RU2571519C2 RU2571519C2 (ru) | 2015-12-20 |
Family
ID=43298454
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
RU2011149321/08A RU2571519C2 (ru) | 2009-06-04 | 2010-06-01 | Распознавание с помощью повторного распознавания и статистической классификации |
Country Status (10)
Country | Link |
---|---|
US (1) | US8930179B2 (ru) |
EP (1) | EP2438533B1 (ru) |
JP (2) | JP2012529080A (ru) |
KR (1) | KR101700466B1 (ru) |
CN (1) | CN102460423B (ru) |
AU (1) | AU2010256788B2 (ru) |
BR (1) | BRPI1014550B1 (ru) |
CA (1) | CA2760992C (ru) |
RU (1) | RU2571519C2 (ru) |
WO (1) | WO2010141513A2 (ru) |
Families Citing this family (36)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2011033680A (ja) * | 2009-07-30 | 2011-02-17 | Sony Corp | 音声処理装置及び方法、並びにプログラム |
US9711167B2 (en) * | 2012-03-13 | 2017-07-18 | Nice Ltd. | System and method for real-time speaker segmentation of audio interactions |
US9093076B2 (en) * | 2012-04-30 | 2015-07-28 | 2236008 Ontario Inc. | Multipass ASR controlling multiple applications |
US9431012B2 (en) | 2012-04-30 | 2016-08-30 | 2236008 Ontario Inc. | Post processing of natural language automatic speech recognition |
KR20140082157A (ko) * | 2012-12-24 | 2014-07-02 | 한국전자통신연구원 | 다중 음향 모델을 이용하여 음성을 인식하기 위한 장치 및 그 방법 |
CN103077718B (zh) * | 2013-01-09 | 2015-11-25 | 华为终端有限公司 | 语音处理方法、系统和终端 |
US9414004B2 (en) | 2013-02-22 | 2016-08-09 | The Directv Group, Inc. | Method for combining voice signals to form a continuous conversation in performing a voice search |
US20140365218A1 (en) * | 2013-06-07 | 2014-12-11 | Microsoft Corporation | Language model adaptation using result selection |
US9728184B2 (en) | 2013-06-18 | 2017-08-08 | Microsoft Technology Licensing, Llc | Restructuring deep neural network acoustic models |
US9589565B2 (en) | 2013-06-21 | 2017-03-07 | Microsoft Technology Licensing, Llc | Environmentally aware dialog policies and response generation |
US9311298B2 (en) | 2013-06-21 | 2016-04-12 | Microsoft Technology Licensing, Llc | Building conversational understanding systems using a toolset |
US9324321B2 (en) | 2014-03-07 | 2016-04-26 | Microsoft Technology Licensing, Llc | Low-footprint adaptation and personalization for a deep neural network |
US9529794B2 (en) | 2014-03-27 | 2016-12-27 | Microsoft Technology Licensing, Llc | Flexible schema for language model customization |
EP2933067B1 (en) * | 2014-04-17 | 2019-09-18 | Softbank Robotics Europe | Method of performing multi-modal dialogue between a humanoid robot and user, computer program product and humanoid robot for implementing said method |
US9614724B2 (en) | 2014-04-21 | 2017-04-04 | Microsoft Technology Licensing, Llc | Session-based device configuration |
US9520127B2 (en) | 2014-04-29 | 2016-12-13 | Microsoft Technology Licensing, Llc | Shared hidden layer combination for speech recognition systems |
US9384334B2 (en) | 2014-05-12 | 2016-07-05 | Microsoft Technology Licensing, Llc | Content discovery in managed wireless distribution networks |
US10111099B2 (en) | 2014-05-12 | 2018-10-23 | Microsoft Technology Licensing, Llc | Distributing content in managed wireless distribution networks |
US9430667B2 (en) | 2014-05-12 | 2016-08-30 | Microsoft Technology Licensing, Llc | Managed wireless distribution network |
US9384335B2 (en) | 2014-05-12 | 2016-07-05 | Microsoft Technology Licensing, Llc | Content delivery prioritization in managed wireless distribution networks |
US9874914B2 (en) | 2014-05-19 | 2018-01-23 | Microsoft Technology Licensing, Llc | Power management contracts for accessory devices |
US10037202B2 (en) | 2014-06-03 | 2018-07-31 | Microsoft Technology Licensing, Llc | Techniques to isolating a portion of an online computing service |
US9367490B2 (en) | 2014-06-13 | 2016-06-14 | Microsoft Technology Licensing, Llc | Reversible connector for accessory devices |
US9786276B2 (en) * | 2014-08-25 | 2017-10-10 | Honeywell International Inc. | Speech enabled management system |
KR102365757B1 (ko) * | 2015-09-09 | 2022-02-18 | 삼성전자주식회사 | 인식 장치, 인식 방법 및 협업 처리 장치 |
US20180366123A1 (en) * | 2015-12-01 | 2018-12-20 | Nuance Communications, Inc. | Representing Results From Various Speech Services as a Unified Conceptual Knowledge Base |
KR102019757B1 (ko) * | 2015-12-15 | 2019-09-10 | 한국전자통신연구원 | 언어 분석 오류 보정 장치 및 방법 |
DE102016005629B4 (de) * | 2016-05-06 | 2020-06-25 | Audi Ag | Kraftfahrzeug-Bedienvorrichtung und Verfahren zum Ermitteln zumindest eines Erkennungsergebnisses zu einem Sprachsignal |
JP2018191145A (ja) * | 2017-05-08 | 2018-11-29 | オリンパス株式会社 | 収音装置、収音方法、収音プログラム及びディクテーション方法 |
CN107437414A (zh) * | 2017-07-17 | 2017-12-05 | 镇江市高等专科学校 | 基于嵌入式gpu系统的并行化游客识别方法 |
CN107943452B (zh) * | 2017-11-20 | 2020-07-14 | 中国运载火箭技术研究院 | 一种多用户协同开发的体系结构设计平台 |
US11360872B2 (en) | 2018-10-18 | 2022-06-14 | Hewlett-Packard Development Company, L.P. | Creating statistical analyses of data for transmission to servers |
WO2021019775A1 (ja) * | 2019-08-01 | 2021-02-04 | 三菱電機株式会社 | 多言語音声認識装置および多言語音声認識方法 |
US11238884B2 (en) * | 2019-10-04 | 2022-02-01 | Red Box Recorders Limited | Systems and methods for recording quality driven communication management |
US11961511B2 (en) | 2019-11-08 | 2024-04-16 | Vail Systems, Inc. | System and method for disambiguation and error resolution in call transcripts |
JP6786005B1 (ja) * | 2020-04-09 | 2020-11-18 | 日鉄エンジニアリング株式会社 | 情報出力装置、情報出力システム、情報出力方法、プログラム、サーバ装置及びデータ出力方法 |
Family Cites Families (21)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPS6265089A (ja) | 1985-09-18 | 1987-03-24 | 株式会社リコー | 音声認識装置 |
JPS6346496A (ja) | 1986-04-04 | 1988-02-27 | 株式会社リコー | 音声認識装置 |
US5390279A (en) * | 1992-12-31 | 1995-02-14 | Apple Computer, Inc. | Partitioning speech rules by context for speech recognition |
US5677990A (en) * | 1995-05-05 | 1997-10-14 | Panasonic Technologies, Inc. | System and method using N-best strategy for real time recognition of continuously spelled names |
US6122613A (en) * | 1997-01-30 | 2000-09-19 | Dragon Systems, Inc. | Speech recognition using multiple recognizers (selectively) applied to the same input sample |
US7082391B1 (en) * | 1998-07-14 | 2006-07-25 | Intel Corporation | Automatic speech recognition |
US6434524B1 (en) * | 1998-09-09 | 2002-08-13 | One Voice Technologies, Inc. | Object interactive user interface using speech recognition and natural language processing |
JP2000181487A (ja) | 1998-12-14 | 2000-06-30 | Toshiba Tec Corp | 音声認識装置 |
DE19910234A1 (de) | 1999-03-09 | 2000-09-21 | Philips Corp Intellectual Pty | Verfahren mit mehreren Spracherkennern |
US6526380B1 (en) | 1999-03-26 | 2003-02-25 | Koninklijke Philips Electronics N.V. | Speech recognition system having parallel large vocabulary recognition engines |
JP2001249684A (ja) * | 2000-03-02 | 2001-09-14 | Sony Corp | 音声認識装置および音声認識方法、並びに記録媒体 |
US7213027B1 (en) | 2000-03-21 | 2007-05-01 | Aol Llc | System and method for the transformation and canonicalization of semantically structured data |
US6973429B2 (en) * | 2000-12-04 | 2005-12-06 | A9.Com, Inc. | Grammar generation for voice-based searches |
US7409349B2 (en) * | 2001-05-04 | 2008-08-05 | Microsoft Corporation | Servers for web enabled speech recognition |
JP2003029783A (ja) | 2001-07-17 | 2003-01-31 | Oki Electric Ind Co Ltd | 音声認識制御方式 |
US20030149566A1 (en) | 2002-01-02 | 2003-08-07 | Esther Levin | System and method for a spoken language interface to a large database of changing records |
US7184957B2 (en) * | 2002-09-25 | 2007-02-27 | Toyota Infotechnology Center Co., Ltd. | Multiple pass speech recognition method and system |
EP1774516B1 (en) | 2004-01-12 | 2011-03-16 | Voice Signal Technologies Inc. | Normalization of cepstral features for speech recognition |
JP2006039382A (ja) | 2004-07-29 | 2006-02-09 | Nissan Motor Co Ltd | 音声認識装置 |
US7747437B2 (en) | 2004-12-16 | 2010-06-29 | Nuance Communications, Inc. | N-best list rescoring in speech recognition |
US8364481B2 (en) * | 2008-07-02 | 2013-01-29 | Google Inc. | Speech recognition with parallel recognition tasks |
-
2009
- 2009-06-04 US US12/477,918 patent/US8930179B2/en active Active
-
2010
- 2010-06-01 EP EP10783961.5A patent/EP2438533B1/en active Active
- 2010-06-01 CN CN201080025833.3A patent/CN102460423B/zh active Active
- 2010-06-01 AU AU2010256788A patent/AU2010256788B2/en active Active
- 2010-06-01 KR KR1020117028895A patent/KR101700466B1/ko active IP Right Grant
- 2010-06-01 CA CA2760992A patent/CA2760992C/en active Active
- 2010-06-01 BR BRPI1014550A patent/BRPI1014550B1/pt active IP Right Grant
- 2010-06-01 WO PCT/US2010/036964 patent/WO2010141513A2/en active Application Filing
- 2010-06-01 JP JP2012514054A patent/JP2012529080A/ja active Pending
- 2010-06-01 RU RU2011149321/08A patent/RU2571519C2/ru active
-
2015
- 2015-10-13 JP JP2015202120A patent/JP2016026326A/ja active Pending
Also Published As
Publication number | Publication date |
---|---|
AU2010256788A1 (en) | 2011-11-17 |
JP2016026326A (ja) | 2016-02-12 |
AU2010256788B2 (en) | 2014-09-11 |
EP2438533A2 (en) | 2012-04-11 |
CN102460423B (zh) | 2015-09-09 |
EP2438533A4 (en) | 2016-05-11 |
EP2438533B1 (en) | 2019-01-23 |
JP2012529080A (ja) | 2012-11-15 |
CN102460423A (zh) | 2012-05-16 |
WO2010141513A2 (en) | 2010-12-09 |
KR20120029413A (ko) | 2012-03-26 |
BRPI1014550B1 (pt) | 2020-05-05 |
KR101700466B1 (ko) | 2017-01-26 |
US8930179B2 (en) | 2015-01-06 |
CA2760992A1 (en) | 2010-12-09 |
CA2760992C (en) | 2017-04-25 |
US20100312546A1 (en) | 2010-12-09 |
WO2010141513A3 (en) | 2011-03-03 |
BRPI1014550A2 (pt) | 2016-04-05 |
RU2571519C2 (ru) | 2015-12-20 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
RU2011149321A (ru) | Распознование с помощью повторного распознавания и статистической классификации | |
Etienne et al. | Cnn+ lstm architecture for speech emotion recognition with data augmentation | |
TWI620170B (zh) | 應用於電子裝置的有向性關鍵字驗證方法及其電子裝置 | |
Cummins et al. | An image-based deep spectrum feature representation for the recognition of emotional speech | |
CN108305615B (zh) | 一种对象识别方法及其设备、存储介质、终端 | |
Weng et al. | Deep neural networks for single-channel multi-talker speech recognition | |
TWI473080B (zh) | The use of phonological emotions or excitement to assist in resolving the gender or age of speech signals | |
Renals et al. | Neural networks for distant speech recognition | |
JP5583301B1 (ja) | 音声認識装置 | |
Weng et al. | Single-channel mixed speech recognition using deep neural networks | |
ATE419616T1 (de) | Verfahren, einrichtung und computerprogramm zur spracherkennung | |
CN106782563A (zh) | 一种智能家居语音交互系统 | |
WO2020256257A3 (ko) | 잡음 환경에 강인한 화자 인식을 위한 심화신경망 기반의 특징 강화 및 변형된 손실 함수를 이용한 결합 학습 방법 및 장치 | |
CN105869657A (zh) | 语音情感辨识系统及方法 | |
US20220383880A1 (en) | Speaker identification apparatus, speaker identification method, and recording medium | |
CN110033757A (zh) | 一种人声识别算法 | |
CN103366737B (zh) | 在自动语音识别中应用声调特征的装置和方法 | |
US20210201928A1 (en) | Integrated speech enhancement for voice trigger application | |
Huang et al. | Joint speaker diarization and speech recognition based on region proposal networks | |
Tu et al. | A speaker-dependent deep learning approach to joint speech separation and acoustic modeling for multi-talker automatic speech recognition | |
GB2546325A (en) | Speaker-adaptive speech recognition | |
Wang et al. | CasNet: Investigating channel robustness for speech separation | |
Han et al. | Robust speaker clustering strategies to data source variation for improved speaker diarization | |
Tanabian et al. | Automatic speaker recognition with formant trajectory tracking using CART and neural networks | |
Kovács et al. | Multi-band processing with gabor filters and time delay neural nets for noise robust speech recognition |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
HZ9A | Changing address for correspondence with an applicant |