RU2017100526A - Системы и способ распознавания речи - Google Patents

Системы и способ распознавания речи Download PDF

Info

Publication number
RU2017100526A
RU2017100526A RU2017100526A RU2017100526A RU2017100526A RU 2017100526 A RU2017100526 A RU 2017100526A RU 2017100526 A RU2017100526 A RU 2017100526A RU 2017100526 A RU2017100526 A RU 2017100526A RU 2017100526 A RU2017100526 A RU 2017100526A
Authority
RU
Russia
Prior art keywords
vehicle
speech recognition
input state
recognition system
subject
Prior art date
Application number
RU2017100526A
Other languages
English (en)
Inventor
Эн ДЖИ
Скотт Эндрю ЭММАН
Бриджит Фрэнсис Мора РИЧАРДСОН
Джон Эдвард ХЬЮБЕР
Франсуа ШАРЕТТ
Ранджани РАНГАРАДЖАН
Гинтарас Винсент ПУСКОРИУС
Али ХАССАНИ
Original Assignee
ФОРД ГЛОУБАЛ ТЕКНОЛОДЖИЗ, ЭлЭлСи
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by ФОРД ГЛОУБАЛ ТЕКНОЛОДЖИЗ, ЭлЭлСи filed Critical ФОРД ГЛОУБАЛ ТЕКНОЛОДЖИЗ, ЭлЭлСи
Publication of RU2017100526A publication Critical patent/RU2017100526A/ru

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/16Speech classification or search using artificial neural networks
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/20Speech recognition techniques specially adapted for robustness in adverse environments, e.g. in noise, of stress induced speech
    • BPERFORMING OPERATIONS; TRANSPORTING
    • B60VEHICLES IN GENERAL
    • B60WCONJOINT CONTROL OF VEHICLE SUB-UNITS OF DIFFERENT TYPE OR DIFFERENT FUNCTION; CONTROL SYSTEMS SPECIALLY ADAPTED FOR HYBRID VEHICLES; ROAD VEHICLE DRIVE CONTROL SYSTEMS FOR PURPOSES NOT RELATED TO THE CONTROL OF A PARTICULAR SUB-UNIT
    • B60W50/00Details of control systems for road vehicle drive control not related to the control of a particular sub-unit, e.g. process diagnostic or vehicle driver interfaces
    • B60W50/08Interaction between the driver and the control system
    • B60W50/10Interpretation of driver requests or demands
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/01Assessment or evaluation of speech recognition systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/14Speech classification or search using statistical models, e.g. Hidden Markov Models [HMMs]
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • G10L15/183Speech classification or search using natural language modelling using context dependencies, e.g. language models
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/51Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
    • BPERFORMING OPERATIONS; TRANSPORTING
    • B60VEHICLES IN GENERAL
    • B60WCONJOINT CONTROL OF VEHICLE SUB-UNITS OF DIFFERENT TYPE OR DIFFERENT FUNCTION; CONTROL SYSTEMS SPECIALLY ADAPTED FOR HYBRID VEHICLES; ROAD VEHICLE DRIVE CONTROL SYSTEMS FOR PURPOSES NOT RELATED TO THE CONTROL OF A PARTICULAR SUB-UNIT
    • B60W2540/00Input parameters relating to occupants
    • B60W2540/21Voice
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/226Procedures used during a speech recognition process, e.g. man-machine dialogue using non-speech characteristics

Landscapes

  • Engineering & Computer Science (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Artificial Intelligence (AREA)
  • Automation & Control Theory (AREA)
  • Transportation (AREA)
  • Mechanical Engineering (AREA)
  • Probability & Statistics with Applications (AREA)
  • Signal Processing (AREA)
  • Evolutionary Computation (AREA)
  • Navigation (AREA)
  • Traffic Control Systems (AREA)

Claims (22)

1. Система распознавания речи для транспортного средства, содержащая:
процессор, запрограммированный с возможностью распознавания речи с помощью предметно-ориентированной языковой и акустической моделей и выполненный с возможностью в ответ на акустическую модель, имеющую показатель достоверности для распознанной речи, попадающий в пределы заданного диапазона, определенного относительно показателя достоверности для предметно-ориентированной языковой модели, распознавать речь только с помощью акустической модели.
2. Система распознавания речи по п. 1, в которой процессор дополнительно запрограммирован с возможностью агрегации входных данных состояния транспортного средства для установления показателя достоверности для предметно-ориентированной языковой модели.
3. Система распознавания речи по п. 2, в которой входные данные состояния транспортного средства включают в себя погодные или дорожные условия.
4. Система распознавания речи по п. 2, в которой входные данные состояния транспортного средства включают в себя мобильные устройства вблизи транспортного средства.
5. Система распознавания речи по п. 2, в которой входные данные состояния транспортного средства включают в себя историю разговоров.
6. Система распознавания речи по п. 1, в которой процессор дополнительно запрограммирован с помощью алгоритма декодирования для установления показателя достоверности акустической модели.
7. Система распознавания речи, содержащая:
процессор, запрограммированный с помощью предметно-ориентированной языковой и акустической моделей и выполненный с возможностью в ответ на прием содержащего речь сигнала создавать показатель достоверности предметно-ориентированной модели с использованием алгоритма машинного обучения, обеспечиваемого входными данными состояния транспортного средства, и выбирать один из множества путей распознавания речи, связанных с возможными результатами моделей на основе сочетания показателя достоверности предметно-ориентированной модели и показателя достоверности акустической модели.
8. Система распознавания речи по п. 7, в которой алгоритм машинного обучения, обеспечиваемый входными данными состояния транспортного средства, представляет собой искусственную нейронную сеть.
9. Система распознавания речи по п. 8, в которой входные данные состояния транспортного средства для алгоритма машинного обучения, обеспечиваемого входными данными состояния транспортного средства, включают в себя погодные или дорожные условия.
10. Система распознавания речи по п. 8, в которой входные данные состояния транспортного средства для алгоритма машинного обучения, обеспечиваемого входными данными состояния транспортного средства, включают в себя мобильные устройства вблизи транспортного средства.
11. Система распознавания речи по п. 8, в которой входные данные состояния транспортного средства для алгоритма машинного обучения, обеспечиваемого входными данными состояния транспортного средства, включают в себя историю разговоров.
12. Система распознавания речи по п. 7, в которой процессор дополнительно запрограммирован с помощью алгоритма декодирования для установления показателя достоверности акустической модели.
13. Способ распознавания речи, содержащий этап, на котором:
выполняют с использованием процессора команду транспортного средства, определенную из содержащего речь сигнала согласно гипотезе распознавания, выбранной из множества гипотез распознавания, каждая из которых основана на произведении общей пары речевых предметных областей, включающей в себя один из множества показателей достоверности предметно-ориентированной языковой модели, полученный путем применения алгоритма машинного обучения к входным данным состояния транспортного средства, и один из множества показателей достоверности акустической модели.
14. Способ по п. 13, в котором алгоритм машинного обучения представляет собой искусственную нейронную сеть.
15. Способ по п. 14, в котором искусственная нейронная сеть имеет выходные данные, которые связаны с командами.
16. Способ по п. 13, дополнительно содержащий этап, на котором пропорционально уменьшают один из множества показателей достоверности предметно-ориентированной языковой модели до генерации произведения на основе одного из множества показателей достоверности акустической модели, попадающих в пределы заданного диапазона, определенного относительно одного из множества показателей достоверности предметно-ориентированной языковой модели.
17. Способ по п. 13, в котором входные данные состояния транспортного средства включают в себя погодные или дорожные условия.
18. Способ по п. 13, в котором входные данные состояния транспортного средства включают в себя мобильные устройства вблизи транспортного средства.
19. Способ по п. 13, в котором входные данные состояния транспортного средства включают в себя историю разговоров.
RU2017100526A 2016-01-25 2017-01-11 Системы и способ распознавания речи RU2017100526A (ru)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US15/005,654 2016-01-25
US15/005,654 US10475447B2 (en) 2016-01-25 2016-01-25 Acoustic and domain based speech recognition for vehicles

Publications (1)

Publication Number Publication Date
RU2017100526A true RU2017100526A (ru) 2018-07-12

Family

ID=58463100

Family Applications (1)

Application Number Title Priority Date Filing Date
RU2017100526A RU2017100526A (ru) 2016-01-25 2017-01-11 Системы и способ распознавания речи

Country Status (6)

Country Link
US (1) US10475447B2 (ru)
CN (1) CN107016995A (ru)
DE (1) DE102017100232A1 (ru)
GB (1) GB2548954A (ru)
MX (1) MX2017001121A (ru)
RU (1) RU2017100526A (ru)

Families Citing this family (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105957516B (zh) * 2016-06-16 2019-03-08 百度在线网络技术(北京)有限公司 多语音识别模型切换方法及装置
JP6597527B2 (ja) * 2016-09-06 2019-10-30 トヨタ自動車株式会社 音声認識装置および音声認識方法
US10535342B2 (en) * 2017-04-10 2020-01-14 Microsoft Technology Licensing, Llc Automatic learning of language models
CN107437416B (zh) * 2017-05-23 2020-11-17 创新先进技术有限公司 一种基于语音识别的咨询业务处理方法及装置
CN107193973B (zh) * 2017-05-25 2021-07-20 百度在线网络技术(北京)有限公司 语义解析信息的领域识别方法及装置、设备及可读介质
US11056104B2 (en) * 2017-05-26 2021-07-06 International Business Machines Corporation Closed captioning through language detection
US11043214B1 (en) * 2018-11-29 2021-06-22 Amazon Technologies, Inc. Speech recognition using dialog history
JP7230205B2 (ja) * 2018-12-03 2023-02-28 グーグル エルエルシー 音声入力処理
KR20200072020A (ko) * 2018-12-12 2020-06-22 현대자동차주식회사 음성인식시스템의 대화 안내 방법
KR20200072021A (ko) * 2018-12-12 2020-06-22 현대자동차주식회사 음성인식시스템의 도메인 관리 방법
JP2022515266A (ja) 2018-12-24 2022-02-17 ディーティーエス・インコーポレイテッド 深層学習画像解析を用いた室内音響シミュレーション
CN110148416B (zh) * 2019-04-23 2024-03-15 腾讯科技(深圳)有限公司 语音识别方法、装置、设备和存储介质
DE102020200522A1 (de) 2020-01-17 2021-07-22 Volkswagen Aktiengesellschaft Verfahren, Computerprogramm und Vorrichtung zum Verarbeiten einer Spracheingabe
CN111916089B (zh) * 2020-07-27 2022-11-04 南京信息工程大学 基于声信号特征分析的冰雹检测方法和装置
US20230035752A1 (en) * 2021-07-30 2023-02-02 Nissan North America, Inc. Systems and methods for responding to audible commands and/or adjusting vehicle components based thereon
CN115472165A (zh) * 2022-07-07 2022-12-13 脸萌有限公司 用于语音识别的方法、装置、设备和存储介质
DE102022213191A1 (de) 2022-12-07 2024-06-13 Robert Bosch Gesellschaft mit beschränkter Haftung Verfahren zur Park- oder Manöverunterstützung eines Nutzers eines Fahrzeugs, Computerprogramm, Rechenvorrichtung und Fahrzeug

Family Cites Families (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6587824B1 (en) * 2000-05-04 2003-07-01 Visteon Global Technologies, Inc. Selective speaker adaptation for an in-vehicle speech recognition system
US7451085B2 (en) * 2000-10-13 2008-11-11 At&T Intellectual Property Ii, L.P. System and method for providing a compensated speech recognition model for speech recognition
US7502737B2 (en) * 2002-06-24 2009-03-10 Intel Corporation Multi-pass recognition of spoken dialogue
JP4352790B2 (ja) 2002-10-31 2009-10-28 セイコーエプソン株式会社 音響モデル作成方法および音声認識装置ならびに音声認識装置を有する乗り物
US7392188B2 (en) * 2003-07-31 2008-06-24 Telefonaktiebolaget Lm Ericsson (Publ) System and method enabling acoustic barge-in
KR100612839B1 (ko) * 2004-02-18 2006-08-18 삼성전자주식회사 도메인 기반 대화 음성인식방법 및 장치
US7676363B2 (en) 2006-06-29 2010-03-09 General Motors Llc Automated speech recognition using normalized in-vehicle speech
JP2008064885A (ja) * 2006-09-05 2008-03-21 Honda Motor Co Ltd 音声認識装置、音声認識方法、及び音声認識プログラム
JP4188989B2 (ja) * 2006-09-15 2008-12-03 本田技研工業株式会社 音声認識装置、音声認識方法、及び音声認識プログラム
US20090030688A1 (en) 2007-03-07 2009-01-29 Cerra Joseph P Tagging speech recognition results based on an unstructured language model for use in a mobile communication facility application
JP4412504B2 (ja) * 2007-04-17 2010-02-10 本田技研工業株式会社 音声認識装置、音声認識方法、及び音声認識用プログラム
US8396713B2 (en) * 2007-04-30 2013-03-12 Nuance Communications, Inc. Method and system for using a statistical language model and an action classifier in parallel with grammar for better handling of out-of-grammar utterances
US8407051B2 (en) * 2007-07-02 2013-03-26 Mitsubishi Electric Corporation Speech recognizing apparatus
JP4990115B2 (ja) * 2007-12-06 2012-08-01 株式会社デンソー 位置範囲設定装置、移動物体搭載装置の制御方法および制御装置、ならびに車両用空調装置の制御方法および制御装置
US8423362B2 (en) 2007-12-21 2013-04-16 General Motors Llc In-vehicle circumstantial speech recognition
US8438028B2 (en) * 2010-05-18 2013-05-07 General Motors Llc Nametag confusability determination
US9734826B2 (en) 2015-03-11 2017-08-15 Microsoft Technology Licensing, Llc Token-level interpolation for class-based language models

Also Published As

Publication number Publication date
US10475447B2 (en) 2019-11-12
US20170213551A1 (en) 2017-07-27
GB2548954A (en) 2017-10-04
CN107016995A (zh) 2017-08-04
DE102017100232A1 (de) 2017-07-27
MX2017001121A (es) 2018-07-23
GB201701141D0 (en) 2017-03-08

Similar Documents

Publication Publication Date Title
RU2017100526A (ru) Системы и способ распознавания речи
WO2020180014A3 (ko) 심층 강화 학습에 기반한 자율주행 에이전트의 학습 방법 및 시스템
RU2015142271A (ru) Адаптивное объединение идентификаций водителя
ZA202007714B (en) System and method for real time prediction of water level and hazard level of a dam
MX2017000688A (es) Deteccion de peatones con mapas de prominencia.
EP4276761A3 (en) Collision avoidance system, depth imaging system, vehicle, map generator, amd methods thereof
WO2017176356A3 (en) Partitioned machine learning architecture
GB2558502A8 (en) Systems and methods for recommending an estimated time of arrival
RU2015152202A (ru) Регулирование скорости транспортного средства
SE1851266A1 (sv) System and method for training object classifier by machine learning
JP2017511915A5 (ru)
DE602004020247D1 (de) System und verfahren zur auswahl eines benutzersprachprofils für eine vorrichtung in einem fahrzeug
US20160004501A1 (en) Audio command intent determination system and method
SG11201901419QA (en) Information processing apparatus, speech recognition system, and information processing method
US20140214414A1 (en) Dynamic audio processing parameters with automatic speech recognition
JP2017525993A5 (ru)
KR101740636B1 (ko) 음성 인식 기반 발음 평가 방법 및 장치
RU2018120869A (ru) Клаксон расширенного диапазона для транспортного средства
US20190318746A1 (en) Speech recognition device and speech recognition method
UA113173C2 (xx) Система та спосіб розпізнавання контенту програми мовлення
RU2018113700A (ru) Содействие смене сиденья в транспортном средстве
DE60310687D1 (de) Verfahren zur beschleunigung der durchführung von spracherkennung mit neuralen netzwerken, sowie entsprechende vorrichtung
MX2021011219A (es) Metodo de procesamiento de informacion, programa y dispositivo de procesamiento de informacion.
EP3647910A1 (en) An improved apparatus for user interaction
MY191127A (en) Control method for vehicle, information processing device, and vehicle control system

Legal Events

Date Code Title Description
FA93 Acknowledgement of application withdrawn (no request for examination)

Effective date: 20200113