RU2017143129A - Способ захвата речевого ввода от пользователя, система и машиночитаемые запоминающие носители - Google Patents
Способ захвата речевого ввода от пользователя, система и машиночитаемые запоминающие носители Download PDFInfo
- Publication number
- RU2017143129A RU2017143129A RU2017143129A RU2017143129A RU2017143129A RU 2017143129 A RU2017143129 A RU 2017143129A RU 2017143129 A RU2017143129 A RU 2017143129A RU 2017143129 A RU2017143129 A RU 2017143129A RU 2017143129 A RU2017143129 A RU 2017143129A
- Authority
- RU
- Russia
- Prior art keywords
- audio
- audio data
- captured
- filtering
- capture
- Prior art date
Links
- 238000000034 method Methods 0.000 title claims 11
- 238000001914 filtration Methods 0.000 claims 12
- 230000003139 buffering effect Effects 0.000 claims 6
- 238000006243 chemical reaction Methods 0.000 claims 1
- 238000009877 rendering Methods 0.000 claims 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0272—Voice signal separating
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/20—Speech recognition techniques specially adapted for robustness in adverse environments, e.g. in noise, of stress induced speech
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/26—Speech to text systems
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0272—Voice signal separating
- G10L21/028—Voice signal separating using properties of sound source
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
- G10L2015/223—Execution procedure of a spoken command
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
- G10L2021/02082—Noise filtering the noise being echo, reverberation of the speech
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
- G10L2021/02087—Noise filtering the noise being separate speech, e.g. cocktail party
Landscapes
- Engineering & Computer Science (AREA)
- Acoustics & Sound (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Multimedia (AREA)
- Quality & Reliability (AREA)
- Signal Processing (AREA)
- Fittings On The Vehicle Exterior For Carrying Loads, And Devices For Holding Or Mounting Articles (AREA)
- Circuit For Audible Band Transducer (AREA)
- User Interface Of Digital Computer (AREA)
- Signal Processing For Digital Recording And Reproducing (AREA)
- Telephone Function (AREA)
Claims (35)
1. Способ захвата речевого ввода от пользователя, при этом способ содержит этапы, на которых
буферизуют аудиоданные для формирования звука;
воспроизводят упомянутые аудиоданные на одном или более динамиков;
захватывают аудио (захваченное аудио) с использованием микрофона;
фильтруют захваченное аудио для того, чтобы формировать фильтрованное аудио, при этом фильтрация содержит этап, на котором осуществляют фильтрацию с использованием буферизированных аудиоданных, чтобы удалять аудио, соответствующее упомянутым аудиоданным, из захваченного аудио; и
формируют текст или команды на основе фильтрованного аудио.
2. Способ по п. 1, в котором захват захваченного аудио с использованием микрофона содержит этап, на котором осуществляют захват в ходе воспроизведения упомянутых аудиоданных на одном или более динамиков.
3. Способ по п. 1, дополнительно содержащий этап, на котором определяют, воспроизводятся ли какие-либо аудиоданные, при этом буферизация аудиоданных содержит этап, на котором осуществляют буферизацию в ответ на определение того, что аудиоданные воспроизводятся.
4. Способ по п. 1, дополнительно содержащий этап, на котором определяют время для воспроизведения упомянутых аудиоданных.
5. Способ по п. 4, в котором фильтрация захваченного аудио с использованием буферизированных аудиоданных содержит этап, на котором осуществляют фильтрацию на основе упомянутого времени для воспроизведения упомянутых аудиоданных.
6. Способ по п. 1, в котором буферизация аудиоданных для формирования звука содержит этап, на котором захватывают упомянутые аудиоданные из буфера необработанного аудио перед удалением из буфера необработанного аудио, при этом упомянутые аудиоданные размещены в буфере необработанного аудио до воспроизведения на одном или более динамиков.
7. Способ по п. 1, в котором упомянутые аудиоданные содержат музыку, аудио, соответствующее видео, звук оповещения и голосовую инструкцию.
8. Способ по п. 1, дополнительно содержащий этап, на котором определяют операцию, которая должна выполняться посредством вычислительного устройства или управляемой системы, на основе текста или команды.
9. Способ по п. 1, дополнительно содержащий этап, на котором принимают указание, чтобы активировать распознавание речи, при этом буферизация аудиоданных, захват аудио, фильтрация захваченного аудио и выполнение преобразования речи в текст содержит этап, на котором осуществляют упомянутые буферизацию, захват, фильтрацию и выполнение в ответ на прием упомянутого указания.
10. Система, содержащая
компонент воспроизведения аудио, выполненный с возможностью буферизовать аудиоданные для формирования звука;
компонент рендеринга аудио, выполненный с возможностью воспроизводить упомянутые аудиоданные на одном или более динамиков;
компонент захвата, выполненный с возможностью захватывать аудио (захваченное аудио) с использованием микрофона;
компонент фильтрации, выполненный с возможностью фильтровать захваченное аудио для того, чтобы формировать фильтрованное аудио, при этом фильтрация содержит фильтрацию с использованием буферизированных аудиоданных, чтобы удалять аудио, соответствующее упомянутым аудиоданным, из захваченного аудио; и
компонент распознавания речи, выполненный с возможностью формировать текст или команды на основе фильтрованного аудио.
11. Система по п. 10, в которой компонент захвата выполнен с возможностью захватывать захваченное аудио в ходе воспроизведения упомянутых аудиоданных на одном или более динамиков.
12. Система по п. 10, в которой компонент воспроизведения аудио дополнительно выполнен с возможностью определять, воспроизводятся ли какие-либо аудиоданные, при этом воспроизводимое аудио выполнено с возможностью буферизовать упомянутые аудиоданные в ответ на определение того, что аудиоданные воспроизводятся.
13. Система по п. 10, в которой компонент воспроизведения аудио дополнительно выполнен с возможностью определять время для воспроизведения упомянутых аудиоданных.
14. Система по п. 13, в которой компонент фильтрации выполнен с возможностью фильтровать захваченное аудио с использованием буферизированных аудиоданных на основе упомянутого времени для воспроизведения упомянутых аудиоданных.
15. Система по п. 10, в которой компонент распознавания речи дополнительно выполнен с возможностью определять операцию, которая должна выполняться посредством вычислительного устройства или системы управления, на основе текста или команды.
16. Машиночитаемый запоминающий носитель, сохраняющий инструкции, которые, при выполнении посредством одного или более процессоров, инструктируют одному или более процессоров
буферизовать аудиоданные для формирования звука;
воспроизводить упомянутые аудиоданные на одном или более динамиков;
захватывать аудио (захваченное аудио) с использованием микрофона;
фильтровать захваченное аудио для того, чтобы формировать фильтрованное аудио, при этом фильтрация содержит фильтрацию с использованием буферизированных аудиоданных, чтобы удалять аудио, соответствующее упомянутым аудиоданным, из захваченного аудио; и
формировать текст или команды на основе фильтрованного аудио.
17. Машиночитаемый запоминающий носитель по п. 16, в котором инструкции дополнительно инструктируют одному или более процессоров захватывать захваченное аудио в ходе воспроизведения упомянутых аудиоданных на одном или более динамиков.
18. Машиночитаемый запоминающий носитель по п. 16, в котором инструкции дополнительно инструктируют одному или более процессоров определять время для воспроизведения упомянутых аудиоданных.
19. Машиночитаемый запоминающий носитель по п. 18, в котором инструкции дополнительно инструктируют одному или более процессоров фильтровать захваченное аудио с использованием буферизированных аудиоданных на основе упомянутого времени для воспроизведения упомянутых аудиоданных.
20. Машиночитаемый запоминающий носитель по п. 16, в котором инструкции дополнительно инструктируют одному или более процессоров определять операцию, которая должна выполняться посредством вычислительного устройства или системы управления, на основе текста или команды.
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US15/377,600 US20180166073A1 (en) | 2016-12-13 | 2016-12-13 | Speech Recognition Without Interrupting The Playback Audio |
US15/377,600 | 2016-12-13 |
Publications (1)
Publication Number | Publication Date |
---|---|
RU2017143129A true RU2017143129A (ru) | 2019-06-11 |
Family
ID=60950167
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
RU2017143129A RU2017143129A (ru) | 2016-12-13 | 2017-12-11 | Способ захвата речевого ввода от пользователя, система и машиночитаемые запоминающие носители |
Country Status (6)
Country | Link |
---|---|
US (1) | US20180166073A1 (ru) |
CN (1) | CN108231071A (ru) |
DE (1) | DE102017129484A1 (ru) |
GB (1) | GB2559460A (ru) |
MX (1) | MX2017016084A (ru) |
RU (1) | RU2017143129A (ru) |
Families Citing this family (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20200211540A1 (en) * | 2018-12-27 | 2020-07-02 | Microsoft Technology Licensing, Llc | Context-based speech synthesis |
CN109743436B (zh) * | 2018-12-29 | 2020-08-28 | 苏州思必驰信息科技有限公司 | 用于语音对话的通讯补偿方法、装置、设备和存储介质 |
EP3916722A1 (en) * | 2019-01-29 | 2021-12-01 | Google LLC | Using structured audio output to detect playback in wireless speakers |
US11410656B2 (en) * | 2019-07-31 | 2022-08-09 | Rovi Guides, Inc. | Systems and methods for managing voice queries using pronunciation information |
US11494434B2 (en) | 2019-07-31 | 2022-11-08 | Rovi Guides, Inc. | Systems and methods for managing voice queries using pronunciation information |
CN111210820B (zh) * | 2020-01-21 | 2022-11-18 | 达闼机器人股份有限公司 | 机器人的控制方法、装置、电子设备以及存储介质 |
Family Cites Families (31)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6001131A (en) * | 1995-02-24 | 1999-12-14 | Nynex Science & Technology, Inc. | Automatic target noise cancellation for speech enhancement |
US5708704A (en) * | 1995-04-07 | 1998-01-13 | Texas Instruments Incorporated | Speech recognition method and system with improved voice-activated prompt interrupt capability |
US5848163A (en) * | 1996-02-02 | 1998-12-08 | International Business Machines Corporation | Method and apparatus for suppressing background music or noise from the speech input of a speech recognizer |
DE19814971A1 (de) * | 1998-04-03 | 1999-10-07 | Daimlerchrysler Aerospace Ag | Verfahren zur Störbefreiung eines Mikrophonsignals |
US6246986B1 (en) * | 1998-12-31 | 2001-06-12 | At&T Corp. | User barge-in enablement in large vocabulary speech recognition systems |
US7136458B1 (en) * | 1999-12-23 | 2006-11-14 | Bellsouth Intellectual Property Corporation | Voice recognition for filtering and announcing message |
US6725193B1 (en) * | 2000-09-13 | 2004-04-20 | Telefonaktiebolaget Lm Ericsson | Cancellation of loudspeaker words in speech recognition |
WO2002052546A1 (en) * | 2000-12-27 | 2002-07-04 | Intel Corporation | Voice barge-in in telephony speech recognition |
DE10163214A1 (de) * | 2001-12-21 | 2003-07-10 | Philips Intellectual Property | Verfahren und Steuersystem zur Sprachsteuerung eines Gerätes |
US7328159B2 (en) * | 2002-01-15 | 2008-02-05 | Qualcomm Inc. | Interactive speech recognition apparatus and method with conditioned voice prompts |
JP4209247B2 (ja) * | 2003-05-02 | 2009-01-14 | アルパイン株式会社 | 音声認識装置および方法 |
US8244536B2 (en) * | 2003-08-27 | 2012-08-14 | General Motors Llc | Algorithm for intelligent speech recognition |
US7099821B2 (en) * | 2003-09-12 | 2006-08-29 | Softmax, Inc. | Separation of target acoustic signals in a multi-transducer arrangement |
JP4333369B2 (ja) * | 2004-01-07 | 2009-09-16 | 株式会社デンソー | 雑音除去装置、及び音声認識装置、並びにカーナビゲーション装置 |
JP4283212B2 (ja) * | 2004-12-10 | 2009-06-24 | インターナショナル・ビジネス・マシーンズ・コーポレーション | 雑音除去装置、雑音除去プログラム、及び雑音除去方法 |
US7813498B2 (en) * | 2007-07-27 | 2010-10-12 | Fortemedia, Inc. | Full-duplex communication device and method of acoustic echo cancellation therein |
DE602007014382D1 (de) * | 2007-11-12 | 2011-06-16 | Harman Becker Automotive Sys | Unterscheidung zwischen Vordergrundsprache und Hintergrundgeräuschen |
KR101233271B1 (ko) * | 2008-12-12 | 2013-02-14 | 신호준 | 신호 분리 방법, 상기 신호 분리 방법을 이용한 통신 시스템 및 음성인식시스템 |
US8364298B2 (en) * | 2009-07-29 | 2013-01-29 | International Business Machines Corporation | Filtering application sounds |
US8311838B2 (en) * | 2010-01-13 | 2012-11-13 | Apple Inc. | Devices and methods for identifying a prompt corresponding to a voice input in a sequence of prompts |
US9111536B2 (en) * | 2011-03-07 | 2015-08-18 | Texas Instruments Incorporated | Method and system to play background music along with voice on a CDMA network |
US8762151B2 (en) * | 2011-06-16 | 2014-06-24 | General Motors Llc | Speech recognition for premature enunciation |
KR101641448B1 (ko) * | 2012-03-16 | 2016-07-20 | 뉘앙스 커뮤니케이션즈, 인코포레이티드 | 사용자 전용 자동 음성 인식 |
US8781821B2 (en) * | 2012-04-30 | 2014-07-15 | Zanavox | Voiced interval command interpretation |
US9313335B2 (en) * | 2012-09-14 | 2016-04-12 | Google Inc. | Handling concurrent speech |
TWI557722B (zh) * | 2012-11-15 | 2016-11-11 | 緯創資通股份有限公司 | 語音干擾的濾除方法、系統,與電腦可讀記錄媒體 |
KR101428245B1 (ko) * | 2012-12-05 | 2014-08-07 | 현대자동차주식회사 | 음성 인식 장치 및 방법 |
US9767819B2 (en) * | 2013-04-11 | 2017-09-19 | Nuance Communications, Inc. | System for automatic speech recognition and audio entertainment |
CN105138110A (zh) * | 2014-05-29 | 2015-12-09 | 中兴通讯股份有限公司 | 语音交互方法及装置 |
US9947318B2 (en) * | 2014-10-03 | 2018-04-17 | 2236008 Ontario Inc. | System and method for processing an audio signal captured from a microphone |
EP3206204A1 (en) * | 2016-02-09 | 2017-08-16 | Nxp B.V. | System for processing audio |
-
2016
- 2016-12-13 US US15/377,600 patent/US20180166073A1/en not_active Abandoned
-
2017
- 2017-12-04 GB GB1720160.9A patent/GB2559460A/en not_active Withdrawn
- 2017-12-08 CN CN201711292146.8A patent/CN108231071A/zh active Pending
- 2017-12-11 DE DE102017129484.8A patent/DE102017129484A1/de not_active Withdrawn
- 2017-12-11 MX MX2017016084A patent/MX2017016084A/es unknown
- 2017-12-11 RU RU2017143129A patent/RU2017143129A/ru not_active Application Discontinuation
Also Published As
Publication number | Publication date |
---|---|
US20180166073A1 (en) | 2018-06-14 |
DE102017129484A1 (de) | 2018-06-14 |
MX2017016084A (es) | 2018-11-09 |
GB201720160D0 (en) | 2018-01-17 |
GB2559460A (en) | 2018-08-08 |
CN108231071A (zh) | 2018-06-29 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
RU2017143129A (ru) | Способ захвата речевого ввода от пользователя, система и машиночитаемые запоминающие носители | |
US8909537B2 (en) | Device capable of playing music and method for controlling music playing in electronic device | |
JP2006201749A5 (ru) | ||
JP2017021125A5 (ja) | 音声対話装置および音声対話方法 | |
JP2010130487A5 (ru) | ||
JP6276503B2 (ja) | オーディオ装置 | |
CN101909191B (zh) | 视频处理设备和视频处理方法 | |
JP2011257943A (ja) | ジェスチャ操作入力装置 | |
US20140376885A1 (en) | Method for playing video file and electronic device using the same | |
US8817993B2 (en) | Audio device with volume adjusting function and volume adjusting method | |
JP2019113636A (ja) | 音声認識システム | |
TW201314673A (zh) | 具有暫停播放多媒體檔案功能的電子裝置及方法 | |
JP2018082391A5 (ru) | ||
JP2007041302A (ja) | 音声再生装置および音声再生処理プログラム | |
JP6155633B2 (ja) | マルチトラック録音装置 | |
JP2007183410A (ja) | 情報再生装置および方法 | |
US20210158797A1 (en) | Detection of live speech | |
JP2015215503A (ja) | 音声認識方法、音声認識装置および音声認識プログラム | |
JP2017106989A5 (ja) | 音声対話方法、音声対話装置およびプログラム | |
JP2007149163A (ja) | コンテンツ再生装置 | |
JP4779954B2 (ja) | 音声データ処理装置、方法及びプログラム | |
JP2019022039A5 (ru) | ||
JP2006166322A5 (ru) | ||
US20140185830A1 (en) | Methods, systems, and apparatus for audio backtracking control | |
JP6768613B2 (ja) | 音声処理装置、方法およびプログラム |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
FA93 | Acknowledgement of application withdrawn (no request for examination) |
Effective date: 20201215 |