KR20180098806A - 자연어 인식 성능 개선 방법 및 장치 - Google Patents
자연어 인식 성능 개선 방법 및 장치 Download PDFInfo
- Publication number
- KR20180098806A KR20180098806A KR1020170025397A KR20170025397A KR20180098806A KR 20180098806 A KR20180098806 A KR 20180098806A KR 1020170025397 A KR1020170025397 A KR 1020170025397A KR 20170025397 A KR20170025397 A KR 20170025397A KR 20180098806 A KR20180098806 A KR 20180098806A
- Authority
- KR
- South Korea
- Prior art keywords
- speech
- phase
- feature
- natural language
- voice
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/93—Discriminating between voiced and unvoiced parts of speech signals
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/16—Speech classification or search using artificial neural networks
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/0499—Feedforward networks
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/084—Backpropagation, e.g. using gradient descent
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/09—Supervised learning
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/04—Segmentation; Word boundary detection
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/06—Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/02—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/04—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/27—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
- G10L25/30—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/78—Detection of presence or absence of voice signals
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/02—Feature extraction for speech recognition; Selection of recognition unit
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/02—Feature extraction for speech recognition; Selection of recognition unit
- G10L2015/025—Phonemes, fenemes or fenones being the recognition units
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/02—Feature extraction for speech recognition; Selection of recognition unit
- G10L2015/027—Syllables being the recognition units
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/04—Time compression or expansion
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/78—Detection of presence or absence of voice signals
- G10L25/84—Detection of presence or absence of voice signals for discriminating voice from noise
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Multimedia (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Acoustics & Sound (AREA)
- Artificial Intelligence (AREA)
- Theoretical Computer Science (AREA)
- Evolutionary Computation (AREA)
- Signal Processing (AREA)
- General Physics & Mathematics (AREA)
- Mathematical Physics (AREA)
- General Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- General Engineering & Computer Science (AREA)
- Life Sciences & Earth Sciences (AREA)
- Data Mining & Analysis (AREA)
- Software Systems (AREA)
- Biophysics (AREA)
- Biomedical Technology (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Machine Translation (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Telephonic Communication Services (AREA)
- Image Analysis (AREA)
Abstract
Description
도 2는 본 발명에 따른 자연어 인식 성능 개선 장치의 일실시예를 나타내는 구성도.
도 3은 훈련 음성 신호로부터 심층 신경망을 훈련하는 장치의 일실시예를 나타내는 구성도.
도 4는 인공 신경망의 예측 방법을 설명하기 위한 예시도.
도 5는 본 발명의 일실시예에 따른 자연어 인식 성능 개선 방법을 나타내는 흐름도.
도 6는 본 발명의 일실시예에 따른 훈련 음성 신호로부터 심층 신경망을 훈련하는 방법을 나타내는 흐름도.
| 출력 | 분류 | 음소 |
| 1 | 묵음 | h#, epi, pau |
| 2 | 자음 | jh, ch, b, d, g, p, t, k, dx, s, sh, z, zh, f, th, v, dh, m, n, nx, ng, l, r, w, y, hh, hv, q, bcl, dcl, gcl, pcl ,tcl, kcl |
| 3 | 음절 핵 | ae, aa, ah, eh, iy, ih, uh, uw, aw, ay, ey, oy, ow, ao, ax, ax-h, ix, ux, er, axr, el, em, en, eng |
110: 프로세서
120: 메모리
123: ROM
126: RAM
130: 데이터 통신 버스
140: 저장소
150: 사용자 입력 장치
160: 사용자 출력 장치
170: 네트워크 인터페이스
180: 네트워크
Claims (16)
- 음성 신호를 복수의 프레임으로 분할하고, 이산 푸리에 변환을 적용하여 시간 영역에서 주파수 영역으로 변환하는 주파수 변환부;
상기 주파수 영역으로 변환된 음성 신호의 크기로부터 크기 특징을 추출하는 크기 특징 추출부;
상기 주파수 영역으로 변환된 음성 신호의 위상으로부터 위상 특징을 추출하는 위상 특징 추출부;
상기 크기 특징과 상기 위상 특징을 심층 신경망의 입력으로 하고, 음절 핵을 검출하는 음절 핵 검출부;
상기 입력 음성 신호로부터 음성 구간과 비음성 구간을 검출하는 음성 검출부;
상기 검출된 음절 핵과 상기 검출된 음성 구간의 시간을 이용하여 발성 속도를 결정하는 발성 속도 결정부;
상기 발성 속도를 이용하여 시간축 변환 정도를 계산하는 계산부; 및
상기 시간축 변환 정도를 이용하여 음향 모델에 적합한 음성의 길이로 변환하는 시간축 변환부;
를 포함하는 자연어 인식 성능 개선 장치.
- 제1항에 있어서,
상기 크기 특징은 멜-스케일 필터뱅크 로그 에너지, MFCC, LPC, 피치, 하모닉 성분, 스펙트럼 평탄도 중 적어도 하나를 포함하는 것
인 자연어 인식 성능 개선 장치.
- 제1항에 있어서,
상기 위상 특징은 델타-위상 스펙트럼, 위상 왜곡 편차, 그룹 지연, 순환 분산 중 적어도 하나를 포함하는 것
인 자연어 인식 성능 개선 장치.
- 제1항에 있어서,
상기 시간축 변환 정도는 변화율 또는 중첩률 중 어느 하나인 것
인 자연어 인식 성능 개선 장치.
- 제1항에 있어서,
상기 음성 검출부는,
깨끗한 음성과 잡음의 DFT 계수 분포를 정규 분포로 모델링하고 우도비 검정을 수행하는 것
인 자연어 인식 성능 개선 장치.
- 제1항에 있어서,
상기 음절 핵 검출부에서 사용하는 심층 신경망은,
훈련 음성 신호와, 훈련 음성 신호의 전사 정보를 입력으로 하고,
상기 훈련 음성 신호를 주파수 영역으로 변환하여 크기 특징 및 위상 특징을 추출하고,
상기 훈련 음성 신호의 전사 정보로부터 음소의 분류 항목을 다중 프레임 출력으로 구성하고,
상기 크기 특징, 위상 특징을 입력으로 하고 상기 다중 프레임 출력으로 구성된 음소의 분류 항목을 출력으로 하는 심층 신경망을 훈련하고, 크로스 엔트로피를 기준치로 하여 역전파 알고리즘으로 훈련하는 것
인 자연어 인식 성능 개선 장치.
- 제6항에 있어서,
상기 음소의 분류 항목은
묵음, 자음, 음절 핵 및 연속 음절 핵을 포함하는 것
인 자연어 인식 성능 개선 장치.
- 제6항에 있어서,
상기 다중 프레임 출력은
음성 신호의 전사 정보와 음성 인식기를 사용하여 강제 정렬을 수행함으로써 음소의 분류 항목에 해당하는 음성 신호 구간을 추정하고, 이웃 프레임들의 음소의 분류 항목을 묶어 다중 프레임 출력하는 것
인 자연어 인식 성능 개선 장치.
- (1) 소정의 시간 간격으로 음성 신호를 복수의 프레임으로 분할하고 이산 푸리에 변환을 적용하여 시간 영역에서 주파수 영역으로 변환하는 단계;
(2) 상기 주파수 영역으로 변환된 음성 신호의 크기로부터 크기 특징을 추출하는 단계;
(3) 상기 주파수 영역으로 변환된 음성 신호의 위상으로부터 위상 특징을 추출하는 단계;
(4) 상기 크기 특징과 위상 특징을 심층 신경망의 입력으로 사용하여 음절 핵을 검출하는 단계;
(5) 상기 입력 음성 신호로부터 음성 구간과 비음성 구간을 검출하는 단계;
(6) 상기 검출된 음절 구간의 시간을 이용하여 발성 속도를 결정하는 단계;
(7) 상기 발성 속도를 이용하여 시간축 변환 정도를 계산하는 단계; 및
(8) 상기 시간축 변환 정도를 이용하여 음향 모델에 적합하게 음성의 길이를 변환하는 단계;
를 포함하는 자연어 인식 개선 방법.
- 제9항에 있어서,
상기 크기 특징을 추출하는 단계는,
상기 크기 특징으로서, 멜-스케일 필터뱅크 로그 에너지, MFCC, LPC, 피치, 하모닉 성분, 스펙트럼 평탄도를 추출하는 단계인 것
인 자연어 인식 성능 개선 방법.
- 제9항에 있어서,
상기 위상 특징을 추출하는 단계는,
상기 위상 특징으로서, 델타-위상 스펙트럼, 위상 왜곡 편차, 그룹 지연, 순환 분산를 추출하는 단계인 것
인 자연어 인식 성능 개선 방법.
- 제9항에 있어서,
시간축 변환 정도를 계산하는 단계는,
상기 시간축 변환 정도로서, 변화율 또는 중첩률 중 어느 하나를 계산하는 단계인 것
인 자연어 인식 성능 개선 방법.
- 제9항에 있어서,
음성 구간과 비음성 구간을 검출하는 단계는,
깨끗한 음성과 잡음의 DFT 계수 분포를 정규 분포로 모델링하고 우도비 검정을 수행하는 단계인 것
인 자연어 인식 성능 개선 방법.
- 제9항에 있어서,
상기 음절 핵을 검출하는 단계는,
상기 심층 신경망의 입력으로서, 훈련 음성 신호와, 훈련 음성 신호의 전사 정보를 이용하고,
상기 훈련 음성 신호를 주파수 영역으로 변환하여 크기 특징 및 위상 특징을 추출하고,
상기 훈련 음성 신호의 전사 정보로부터 음소의 분류 항목을 다중 프레임 출력으로 구성하고,
상기 크기 특징, 위상 특징을 입력으로 하고 상기 다중 프레임 출력으로 구성된 음소의 분류 항목을 출력으로 하는 심층 신경망을 훈련하고, 크로스 엔트로피를 기준치로 하여 역전파 알고리즘으로 훈련하는 단계인 것
인 자연어 인식 성능 개선 방법.
- 제14항에 있어서,
상기 음소의 분류 항목은,
묵음, 자음, 음절 핵 및 연속 음절 핵을 포함하는 것
인 자연어 인식 성능 개선 방법.
- 제14항에 있어서,
상기 다중 프레임 출력은
음성 신호의 전사 정보와 음성 인식기를 사용하여 강제 정렬을 수행함으로써 음소의 분류 항목에 해당하는 음성 신호 구간을 추정하고, 이웃 프레임들의 음소의 분류 항목을 묶어 다중 프레임 출력하는 것
인 자연어 인식 성능 개선 방법.
Priority Applications (2)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| KR1020170025397A KR102017244B1 (ko) | 2017-02-27 | 2017-02-27 | 자연어 인식 성능 개선 방법 및 장치 |
| US15/697,923 US10388275B2 (en) | 2017-02-27 | 2017-09-07 | Method and apparatus for improving spontaneous speech recognition performance |
Applications Claiming Priority (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| KR1020170025397A KR102017244B1 (ko) | 2017-02-27 | 2017-02-27 | 자연어 인식 성능 개선 방법 및 장치 |
Publications (2)
| Publication Number | Publication Date |
|---|---|
| KR20180098806A true KR20180098806A (ko) | 2018-09-05 |
| KR102017244B1 KR102017244B1 (ko) | 2019-10-21 |
Family
ID=63246428
Family Applications (1)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| KR1020170025397A Expired - Fee Related KR102017244B1 (ko) | 2017-02-27 | 2017-02-27 | 자연어 인식 성능 개선 방법 및 장치 |
Country Status (2)
| Country | Link |
|---|---|
| US (1) | US10388275B2 (ko) |
| KR (1) | KR102017244B1 (ko) |
Cited By (3)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| CN110751268A (zh) * | 2019-09-27 | 2020-02-04 | 北京理工大学 | 基于端到端卷积神经网络的相位混叠误差去除方法及装置 |
| CN111627422A (zh) * | 2020-05-13 | 2020-09-04 | 广州国音智能科技有限公司 | 语音加速检测方法、装置、设备及可读存储介质 |
| CN115148195A (zh) * | 2022-06-16 | 2022-10-04 | 腾讯音乐娱乐科技(深圳)有限公司 | 音频特征提取模型的训练方法和音频分类方法 |
Families Citing this family (14)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| US20190206417A1 (en) * | 2017-12-28 | 2019-07-04 | Knowles Electronics, Llc | Content-based audio stream separation |
| US10522167B1 (en) * | 2018-02-13 | 2019-12-31 | Amazon Techonlogies, Inc. | Multichannel noise cancellation using deep neural network masking |
| US11282534B2 (en) | 2018-08-03 | 2022-03-22 | Sling Media Pvt Ltd | Systems and methods for intelligent playback |
| CN109671433B (zh) * | 2019-01-10 | 2023-06-16 | 腾讯科技(深圳)有限公司 | 一种关键词的检测方法以及相关装置 |
| US20210104243A1 (en) * | 2019-10-04 | 2021-04-08 | Steven N. Verona | Audio recording method with multiple sources |
| CN111243624B (zh) * | 2020-01-02 | 2023-04-07 | 武汉船舶通信研究所(中国船舶重工集团公司第七二二研究所) | 人员状态评估的方法和系统 |
| CN113269216A (zh) * | 2020-02-17 | 2021-08-17 | 富士通株式会社 | 用于检测声音事件的装置和方法以及存储介质 |
| CN111429921B (zh) * | 2020-03-02 | 2023-01-03 | 厦门快商通科技股份有限公司 | 声纹识别方法、系统、移动终端及存储介质 |
| US11664037B2 (en) | 2020-05-22 | 2023-05-30 | Electronics And Telecommunications Research Institute | Methods of encoding and decoding speech signal using neural network model recognizing sound sources, and encoding and decoding apparatuses for performing the same |
| CN111863036B (zh) * | 2020-07-20 | 2022-03-01 | 北京百度网讯科技有限公司 | 语音检测的方法和装置 |
| US11645465B2 (en) * | 2020-12-10 | 2023-05-09 | International Business Machines Corporation | Anaphora resolution for enhanced context switching |
| US11948599B2 (en) * | 2022-01-06 | 2024-04-02 | Microsoft Technology Licensing, Llc | Audio event detection with window-based prediction |
| US20230317070A1 (en) * | 2022-03-31 | 2023-10-05 | Vocollect, Inc. | Apparatuses, systems, and methods for speech recognition by speech rate and hint-based techniques |
| US20240378298A1 (en) * | 2023-05-10 | 2024-11-14 | Dell Products L.P. | Intelligent software composition management with performance and security alerts |
Citations (3)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JP2011257643A (ja) * | 2010-06-10 | 2011-12-22 | Nippon Hoso Kyokai <Nhk> | 雑音抑圧装置およびプログラム |
| KR20160032536A (ko) * | 2014-09-16 | 2016-03-24 | 한국전자통신연구원 | 신호처리 알고리즘이 통합된 심층 신경망 기반의 음성인식 장치 및 이의 학습방법 |
| JP2016128935A (ja) * | 2011-04-01 | 2016-07-14 | 株式会社ソニー・インタラクティブエンタテインメント | 聴覚注意手がかりを用いた音声の音節/母音/音素の境界の検出 |
Family Cites Families (20)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| US4820059A (en) * | 1985-10-30 | 1989-04-11 | Central Institute For The Deaf | Speech processing apparatus and methods |
| JPH02195400A (ja) * | 1989-01-24 | 1990-08-01 | Canon Inc | 音声認識装置 |
| US5381512A (en) * | 1992-06-24 | 1995-01-10 | Moscom Corporation | Method and apparatus for speech feature recognition based on models of auditory signal processing |
| US5787387A (en) * | 1994-07-11 | 1998-07-28 | Voxware, Inc. | Harmonic adaptive speech coding method and system |
| US5640490A (en) * | 1994-11-14 | 1997-06-17 | Fonix Corporation | User independent, real-time speech recognition system and method |
| US5749066A (en) * | 1995-04-24 | 1998-05-05 | Ericsson Messaging Systems Inc. | Method and apparatus for developing a neural network for phoneme recognition |
| US5799276A (en) * | 1995-11-07 | 1998-08-25 | Accent Incorporated | Knowledge-based speech recognition system and methods having frame length computed based upon estimated pitch period of vocalic intervals |
| US6006175A (en) * | 1996-02-06 | 1999-12-21 | The Regents Of The University Of California | Methods and apparatus for non-acoustic speech characterization and recognition |
| US6233550B1 (en) * | 1997-08-29 | 2001-05-15 | The Regents Of The University Of California | Method and apparatus for hybrid coding of speech at 4kbps |
| US6092039A (en) * | 1997-10-31 | 2000-07-18 | International Business Machines Corporation | Symbiotic automatic speech recognition and vocoder |
| US7725307B2 (en) * | 1999-11-12 | 2010-05-25 | Phoenix Solutions, Inc. | Query engine for processing voice based queries including semantic decoding |
| JP3673507B2 (ja) * | 2002-05-16 | 2005-07-20 | 独立行政法人科学技術振興機構 | 音声波形の特徴を高い信頼性で示す部分を決定するための装置およびプログラム、音声信号の特徴を高い信頼性で示す部分を決定するための装置およびプログラム、ならびに擬似音節核抽出装置およびプログラム |
| US8639502B1 (en) * | 2009-02-16 | 2014-01-28 | Arrowhead Center, Inc. | Speaker model-based speech enhancement system |
| WO2011026247A1 (en) * | 2009-09-04 | 2011-03-10 | Svox Ag | Speech enhancement techniques on the power spectrum |
| WO2014144579A1 (en) * | 2013-03-15 | 2014-09-18 | Apple Inc. | System and method for updating an adaptive speech recognition model |
| US9830905B2 (en) * | 2013-06-26 | 2017-11-28 | Qualcomm Incorporated | Systems and methods for feature extraction |
| IN2014MU00739A (ko) * | 2014-03-04 | 2015-09-25 | Indian Inst Technology Bombay | |
| US9620105B2 (en) * | 2014-05-15 | 2017-04-11 | Apple Inc. | Analyzing audio input for efficient speech and music recognition |
| KR101805976B1 (ko) | 2015-03-02 | 2017-12-07 | 한국전자통신연구원 | 음성 인식 장치 및 방법 |
| US9763006B2 (en) | 2015-03-26 | 2017-09-12 | International Business Machines Corporation | Noise reduction in a microphone using vowel detection |
-
2017
- 2017-02-27 KR KR1020170025397A patent/KR102017244B1/ko not_active Expired - Fee Related
- 2017-09-07 US US15/697,923 patent/US10388275B2/en active Active
Patent Citations (3)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JP2011257643A (ja) * | 2010-06-10 | 2011-12-22 | Nippon Hoso Kyokai <Nhk> | 雑音抑圧装置およびプログラム |
| JP2016128935A (ja) * | 2011-04-01 | 2016-07-14 | 株式会社ソニー・インタラクティブエンタテインメント | 聴覚注意手がかりを用いた音声の音節/母音/音素の境界の検出 |
| KR20160032536A (ko) * | 2014-09-16 | 2016-03-24 | 한국전자통신연구원 | 신호처리 알고리즘이 통합된 심층 신경망 기반의 음성인식 장치 및 이의 학습방법 |
Cited By (4)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| CN110751268A (zh) * | 2019-09-27 | 2020-02-04 | 北京理工大学 | 基于端到端卷积神经网络的相位混叠误差去除方法及装置 |
| CN110751268B (zh) * | 2019-09-27 | 2022-07-26 | 北京理工大学 | 基于端到端卷积神经网络的相位混叠误差去除方法及装置 |
| CN111627422A (zh) * | 2020-05-13 | 2020-09-04 | 广州国音智能科技有限公司 | 语音加速检测方法、装置、设备及可读存储介质 |
| CN115148195A (zh) * | 2022-06-16 | 2022-10-04 | 腾讯音乐娱乐科技(深圳)有限公司 | 音频特征提取模型的训练方法和音频分类方法 |
Also Published As
| Publication number | Publication date |
|---|---|
| US10388275B2 (en) | 2019-08-20 |
| US20180247642A1 (en) | 2018-08-30 |
| KR102017244B1 (ko) | 2019-10-21 |
Similar Documents
| Publication | Publication Date | Title |
|---|---|---|
| KR102017244B1 (ko) | 자연어 인식 성능 개선 방법 및 장치 | |
| Shahnawazuddin et al. | Pitch-Adaptive Front-End Features for Robust Children's ASR. | |
| US9336777B2 (en) | Speech processing device, speech processing method, and speech processing program | |
| KR101236539B1 (ko) | 가중 자동회귀 이동평균 필터와 전역 켑스트럼 평균 및 분산 정규화를 이용한 특징 보상 장치 및 방법 | |
| US20080167862A1 (en) | Pitch Dependent Speech Recognition Engine | |
| Hasija et al. | Recognition of children Punjabi speech using tonal non-tonal classifier | |
| Nidhyananthan et al. | Language and text-independent speaker identification system using GMM | |
| Sinha et al. | Continuous density hidden markov model for context dependent Hindi speech recognition | |
| Chavan et al. | Speech recognition in noisy environment, issues and challenges: A review | |
| Shekofteh et al. | Autoregressive modeling of speech trajectory transformed to the reconstructed phase space for ASR purposes | |
| Costa et al. | Speech and phoneme segmentation under noisy environment through spectrogram image analysis | |
| Zolnay et al. | Extraction methods of voicing feature for robust speech recognition. | |
| Makhijani et al. | Speech enhancement using pitch detection approach for noisy environment | |
| Hidayat et al. | Speech recognition of KV-patterned Indonesian syllable using MFCC, wavelet and HMM | |
| Unnibhavi et al. | LPC based speech recognition for Kannada vowels | |
| Vachhani et al. | Use of PLP cepstral features for phonetic segmentation | |
| Jadhav et al. | Review of various approaches towards speech recognition | |
| Ishizuka et al. | A feature for voice activity detection derived from speech analysis with the exponential autoregressive model | |
| Ajmera | Effect of age and gender on lp smoothed spectral envelope | |
| Li et al. | Speech recognition of mandarin syllables using both linear predict coding cepstra and Mel frequency cepstra | |
| CN107039046B (zh) | 一种基于特征融合的语音声效模式检测方法 | |
| Tangwongsan et al. | Highly efficient and effective techniques for Thai syllable speech recognition | |
| Amrous et al. | Robust arabic multi-stream speech recognition system in noisy environment | |
| Laleye et al. | Automatic boundary detection based on entropy measures for text-independent syllable segmentation | |
| Sinha et al. | Exploring the role of pitch-adaptive cepstral features in context of children's mismatched ASR |
Legal Events
| Date | Code | Title | Description |
|---|---|---|---|
| PA0109 | Patent application |
St.27 status event code: A-0-1-A10-A12-nap-PA0109 |
|
| A201 | Request for examination | ||
| PA0201 | Request for examination |
St.27 status event code: A-1-2-D10-D11-exm-PA0201 |
|
| PG1501 | Laying open of application |
St.27 status event code: A-1-1-Q10-Q12-nap-PG1501 |
|
| E902 | Notification of reason for refusal | ||
| PE0902 | Notice of grounds for rejection |
St.27 status event code: A-1-2-D10-D21-exm-PE0902 |
|
| P11-X000 | Amendment of application requested |
St.27 status event code: A-2-2-P10-P11-nap-X000 |
|
| P13-X000 | Application amended |
St.27 status event code: A-2-2-P10-P13-nap-X000 |
|
| E701 | Decision to grant or registration of patent right | ||
| PE0701 | Decision of registration |
St.27 status event code: A-1-2-D10-D22-exm-PE0701 |
|
| GRNT | Written decision to grant | ||
| PR0701 | Registration of establishment |
St.27 status event code: A-2-4-F10-F11-exm-PR0701 |
|
| PR1002 | Payment of registration fee |
St.27 status event code: A-2-2-U10-U11-oth-PR1002 Fee payment year number: 1 |
|
| PG1601 | Publication of registration |
St.27 status event code: A-4-4-Q10-Q13-nap-PG1601 |
|
| PR1001 | Payment of annual fee |
St.27 status event code: A-4-4-U10-U11-oth-PR1001 Fee payment year number: 4 |
|
| PC1903 | Unpaid annual fee |
St.27 status event code: A-4-4-U10-U13-oth-PC1903 Not in force date: 20230828 Payment event data comment text: Termination Category : DEFAULT_OF_REGISTRATION_FEE |
|
| PC1903 | Unpaid annual fee |
St.27 status event code: N-4-6-H10-H13-oth-PC1903 Ip right cessation event data comment text: Termination Category : DEFAULT_OF_REGISTRATION_FEE Not in force date: 20230828 |



