KR101862352B1 - 음성 인식을 위한 전처리 장치, 및 이를 이용한 음성 인식 장치 및 방법 - Google Patents
음성 인식을 위한 전처리 장치, 및 이를 이용한 음성 인식 장치 및 방법 Download PDFInfo
- Publication number
- KR101862352B1 KR101862352B1 KR1020110098935A KR20110098935A KR101862352B1 KR 101862352 B1 KR101862352 B1 KR 101862352B1 KR 1020110098935 A KR1020110098935 A KR 1020110098935A KR 20110098935 A KR20110098935 A KR 20110098935A KR 101862352 B1 KR101862352 B1 KR 101862352B1
- Authority
- KR
- South Korea
- Prior art keywords
- voice
- speech
- frames
- frame
- conversion rule
- Prior art date
Links
- 238000000034 method Methods 0.000 title claims description 79
- 230000009466 transformation Effects 0.000 claims abstract description 17
- 238000006243 chemical reaction Methods 0.000 claims description 133
- 239000013598 vector Substances 0.000 claims description 22
- 238000004422 calculation algorithm Methods 0.000 claims description 15
- 238000001914 filtration Methods 0.000 claims description 8
- 238000007781 pre-processing Methods 0.000 claims description 7
- 239000000203 mixture Substances 0.000 claims description 6
- 238000013139 quantization Methods 0.000 claims description 5
- 238000010586 diagram Methods 0.000 description 9
- 238000012360 testing method Methods 0.000 description 8
- 238000007476 Maximum Likelihood Methods 0.000 description 2
- 238000009826 distribution Methods 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 238000002474 experimental method Methods 0.000 description 2
- 239000011159 matrix material Substances 0.000 description 2
- 238000005259 measurement Methods 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 230000005236 sound signal Effects 0.000 description 2
- 230000005540 biological transmission Effects 0.000 description 1
- 230000007613 environmental effect Effects 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000009467 reduction Effects 0.000 description 1
- 230000001131 transforming effect Effects 0.000 description 1
- 230000001755 vocal effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/04—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
- G10L19/26—Pre-filtering or post-filtering
- G10L19/265—Pre-filtering, e.g. high frequency emphasis prior to encoding
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/02—Feature extraction for speech recognition; Selection of recognition unit
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/28—Constructional details of speech recognition systems
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Signal Processing (AREA)
- Telephonic Communication Services (AREA)
Abstract
Description
도 2는 본 발명의 일 실시예에 따른 음성 인식 장치의 구성을 도시하는 블록도이다.
도 3은 본 발명의 다른 실시예에 따른 음성 인식 장치의 구성을 도시하는 블록도이다.
도 4는 본 발명의 다른 실시예에 따른 음성 인식 방법의 흐름을 도시하는 순서도이다.
도 5는 본 발명의 다른 실시예에 따라 도 4의 S20 단계를 구체적으로 도시하는 순서도이다.
도 6은 본 발명의 다른 실시예에 따른 음성 인식 방법에서 변환 규칙을 결정하는 흐름을 도시하는 순서도이다.
도 7은 본 발명의 다른 실시예에 따른 음성 인식을 위한 전처리 장치의 구성을 도시하는 블록도이다.
도 8은 본 발명의 일 실시예에 따른 음성 인식 방법 및 장치의 효과를 도시하기 위한 도면이다.
110, 610: 음성 입력부
120, 620: 음성 변환부
130: 인식부
140: 클러스터링부
150: 변환 규칙 결정부
600: 전처리 장치
Claims (21)
- (a) 음성 인식 장치에 입력되는 제1음성을 소정의 프레임으로 분할하는 단계;
(b) 상기 분할된 각각의 프레임에 변환 규칙을 적용하여 상기 제1음성의 프레임을 제2음성의 프레임으로 변환하는 단계; 및
(c) 상기 음성 인식 장치가 상기 변환된 제2음성의 프레임을 인식하는 단계를 포함하되,
상기 (b) 단계는,
상기 제1음성의 제 n-1 프레임 및 제 n-1 프레임의 이전에 위치한 프레임들 중 적어도 하나를 반영하여 상기 제1음성의 제 n 프레임을 상기 제2음성의 제 n 프레임으로 변환하는 단계를 포함하는 것을 특징으로 하는 음성 인식 방법. - 제1항에 있어서,
상기 제1음성 및 제2음성의 프레임은,
프레임에 포함되는 음성 신호를 나타내는 특징값을 포함하는 것을 특징으로 하는 음성 인식 방법. - 제1항에 있어서,
상기 (b) 단계는,
(b-1) 상기 분할된 제1음성의 프레임들을 복수의 그룹으로 클러스터링하는 단계;
(b-2) 상기 복수의 그룹에 각각 대응되는 변환 규칙을 적용하여 상기 제1음성의 프레임을 상기 제2음성의 프레임으로 변환하는 단계; 및
(b-3) 상기 변환된 제2음성의 프레임들을 조합하는 단계를 포함하는 것을 특징으로 하는 음성 인식 방법. - 제3항에 있어서,
상기 (b-1)단계는,
VQ(Vector Quantization) 또는 GMM(Gaussian Mixture Model) 기반의 클러스터링 방식을 이용하여 수행되는 것을 특징으로 하는 음성 인식 방법. - 제1항에 있어서,
상기 제1음성은 상기 제2음성보다 더 낮은 음성 인식 우도(likelihood)를 갖는 것을 특징으로 하는 음성 인식 방법. - 제1항에 있어서,
상기 변환 규칙은,
상기 음성 인식 장치에 입력된 제1음성 데이터와 상기 제1음성 데이터보다 음성 인식 우도가 더 큰 제2음성 데이터와의 관계에서 결정된 변환 규칙인 것을 특징으로 하는 음성 인식 방법. - (a) 음성 인식 장치에 입력되는 제1음성을 소정의 프레임으로 분할하는 단계;
(b) 상기 분할된 각각의 프레임에 변환 규칙을 적용하여 상기 제1음성의 프레임을 제2음성의 프레임으로 변환하는 단계;
(c) 상기 음성 인식 장치가 상기 변환된 제2음성의 프레임을 인식하는 단계; 및
(d) 상기 음성 인식 장치에 입력된 제1음성 데이터와 상기 제1음성 데이터보다 음성 인식 우도가 더 큰 제2음성 데이터와의 관계에서 상기 변환 규칙을 결정하는 단계를 포함하며,
상기 (b) 단계는,
상기 제1음성의 프레임의 이전에 위치한 프레임들 중 적어도 하나를 반영하여 상기 제1음성의 프레임을 상기 제2음성의 프레임으로 변환하는 단계를 포함하고,
상기 (d) 단계는,
(d-1) 상기 제1음성 데이터와 상기 제2음성 데이터를 상기 소정의 프레임으로 분할하는 단계;
(d-2) 상기 제1음성 데이터와 상기 제2음성 데이터의 프레임들간의 상관 관계를 나타내는 제1변환 규칙을 임의의 값으로 설정하는 단계;
(d-3) 상기 프레임들 및 상기 제1변환 규칙을 기초로 상기 프레임들간의 상관 관계를 나타내는 제2변환 규칙에 영향을 미치는 제1변수값을 도출하는 단계;
(d-4) 상기 제1변수값을 이용하여 상기 제2변환 규칙을 결정하는 단계;
(d-5) 상기 프레임들 및 상기 제2변환 규칙을 기초로 상기 프레임들간의 제3변환 규칙에 영향을 미치는 제2변수값을 도출하는 단계;
(d-6) 상기 제2변수값을 이용하여 상기 제3변환 규칙을 결정하는 단계; 및
(d-7) 상기 프레임들간의 상관 관계를 나타내는 제n변환 규칙의 값이 소정 값으로 수렴할 때까지 상기 (d-5) 및 (d-6) 단계를 반복하여 상기 변환 규칙을 결정하는 단계를 포함하는 것을 특징으로 하는 음성 인식 방법. - 제7항에 있어서,
상기 음성 인식 방법은,
(k) 상기 제1음성 데이터와 상기 제2음성 데이터의 분할된 프레임들을 복수의 그룹으로 클러스터링하는 단계; 및
(l) 상기 복수의 그룹 각각에 대해 상기 (d-2) 내지 (d-7) 단계를 수행하여 상기 복수의 그룹에 각각 대응되는 상기 변환 규칙을 결정하는 단계를 더 포함하는 것을 특징으로 하는 음성 인식 방법. - 제7항에 있어서,
상기 (d-3) 및 (d-5) 단계는,
EM(Expectation Maximization) 알고리즘 중 기대(expectation) 단계로서 칼만 필터링(Kalman filtering)에 의해 수행되는 것을 특징으로 하는 음성 인식 방법. - 제7항에 있어서,
상기 (d-4) 및 (d-6) 단계는,
EM(Expectation Maximization) 알고리즘 중 최대화(maximization) 단계로서 우도(likelihood)가 최대화되도록 수행되는 것을 특징으로 하는 음성 인식 방법. - 제1음성을 입력받아 소정의 프레임으로 분할하는 음성 입력부;
상기 분할된 각각의 프레임에 변환 규칙을 적용하여 상기 제1음성의 프레임을 제2음성의 프레임으로 변환하는 음성 변환부; 및
상기 제2음성의 프레임들을 인식하는 인식부를 포함하되,
상기 음성 변환부는,
상기 제1음성의 제 n-1 프레임 및 제 n-1 프레임의 이전에 위치한 프레임들 중 적어도 하나를 반영하여, 상기 제1음성의 제 n 프레임을 상기 제2음성의 제 n 프레임으로 변환하는 것을 특징으로 하는 음성 인식 장치. - 제11항에 있어서,
상기 제1음성 및 상기 제2음성의 프레임은,
프레임에 포함되는 음성 신호를 나타내는 특징값을 포함하는 것을 특징으로 하는 음성 인식 장치. - 제11항에 있어서,
상기 음성 인식 장치는,
상기 분할된 제1음성의 프레임들을 복수의 그룹으로 클러스터링하는 클러스터링부를 더 포함하되,
상기 음성 변환부는,
상기 복수의 그룹에 각각 대응되는 변환 규칙을 적용하여 상기 제1음성의 프레임을 상기 제2음성의 프레임으로 변환하고, 상기 변환된 제2음성의 프레임들을 조합하는 것을 특징으로 하는 음성 인식 장치. - 제13항에 있어서,
상기 클러스터링부는,
VQ(Vector Quantization) 또는 GMM(Gaussian Mixture Model) 기반의 클러스터링 방식을 이용하여 상기 분할된 제1음성의 프레임들을 클러스터링하는 것을 특징으로 하는 음성 인식 장치. - 제11항에 있어서,
상기 제1음성은 상기 제2음성보다 더 낮은 음성 인식 우도를 갖는 것을 특징으로 하는 음성 인식 장치. - 제11항에 있어서,
상기 음성 인식 장치는,
제1음성 데이터와 상기 제1음성 데이터보다 음성 인식 우도가 더 큰 제2음성 데이터와의 관계에서 상기 변환 규칙을 결정하는 변환 규칙 결정부를 더 포함하는 것을 특징으로 하는 음성 인식 장치. - 제1음성을 입력받아 소정의 프레임으로 분할하는 음성 입력부;
제1음성 데이터와 상기 제1음성 데이터보다 음성 인식 우도가 더 큰 제2음성 데이터와의 관계에서 변환 규칙을 결정하는 변환 규칙 결정부;
상기 분할된 각각의 프레임에 상기 변환 규칙을 적용하여 상기 제1음성의 프레임을 제2음성의 프레임으로 변환하는 음성 변환부; 및
상기 제2음성의 프레임들을 인식하는 인식부를 포함하되,
상기 음성 변환부는,
상기 제1음성의 프레임의 이전에 위치한 프레임들 중 적어도 하나를 반영하여, 상기 제1음성의 프레임을 상기 제2음성의 프레임으로 변환하고,
상기 변환 규칙 결정부는,
(a) 상기 제1음성 데이터와 상기 제2음성 데이터를 소정의 프레임으로 분할하는 단계;
(b) 상기 제1음성 데이터와 상기 제2음성 데이터의 프레임들간의 상관 관계를 나타내는 제1변환 규칙을 임의의 값으로 설정하는 단계;
(c) 상기 프레임들 및 상기 제1변환 규칙을 기초로 상기 프레임들간의 상관 관계를 나타내는 제2변환 규칙에 영향을 미치는 제1변수값을 도출하는 단계;
(d) 상기 제1변수값을 이용하여 상기 제2변환 규칙을 결정하는 단계;
(e) 상기 프레임들 및 상기 제2변환 규칙을 기초로 상기 프레임들간의 상관 관계를 나타내는 제3변환 규칙에 영향을 미치는 제2변수값을 도출하는 단계;
(f) 상기 제2변수값을 이용하여 상기 제3변환 규칙을 결정하는 단계; 및
(g) 상기 프레임들간의 상관 관계를 나타내는 제n변환 규칙의 값이 소정 값으로 수렴할 때까지 상기 (e) 및 (f) 단계를 반복하는 단계를 포함하여 상기 변환 규칙을 결정하는 것을 특징으로 하는 음성 인식 장치. - 제17항에 있어서,
상기 음성 인식 장치는,
상기 제1음성 데이터와 상기 제2음성 데이터의 프레임들을 복수의 그룹으로 클러스터링하는 클러스터링부를 더 포함하되,
상기 변환 규칙 결정부는,
상기 복수의 그룹 각각에 대해 상기 (b) 내지 (g)단계를 수행하여 상기 복수의 그룹에 각각 대응되는 상기 변환 규칙을 결정하는 것을 특징으로 하는 음성 인식 장치. - 제17항에 있어서,
상기 (c) 및 (e) 단계는,
EM(Expectation Maximization) 알고리즘 중 기대(expectation) 단계로서 칼만 필터링(Kalman filtering)에 의해 수행되는 것을 특징으로 하는 음성 인식 장치. - 제17항에 있어서,
상기 (d) 및 (f) 단계는,
EM(Expectation Maximization) 알고리즘 중 최대화(maximization) 단계로서 우도(likelihood)가 최대화되도록 수행되는 것을 특징으로 하는 음성 인식 장치. - 제1음성을 입력받아 소정의 프레임으로 분할하는 음성 입력부; 및
상기 분할된 각각의 프레임에 변환 규칙을 적용하여 상기 제1음성의 프레임을 제2음성의 프레임으로 변환하는 음성 변환부를 포함하되,
상기 음성 변환부는,
상기 제1음성의 제 n-1 프레임 및 제 n-1 프레임의 이전에 위치한 프레임들 중 적어도 하나를 반영하여, 상기 제1음성의 제 n 프레임을 상기 제2음성의 제 n 프레임으로 변환하는 것을 특징으로 하는 음성 인식을 위한 전처리 장치.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US13/276,775 US8892436B2 (en) | 2010-10-19 | 2011-10-19 | Front-end processor for speech recognition, and speech recognizing apparatus and method using the same |
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US39447510P | 2010-10-19 | 2010-10-19 | |
US61/394,475 | 2010-10-19 |
Publications (2)
Publication Number | Publication Date |
---|---|
KR20120040649A KR20120040649A (ko) | 2012-04-27 |
KR101862352B1 true KR101862352B1 (ko) | 2018-05-30 |
Family
ID=46140507
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
KR1020110098935A KR101862352B1 (ko) | 2010-10-19 | 2011-09-29 | 음성 인식을 위한 전처리 장치, 및 이를 이용한 음성 인식 장치 및 방법 |
Country Status (1)
Country | Link |
---|---|
KR (1) | KR101862352B1 (ko) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR102272453B1 (ko) * | 2014-09-26 | 2021-07-02 | 삼성전자주식회사 | 음성 신호 전처리 방법 및 장치 |
KR102704648B1 (ko) | 2018-04-10 | 2024-09-10 | 삼성전자주식회사 | 전자 장치 및 그 제어 방법 |
-
2011
- 2011-09-29 KR KR1020110098935A patent/KR101862352B1/ko active IP Right Grant
Non-Patent Citations (1)
Title |
---|
Nam Soo Kim et al., ‘Feature compensation based on switching linear dynamic model’, IEEE Signal Processing Letters, Vol.12, No.6, June 2005.* |
Also Published As
Publication number | Publication date |
---|---|
KR20120040649A (ko) | 2012-04-27 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
EP1515305B1 (en) | Noise adaption for speech recognition | |
US9489965B2 (en) | Method and apparatus for acoustic signal characterization | |
EP3594940B1 (en) | Training method for voice data set, computer device and computer readable storage medium | |
JP4316583B2 (ja) | 特徴量補正装置、特徴量補正方法および特徴量補正プログラム | |
US11894008B2 (en) | Signal processing apparatus, training apparatus, and method | |
JPH0850499A (ja) | 信号識別方法 | |
US10373604B2 (en) | Noise compensation in speaker-adaptive systems | |
US8892436B2 (en) | Front-end processor for speech recognition, and speech recognizing apparatus and method using the same | |
WO2024055752A9 (zh) | 语音合成模型的训练方法、语音合成方法和相关装置 | |
JP2004279466A (ja) | 音声モデルの雑音適応化システム、雑音適応化方法、及び、音声認識雑音適応化プログラム | |
WO2023001128A1 (zh) | 音频数据的处理方法、装置及设备 | |
US7120580B2 (en) | Method and apparatus for recognizing speech in a noisy environment | |
JP5740362B2 (ja) | 雑音抑圧装置、方法、及びプログラム | |
US7571095B2 (en) | Method and apparatus for recognizing speech in a noisy environment | |
KR20210145733A (ko) | 신호 처리 장치 및 방법, 그리고 프로그램 | |
KR101862352B1 (ko) | 음성 인식을 위한 전처리 장치, 및 이를 이용한 음성 인식 장치 및 방법 | |
CN117877491B (zh) | 一种带声纹识别的自适应拾音方法 | |
JP2013114151A (ja) | 雑音抑圧装置、方法及びプログラム | |
JP6216809B2 (ja) | パラメータ調整システム、パラメータ調整方法、プログラム | |
JP4233831B2 (ja) | 音声モデルの雑音適応化システム、雑音適応化方法、及び、音声認識雑音適応化プログラム | |
JP2005196020A (ja) | 音声処理装置と方法並びにプログラム | |
KR20220069776A (ko) | 자동음성인식을 위한 음성 데이터 생성 방법 | |
JP5498452B2 (ja) | 背景音抑圧装置、背景音抑圧方法、およびプログラム | |
JP6376486B2 (ja) | 音響モデル生成装置、音響モデル生成方法、およびプログラム | |
WO2023105778A1 (ja) | 音声信号の処理方法、音声信号処理装置、およびプログラム |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PA0109 | Patent application |
Patent event code: PA01091R01D Comment text: Patent Application Patent event date: 20110929 |
|
PG1501 | Laying open of application | ||
PA0201 | Request for examination |
Patent event code: PA02012R01D Patent event date: 20160929 Comment text: Request for Examination of Application Patent event code: PA02011R01I Patent event date: 20110929 Comment text: Patent Application |
|
E902 | Notification of reason for refusal | ||
PE0902 | Notice of grounds for rejection |
Comment text: Notification of reason for refusal Patent event date: 20170821 Patent event code: PE09021S01D |
|
E701 | Decision to grant or registration of patent right | ||
PE0701 | Decision of registration |
Patent event code: PE07011S01D Comment text: Decision to Grant Registration Patent event date: 20180315 |
|
GRNT | Written decision to grant | ||
PR0701 | Registration of establishment |
Comment text: Registration of Establishment Patent event date: 20180523 Patent event code: PR07011E01D |
|
PR1002 | Payment of registration fee |
Payment date: 20180524 End annual number: 3 Start annual number: 1 |
|
PG1601 | Publication of registration | ||
PR1001 | Payment of annual fee |
Payment date: 20210429 Start annual number: 4 End annual number: 4 |
|
PR1001 | Payment of annual fee |
Payment date: 20220428 Start annual number: 5 End annual number: 5 |