KR100408524B1 - 음성인식방법 및 그 장치 - Google Patents

음성인식방법 및 그 장치 Download PDF

Info

Publication number
KR100408524B1
KR100408524B1 KR10-2001-0050749A KR20010050749A KR100408524B1 KR 100408524 B1 KR100408524 B1 KR 100408524B1 KR 20010050749 A KR20010050749 A KR 20010050749A KR 100408524 B1 KR100408524 B1 KR 100408524B1
Authority
KR
South Korea
Prior art keywords
order
component analysis
independent component
speech
vectors
Prior art date
Application number
KR10-2001-0050749A
Other languages
English (en)
Other versions
KR20030017750A (ko
Inventor
최승호
김상룡
최창규
Original Assignee
삼성전자주식회사
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 삼성전자주식회사 filed Critical 삼성전자주식회사
Priority to KR10-2001-0050749A priority Critical patent/KR100408524B1/ko
Publication of KR20030017750A publication Critical patent/KR20030017750A/ko
Application granted granted Critical
Publication of KR100408524B1 publication Critical patent/KR100408524B1/ko

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/063Training
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/063Training
    • G10L2015/0631Creating reference templates; Clustering

Abstract

본 발명에 따른 음성인식방법은, 입력된 음성신호로부터 음성특징벡터를 추출하는 단계와, 상기 음성특징벡터로부터 M(<N)차의 독립성분분석 베이시스 벡터들을 구하는 단계와, N 차의 학습용 특징벡터를 상기 독립성분분석 베이시스 벡터들을 이용하여 M차의 음성인식용 모델을 구성하는 단계와, N차의 인식용 특징벡터를 상기 독립성분분석 베이시스 벡터를 이용하여 M차의 특징벡터로 변환하는 단계와, 상기 M차의 특징벡터를 상기 M차의 음성인식용 모델을 이용하여 디코딩하는 단계를 포함한다. 이와 같은 본 발명에 의하면 독립성분분석방법을 이용하여 차수간에 상호 독립적이며 원 특징벡터보다 저차원인 특징벡터를 사용함으로써 음성인식에 필요한 계산량이 감소되고 메모리양도 절약할 수 있게 된다.

Description

음성인식방법 및 그 장치{Speech recognition method and the apparatus thereof}
본 발명은 독립성분분석 방법을 이용한 음성인식방법 및 그 장치에 관한 것으로, 좀더 구체적으로는 독립성분분석 방법을 이용하여 특징벡터의 차수를 감소시키는 음성인식방법 및 그 장치에 관한 것이다.
음성인식을 위해서는 입력되는 음성신호를 벡터의 형태를 가지게 되는 특징 파라미터로 변환한다. 이는 음성인식에 적합한 특징을 추출하고 실제 음성인식부에 입력되는 데이터의 양을 감소시키기 위함이다.
일반적으로 N차의 특징벡터를 구한 후, 그 차수를 감소시키기 위한 방법으로서 주성분분석 방법(Principal Component Analysis)이 많이 사용되어 왔다. 그러나, 이러한 주성분분석 방법은 2차 통계치만을 고려하며 그 베이시스 벡터는 서로 직교(orthogonal)해야 한다는 제약을 가지며, 주성분분석 방법에 의한 출력 벡터는 차수간 서로 상호종속된(dependent) 특성을 지니는 단점이 있다.
본 발명은 상기와 같은 문제점을 해결하여 음성인식방법에 독립성분분석방법을 이용하여 특징벡터의 차원을 감소시키고, 또한 차수간 서로 독립적인 특징벡터를 얻어서 음성인식시스템의 기억장치 및 계산비용을 감소시키기 위함이다.
도 1은 본 발명에 따른 음성인식장치의 일예의 개략적인 블럭도.
도 2는 본 발명에 따른 음성인식방법에 사용되는 변환행렬 W를 나타내는 도면.
도 3은 도 1에 도시된 음성인식장치에서 음성인식에 관계되는 부분의 데이터 입출력관계를 도시하는 도면.
이상과 같은 과제를 해결하기 위한 본 발명의 하나의 특징은, 독립성분분석 베이시스 행렬을 생성하는 방법에 있어서, 입력된 음성신호로부터 음성특징벡터를 추출하는 단계와, 상기 추출된 음성특징벡터로부터 독립성분분석 학습방법을 사용하여 N개의 베이시스 벡터를 구하는 단계와, 상기 N개의 베이시스 벡터들을 열벡터로 하여 변환행렬을 구성하는 단계와, 상기 변환행렬의 N개의 베이시스 벡터들중에서 베이시스 벡터의 2차 놈(norm) 값이 큰 것부터 M(<N)개의 베이시스 벡터를 선택하는 단계와, 상기 선택된 M개의 베이시스 벡터들을 이용하여 독립성분분석 베이시스 행렬을 구성하는 단계를 포함하는 것이다.
본 발명의 다른 특징은, 음성인식방법이, 입력된 음성신호로부터 음성특징벡터를 추출하는 단계와, 상기 음성특징벡터로부터 M(<N)차의 독립성분분석 베이시스 벡터들을 구하는 단계와, N 차의 학습용 특징벡터를 상기 독립성분분석 베이시스벡터들을 이용하여 M차의 음성인식용 모델을 구성하는 단계와, N차의 인식용 특징벡터를 상기 독립성분분석 베이시스 벡터를 이용하여 M차의 특징벡터로 변환하는 단계와, 상기 M차의 특징벡터를 상기 M차의 음성인식용 모델을 이용하여 디코딩하는 단계를 포함하는 것이다.
바람직하게는, 상기 음성특징벡터 집합으로부터 상기 M차의 독립성분분석 베이시스 벡터들을 구하는 단계가, 독립성분분석 학습방법을 사용하여 상기 음성특징벡터 집합으로부터 N개의 베이시스 벡터들을 구하는 단계와, 상기 N개의 베이시스 벡터들을 열벡터로 하여 상기 N개의 베이시스 벡터들중 베이시스 벡터의 2차 놈(norm) 값이 큰 것부터 M개를 선택하는 단계를 포함한다.
본 발명의 또다른 특징은, 음성인식방법이, 음성신호로부터 N차의 음성특징벡터 x를 추출하는 단계와, 상기 N차의 음성특징벡터 x를 M×N 차 독립성분분석 베이시스 행렬 W에 의해 M차의 벡터 y(=W·x)로 변환하는 단계와, 상기 변환된 벡터 y를 상기 독립성분분석 베이시스 행렬 W를 이용하여 생성된 인식모델로 인식하는 단계를 포함하는 것이다.
본 발명의 또다른 특징은, 음성인식장치가, 음성특징벡터 집합으로부터 구해진 M(<N)차의 독립성분분석 베이시스 벡터들을 저장하는 독립성분분석 베이시스 벡터 저장부와, N 차의 학습용 특징벡터를 상기 저장부에 저장된 독립성분분석 베이시스 벡터들을 이용하여 M차의 음성인식용 모델로 구성하는 모델링부와, N차의 인식용 특징벡터를 상기 저장부에 저장된 독립성분분석 베이시스 벡터들을 이용하여 M차의 특징벡터로 변환하는 특징변환부와, 상기 특징변환부에 의해 변환된 M차의특징벡터를 상기 모델링부에 의해 구성된 M차의 음성인식용 모델을 이용하여 디코딩하는 인식부를 포함하는 것이다.
바람직하게는, 상기 M차의 독립성분분석 베이시스 벡터들은, 독립성분분석 학습방법을 사용하여 상기 음성특징벡터 집합으로부터 N개의 베이시스 벡터들을 구하고, 상기 N개의 베이시스 벡터들을 열벡터로 하여 상기 N개의 베이시스 벡터들중 베이시스 벡터의 2차 놈(norm) 값이 큰 것부터 M개를 선택하는 것에 의해 얻어진다.
이하에서는 도 1 내지 3을 참조하여 본 발명을 상세히 설명한다.
도 1에 본 발명에 따른 음성인식장치의 일예의 개략적인 블럭도가 도시되어 있다. 도 1에 도시된 음성인식장치(100)는 음성 DB(105)와, 독립성분분석 베이시스 행렬 저장부(115)와, 인식모델 저장부(125)와, 특징추출부(110,130,160)와, 독립성분분석 베이시스 학습부(120)와, 특징변환부(140,170)와, 모델링부(150)와, 인식부(180)를 포함한다.
도 1에 도시된 음성인식장치(100)에 의해 음성인식을 행하는 전체적인 과정을 설명하면, 음성특징벡터 집합으로부터 독립성분분석 베이시스 행렬을 생성하고, 상기 생성된 독립성분분석 베이시스 행렬을 이용하여 음성인식모델을 구성하고, 상기 독립성분분석 베이시스 행렬 및 상기 음성인식모델을 이용하여 음성신호를 인식한다.
이하에서 구체적으로 설명한다.
먼저, 음성 DB(105)에 저장된 음성신호는 특징추출부(110)에 의해 음성특징벡터가 추출된다. 독립성분분석 베이시스 학습부(120)는 상기 특징추출부(110)로부터 입력된 음성특징벡터를 이용하여 독립성분분석 베이시스 행렬을 생성한다. 즉, 도 2에 도시된 바와 같이 음성특징벡터 집합으로부터 독립성분분석 학습방법을 이용하여 N개의 독립성분분석 베이시스 행렬을 구하고, 이들 베이시스 벡터를 열(row)벡터로 하여 변환행렬 W(N×N)를 구성한다. 그리고, 총 N개의 베이시스 벡터들중에서 M(<N)개를 선택하는데, 이때 베이시스 벡터의 2차 놈(norm) 값이 큰 것부터 선택한다. 독립성분분석방법에 의한 베이시스 벡터는 서로 독립적이고, 또한 이와 같이 베이시스 벡터의 2차 놈값이 큰 것부터 선택하여 베이시스 벡터의 양을 감소시키기 때문에 음성을 대표하는 특징은 유지시키면서 인식에 필요한 계산의 양을 감소시킬 수 있다.
이와 같이 차수가 감소된 M×N 변환행렬 W은 학습용 특징벡터의 특징변환시와 인식용 특징벡터의 특징변환시에 이용된다. 즉, 특징추출부(130)에 의해 추출된 N차의 학습용 특징벡터는 특징변환부(140)로 입력되고, 특징추출부(160)에 의해 추출된 N차의 인식용 특징벡터는 특징변환부(170)로 입력된다.
도 3을 참조하여, 특징변환부(170)을 중심으로 설명하면, 특징변환부에 입력된 N차의 인식용 특징벡터 x와 독립성분분석 베이시스 행렬 저장부로부터 출력된 베이시스 행렬 W는 다음과 같은 식에 의해 M차의 벡터 y로 변환된다.
y(M×1) = W(M×N)·x(N×1)
학습용 특징벡터가 입력되는 특징변환부(140)에서도 마찬가지이다.
모델링부(150)는 특징변환부(140)로부터 출력된 M차의 특징벡터를 사용하여 음성인식을 위한 모델을 구성하고, 이와 같이 구성된 음성인식모델을 인식모델저장부(125)에 저장한다. 특징변환부(170)로부터 출력된 M차의 인식용 특징벡터는 인식부(180)로 입력되고, 인식부(180)는 입력도니 M차의 인식용 특징벡터를 음성인식모델을 이용하여 디코딩하여 인식결과를 출력한다.
상기와 같은 본 발명에 의하면, 독립성분분석방법을 이용하여 차수가 더 작은 특징벡터로 변환함으로써, 차수간에 상호 독립적이며 원 특징벡터보다 저차원이므로 음성인식에 필요한 계산량이 감소되고 메모리양도 절약할 수 있게 된다. 또한, 차수가 더 작은 특징벡터 변환시 베이시스 벡터의 2차 놈값이 큰 것부터 선택함으로, 실질적으로 음성을 대표하는 특징은 유지할 수 있다.

Claims (6)

  1. 독립성분분석 베이시스 행렬을 생성하는 방법에 있어서,
    입력된 음성신호로부터 음성특징벡터를 추출하는 단계와,
    상기 추출된 음성특징벡터로부터 독립성분분석 학습방법을 사용하여 N개의 베이시스 벡터를 구하는 단계와,
    상기 N개의 베이시스 벡터들을 열벡터로 하여 변환행렬을 구성하는 단계와,
    상기 변환행렬의 N개의 베이시스 벡터들중에서 베이시스 벡터의 2차 놈(norm) 값이 큰 것부터 M(<N)개의 베이시스 벡터를 선택하는 단계와,
    상기 선택된 M개의 베이시스 벡터들을 이용하여 독립성분분석 베이시스 행렬을 구성하는 단계를 포함하는 독립성분분석 베이시스 행렬을 생성하는 방법.
  2. 음성인식방법에 있어서,
    입력된 음성신호로부터 음성특징벡터를 추출하는 단계와,
    상기 음성특징벡터로부터 M(<N)차의 독립성분분석 베이시스 벡터들을 구하는 단계와,
    N 차의 학습용 특징벡터를 상기 독립성분분석 베이시스 벡터들을 이용하여 M차의 음성인식용 모델을 구성하는 단계와,
    N차의 인식용 특징벡터를 상기 독립성분분석 베이시스 벡터를 이용하여 M차의 특징벡터로 변환하는 단계와,
    상기 M차의 특징벡터를 상기 M차의 음성인식용 모델을 이용하여 디코딩하는 단계를 포함하는 음성인식방법.
  3. 제1항에 있어서,
    상기 음성특징벡터 집합으로부터 상기 M차의 독립성분분석 베이시스 벡터들을 구하는 단계는,
    독립성분분석 학습방법을 사용하여 상기 음성특징벡터 집합으로부터 N개의 베이시스 벡터들을 구하는 단계와,
    상기 N개의 베이시스 벡터들을 열벡터로 하여 상기 N개의 베이시스 벡터들중베이시스 벡터의 2차 놈(norm) 값이 큰 것부터 M개를 선택하는 단계를 포함하는, 음성인식방법.
  4. 음성인식방법에 있어서,
    음성신호로부터 N차의 음성특징벡터 x를 추출하는 단계와,
    상기 N차의 음성특징벡터 x를 M×N 차 독립성분분석 베이시스 행렬 W에 의해 M차의 벡터 y(=W·x)로 변환하는 단계와,
    상기 변환된 벡터 y를 상기 독립성분분석 베이시스 행렬 W를 이용하여 생성된 인식모델로 인식하는 단계를 포함하는 음성인식방법.
  5. 음성인식장치에 있어서,
    음성특징벡터 집합으로부터 구해진 M(<N)차의 독립성분분석 베이시스 벡터들을 저장하는 독립성분분석 베이시스 벡터 저장부와,
    N 차의 학습용 특징벡터를 상기 저장부에 저장된 독립성분분석 베이시스 벡터들을 이용하여 M차의 음성인식용 모델로 구성하는 모델링부와,
    N차의 인식용 특징벡터를 상기 저장부에 저장된 독립성분분석 베이시스 벡터들을 이용하여 M차의 특징벡터로 변환하는 특징변환부와,
    상기 특징변환부에 의해 변환된 M차의 특징벡터를 상기 모델링부에 의해 구성된 M차의 음성인식용 모델을 이용하여 디코딩하는 인식부를 포함하는 음성인식장치.
  6. 제5항에 있어서,
    상기 M차의 독립성분분석 베이시스 벡터들은, 독립성분분석 학습방법을 사용하여 상기 음성특징벡터 집합으로부터 N개의 베이시스 벡터들을 구하고, 상기 N개의 베이시스 벡터들을 열벡터로 하여 상기 N개의 베이시스 벡터들중 베이시스 벡터의 2차 놈(norm) 값이 큰 것부터 M개를 선택하는 것에 의해 얻어지는, 음성인식장치.
KR10-2001-0050749A 2001-08-22 2001-08-22 음성인식방법 및 그 장치 KR100408524B1 (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR10-2001-0050749A KR100408524B1 (ko) 2001-08-22 2001-08-22 음성인식방법 및 그 장치

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR10-2001-0050749A KR100408524B1 (ko) 2001-08-22 2001-08-22 음성인식방법 및 그 장치

Publications (2)

Publication Number Publication Date
KR20030017750A KR20030017750A (ko) 2003-03-04
KR100408524B1 true KR100408524B1 (ko) 2003-12-06

Family

ID=27720337

Family Applications (1)

Application Number Title Priority Date Filing Date
KR10-2001-0050749A KR100408524B1 (ko) 2001-08-22 2001-08-22 음성인식방법 및 그 장치

Country Status (1)

Country Link
KR (1) KR100408524B1 (ko)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1295672C (zh) * 2002-03-27 2007-01-17 诺基亚有限公司 模式识别

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS6148032A (ja) * 1984-08-14 1986-03-08 Sharp Corp 音声入力式日本語文書処理装置
JPH0876785A (ja) * 1994-09-08 1996-03-22 Nec Corp 音声認識装置
JPH11212591A (ja) * 1998-01-23 1999-08-06 Pioneer Electron Corp パターン認識方法及びパターン認識装置並びにパターン認識プログラムが記録された記録媒体
KR20000033276A (ko) * 1998-11-21 2000-06-15 정선종 대표 특징열을 이용한 프레임 압축 방법 및그를 이용한 음성인식 방법

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS6148032A (ja) * 1984-08-14 1986-03-08 Sharp Corp 音声入力式日本語文書処理装置
JPH0876785A (ja) * 1994-09-08 1996-03-22 Nec Corp 音声認識装置
JPH11212591A (ja) * 1998-01-23 1999-08-06 Pioneer Electron Corp パターン認識方法及びパターン認識装置並びにパターン認識プログラムが記録された記録媒体
KR20000033276A (ko) * 1998-11-21 2000-06-15 정선종 대표 특징열을 이용한 프레임 압축 방법 및그를 이용한 음성인식 방법

Also Published As

Publication number Publication date
KR20030017750A (ko) 2003-03-04

Similar Documents

Publication Publication Date Title
US6041299A (en) Apparatus for calculating a posterior probability of phoneme symbol, and speech recognition apparatus
CN1327406C (zh) 开放式词汇表语音识别的方法
KR100815115B1 (ko) 타 언어권 화자 음성에 대한 음성 인식시스템의 성능향상을 위한 발음 특성에 기반한 음향모델 변환 방법 및이를 이용한 장치
CN108287820B (zh) 一种文本表示的生成方法及装置
US6038535A (en) Speech classifier and method using delay elements
RU2458412C1 (ru) Устройство поиска фиксированных таблиц кодирования и способ поиска фиксированных таблиц кодирования
US8645135B2 (en) Method for creating a speech model
US5946653A (en) Speaker independent speech recognition system and method
CN112562640A (zh) 多语言语音识别方法、装置、系统及计算机可读存储介质
Sunny et al. Recognition of speech signals: an experimental comparison of linear predictive coding and discrete wavelet transforms
KR100408524B1 (ko) 음성인식방법 및 그 장치
US7467086B2 (en) Methodology for generating enhanced demiphone acoustic models for speech recognition
CN110717022A (zh) 一种机器人对话生成方法、装置、可读存储介质及机器人
CN112668704B (zh) 音频识别模型的训练方法、装置和音频识别方法、装置
CN115116470A (zh) 音频处理方法、装置、计算机设备和存储介质
JPH01204099A (ja) 音声認識装置
US6192353B1 (en) Multiresolutional classifier with training system and method
US20060136210A1 (en) System and method for tying variance vectors for speech recognition
JP2910035B2 (ja) 音声合成装置
US20230386489A1 (en) Audio signal conversion model learning apparatus, audio signal conversion apparatus, audio signal conversion model learning method and program
KR20030001668A (ko) 연속 음성인식기의 성능 개선 방법
JP7367839B2 (ja) 音声認識装置、制御方法、及びプログラム
JP3012994B2 (ja) 音韻識別方法
Vaidhyanathan et al. Speech recognition of monosyllables using hidden Markov model in VHDL
Domokos et al. WEB Application for Romanian Language Phonetic Transcription.

Legal Events

Date Code Title Description
A201 Request for examination
E701 Decision to grant or registration of patent right
GRNT Written decision to grant
FPAY Annual fee payment

Payment date: 20121016

Year of fee payment: 10

FPAY Annual fee payment

Payment date: 20131022

Year of fee payment: 11

FPAY Annual fee payment

Payment date: 20141022

Year of fee payment: 12

LAPS Lapse due to unpaid annual fee