KR101430730B1 - 채널 정규화 장치 및 방법 - Google Patents

채널 정규화 장치 및 방법 Download PDF

Info

Publication number
KR101430730B1
KR101430730B1 KR1020110107136A KR20110107136A KR101430730B1 KR 101430730 B1 KR101430730 B1 KR 101430730B1 KR 1020110107136 A KR1020110107136 A KR 1020110107136A KR 20110107136 A KR20110107136 A KR 20110107136A KR 101430730 B1 KR101430730 B1 KR 101430730B1
Authority
KR
South Korea
Prior art keywords
feature vector
unit
training
channel normalization
transformation matrix
Prior art date
Application number
KR1020110107136A
Other languages
English (en)
Other versions
KR20130042956A (ko
Inventor
정호영
송화전
Original Assignee
한국전자통신연구원
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 한국전자통신연구원 filed Critical 한국전자통신연구원
Priority to KR1020110107136A priority Critical patent/KR101430730B1/ko
Publication of KR20130042956A publication Critical patent/KR20130042956A/ko
Application granted granted Critical
Publication of KR101430730B1 publication Critical patent/KR101430730B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • G10L15/183Speech classification or search using natural language modelling using context dependencies, e.g. language models
    • G10L15/187Phonemic context, e.g. pronunciation rules, phonotactical constraints or phoneme n-grams
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/24Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being the cepstrum

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Artificial Intelligence (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

본 발명은 실시간 음성 인식을 위한 채널 정규화 장치 및 방법에 관한 것이다. 본 발명은 입력 음성에 대하여 프레임마다 특징 벡터를 추출하는 특징 벡터 추출부, 미리 훈련된 선형 변환 매트릭스를 이용하여 특징 벡터가 추출된 프레임들의 특징 벡터를 변환시키는 특징 벡터 변환부, 및 변환된 특징 벡터를 기초로 음성 인식을 위한 채널 정규화를 수행하는 채널 정규화부를 포함하는 채널 정규화 장치를 제안한다. 본 발명에 따르면, 실시간 음성 인식이 가능해지며, 바이어스 성분 제거와 함께 음성 인식을 위한 변별력도 향상시킬 수 있다.

Description

채널 정규화 장치 및 방법 {Channel normalization apparatus and method}
본 발명은 채널 정규화 장치 및 방법에 관한 것이다. 보다 상세하게는, 실시간 음성 인식을 위한 채널 정규화 장치 및 방법에 관한 것이다.
음성 인식 시스템을 다양한 채널 환경에서 사용하기 위해서는 채널 정규화 기술을 필요로 한다. 이러한 채널 정규화 기술로 종래 대표적인 것이 CMS(Cepstral Mean Subtraction) 기술이다.
CMS는 음성 특징 벡터로 널리 사용되고 있는 MFCC(Mel-Frequency Cepstral Coefficients)의 전체 시간에 대한 평균을 구하고 이를 각 시간의 MFCC에서 빼는 것이다. 대부분의 채널 변이가 MFCC 파라미터 영역에서 바이어스 형태로 나타나므로 CMS 방식은 간단하면서도 효과적으로 채널 정규화를 수행할 수 있다.
그러나, CMS는 입력 음성의 전체 구간에 대한 평균을 구하는 작업이 선행되어야 하기 때문에 실시간으로 음성을 인식하는 데에 부적합하다.
본 발명은 상기한 문제점을 해결하기 위해 안출된 것으로서, LDA(Linear Discriminant Analysis)에 기반한 바이어스 제거 방식을 이용하여 실시간 음성 인식을 위한 채널 정규화를 수행하는 채널 정규화 장치 및 방법을 제안함을 목적으로 한다.
본 발명은 상기한 목적을 달성하기 위해 안출된 것으로서, 입력 음성에 대하여 프레임마다 특징 벡터를 추출하는 특징 벡터 추출부; 미리 훈련된 선형 변환 매트릭스를 이용하여 상기 특징 벡터가 추출된 프레임들의 상기 특징 벡터를 변환시키는 특징 벡터 변환부; 및 변환된 상기 특징 벡터를 기초로 음성 인식을 위한 채널 정규화를 수행하는 채널 정규화부를 포함하는 것을 특징으로 하는 채널 정규화 장치를 제안한다.
바람직하게는, 상기 특징 벡터 추출부는 MFCC(Mel-Frequency Cepstral Coefficients)에 기초하여 상기 특징 벡터를 추출한다.
바람직하게는, 상기 특징 벡터 변환부는 상기 변환으로 LDA(Linear Discriminant Analysis) 변환을 이용한다.
바람직하게는, 상기 특징 벡터 변환부는 상기 프레임들에서 동일 성분의 특징 벡터들끼리 묶어 상기 변환을 수행한다. 더욱 바람직하게는, 상기 특징 벡터 변환부는 미리 정해진 길이를 가지는 상기 프레임들을 버퍼링시킨 뒤 버퍼링된 프레임들에 대하여 상기 변환을 수행한다.
바람직하게는, 상기 채널 정규화부는 실시간으로 음성을 인식할 때에 상기 채널 정규화를 수행한다.
바람직하게는, 상기 채널 정규화 장치는 상기 선형 변환 매트릭스를 훈련시키는 선형 변환 매트릭스 훈련부를 더욱 포함한다. 더욱 바람직하게는, 상기 선형 변환 매트릭스 훈련부는, 훈련 음성 데이터를 프레임 단위로 분리하는 음성 데이터 분리부; 각 프레임마다 특징 벡터들을 검출하는 특징 벡터 검출부; 검출된 특징 벡터들을 음소별로 분류하는 특징 벡터 분류부; 및 서로 다른 음소로 분류된 특징 벡터들끼리 변별력을 가지게 상기 선형 변환 매트릭스를 훈련시키는 훈련부를 포함한다. 더욱더 바람직하게는, 상기 선형 변환 매트릭스 훈련부는, 음소별 분류를 위한 기준이 되는 음소 경계를 결정하는 음소 경계 결정부를 더욱 포함한다.
또한, 본 발명은 입력 음성에 대하여 프레임마다 특징 벡터를 추출하는 특징 벡터 추출 단계; 미리 훈련된 선형 변환 매트릭스를 이용하여 상기 특징 벡터가 추출된 프레임들의 상기 특징 벡터를 변환시키는 특징 벡터 변환 단계; 및 변환된 상기 특징 벡터를 기초로 음성 인식을 위한 채널 정규화를 수행하는 채널 정규화 단계를 포함하는 것을 특징으로 하는 채널 정규화 방법을 제안한다.
바람직하게는, 상기 특징 벡터 추출 단계는 MFCC(Mel-Frequency Cepstral Coefficients)에 기초하여 상기 특징 벡터를 추출한다.
바람직하게는, 상기 특징 벡터 변환 단계는 상기 변환으로 LDA(Linear Discriminant Analysis) 변환을 이용한다.
바람직하게는, 상기 특징 벡터 변환 단계는 상기 프레임들에서 동일 성분의 특징 벡터들끼리 묶어 상기 변환을 수행한다. 더욱 바람직하게는, 상기 특징 벡터 변환 단계는 미리 정해진 길이를 가지는 상기 프레임들을 버퍼링시킨 뒤 버퍼링된 프레임들에 대하여 상기 변환을 수행한다.
바람직하게는, 상기 채널 정규화 단계는 실시간으로 음성을 인식할 때에 상기 채널 정규화를 수행한다.
바람직하게는, 상기 특징 벡터 추출 단계 이전에, 상기 선형 변환 매트릭스를 훈련시키는 선형 변환 매트릭스 훈련 단계를 더욱 포함한다. 더욱 바람직하게는, 상기 선형 변환 매트릭스 훈련 단계는, 훈련 음성 데이터를 프레임 단위로 분리하는 음성 데이터 분리 단계; 각 프레임마다 특징 벡터들을 검출하는 특징 벡터 검출 단계; 검출된 특징 벡터들을 음소별로 분류하는 특징 벡터 분류 단계; 및 서로 다른 음소로 분류된 특징 벡터들끼리 변별력을 가지게 상기 선형 변환 매트릭스를 훈련시키는 훈련 단계를 포함한다. 더욱더 바람직하게는, 상기 선형 변환 매트릭스 훈련 단계는 상기 특징 벡터 검출 단계와 상기 특징 벡터 분류 단계 사이에 음소별 분류를 위한 기준이 되는 음소 경계를 결정하는 음소 경계 결정 단계를 더욱 포함한다.
본 발명은 LDA에 기반한 바이어스 제거 방식을 이용하여 실시간 음성 인식을 위한 채널 정규화를 수행함으로써 다음 효과를 얻을 수 있다. 첫째, 입력 음성의 전체 구간에 대한 평균을 구하지 않고 채널 정규화를 수행하기 때문에 실시간 음성 인식이 가능해진다. 둘째, 일정 길이의 프레임마다 LDA 변환을 수행하기 때문에 바이어스 성분을 제거함과 동시에 음소별 인식을 위한 변별력을 향상시킬 수 있다.
도 1은 본 발명의 바람직한 실시예에 따른 채널 정규화 장치를 개략적으로 도시한 블록도이다.
도 2는 도 1의 채널 정규화 장치에 부가되는 구성을 구체적으로 도시한 블록도이다.
도 3은 도 1의 채널 정규화 장치를 이용하여 채널 정규화를 수행하는 과정을 보여주는 도면이다.
도 4는 도 1의 채널 정규화 장치를 이용하여 실시간 음성 인식을 구현하는 방법에 대한 흐름도이다.
도 5는 본 발명의 바람직한 실시예에 따른 채널 정규화 방법을 개략적으로 도시한 흐름도이다.
이하, 본 발명의 바람직한 실시예를 첨부된 도면들을 참조하여 상세히 설명한다. 우선 각 도면의 구성요소들에 참조 부호를 부가함에 있어서, 동일한 구성요소들에 대해서는 비록 다른 도면상에 표시되더라도 가능한한 동일한 부호를 가지도록 하고 있음에 유의해야 한다. 또한, 본 발명을 설명함에 있어, 관련된 공지 구성 또는 기능에 대한 구체적인 설명이 본 발명의 요지를 흐릴 수 있다고 판단되는 경우에는 그 상세한 설명은 생략한다. 또한, 이하에서 본 발명의 바람직한 실시예를 설명할 것이나, 본 발명의 기술적 사상은 이에 한정하거나 제한되지 않고 당업자에 의해 변형되어 다양하게 실시될 수 있음은 물론이다.
도 1은 본 발명의 바람직한 실시예에 따른 채널 정규화 장치를 개략적으로 도시한 블록도이다. 도 2는 도 1의 채널 정규화 장치에 부가되는 구성을 구체적으로 도시한 블록도이다. 이하 설명은 도 1과 도 2를 참조한다.
채널 정규화 장치(100)는 음성 인식 시스템을 다양한 채널 환경에서 사용할 수 있도록 채널 정규화를 수행하는 장치이다. 본 실시예에 따른 채널 정규화 장치(100)는 음성 인식 시스템에 구비되어 실시간으로 음성을 인식하는 데에 적용된다. 즉, 본 실시예에 따른 채널 정규화 장치(100)는 음성 인식 시스템을 위하여 실시간 처리가 가능한 채널 정규화 방식을 제안하는 장치이다.
특징 벡터 추출부(110)는 입력 음성에 대하여 프레임마다 특징 벡터를 추출하는 기능을 수행한다. 특징 벡터 추출부(110)는 MFCC(Mel-Frequency Cepstral Coefficients)에 기초하여 특징 벡터를 추출한다.
특징 벡터 변환부(120)는 미리 훈련된 선형 변환 매트릭스를 이용하여 특징 벡터가 추출된 프레임들의 특징 벡터를 변환시키는 기능을 수행한다. 특징 벡터 변환부(120)는 특징 벡터 변환으로 LDA(Linear Discriminant Analysis) 변환을 이용한다.
특징 벡터 변환부(120)는 입력 음성 프레임들에서 동일 성분의 특징 벡터들끼리 묶어 특징 벡터 변환을 수행한다. 여기에서, 성분은 음소 등을 의미한다. 특징 벡터 변환부(120)는 미리 정해진 길이를 가지는 입력 음성 프레임들을 버퍼링시킨 뒤 버퍼링된 프레임들에 대하여 특징 벡터 변환을 수행한다.
채널 정규화부(130)는 변환된 특징 벡터를 기초로 음성 인식을 위한 채널 정규화를 수행한다. 채널 정규화부(130)는 실시간으로 음성을 인식할 때에 채널 정규화를 수행한다.
전원부(140)는 채널 정규화 장치(100)를 구성하는 각 구성부에 전원을 공급하는 기능을 수행한다.
주제어부(150)는 채널 정규화 장치(100)를 구성하는 각 구성부의 전체 작동을 제어하는 기능을 수행한다.
채널 정규화 장치(100)는 도 2에 도시된 바와 같이 선형 변환 매트릭스 훈련부(160)를 더욱 포함한다. 도 2에서 (a)는 선형 변환 매트릭스 훈련부(160)에 대한 개략도이며, (b)는 선형 변환 매트릭스 훈련부(160)에 대한 상세도이다.
선형 변환 매트릭스 훈련부(160)는 선형 변환 매트릭스를 훈련시키는 기능을 수행한다. 선형 변환 매트릭스 훈련부(160)는 선형 변환 매트릭스로 LDA(Linear Discriminant Analysis) 변환 매트릭스를 훈련시킨다.
선형 변환 매트릭스 훈련부(160)는 음성 데이터 분리부(161), 특징 벡터 검출부(162), 특징 벡터 분류부(163) 및 훈련부(164)를 포함한다. 음성 데이터 분리부(161)는 훈련 음성 데이터를 프레임 단위로 분리하는 기능을 수행한다. 특징 벡터 검출부(162)는 각 프레임마다 특징 벡터들을 검출하는 기능을 수행한다. 특징 벡터 분류부(163)는 검출된 특징 벡터들을 음소별로 분류하는 기능을 수행한다. 훈련부(164)는 서로 다른 음소로 분류된 특징 벡터들끼리 변별력을 가지게 선형 변환 매트릭스를 훈련시키는 기능을 수행한다. 한편, 선형 변환 매트릭스 훈련부(160)는 음소 경계 결정부(165)를 더욱 포함할 수 있다. 음소 경계 결정부(165)는 음소별 분류를 위한 기준이 되는 음소 경계를 결정하는 기능을 수행한다.
음성 인식 시스템을 다양한 채널 환경에서 사용하기 위해서는 채널 정규화 기술을 필요로 한다. 일반적인 채널 정규화 기술은 사용자가 발성한 음성으로부터 음성 인식을 위한 특징 벡터를 매시간 프레임마다 추출한 후 전체 프레임의 특징 벡터 평균값을 구해 각 프레임의 특징 벡터에서 빼는 것이다. 채널 변이의 효과는 음성 특징 벡터에서 바이어스 형태로 나타나므로 평균을 빼는 방식이 매우 효과적으로 동작한다. 그러나, 이 방식은 입력 음성 전체의 평균을 알아야 하므로 음성 인식 시스템이 사용자의 입력을 받고 평균을 구할 때까지 대기해야 하며, 이로 인해 실시간 음성 인식을 수행하기에 부적합하다. 본 발명에서는 사용자의 음성이 입력되면 매시간 프레임마다 특징 추출과 동시에 인식이 수행되어 사용자가 말을 마칠 때쯤에 인식 결과를 제공하는 즉, 실시간 처리가 가능한 구조로 채널 정규화를 수행할 수 있는 장치를 제안한다.
도 3은 도 1의 채널 정규화 장치를 이용하여 채널 정규화를 수행하는 과정을 보여주는 도면이다. 도 3에서는 음성 인식 시스템의 상용화를 위해 필수적인 채널 정규화 과정을 보여주는데, 입력 음성 전체의 평균을 구하지 않고 LDA(Linear Discriminant Analysis)에 기반된 바이어스 제거 방식을 제안하여 종래 CMS가 가진 실시간 채널 정규화 문제를 해결하는 LDA 기반 실시간 채널 정규화 과정을 보여준다.
본 발명은 음성 인식 시스템을 다양한 채널 환경에 강인하게 하는 채널 정규화 기술의 실시간 처리가 가능한 장치를 제안한다. 마이크로폰, 통신 채널, 사용 장소 등의 채널 변이는 음성 인식 시스템의 성능에 큰 영향을 주고 있다. 대부분의 상용 음성 인식 시스템은 채널 변이를 해결하기 위해 채널 정규화 기술을 필수로 채용하고 있으며, 가장 대표적인 방법이 CMS(Cepstral Mean Subtraction) 기술이다. 음성 인식 시스템에 가장 널리 사용되고 있는 특징 벡터가 MFCC(Mel-Frequency Cepstral Coefficients)이고, 이 MFCC 영역에서 대부분의 채널 특성은 바이어스 형태로 나타난다. 이에 기초하여 CMS 기술은 입력된 음성 신호로부터 매시간 프레임마다 MFCC를 추출한 후 전체 프레임에 대한 MFCC 평균값을 구하고, 이것을 각 프레임의 MFCC 값에서 빼는 과정을 통해 채널 특성을 제거한다. 이를 통해 채널 특성이 제거되고 음성 특징만이 잔존하게 되어 음성 인식을 성공적으로 수행하는데 기여할 수 있다.
하지만 CMS 방식의 문제는 입력된 음성 신호로부터 매 프레임마다 MFCC 특징을 추출한 후 전체 프레임에 대한 MFCC 평균을 구해야 하는 것이다. 이것은 음성 인식 시스템을 구현함에 있어 사용자가 발성을 마쳐 전체 시간에 대한 평균이 얻어질 때 인식 과정이 시작할 수 있음을 의미하며, 이로 인해 시스템 지연 현상이 필연적으로 나타날 수밖에 없다. 이를 해결하기 위해 온라인 구조의 CMS를 수행하는 방법들이 다양하게 제시되어 왔으며 현재 적용되고 있는 실정이다. 온라인 구조의 CMS 기술은 입력 음성 전체의 평균이 아니라 처음 일정 구간의 평균을 구해 사용하면서 시간에 따라 일정 구간 평균을 계속 갱신하는 방식이다. 온라인 구조의 CMS 기술이 실시간 문제를 어느 정도 해결하면서 적용되고 있으나 일정 구간의 평균이 일부분에서는 적합하지 않아 음성 특징도 제거되는 문제가 있으며 입력 신호 전체의 평균을 이용하는 방식에 비해 낮은 성능을 보이고 있다. 본 발명에서는 평균값을 구하지 않고 LDA 변환에 의해 바이어스 성분이 제거되는 특성을 이용해 LDA에 기반한 채널 정규화 방법을 제안한다.
도 3은 LDA에 기반한 채널 정규화 과정을 나타낸다. 일반적으로 MFCC 기반 특징은 13개의 성분을 가지는 벡터로 나타내고 CMS에서는 13개 성분을 가지는 평균 벡터를 구해서 13개 성분의 각각의 시간에 대한 바이어스 제거에 사용한다. 본 발명은 13개 성분 각각의 바이어스를 제거하는 원리를 이용하여 각 성분별로 LDA 변환을 수행한다. 13개의 LDA 변환 매트릭스를 이용하여 일정 프레임의 MFCC가 얻어지면 각 성분별 LDA를 수행(300)하는데, 이 과정은 전체 구간의 평균값을 이용하지 않고 훈련된 LDA 매트릭스를 일정 구간의 MFCC가 추출되면 바로 적용하는 것으로 실시간 처리가 가능해진다.
LDA 매트릭스의 훈련은 음성 인식 시스템의 훈련을 위해 사용되는 훈련 음성 데이터를 이용하여 얻을 수 있다. 각 성분별 LDA 매트릭스의 훈련을 위해서는 먼저 훈련 음성 데이터로부터 각 음소별 경계를 결정해 전체 훈련 데이터를 음소별로 분류한다. 다음으로, 특정 음소로 분류된 프레임 특징 벡터가 다른 음소로 분류된 특징 벡터와 변별력을 가지도록 선형 변환 매트릭스를 구한다. 이러한 과정을 통해 모든 음소에 공통적으로 포함된 바이어스 성분은 제거되고 음소 분류에 변별력이 향상되는 효과까지 얻을 수 있다.
도 4는 도 1의 채널 정규화 장치를 이용하여 실시간 음성 인식을 구현하는 방법에 대한 흐름도이다. 이하 설명은 도 4를 참조한다.
먼저, 음성 신호가 입력된다(S410). 이후, 입력된 음성에 대하여 프레임 단위 MFCC 특징을 추출한다(S420). 이후, 일정 길이의 프레임에 대해 버퍼링을 수행하고(S430), 훈련된 LDA 매트릭스(400)를 이용하여 MFCC 벡터에 대하여 각 성분별로 LDA 변환을 수행한다(S440). 본 채널 정규화 장치(100)를 이용한 실시간 채널 정규화 처리 즉, LDA에 기반한 실시간 채널 정규화 처리는 S420 단계 ~ S440 단계와 관련된다. 이후, 채널 정규화된 MFCC 인식 모듈로 LDA 변환 결과를 전달한다(S450). 이후, 인식 모듈에서 인식을 수행하며(S460), 음성 신호가 종료되었는지 여부를 판별한다(S470). 음성 신호가 종료되지 않았다면 S430 단계부터 다시 수행하며, 음성 신호가 종료되었다면 S480 단계를 수행한다. S480 단계는 인식 결과를 출력하는 단계이다.
이상 도 4를 참조하여 설명한 바와 같이, 본 발명은 종래의 CMS 기반 채널 정규화의 문제점을 개선하는 것으로 비교적 긴 구간의 평균값을 구하지 않고 채널 정규화를 수행한다. 또한, 본 발명은 일정 길이의 프레임마다 LDA 변환을 수행하여 바이어스 성분을 제거하면서 동시에 음소별 인식을 위한 변별력도 개선하는 효과를 얻을 수 있다. 본 발명은 온라인 구조의 채널 정규화를 제공하여 실시간 음성 인식 시스템을 구현할 수 있고, 종래의 CMS 방법에 비해 인식을 위한 변별력도 얻을 수 있을 것으로 기대된다.
도 1 내지 도 4를 참조하여 전술한 바에 따르면 본 실시예에 따른 채널 정규화 장치는 다음과 같이 요약할 수 있다. 첫째, 음성 특징 벡터를 각 성분별로 매 프레임 길이마다 LDA를 적용하는 채널 정규화 장치이다. 둘째, 특징 벡터에 대하여 각 성분별로 LDA 적용을 수행하여 바이어스 성분을 제거하면서 동시에 변별력도 개선하는 채널 정규화 장치이다. 세째, LDA 기반 채널 정규화 방식을 이용한 온라인 구조의 채널 정규화 장치이다. 네째, LDA에 기반한 온라인 채널 정규화 방식을 이용하여 실시간 음성 인식 시스템을 구현하는 채널 정규화 장치이다. 다섯째, 일정 프레임 단위의 특징 벡터를 음소별로 분류하고 음소 분포가 서로 변별력이 있도록 벡터의 각 성분별로 LDA 매트릭스를 훈련하는 채널 정규화 장치이다.
다음으로, 도 1에 도시된 채널 정규화 장치(100)를 이용하여 채널 정규화를 수행하는 방법에 대해서 설명한다. 도 5는 본 발명의 바람직한 실시예에 따른 채널 정규화 방법을 개략적으로 도시한 흐름도이다. 이하 설명은 도 1, 도 2 및 도 5를 참조한다.
먼저, 특징 벡터 추출부(110)가 입력 음성에 대하여 프레임마다 특징 벡터를 추출한다(특징 벡터 추출 단계, S10). 특징 벡터 추출 단계(S10)는 MFCC(Mel-Frequency Cepstral Coefficients)에 기초하여 특징 벡터를 추출한다.
특징 벡터 추출 단계(S10) 이후, 특징 벡터 변환부(120)가 미리 훈련된 선형 변환 매트릭스를 이용하여 특징 벡터가 추출된 프레임들의 특징 벡터를 변환시킨다(특징 벡터 변환 단계, S20). 특징 벡터 변환 단계(S20)에서는 특징 벡터 변환으로 LDA(Linear Discriminant Analysis) 변환을 이용한다. 특징 벡터 변환 단계(S20)에서는 입력 음성 프레임들에서 동일 성분의 특징 벡터들끼리 묶어 특징 벡터 변환을 수행한다. 특징 벡터 변환 단계(S20)에서는 미리 정해진 길이를 가지는 입력 음성 프레임들을 버퍼링시킨 뒤 버퍼링된 프레임들에 대하여 특징 벡터 변환을 수행한다.
특징 벡터 변환 단계(S20) 이후, 채널 정규화부(130)가 변환된 특징 벡터를 기초로 음성 인식을 위한 채널 정규화를 수행한다(채널 정규화 단계, S30). 채널 정규화 단계(S30)에서는 실시간으로 음성을 인식할 때에 채널 정규화를 수행한다.
한편, 선형 변환 매트릭스 훈련부(160)는 선형 변환 매트릭스를 훈련시킬 수 있다(선형 변환 매트릭스 훈련 단계). 선형 변환 매트릭스 훈련 단계(S5)는 특징 벡터 추출 단계(S10) 이전에 수행될 수 있다. 그 이유는 실시간 음성 인식을 위해서이다. 그러나, 본 실시예에서 반드시 이에 한정될 필요는 없다. 예컨대, 선형 변환 매트릭스 훈련 단계(S5)는 특징 벡터 추출 단계(S10)와 특징 벡터 변환 단계(S20) 사이에 수행되는 것도 가능하다.
선형 변환 매트릭스 훈련 단계(S5)는 다음과 같이 구체화될 수 있다. 먼저, 음성 데이터 분리부(161)가 훈련 음성 데이터를 프레임 단위로 분리한다(음성 데이터 분리 단계). 이후, 특징 벡터 검출부(162)가 각 프레임마다 특징 벡터들을 검출한다(특징 벡터 검출 단계). 이후, 특징 벡터 분류부(163)가 검출된 특징 벡터들을 음소별로 분류한다(특징 벡터 분류 단계). 이후, 훈련부(164)가 서로 다른 음소로 분류된 특징 벡터들끼리 변별력을 가지게 선형 변환 매트릭스를 훈련시킨다(훈련 단계).
선형 변환 매트릭스 훈련 단계(S5)는 음소 경계 결정 단계를 더욱 포함할 수 있다. 음소 경계 결정 단계는 음소 경계 결정부가 수행하며, 음소별 분류를 위한 기준이 되는 음소 경계를 결정하는 단계이다. 음소 경계 결정 단계는 특징 벡터 검출 단계와 특징 벡터 분류 단계 사이에 수행될 수 있으나, 반드시 이에 국한될 필요는 없다.
이상의 설명은 본 발명의 기술 사상을 예시적으로 설명한 것에 불과한 것으로서, 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자라면 본 발명의 본질적인 특성에서 벗어나지 않는 범위 내에서 다양한 수정, 변경 및 치환이 가능할 것이다. 따라서, 본 발명에 개시된 실시예 및 첨부된 도면들은 본 발명의 기술 사상을 한정하기 위한 것이 아니라 설명하기 위한 것이고, 이러한 실시예 및 첨부된 도면에 의하여 본 발명의 기술 사상의 범위가 한정되는 것은 아니다. 본 발명의 보호 범위는 아래의 청구 범위에 의하여 해석되어야 하며, 그와 동등한 범위 내에 있는 모든 기술 사상은 본 발명의 권리 범위에 포함되는 것으로 해석되어야 할 것이다.
100 : 채널 정규화 장치 110 : 특징 벡터 추출부
120 : 특징 벡터 변환부 130 : 채널 정규화부
160 : 선형 변환 매트릭스 훈련부 161 : 음성 데이터 분리부
162 : 특징 벡터 검출부 163 : 특징 벡터 분류부
164 : 훈련부 165 : 음소 경계 결정부

Claims (10)

  1. 입력 음성에 대하여 프레임마다 특징 벡터를 추출하는 특징 벡터 추출부;
    미리 훈련된 선형 변환 매트릭스를 이용하여 상기 특징 벡터가 추출된 프레임들의 상기 특징 벡터를 변환시키는 특징 벡터 변환부;
    변환된 상기 특징 벡터를 기초로 음성 인식을 위한 채널 정규화를 수행하는 채널 정규화부; 및
    상기 선형 변환 매트릭스를 훈련시키는 선형 변환 매트릭스 훈련부를 포함하고,
    상기 선형 변환 매트릭스 훈련부는, 훈련 음성 데이터를 프레임 단위로 분리하는 음성 데이터 분리부; 각 프레임마다 특징 벡터들을 검출하는 특징 벡터 검출부; 검출된 특징 벡터들을 음소별로 분류하는 특징 벡터 분류부; 및 서로 다른 음소로 분류된 특징 벡터들끼리 변별력을 가지도록 상기 선형 변환 매트릭스를 훈련시키는 훈련부를 포함하는 것을 특징으로 하는 채널 정규화 장치.
  2. 제 1 항에 있어서,
    상기 특징 벡터 추출부는 MFCC(Mel-Frequency Cepstral Coefficients)에 기초하여 상기 특징 벡터를 추출하는 것을 특징으로 하는 채널 정규화 장치.
  3. 제 1 항에 있어서,
    상기 특징 벡터 변환부는 상기 변환으로 LDA(Linear Discriminant Analysis) 변환을 이용하는 것을 특징으로 하는 채널 정규화 장치.
  4. 제 1 항에 있어서,
    상기 특징 벡터 변환부는 상기 프레임들에서 동일 성분의 특징 벡터들끼리 묶어 상기 변환을 수행하는 것을 특징으로 하는 채널 정규화 장치.
  5. 제 4 항에 있어서,
    상기 특징 벡터 변환부는 미리 정해진 길이를 가지는 상기 프레임들을 버퍼링시킨 뒤 버퍼링된 프레임들에 대하여 상기 변환을 수행하는 것을 특징으로 하는 채널 정규화 장치.
  6. 제 1 항에 있어서,
    상기 채널 정규화부는 실시간으로 음성을 인식할 때에 상기 채널 정규화를 수행하는 것을 특징으로 하는 채널 정규화 장치.
  7. 삭제
  8. 삭제
  9. 제 1 항에 있어서,
    상기 선형 변환 매트릭스 훈련부는,
    음소별 분류를 위한 기준이 되는 음소 경계를 결정하는 음소 경계 결정부
    를 더욱 포함하는 것을 특징으로 하는 채널 정규화 장치.
  10. 입력 음성에 대하여 프레임마다 특징 벡터를 추출하는 특징 벡터 추출 단계;
    미리 훈련된 선형 변환 매트릭스를 이용하여 상기 특징 벡터가 추출된 프레임들의 상기 특징 벡터를 변환시키는 특징 벡터 변환 단계;
    변환된 상기 특징 벡터를 기초로 음성 인식을 위한 채널 정규화를 수행하는 채널 정규화 단계; 및
    상기 선형 변환 매트릭스를 훈련시키는 단계를 포함하고,
    상기 선형 변환 매트릭스를 훈련시키는 단계에서, 훈련 음성 데이터를 프레임 단위로 분리하여 각 프레임마다 특징 벡터들을 검출하고, 검출된 특징 벡터들을 음소별로 분류하여 서로 다른 음소로 분류된 특징 벡터들끼리 변별력을 가지도록 상기 선형 변환 매트릭스를 훈련시키는 것을 특징으로 하는 채널 정규화 방법.
KR1020110107136A 2011-10-19 2011-10-19 채널 정규화 장치 및 방법 KR101430730B1 (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020110107136A KR101430730B1 (ko) 2011-10-19 2011-10-19 채널 정규화 장치 및 방법

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020110107136A KR101430730B1 (ko) 2011-10-19 2011-10-19 채널 정규화 장치 및 방법

Publications (2)

Publication Number Publication Date
KR20130042956A KR20130042956A (ko) 2013-04-29
KR101430730B1 true KR101430730B1 (ko) 2014-08-14

Family

ID=48441414

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020110107136A KR101430730B1 (ko) 2011-10-19 2011-10-19 채널 정규화 장치 및 방법

Country Status (1)

Country Link
KR (1) KR101430730B1 (ko)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2016137042A1 (ko) * 2015-02-27 2016-09-01 삼성전자 주식회사 사용자 인식을 위한 특징 벡터를 변환하는 방법 및 디바이스

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20030035286A (ko) * 2001-10-30 2003-05-09 손종목 소용량 음성인식 시스템 및 그 방법
KR20060067097A (ko) * 2004-12-14 2006-06-19 한국전자통신연구원 강인한 음성인식을 위한 채널 정규화 장치 및 그 방법

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20030035286A (ko) * 2001-10-30 2003-05-09 손종목 소용량 음성인식 시스템 및 그 방법
KR20060067097A (ko) * 2004-12-14 2006-06-19 한국전자통신연구원 강인한 음성인식을 위한 채널 정규화 장치 및 그 방법

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2016137042A1 (ko) * 2015-02-27 2016-09-01 삼성전자 주식회사 사용자 인식을 위한 특징 벡터를 변환하는 방법 및 디바이스
US10410638B2 (en) 2015-02-27 2019-09-10 Samsung Electronics Co., Ltd. Method and device for transforming feature vector for user recognition

Also Published As

Publication number Publication date
KR20130042956A (ko) 2013-04-29

Similar Documents

Publication Publication Date Title
CN105976809B (zh) 基于语音和面部表情的双模态情感融合的识别方法及系统
JP4795919B2 (ja) 音声区間検出方法
US9336780B2 (en) Identification of a local speaker
KR101610151B1 (ko) 개인음향모델을 이용한 음성 인식장치 및 방법
KR101247652B1 (ko) 잡음 제거 장치 및 방법
KR101616112B1 (ko) 음성 특징 벡터를 이용한 화자 분리 시스템 및 방법
KR20070061207A (ko) 음성 구간 검출 장치 및 방법 그리고 음성 인식 시스템
CN112397065A (zh) 语音交互方法、装置、计算机可读存储介质及电子设备
JP2011191423A (ja) 発話認識装置、発話認識方法
US20210312915A1 (en) System and method for audio-visual multi-speaker speech separation with location-based selection
KR101749254B1 (ko) 딥 러닝 기반의 통합 음향 정보 인지 시스템
CN103366758B (zh) 一种移动通信设备的语音降噪方法和装置
KR101430730B1 (ko) 채널 정규화 장치 및 방법
JP4201204B2 (ja) オーディオ情報分類装置
KR101122590B1 (ko) 음성 데이터 분할에 의한 음성 인식 장치 및 방법
Navarathna et al. Visual voice activity detection using frontal versus profile views
JP2019020678A (ja) ノイズ低減装置および音声認識装置
KR20120098211A (ko) 음성 인식 방법 및 그에 따른 음성 인식 장치
KR101430342B1 (ko) 발화자의 거리 추정을 이용한 음성인식방법 및 음성인식장치
CN114996489A (zh) 新闻数据的违规检测方法、装置、设备及存储介质
Xue et al. Computationally efficient audio segmentation through a multi-stage BIC approach
KR100574883B1 (ko) 비음성 제거에 의한 음성 추출 방법
KR20080049385A (ko) 마스킹 확률을 이용한 음성 인식 전처리 방법 및 전처리장치
Biswas et al. Audio visual isolated Oriya digit recognition using HMM and DWT
JP2002041083A (ja) 遠隔制御システムおよび遠隔制御方法、並びに記録媒体

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
FPAY Annual fee payment

Payment date: 20170727

Year of fee payment: 4

FPAY Annual fee payment

Payment date: 20190725

Year of fee payment: 6