KR20080039072A - 홈 네트워크 제어를 위한 음성인식시스템 - Google Patents

홈 네트워크 제어를 위한 음성인식시스템 Download PDF

Info

Publication number
KR20080039072A
KR20080039072A KR1020060106773A KR20060106773A KR20080039072A KR 20080039072 A KR20080039072 A KR 20080039072A KR 1020060106773 A KR1020060106773 A KR 1020060106773A KR 20060106773 A KR20060106773 A KR 20060106773A KR 20080039072 A KR20080039072 A KR 20080039072A
Authority
KR
South Korea
Prior art keywords
speech
sound
voice
energy
recognition
Prior art date
Application number
KR1020060106773A
Other languages
English (en)
Inventor
마수
정의붕
박인철
Original Assignee
(주) 한국정보시스템
호원대학교산학협력단
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by (주) 한국정보시스템, 호원대학교산학협력단 filed Critical (주) 한국정보시스템
Priority to KR1020060106773A priority Critical patent/KR20080039072A/ko
Publication of KR20080039072A publication Critical patent/KR20080039072A/ko

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/02Feature extraction for speech recognition; Selection of recognition unit
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/28Constructional details of speech recognition systems
    • G10L15/30Distributed recognition, e.g. in client-server systems, for mobile phones or network applications
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L12/00Data switching networks
    • H04L12/28Data switching networks characterised by path configuration, e.g. LAN [Local Area Networks] or WAN [Wide Area Networks]
    • H04L12/2803Home automation networks
    • H04L12/2816Controlling appliance services of a home automation network by calling their functionalities

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Artificial Intelligence (AREA)
  • Automation & Control Theory (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Telephonic Communication Services (AREA)

Abstract

본 발명은 홈 네트워크 제어를 위한 음성인식시스템에 있어서, 자유음장상에서 음성신호만을 취득하는 VAD(voice active detection) 블록과; 취득된 음성신호에서 언어정보로 활용할 수 있는 특징을 추출하는 특징추출(feature extraction) 블록과; 인식하고자하는 음성에서 추출된 특징을 다양한 학습알고리즘 을 통한 훈련 블록과; 훈련된 패턴에서 인식을 수행하는 패턴매칭(pattern matching) 블록을 구비한다.
음성, 인식, 홈, 네트워크

Description

홈 네트워크 제어를 위한 음성인식시스템{SPEECH RECOGNITION SYSTEM FOR HOME NETWORK}
도 1은 일반적인 홈 네트워크 시스템의 예시도
도 2는 본 발명이 적용되는 홈 네트워크 시스템의 예시도
도 3은 도 2 중 LCD 터치 스크린의 구성도
도 4는 본 발명에 따른 음성인식시스템의 블록 구성도
도 5는 음성신호의 단 구간 중의 에너지에 대한 그래프
도 6은 MFCC 추출시 사용되는 비선형 삼각필터 뱅크를 나타낸 도면
도 7은 음성특징추출 과정의 전체 흐름도
도 8은 하나의 입력패턴과 참조패턴이 지역경로 제한과 전역경로 제한을 통해 매칭되는 비선형 함수를 나타낸 도면
도 9는 음성 모델링을 위한 left-세-right 모델의 구조도
본 발명은 홈 네트워크 제어를 위한 음성인식시스템에 관한 것이다.
현재의 홈 네트워크 시스템은 도 1과 같이 리모컨이 아닌 네트워크에 연결되고 각종 자동화 기능 및 기기별 특정 기능을 수행하기 위해 임베디드 시스템이 탑재되어 가정(아파트) 내의 모든 시설을 자동화시키고 있고, 원터치는 물론 음성인식, DA(웹 패드), 휴대폰, 개인용 컴퓨터 등으로 인터넷에 연결하여 원격제어도 할 수 있는 방향으로 개발되고 있는 추세이다.
한편, 음성은 인간에 있어서 가장 기본적이며 또한 가장 친숙한 커뮤니케이션 수단이다. 이는 언제 어디서나 사용자의 음성을 통해 다양한 서비스를 제공할 수 있도록 하는 기술로서, 무선이동통신 시장과 더불어 시장의 잠재적 성장가능성 또한 무한히 클 것으로 보여지고 있으며,기존의 제한된 Man-Machine Interface를 사람의 음성과 같은 매우 편리한 방식으로 대체 시키므로써 기존의 정보시스템 을 더욱 지능화시키는 핵심기술이 될 것이다. 음성 인식 기술은 21세기 정보화 사회를 선도하는 10대 유망 기술의 하나인 전문고급 기술이다.
본 발명에서는 기존에 개발된 기술력을 바탕으로 비교적 저가의 가격으로 가정의 가전기기, 전등, 난방 등의 기본 시설을 통합적으로 편리하게 관리할 수 있는 첨단주택의 신개념인 가정통합 관리 솔루션을 개발하고 동시에 음성으로 모든 기능이 동작될 수 있도록 지능형 홈 네트워크 시스템을 개발하고자 한다.
이하 본 발명에 따른 바람직한 실시예를 첨부한 도면을 참조하여 상세히 설명한다. 하기 설명에서는 구체적인 구성 소자 등과 같은 특정 사항들이 나타나고 있는데 이는 본 발명의 보다 전반적인 이해를 돕기 위해서 제공된 것일 뿐 이러한 특정 사항들이 본 발명의 범위 내에서 소정의 변형이나 혹은 변경이 이루어질 수 있음은 이 기술분야에서 통상의 지식을 가진 자에게는 자명하다 할 것이다.
본 발명에 따른 음성인식 시스템을 탑재한 홈 네트워크 시스템의 관리를 통합적으로 관리하기 위한 전체적인 체계도와 LCD 터치스크린의 구성은 각각 도 2와 도 3에 도시된 바와 같다.
또한, LCD 터치스크린과 네트워크를 통해 제어할 수 있도록 개발하고자하는 음성인식 탑재기능 하이테크 디지털 멀티미디어 홈 오토메이션 시스템의 개략적인 개발구성 요소와 특징적인 핵심 기술은 도 4와 같다.
본 발명에 따른 지능형 홈 네트워크 제어를 위한 음성인식은 인간과 기계의 가장 간편한 인터페이스 수단으로써 차세대 디지털 및 네트워크 가전을 인간 친화적으로 이끌어내는 첨단 기술이라 할 수 있다. 이는 첨단화되고 고도화되는 현대사회의 디지털 홈 네트워크(digital home networks)상의 사용자 needs를 충족할 수 있는 기술로 절실히 요구되어지는 기술이다.
도 4를 참조하면, 음성인식을 수행하기위한 구성요소로는 자유음장상에서 음성신호만을 취득하는 VAD(voice active detection) 블록과 취득된 음성신호에서 언어정보로 활용할 수 있는 특징을 추출하는 특징추출(feature extraction) 블록, 인식하고자하는 음성에서 추출된 특징을 다양한 학습알고리즘 을 통한 훈련 블록, 훈련된 패턴에서 인식을 수행하는 패턴매칭(pattern matching) 블록으로 이루어져있다.
<음성구간검출 (Voice Active Detection)>
인간이 발성하는 음성은 사람마다 발성속도가고, 같은 단어를 반복하여도 발성지속 시간의 차이가 생기게 되고 이로 인한 발성률의 변화는 음성 패턴에서 시간축의 비선형적 변동을 일으킨다. 그래서 이러한 변동의 요인을 제거하는 시간축의 정규화 기법은 음성의 인식수행에 있어서 매우 중요한 역할을 한다. 음성인식에 있어서 음성구간검출의 중요성은 두 가지로 요약할 수 있다. 첫째로 음성구간검출의 정확성 여부는 단어 인식의 정확도와 밀접한 관계가 있다. 즉, 음성 구간검출이 제대로 되지 않으면 단어 인식률이 떨어지게 된다. 둘째로 음성구간검출을 적절하게 할 경우 음성에 대응하는 부분만을 처리하므로 계산량을 대폭으로 감축시킬 수 있다. 즉, 음성인식을 위해서는 음성특징을 추출해야 하며, 여기에 많은 계산량이 필요하게 되는데 음성구간검출이 되면 음성부분만 골라내어 특징추출을 할 수 있으므로 묵음 부분에서 음성 특징 추출을 하는 낭비를 막게되어 총 처리 시간이 줄어들게 된다. 음성신호의 시작점 및 끝점을 주변잡음(ambient noise)과 분리하여 정확하게 찾아내는 일은 매우 중요하다. 특히 음성신호의 경계점, 즉 끝점(endpoint)의 검출은 음성인식시스템의 개발에는 반드시 선결되어야만 하는 과제이며 음성부 검출기의 성능은 인식 시스템의 최종 인식률에 직접적인 영향을 주게 된다. 또한 믿을 수 있는 음성부 검출 알고리즘이 존재한다면 불필요한 묵음을 사전에 제거함으로서 인식에 소요되는 시간을 줄일 수도 있는 것이다. 단어의 시작점과 끝점은 화 자가 발성시에 만드는 인위적인 결과에 의해 구분이 어려워지며 또한 비 정체적인 주변잡음에 의해 더욱 어렵게 된다. 그리고 대부분의 응용이 실시간 구현을 목적으로 하기 때문에 이에 적합하여야 한다. 신호 대 잡음비가 충분히 큰 경우는 가장 작은 에너지 레벨을 갖는 음성신호라 할지라도 주변잡음보다는 큰 에너지 값을 가지므로 에너지 함수만 이용하여도 성능이 좋은 음성검출기를 쉽게 구현할 수 있다. 일반적으로 신호 대 잡음비가 30dB를 넘는 경우에는 영교차율(zero crossing rate)을 이용하여 간단하게 음성부 검출 알고리즘을 실현할 수 있다고 알려져 있다. 그러나 이렇게 이상적인 조건이 현실적으로 실현되기 어렵기 때문에 잡음에 대한 대책이 필요한 것이다. 대부분의 음성 검출 알고리즘은 음성신호의 영교차율과 에너지의 조합을 바탕으로 하고 있다.
본 발명에서는 계산량 및 정확도를 종합적으로 고려하여 주위환경으로부터 음성신호만을 추출해 내기 위하여 음성신호의 데이터 처리량을 줄이는데 매우 큰 목적을 두고 있다. 음성구간 검출은 음성신호의 단 구간 에너지에 대한 기본개념을 바탕으로 하여 전 구간 중의 각 프레임의 대수 에너지를 측정하고 다음 식들로부터 결정하였다. 따라서,음성 구간의 검출, 분석 및 인식에 매우 유용하게 사용되는 파라메타들로서 영 교차율(Zero Crossing Rate)과 대수 에너지(Log-Energy)가
Figure 112006079851550-PAT00001
이며,
Figure 112006079851550-PAT00002
은 단구간 내에서의 샘플의 크기이다.
또한 에너지 E는 이산계에서 다음의 식으로 주어진다.
Figure 112006079851550-PAT00003
윗 식에서 대수를 취해준 것이 대수 에너지이며 다음 식으로 주어진다.
Figure 112006079851550-PAT00004
여기서 음성 신호의 제곱을 취한 이유는 신호가 자승 되어 들어오므로 큰 신호에서는 매우 민감하다. 따라서 log-Energy는 무성음 과 유성음 부분을 구분하는데 사용되며 특히 매우 좋은 음질의 신호에 대한 에너지는 무음(silence)과 무성음(unvoice)을 구분하는데 매우 유용하다. 그러므로 대수를 취해준 것이 대수 에너지이다. 인간이 발성하는 음성은 사람마다 발성속도가 다르며 같은 단어를 반복하여도 발성지속 시간의 차이가 생기게 되고 이로 인한 발성률의 변화는 음성 패턴에서 시간축의 비선형적 변동을 일으킨다. 그래서 이러한 변동의 요인을 제거하는 시간축의 정규화 기법은 단독음의 인식수행에 있어서 매우 중요한 역할을 한다. 이러한 시간 정규화시 정확한 음의 끝점이 필요하다.
기존의 끝점 검출에서는 주위 환경으로부터 음성 신호만을 추출해내기 위하여 본 알고리즘을 도입하여 좀더 정확한 끝점 검출에 있어서 음성 신호의 데이터 처리량을 줄이는데 매우 큰 목적을 두고 있다. 끝점검출은 음성신호의 단 구간 에 너지에 대한 기본 개념을 바탕으로 하여 전 구간 중의 각 프레임의 대수 에너지를 측정하고 다음 식들로부터 결정하였다.
Figure 112006079851550-PAT00005
여기서,
Figure 112006079851550-PAT00006
,
Figure 112006079851550-PAT00007
,
Figure 112006079851550-PAT00008
는 실험에 의하여 결정한다.
그리고
Figure 112006079851550-PAT00009
는 한 음의 최대 에너지(maximum energy)이고
Figure 112006079851550-PAT00010
는 기준값의 변화에 따를 프레임 수 이다.
Figure 112006079851550-PAT00011
은 전 구간 중 최대 에너지의
Figure 112006079851550-PAT00012
값이고,
Figure 112006079851550-PAT00013
은 전 구간 중 최대 에너지의
Figure 112006079851550-PAT00014
값이며,
Figure 112006079851550-PAT00015
은 최적 프레임 길이이다. 사용된 대수 에너지의 기준 파형 예는 도 5와 같다.
음성신호 파형은 대수 에너지의 파라미터를 계산하여 시간영역에서 식별하여 끝점을 추정한다. 그리고 대수 에너지의 최대치인
Figure 112006079851550-PAT00017
의 프레임을 찾아내어 최대치인 대수 에너지에서 끝 프레임인 24프레임을
Figure 112006079851550-PAT00018
로 설정하여 끝점을 검출하게 된다.
<음성특징추출 (Feature Extraction)>
음성의 특징을 표현하는 파라미터로는 에너지, 영교차율(ZCR), 피치(pitch), 포만트(formant)등 여러 가지가 있지만, 음성인식을 위한 음성특징 추출방법으로는 사람의 성도를 모델링한 선형예측(Linear Predictive Coefficient(LPC))방법과 사람의 청각 기관을 모델링한 필터뱅크(filter bank)방법이 널리 사용되고 있다.
LPC 방법은 시간영역에서의 분석방법을 사용하므로 계산량이 적고, 조용한 환경에서는 매우 우수한 인식성능을 나타내지만 잡음환경에서의 인식 성능이 현저히 저하되는 문제점이 있다. 따라서 잡음환경에서의 음성인식을 위한 분석방법으로 주로 사람의 청각기관을 필터뱅크(filter bank)로 모델화하는 방법이 이용되며, 멜(Mel)스케일 필터뱅크에 근거한 Mel-Frequency Cepstral Coefficient(MFCC)가 음성특징 추출방법으로 많이 사용되고 있다.
- 멜 켑스트럼 계수(Mel-Frequency Cepstral Coefficient(MFCC))
음성인식의 특징벡터 추출 방식에서는 사람이 주관적으로 인지하는 주파수 특성을 반영하여 주파수를 mel-scale로 warping해서 필터뱅크를 비선형적으로 분포시키는 방식을 사용하는데, 이러한 필터뱅크를 사용해서 구한 음성 벡터를 Mel- Frequence Cepstral Coefficient(MFCC)라 한다. MFCC 의 특징을 추출하는 과정을보면 먼저 pre-emphasis 의 과정을 거치는데, 이는 음성신호가 옥타브당 6dB정도로 감소하기 때문에, 고주파 성분의 에너지 감소를 보상해 주기 위해서 쓰인다. 보통 1차 FIR 필터를 이용하여 구성된다.
Figure 112006079851550-PAT00019
n은 time index 이고, α는 preemphasis 계수로써 보통 0.95 와 1사이의 값을 주로 사용한다. preemphasis를 거친 음성신호에 대해 Hamming window를 씌운후, FFT분석을 통하여 power spectrum을 구한다. 이 결과를 mel-scale 필터뱅크에 통과시킨 후 log를 취하고 Discrete Cosine Transform(DCT)를 취하여 MFCC를 얻게 된다.
Figure 112006079851550-PAT00020
Figure 112006079851550-PAT00021
는 mel scale 필터뱅크의 출력이고, N은 필터뱅크의 대역통과 필터 개수이며, m은 cepstrum의 차수이다. 도 6은 MFCC 추출과정에서 사용되는 비선형(Non-linear) 삼각필터뱅크(triangular filter bank)이다.
cepstrum은 전송채널의 변화, 화자의 특성 등으로 인한 영향에 민감하고, 고차의 cepstrum은 잡음에 민감한 특성을 가지기 때문에 이러한 음성학적 내용과 관계없는 요소에 의한 cepstrum의 변화를 줄이기 위해서 cepstrum에 weighting을 가한다. 이를 liftering이라고 한다.
Figure 112006079851550-PAT00022
Figure 112006079851550-PAT00023
는 lifter weight를 나타내고,
Figure 112006079851550-PAT00024
은 cepstrum의 차수이다. 전체적인 음성특징추출 과정은 도 7과 같다.
<음성인식 알고리즘(Speech recognition Algorithms)>
음성인식을 수행하기 위하여 여러 가지의 접근방법이 존재한다. 그 중 패턴매칭 접근방법은 소규모의 고립단어로부터 대규모의 연속음성에서까지 우수한 인식성능을 보이는 접근방법으로서 크게 Template-Based 방법인 Dynamic Time Warping방법과 Model-Based 방법인 Hidden Markov Model 로 분류할 수 있다.
- Template-Base 의 DTW(Dynamic Time Warping) 알고리즘
DTW 는 음성 파형을 시간 영역에서 해석하는 것으로 주어지 패턴과 기준패턴을 비교할때 음성 사이에 존재하는 시간적인 차이를 신축율을 통하여 일치시켜 두 패턴 사이의 거리를 구하여 인식을 수행하는 방법으로 동일인이 같은 발성을 할지라도 발성할 때마다 시간적 길이가 변화하게 된다. 이를 기준패턴과 단순비교하면 시간축이 고르지 않기 때문에 오류나 인식이 불가능한 경우가 발생할 수 있다. 이의 해결 방안은 시간축의 정규화 방법인데, 이는 종래에 사용하던 선형신축(linear scaling)에 의한 두 패턴 길이의 비선형 신축에 의한 정규화 방법이다.
도 8은 하나의 입력패턴과 참조패턴이 지역경로 제한과 전역경로 제한을 통하여 매칭 되는 비선형함수를 나타내고 있다. 음성은 특징벡터 열(Sequence)로 특징을 추출하여 표현할 수 있는데 길이가
Figure 112006079851550-PAT00025
인 음성신호
Figure 112006079851550-PAT00026
의 특징벡터는 다음과 같은 벡터 열로써 나타낼 수 있다.
Figure 112006079851550-PAT00027
패턴
Figure 112006079851550-PAT00028
의 시간 축으로부터 패턴
Figure 112006079851550-PAT00029
로 정합을 하기 위한 하나의 함수로써 표현할 수 있다. 두 음성패턴간의 시간차의 문제를 보면
Figure 112006079851550-PAT00030
Figure 112006079851550-PAT00031
축에 놓을 때 서로정합(matching)시켜 주는 점을
Figure 112006079851550-PAT00032
라 하면, 워핑 함수
Figure 112006079851550-PAT00033
는 다음식과 같다.
Figure 112006079851550-PAT00034
여기서
Figure 112006079851550-PAT00035
Figure 112006079851550-PAT00036
에서 두 패턴간의 차이로서,
Figure 112006079851550-PAT00037
와 같이 표시된다. 이 패턴간의 시간차가 없을 때, 워핑함수는 대각선
Figure 112006079851550-PAT00038
에 일치하고, 시간차는 이 대각선으로부터 유도된다. 두 특징벡터
Figure 112006079851550-PAT00039
Figure 112006079851550-PAT00040
사이의 거리는 다음과 같이 구할 수 있다.
Figure 112006079851550-PAT00041
그 다음 워핑함수
Figure 112006079851550-PAT00042
상에서의 가중치 합의 거리는
Figure 112006079851550-PAT00043
여기서,
Figure 112006079851550-PAT00044
는 워핑함수
Figure 112006079851550-PAT00045
상에서의 점들의 수를 나타낸다. 벡터열
Figure 112006079851550-PAT00046
를 정합시키는 것은 두 패턴의 차이 값이 최소가 되도록 워핑함수
Figure 112006079851550-PAT00047
를 찾는 것이다.
- Model-Base 의 HMM (Hidden Makov Model) 알고리즘
HMM은 음성신호의 스펙트럼 변화 및 시간 변화를 동시에 모델링할 수 있으며, 이를 위하여 유한개의 상태와 상태전이들을 사용한다. HMM의 유용성은 음성 생성 과정을 정확히 모델링 할 수 있는 것이 아니라, 오히려 주어진 데이터를 사용하여 파라미터를 추정하고 새로이 입력된 음성에 대하여 가장 적합한 모델을 찾는데에 있다. 즉, 훈련과 인식을 위한 효율적인 알고리듬이 존재한다는 것이다.
모델의 파라미터를 추정하기 위하여 카테고리 정보가 있는 음성 데이터베이스를 사용하며, 각 모델을 위한 충분한 데이터가 있을 경우 실제 음성에 존재하는 다양성을 잘 표현할 수 있는 강인한 모델링이 가능하다. 중규모 혹은 대어휘 시스템을 위하여 각 모델을 정확하게 추정할 수 있을 만큼의 충분한 데이터를 확보하기 위해서는 단어 단위 대신 음소와 같은 sub-word 단위의 모델이 주로 사용된다. 훈련용 음성데이터는 일반적으로 완전한 문장 형태로 주어지기 때문에 음소 단위 모델을 문장 단위의 데이터에 매칭시키기 위해서는 문장을 음소 단위로 정확하게 분할하든지 반대로 전체 문장을 위하여 음소모델을 연결한 복합 모델(compossite model)을 생성하여야한다. 발성된 음성 데이터를 음소 단위로 정확하게 분할하는 것은 어렵기 때문에 전자보다는 후자가 주로 사용되고 있다. 복합 모델을 구성하기 위해서는 각 발성에 대한 음소 수준의 트랜스크립션이 필요하며, 일반적으로 사전을 사용하여 단어를 음소 수준으로 변환한다.
HMM은 일련의 연속된 상태(state)들로부터 이산신호를 생성하는 확률 과정모델이다. 모델은 전이확률(transition probability)에 따라 상태를 바꾸면 특정 상태는 그 상태의 출력확률(output probability distribution)에 따라 하나의 관측 (observation)을 발생시킨다. HMM은 이용하여 어떠한 과정을 모델링할 경우 다음과 같은 3가지 가정이 묵시적으로 전제된다.
첫째, 관찰들은 신호를 정확하게 표현한다. 일반적으로 관측들은 단구간(10-30ms) 음성 스펙트럼으로부터 생성되기 때문에 전체 음성을 정확하게 나타낼 수는 없다. 그러나 단구간에서의 음성은 거의 정적이기 때문에 관찰들은 그 음성을 상당히 정확하게 표현할 수 있다.
둘째, 관측들은 서로 독립이다. 음성 스펙트럼은 천천히 변하기 때문에 이러한 가정은 맞지 않지만 미분 파라미터를 추가함으로써 연속적인 관찰들 사이의 놓은 상관 관계가 미치는 영향을 줄일 수 있다.
셋째, 상태 전이확률은 일정한 값을 가진다. 이 가정은 음성에는 정확하게 맞지는 않지만 상태 전이확률이 한 음성의 발생확률에 미치는 영향은 출력확률이 미치는 영향에 비하여 매우 작기 때문에 사용 가능하다.
음성을 모델링하기 위하여 여러 가지 형태의 HMM이 사용되고 있지만 도 9와 같은 간단한 구조의 left-to-right 모델이 많이 사용되고 있다. 상태 2, 3, 4번은 출력이 있는 상태들이며 1번과 5번 상태는 출력은 없고 단지 모델의 연결을 도와주는 기능을 수행한다.
Figure 112006079851550-PAT00048
는 음성 벡터 혹은 관찰을 나타내고
Figure 112006079851550-PAT00049
Figure 112006079851550-PAT00050
는 각각 전이확률과 출력확률 분포함수를 의미한다. 전이확률
Figure 112006079851550-PAT00051
는 상태 i 에 있던 모델이 상태 j 로 상태를 변화시킬 조건부 확률로서 다음식과 같다.
Figure 112006079851550-PAT00052
전이확률은 상수로 가정하여 시간에 따라 변하지 않는다. 전체 상태의 갯수를 N이라 했을 때, 모든 초기 상태들 i = 1,2,3...,N-1은 다음 조건을 만족해야한다.
Figure 112006079851550-PAT00053
출력확률 분포함수
Figure 112006079851550-PAT00054
는 상태 j에 의하여 발생될 관측들의 분포를 나타낸다. 이것은 상태 j가 관측
Figure 112006079851550-PAT00055
를 생성할 확률 (likelihood: 연속 출력 분포인 경우)을 의미한다. 각각의 상태에서 나올 수 있는 확률분포의 형태에 따라 이산분포와 연속분포의 형태로 존재하게 된다. 이러한 출력확률분포의 형태에 따라 DHMM과 CHMM으로 분류할 수 있다.
이산분포인 경우 다음식을 만족해야 하며,
Figure 112006079851550-PAT00056
연속분포일 경우 다음식을 반드시 만족하여야 한다.
Figure 112006079851550-PAT00057
HMM이 출력을 생성하는 구조로 사용될 뿐만 아니라
Figure 112006079851550-PAT00058
의 프레임으로 구성되는 신호
Figure 112006079851550-PAT00059
가 특정한 상태열
Figure 112006079851550-PAT00060
에 의하여 생성될 우도(likelihood)를 계산하기 위해서도 사용된다. 이것은 각 상태에서 특정 관측이 발생될 우도와 전이확률로부터 계산되는 상태열에 대한 확률을 곱함으로써 구해진다. 우도는 다음식으로 구해질 수 있다.
Figure 112006079851550-PAT00061
단지 신호와 모델파라미터들만 볼 수 있으며 상태열에 대해서는 알 수 없기 때문에 HMM이라는 이름이 사용되고 있다. HMM에서 출력이 있는 모든 상태들은 그 상태에서 발생되는 관측(observation) 들의 확률을 결정하기 위하여 출력확률 밀도함수를 가진다. 밀도함수로는 이산(discrete),연속(continuous),반연속(semi-continuous),혼합공유 (tied-mixture)분포가 사용되고 있으며, 비교연구에 의하면 충분한 훈련 데이터만 주어지면 연속 분포모델을 사용한 시스템이 계산량은 많지만 인식 성능은 가장 우수한 것으로 알려져 있다.
출력확률분포는 서로 다른 소리들을 충분히 구분할 수 있으면서 동시에 음성속에 내재된 여러 가지 다양성들을 소화할 수 있을 만큼 강인해야 한다. 이산분포를 사용하는 경우 관측들은 코드북을 사용하여 하나의 심볼로 양자화 되고, 각 상태는 그 상태에 의하여 각각의 심볼이 생성될 확률을 나타내는 하나의 이산분포를 가지게 된다. 관측들 내에서의 변화를 더 잘 표현하기 위하여 복수 코드북들이 사용되는 경우가 많다. 반연속분포는 이산분포의 속도와 연속분포의 정확성을 함께 살리려는 시도이다. 이 분포는 하나의 가우시안 집합을 공유하면서 각 상태별로 다 른 가중치 집합을 가지며 다음식과 같다.
Figure 112006079851550-PAT00062
여기서
Figure 112006079851550-PAT00063
은 평균
Figure 112006079851550-PAT00064
과 공분산
Figure 112006079851550-PAT00065
을 가지는 m번째 공유 가우시안에 대한 이 상태의 가중치를 의미한다. 연속 출력 확률 분포인 경우에 단일 혹은 혼합가우시안 확률 밀도함수는 다음과 같다.
Figure 112006079851550-PAT00066
여기서 n은 음성벡터의 차수이며
Figure 112006079851550-PAT00067
,,
Figure 112006079851550-PAT00068
,
Figure 112006079851550-PAT00069
은 상태 j에 대한 혼합 가우시안 분포의 m 번째 구성 요소의 가중치, 평균 및 공분산을 의미한다. 훈련과 인식 중에 혼합가우시안 확률을 계산하는데 많은 시간이 소요되며 특히 전체 공분산 행렬이 사용될 경우에는 더욱 심각해진다. 계산시간과 메모리량을 줄이기 위하여 공분산의 대각 행렬 원소들만이 주로 사용되고 있다. 적은 숫자의 혼합과 전체 공분산을 사용하는 것보다 더 많은 혼합과 대각행렬 공분산을 사용하는 것이 더 나은 접근 방법이라는 사실[5]도 알려져 있다. 대각행렬 공분산을 사용하기 위해서는 특징 벡터의 각 원소가 통계적으로 서로 독립이 되어야 한다. 특징 벡터에 대한 켑스트럴 계수(Cepstral coefficient)를 구함으로써 벡터 내의 원소들 간에 독립을 거 의 보장할 수 있다.
음성인식을 HMM의 접근방법으로 수행함에 있어 해결지어야 할 세가지의 문제가 제시된다. 첫 번째 계산수행을 위한 문제(Evaluation problem)는 관측열 특징벡터 x가 들어왔을 때의 확률이 어떻게 계산되느냐의 문제로써 전향알고리듬(forward algorithm)과 후향알고리듬(backward)을 이용하여 해결될 수 있다.
두 번째는 은닉 상태열을 찾는 문제로 관측열
Figure 112006079851550-PAT00070
과 모델
Figure 112006079851550-PAT00071
Figure 112006079851550-PAT00072
가 주어졌을 때, 가장 최적의 상태열
Figure 112006079851550-PAT00073
를 어떻게 찾느냐 인 데 Viterbi알고리듬으로 해결한다.
HMM에 기반한 시스템에서 인식이란 다음식에서와 같이 알려지지 않은 데이터 열
Figure 112006079851550-PAT00074
에 가장 적합한 모델 혹은 복합 모델
Figure 112006079851550-PAT00075
를 선택하는 것이다.
Figure 112006079851550-PAT00076
Bayes-Rule을 사용하면 다음 식이 성립된다.
Figure 112006079851550-PAT00077
Figure 112006079851550-PAT00078
음성인식을 위하여 HMM이 성공적으로 사용되고 있는 중요한 이유중의 하나가
Figure 112006079851550-PAT00079
를 계산할 수 있는 효율적인 알고리듬이 존재한다는 것이다.
Figure 112006079851550-PAT00080
를 계산하기 위하여 전향 확률(forward probability)을 구하는 방법을 사용할 수도 있지만 연속 음성인식을 위해 효과적으로 사용될 수 있는 최대 우도 상태열에 기반 한 방법이 주로 사용되고 있다. 음성벡터
Figure 112006079851550-PAT00081
를 생성하면서 시간 t에서 상태 j에 있을 최대확률
Figure 112006079851550-PAT00082
는 다음과 같은 순환식에 의하여 계산될 수 있다.
Figure 112006079851550-PAT00083
수치문제 발생을 피하기 위하여 로그확률을 사용하면 위의 식은 2-13과 같이 되며 이것이 Viterbi 알고리듬의 근간이 되는 식이다.
Figure 112006079851550-PAT00084
Viterbi 알고리즘은 단어 인식 시스템에서는 그대로 사용되지만 연속음성인식을 위해서는 토큰 전달알고리듬으로 확장 구현되어 많이 사용된다. 현재까지의 로그 확률값
Figure 112006079851550-PAT00085
를 가지고 있는 토큰을 다음상태로 전달하며 모든 상태에서 토큰들을 검사하여 가장 높은 확률값을 가지고 있는 토큰 외에는 기각시키는 방법으로 현재 선택된 상태의 토큰은 새로운 확률값으로 갱신시키고 추후 상태열의 복원을 위하여 현재 선택된 상태는 기록된다. 이 방법은 모델 혹은 단어 수준으로 그대로 확장 시킬 수 있다.
상기와 같이 본 발명의 일 실시예에 따른 구성 및 동작이 이루어질 수 있으며, 한편 상기한 본 발명의 설명에서는 구체적인 실시예에 관해 설명하였으나 여러 가지 변형이 본 발명의 범위를 벗어나지 않고 실시될 수 있다. 따라서 본 발명의 범위는 설명된 실시예에 의하여 정할 것이 아니고 청구범위와 청구범위의 균등한 것에 의하여 정하여져야 할 것이다.
상기한 바와 같이, 감성 교류를 위한 여러 방법 중 음성은 그 특성상 인간의 가장 기본적인 정보교류 형태 중의 하나이다. 그러므로, 음성을 이용한 감성시스템 개발은 인간과 기계와의 친화력 향상에 가장 중요한 요인이다. 특히 지능형 홈 네트워크 시스템에서의 인간과 기계의 교류는 더욱 그 필요성이 요구되어 지고 있다. 본 발명에서는 음성을 통하여 가전기기 및 다양한 장치의 제어를 통하여 보다 편리하고 인간중심의 홈 네트워크가 이루어질 것으로 기대된다. 본 발명에서는 이를 실현하기위한 요소기술인 음성검출, 음성특징추출, 인식 알고리즘에 대해 제공하고, 이를 DSP 임베디드 모듈에 탑재하여 구현함으로써 감성교류 지능형 홈 네트워크의 인터페이스로 활용될 수 있을 것으로 기대된다.

Claims (1)

  1. 홈 네트워크 제어를 위한 음성인식시스템에 있어서,
    자유음장상에서 음성신호만을 취득하는 VAD(voice active detection) 블록과,
    취득된 음성신호에서 언어정보로 활용할 수 있는 특징을 추출하는 특징추출(feature extraction) 블록과,
    인식하고자하는 음성에서 추출된 특징을 다양한 학습알고리즘 을 통한 훈련 블록과,
    훈련된 패턴에서 인식을 수행하는 패턴매칭(pattern matching) 블록을 포함함을 특징으로 하는 음성인식시스템.
KR1020060106773A 2006-10-31 2006-10-31 홈 네트워크 제어를 위한 음성인식시스템 KR20080039072A (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020060106773A KR20080039072A (ko) 2006-10-31 2006-10-31 홈 네트워크 제어를 위한 음성인식시스템

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020060106773A KR20080039072A (ko) 2006-10-31 2006-10-31 홈 네트워크 제어를 위한 음성인식시스템

Publications (1)

Publication Number Publication Date
KR20080039072A true KR20080039072A (ko) 2008-05-07

Family

ID=39647417

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020060106773A KR20080039072A (ko) 2006-10-31 2006-10-31 홈 네트워크 제어를 위한 음성인식시스템

Country Status (1)

Country Link
KR (1) KR20080039072A (ko)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108766424A (zh) * 2018-05-28 2018-11-06 深圳市天乔科技有限公司 智能家居智能语音学习控制方法
TWI713016B (zh) * 2019-01-03 2020-12-11 瑞昱半導體股份有限公司 語音偵測處理系統與語音偵測方法

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108766424A (zh) * 2018-05-28 2018-11-06 深圳市天乔科技有限公司 智能家居智能语音学习控制方法
TWI713016B (zh) * 2019-01-03 2020-12-11 瑞昱半導體股份有限公司 語音偵測處理系統與語音偵測方法

Similar Documents

Publication Publication Date Title
Bhangale et al. A review on speech processing using machine learning paradigm
O’Shaughnessy Automatic speech recognition: History, methods and challenges
Arora et al. Automatic speech recognition: a review
Deshwal et al. Feature extraction methods in language identification: a survey
CN101944359B (zh) 一种面向特定人群的语音识别方法
Kumar et al. Design of an automatic speaker recognition system using MFCC, vector quantization and LBG algorithm
Hu et al. Pitch‐based gender identification with two‐stage classification
Shanthi et al. Review of feature extraction techniques in automatic speech recognition
Mishra et al. Robust features for connected Hindi digits recognition
Ryant et al. Highly accurate mandarin tone classification in the absence of pitch information
Almaadeed et al. Text-independent speaker identification using vowel formants
Pawar et al. Review of various stages in speaker recognition system, performance measures and recognition toolkits
Yusnita et al. Malaysian English accents identification using LPC and formant analysis
Mistry et al. Overview: Speech recognition technology, mel-frequency cepstral coefficients (mfcc), artificial neural network (ann)
Bartelds et al. A new acoustic-based pronunciation distance measure
Chakraborty et al. Issues and limitations of HMM in speech processing: a survey
Karpov Real-time speaker identification
Chelali et al. Text dependant speaker recognition using MFCC, LPC and DWT
Sarma et al. Acoustic–phonetic analysis for speech recognition: A review
Sharma et al. Milestones in speaker recognition
Zolnay et al. Using multiple acoustic feature sets for speech recognition
Gaudani et al. Comparative study of robust feature extraction techniques for ASR for limited resource Hindi language
Tawaqal et al. Recognizing five major dialects in Indonesia based on MFCC and DRNN
Dalva Automatic speech recognition system for Turkish spoken language
KR20080039072A (ko) 홈 네트워크 제어를 위한 음성인식시스템

Legal Events

Date Code Title Description
WITN Withdrawal due to no request for examination