KR20070049831A - 음절 및 음소 분리를 통한 초기상태 분할 방법, 및 이를구현하기 위한 단말기 - Google Patents

음절 및 음소 분리를 통한 초기상태 분할 방법, 및 이를구현하기 위한 단말기 Download PDF

Info

Publication number
KR20070049831A
KR20070049831A KR1020050107034A KR20050107034A KR20070049831A KR 20070049831 A KR20070049831 A KR 20070049831A KR 1020050107034 A KR1020050107034 A KR 1020050107034A KR 20050107034 A KR20050107034 A KR 20050107034A KR 20070049831 A KR20070049831 A KR 20070049831A
Authority
KR
South Korea
Prior art keywords
syllable
neutral
initial state
syllables
frame
Prior art date
Application number
KR1020050107034A
Other languages
English (en)
Inventor
권오경
Original Assignee
엘지전자 주식회사
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 엘지전자 주식회사 filed Critical 엘지전자 주식회사
Priority to KR1020050107034A priority Critical patent/KR20070049831A/ko
Publication of KR20070049831A publication Critical patent/KR20070049831A/ko

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/04Segmentation; Word boundary detection
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/14Speech classification or search using statistical models, e.g. Hidden Markov Models [HMMs]
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/02Feature extraction for speech recognition; Selection of recognition unit
    • G10L2015/025Phonemes, fenemes or fenones being the recognition units

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Probability & Statistics with Applications (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)

Abstract

본 발명은 음성인식 방법에서의 음절 및 음소 분리를 통한 초기상태 분할방법으로서, (a) 음성신호를 고역 통과 필터에 통과시킨 후, 그 음성신호에 적절한 윈도우를 승산하여 소정의 쇼트타임 신호를 추출함으로써 사전처리 과정을 수행하는 단계; (b) 상기 쇼트타임 신호로부터 음성신호의 각 프레임의 에너지, 영교차율, 1차 자기 상관계수, 스펙트럴 에너지비를 포함하는 특징변수 중 하나 이상을 계산하는 단계; (c) 상기 특징변수를 이용하여 음절을 분리하는 단계; (d) 상기 (c) 단계에서 분리된 음절을 상기 특징변수를 이용하여 음소로 분리하는 단계; 및, (e) 상기 (d) 단계에서 분리된 음소를 초기 상태로 할당하는 단계;를 포함한다.
본 발명에 의하면, 음성인식 방법에 있어서, 특징 변수를 이용하여 음절 및 음소를 분리함으로써, 초기상태 분할에 있어서의 속도 및 정확성이 높아지며, 나아가 음성인식률이 현저하게 향상되는 효과가 있다.
HMM, 음성인식, 은닉 마르코브 모델

Description

음절 및 음소 분리를 통한 초기상태 분할 방법, 및 이를 구현하기 위한 단말기{METHOD FOR DIVIDING INITIAL STATE BY DIVIDING INTO A SYLLABLES AND A PHONEME, SYSTEM FOR IMPLEMENTING THE SAME}
도 1은 종래 은닉 마르코브 모델에서의 초기상태 분할 방법을 나타낸 순서도.
도 2는 본 발명에 따른 초기상태 분할 방법을 나타낸 순서도.
도 3은 도 2 중 음절 분리단계를 세부적으로 나타낸 순서도.
도 4는 도 2 중 음소 분리단계를 세부적으로 나타낸 순서도.
도 5는 도 2 중 초기상태 분할단계를 세부적으로 나타낸 순서도.
도 6은 본 발명에 따른 음절 및 음소 분리를 통한 초기상태 분할방법을 구현하기 위한 단말기의 구성도.
본 발명은 음성인식 방법에서의 초기상태 분할 방법에 관한 것으로서, 더욱 상세하게는 음절 및 음소 분리를 통해 초기상태 설정의 오류를 최소화할 수 있는 음성인식 방법에서의 음절 및 음소 분리를 통한 초기상태 분할 방법에 관한 것이 다.
일반적으로, 은닉 마르코브 모델(HMM: Hidden Markov Model)은 음성 인식을 위한 기본단위를 모델링하는 방법이다. 즉, 음성인식 엔진으로 들어오는 음소와 음성인식 엔진내의 DB로 가지고 있는 음소를 결합하여 단어와 문장을 만드는 방법으로, 현재 음성인식 엔진으로서 많이 사용되고 있다.
도 1은 종래 은닉 마르코브 모델에서의 초기상태 분할 방법을 나타낸 순서도이다. 도 1을 참조하면, 음성 입력이 되면, 사전 처리 과정을 거쳐서 특징변수를 추출한 후 초기상태를 분할한다.
종래 은닉 마르코브 모델에 있어서의 상태 분할 방법은 두 가지가 있는데, 첫째 아래 수학식 1과 같이 인접 프레임간의 유클리드 거리(Euclidean Distance)(I)를 모두 구한 후 이 인접 프레임간의 거리가 상대적으로 큰 프레임 사이를 경계로 상태를 분할하는 방법이다.
Figure 112005064478086-PAT00001
i는 프레임 인덱스, d는 인접 프레임간의 거리, T는 총 프레임의 수, I는 상태가 분할되는 프레임 인덱스
두 번째, 하기 수학식 2와 같이 프레임간 유클리드 거리의 총 누적 합을 상태수로 나누어 등간격으로 상태들의 경계를 결정하는 방법이 있다.
Figure 112005064478086-PAT00002
D는 한상태 내에서의 누적거리, N은 총 상태 수
그러나 위와 같은 종래 기술에 따르면, 상태 간 경계부근에 존재하는 일부의 프레임들이 다른 특징이 강하게 나타나는 이웃상태에 할당되는 오류가 발생된다. 이러한 오류는 은닉 마르코브 모델의 재추정 과정(re-estimation procedure)에서 재조정된다고 하더라도 부정확할 수 있다. 뿐만 아니라 다른 상태들에 비해 마지막 상태의 길이가 길어진다는 단점이 있다.
본 발명은 상기와 같은 문제점을 해결하기 위해 창안된 것으로서, 사전처리단계에서 미리 입력음성의 음절 및 음소를 분리함으로써, 각 상태가 음성의 특징이 잘 나타나도록 초기상태를 설정할 수 있는 음성인식 방법에서의 음절 및 음소 분리를 통한 초기상태 분할방법을 제공하는데 그 목적이 있다.
상기와 같은 목적을 달성하기 위하여 (a) 음성신호를 고역 통과 필터에 통과시킨 후, 그 음성신호에 적절한 윈도우를 승산하여 소정의 쇼트타임 신호를 추출함으로써 사전처리 과정을 수행하는 단계; (b) 상기 쇼트타임 신호로부터 음성신호의 각 프레임의 에너지, 영교차율, 1차 자기 상관계수, 스펙트럴 에너지비를 포함하는 특징변수 중 하나 이상을 계산하는 단계; (c) 상기 특징변수를 이용하여 음절을 분리하는 단계; (d) 상기 (c) 단계에서 분리된 음절을 상기 특징변수를 이용하여 음소로 분리하는 단계; 및, (e) 상기 (d) 단계에서 분리된 음소를 초기 상태로 할당하는 단계를 포함한다.
이하 첨부된 도면을 참조로 본 발명의 바람직한 실시예를 상세히 설명하기로 한다. 이에 앞서, 본 명세서 및 청구범위에 사용된 용어나 단어는 통상적이거나 사전적인 의미로 한정해서 해석되어서는 아니되며, 발명자는 그 자신의 발명을 가장 최선의 방법으로 설명하기 위해 용어의 개념을 적절하게 정의할 수 있다는 원칙에 입각하여 본 발명의 기술적 사상에 부합하는 의미와 개념으로 해석되어야만 한다. 따라서, 본 명세서에 기재된 실시예와 도면에 도시된 구성은 본 발명의 가장 바람직한 일 실시예에 불과할 뿐이고 본 발명의 기술적 사상을 모두 대변하는 것은 아니므로, 본 출원시점에 있어서 이들을 대체할 수 있는 다양한 균등물과 변형예들이 있을 수 있음을 이해하여야 한다.
도 2는 본 발명에 따른 초기상태 분할 방법을 나타낸 순서도이다. 도 2를 참조하면, 우선, 음성신호가 입력되면(S210 단계), 고역 통과 필터(High Pass Filter)에 통과시킨 후, 그 음성신호에 적절한 윈도우를 승산하여 소정의 쇼트타임 신호를 추출함으로써 사전처리 과정을 수행한다(S220 단계).
그럼 다음, 상기 쇼트타임 신호로부터 음성신호의 각 프레임의 에너지(EN), 영교차율(ZCR), 1차 자기 상관계수(R), 스펙트럴 에너지비를 포함하는 특징변수 중 하나 이상을 계산한다(S230 단계).
상기 에너지(Energy)란, 다음 수학식3으로 정의될 수 있다.
Figure 112005064478086-PAT00003
여기서, X는 음성 샘플값, i는 샘플 인덱스, N은 프레임 인덱스, FL은 프레임 길이
상기 영교차율(ZCR:Zero Crossing Rate)이란, 다음 수학식4로 정의될 수 있다.
Figure 112005064478086-PAT00004
Figure 112005064478086-PAT00005
여기서, X는 음성 샘플값, i는 샘플 인덱스, N은 프레임 인덱스, FL은 프레임 길이
상기 1차 자기 상관계수(autocorrelation coefficient at unit sample delay)는, 다음 수학식5로 정의될 수 있다.
Figure 112005064478086-PAT00006
여기서, X는 음성 샘플값, i는 샘플 인덱스, N은 프레임 인덱스, FL은 프레임 길이
상기 스펙트럴 에너지비는, 다음 수학식6으로 정의될 수 있다.
Figure 112005064478086-PAT00007
여기서, ELOW는 100~500Hz의 저주파 대역의 에너지이고, EHIGH는 800~1200Hz 대역의 에너지 또는 4000~4500Hz 대역의 에너지 또는 5000~5500Hz 대역의 에너지
한편, EHIGH에 위와 같이 여러 가지 대역의 에너지를 사용하는 이유는, 동일한 화자가 같은 단어를 발성하더라도 주위 환경이나 화자의 상황에 따라서 차이가 발생할 수 있고, 또한 같은 음성을 다른 화자가 발성한다면 스펙트럼의 특성이 더욱 크게 달라질 수 있기 때문이다. 여러 대역의 스펙트럴 에너지비를 사용함으로써 이와 같은 오류를 보정할 수 있다.
위와 같이 S230 단계에서 에너지, 영교차율, 1차 자기 상관계수, 스펙트럴 에너지비를 포함하는 특징변수 중 하나 이상을 계산한 후, 상기 특징변수를 이용하 여 음절을 분리한다(S240 단계). S240 단계에 관한 구체적인 설명은 도 3와 함께 후술하기로 한다.
S240 단계에서 분리된 음절을 상기 특징변수를 이용하여 음소로 분리한다(S250 단계). S250 단계에 관한 구체적인 설명은 도 4와 함께 후술하기로 한다.
그런 다음, S250 단계에서 분리된 음소를 초기 상태로 할당한다(S260 단계). 여기서, S250 단계에서 분리된 음소를 은닉 마르코브 모델에서의 초기 상태로 할당할 수 있다. S260 단계에 관한 구체적인 설명은 도 5와 함께 후술하기로 한다.
도 3은 도 2 중 음절 분리단계를 세부적으로 나타낸 순서도이다. 도 3을 참조하면, 우선 프레임 길이를 근거로 하여 대략적으로 음절을 분리한다(S242 단계). 약 30프레임 정도가 1음절에 해당하므로, 프레임 길이별로 각 음절을 대략적으로 분리하는 것이다.
그런 다음, 첫 음절의 종성 및 둘째 음정의 초성이 자음-자음, 자음-모음, 모음-자음, 모음-모음 중 어느 유형에 해당하는지 판단한다(S244 단계). 구체적으로, 자음의 경우, 프레임의 에너지가 매우 작고 영교차율이 매우 크며 1차 자기 상관계수가 작고 스펙트럴 에너지비가 양수이고, 반대로 모음의 경우, 에너지가 매우 크고 영교차율이 작으며 1차 자기 상관계수가 크며 스펙트럴 에너지비가 음수인 특성을 이용한다. 즉, 각 프레임별 특징 변수값을 근거로 하여, 첫 음절의 종성 및 둘째 음절의 초성에 해당하는 프레임의 에너지가 매우 작고 영교차율이 매우 크며 1차 자기 상관계수가 작고 스펙트럴 에너지비가 양수인 경우 자음으로 결정하고, 에너지가 매우 크고 영교차율이 작으며 1차 자기 상관계수가 크며 스펙트럴 에너지 비가 음수인 것을 모음으로 결정하는 것이다.
상기 S244 단계에서 판단한 결과를 근거로 특징변수를 이용하여 정확하게 음절을 분리한다. 구체적으로, 첫 음절의 종성 및 둘째 음성의 초성이 자음-자음인 경우(S245 단계), 첫 음절의 스펙트럴 에너지비가 처음으로 양수가 되는 프레임과 둘째 음절의 스펙트럴 에너지비가 처음으로 음수가 되는 프레임의 양쪽 스펙트럴 거리가 같아지는 프레임을 음절이 분리되는 부분으로 결정한다. 만약, 첫 음절의 종성과 둘째 음절의 초성이 자음-모음일 경우(S246 단계), 스펙트럴 에너지비가 처음으로 음수가 되는 부분을 음절이 분리되는 부분으로 결정한다. 한편, 첫 음절의 종성과 둘째 음절의 초성이 모음-자음일 경우(S247 단계), 스펙트럴 에너지비가 처음으로 양수가 되는 부분을 음절이 분리되는 부분으로 결정한다. 첫 음절의 종성과 둘째 음절의 초성이 모음-모음일 경우(S248 단계), 각 음절의 모음이 안정되는 프레임 사이의 거리를 비교하여 거리가 같아지는 부분을 음절이 분리되는 부분으로 결정한다. 즉, 첫째 음절과 둘째 음절의 안정된 모음부분을 찾는 것인데, 모음이 안정되는 부분의 인접한 프레임 사이의 스펙트럴 거리는 다른 부분보다 상대적으로 매우 작기 때문에 모음이 안정되는 프레임을 찾을 수 있다. 예를 들어, '서울'의 경우 '서'의 '어'가 안정되는 프레임과 '울'의 '우'가 안정되는 프레임을 찾은 다음, 이 두 프레임 사이의 각 프레임과, 앞에서 찾은 모음이 안정된 두 프레임과의 스펙트럴 거리를 비교하여 이 두 거리가 같아지는 곳을 '서'와 '울'의 음절 분리점이 되는 것이다.
도 4는 도 2 중 음소 분리단계를 세부적으로 나타낸 순서도이다. 도 4를 참 조하면, 우선, S240 단계에서 분리된 음절이 초성/중성/종성, 초성/중성, 중성/종성, 중성 중 어느 유형에 해당하는지 여부를 판단한다(S252 단계). 구체적으로, 앞서 자음 및 모음의 특징변수값이 각각 다른 성질을 이용하여, 각 프레임별 특징 변수값을 근거로 하여 프레임의 에너지가 매우 작고 영교차율이 매우 크며 1차 자기 상관계수가 작고 스펙트럴 에너지비가 양수인 경우 자음으로 결정하고, 에너지가 매우 크고 영교차율이 작으며 1차 자기 상관계수가 크며 스펙트럴 에너지비가 음수인 것을 모음으로 결정함으로써, 음절이 초성/중성/종성, 초성/중성, 중성/종성, 중성 중 어느 유형에 해당하는지 여부를 판단한다.
그런 다음, S252 단계의 판단결과를 근거로 특징변수를 이용하여 상기 음절의 음소를 분리한다. 구체적으로, 음절이 초성/중성/종성으로 이루어지는 경우(S264 단계), 처음 열 개 프레임과 마지막 열 개 프레임의 에너지와 영교차율을 평균한 후, 에너지가 상기 평균보다 작아지는 프레임 인덱스, 및 영교차율이 상기 평균보다 커지는 프레임 인덱스를 비교하고, 스펙트럴 에너지비가 음수를 나타내는 프레임 인덱스를 저장하여 이 인덱스와 일치하거나 비슷한 부분의 프레임을 기준으로 음소를 분리한다. 한편, 음절이 초성/중성으로 이루어지는 경우(S265 단계), 처음 열 개 프레임의 에너지와 영교차율을 평균한 후, 스펙트럴 에너지비가 음수를 나타내는 프레임 인덱스를 저장하여 이 인덱스와 일치하거나 비슷한 부분의 프레임을 기준으로 음소를 분리한다. 다른 한편, 음절이 중성/종성으로 이루어지는 경우(S266 단계), 마지막 열 개 프레임의 에너지와 영교차율을 평균한 후, 스펙트럴 에너지비가 음수를 나타내는 프레임 인덱스를 저장하여 이 인덱스와 일치하거나 비슷 한 부분의 프레임을 기준으로 음소를 분리한다. 다른 한편 음절이 중성만으로 이루어지는 경우(S267 단계), 음절이 하나의 음소만으로 구성되어 있으므로 음소를 분리할 필요가 없다.
도 5는 도 2 중 초기상태 분할단계를 세부적으로 나타낸 순서도이다. 도 5를 참조하면, 우선, S250 단계에서 분리된 음소를 이용하여 상기 음절을 초성/중성/종성, 초성/중성, 중성/종성, 중성 중 어느 유형에 해당하는지 판단한다(S262 단계). 이는 상기 S252 단계에서의 판단 과정과 동일하다.
그런 다음, S262 단계의 판단결과를 근거로 각 음절에 총 세 개의 초기 상태를 할당한다. 구체적으로, 음절이 초성/중성/종성으로 이루어지는 경우(S264 단계), 초성, 중성, 종성에 각각 하나의 상태를 할당한다. 예를 들어, '산'의 경우, 'ㅅ', 'ㅏ', 'ㄴ'으로 각각 분리될 수 있는 데, 'ㅅ'에 상태 1, 'ㅏ'에 상태 2, 'ㄴ'에 상태 3을 부여한다.
한편, 음절이 초성/중성으로 이루어지는 경우(S265 단계), 초성에 하나의 상태를 할당하고 중성에 두 개의 상태를 할당한다. 예를 들어, '대'의 경우, 'ㄷ', 'ㅐ'로 각각 분리될 수 있는데, 'ㄷ'에 상태 1을, 'ㅐ'는 두 부분으로 나누어서 상태 2 및 상태 3을 부여한다.
음절이 중성/종성으로 이루어지는 경우(S266 단계), 중성에 두 개의 상태를 할당하고 종성에는 하나의 상태를 할당한다. 예를 들어, '안'의 경우, 'ㅏ', 'ㄴ'으로 각각 분리될 수 있는데, 'ㅏ'을 두 부분을 나누어서 상태 1 및 상태 2를, 'ㄴ'에는 상태 3을 부여한다.
음절이 중성으로 이루어지는 경우(S267 단계), 중성에 세 개의 상태를 할당한다. 예를 들어 '아'의 경우, '아'를 세 부분으로 나누어 각각에 하나의 상태를 부여한다.
위와 같은 과정을 통해 본 발명에 따라 음성인식 방법에서(예: 은닉 마르코브 모델(HMM)에서)의 초기 상태 분할이 이루어진다.
도 6은 본 발명에 따른 음절 및 음소 분리를 통한 초기상태 분할방법을 구현하기 위한 단말기의 구성도이다. 도 6을 참조하면, 본 발명에 따른 단말기는 입력부(10) 및 제어부(20)를 구비한다.
입력부(10)는 음성신호가 입력되는 장치로서, 마이크가 될 수 있다.
제어부(20)는 입력부(10)를 통해 입력된 음성신호를 고역 통과 필터에 통과시킨 후, 그 음성신호에 적절한 윈도우를 승산하여 소정의 쇼트타임 신호를 추출함으로써 사전처리 과정을 수행하고, 상기 쇼트타임 신호로부터 음성신호의 각 프레임의 에너지, 영교차율, 1차 자기 상관계수, 스펙트럴 에너지비를 포함하는 특징변수 중 하나 이상을 계산한 후, 상기 특징변수를 이용하여 음절을 분리하고, 분리된 음절을 상기 특징변수를 이용하여 음소로 분리하여, 분리된 음소를 초기 상태로 할당한다. 여기서 에너지, 영교차율, 1차 자기 상관계수, 스펙트럴 에너지비는 앞서 설명한 수학식3, 수학식4, 수학식5, 수학식6과 같다.
본 발명에 따라 초기 상태를 분할하여 은닉 마르코브 모델(HMM) 음성인식에 관한 실험결과는 다음과 같다.
실험데이터1
방법 화자종속인식 화자독립인식70
화자 종래 기술 본 발명 종래 기술 본 발명
F1 100 100 79 85
F2 98 98 71 70
F3 98 100 79 85
F4 100 100 78 90
F5 100 100 66 75
M1 100 100 78 89
M2 98 98 80 79
M3 100 100 89 90
M4 100 100 90 99
M5 100 100 81 88
평균 99.4 99.6 80.2 86.1
위의 표는 여자(F) 5명, 남자(M) 5명 화자의 음성 데이터에 대한 음성인식 인식률(%)을 나타낸 것이다. 화자종속인식 방법의 경우, 종래 기술과 본 발명의 음성인식률 차이는 F3 화자를 제외하고는 거의 없었지만, 화자독립인식 방법의 경우에는, 본 발명을 적용하였을 때 음성인식률이 평균 6% 가량이나 향상된 것을 알 수 있다.
실험데이터2
방법 화자종속인식 화자독립인식
단어 종래 기술 본 발명 종래 기술 본 발명
서울 100 97 87 97
부산 94 94 60 72
대구 100 100 97 99
인천 100 100 86 84
광주 100 100 76 77
대전 100 100 78 81
수원 100 100 91 88
춘천 100 100 87 84
청주 97 99 61 62
공주 96 97 84 98
안동 100 100 78 94
울산 94 95 91 91
전주 100 100 66 82
목포 100 100 97 98
제주 100 100 79 78
평균 98.7 98.8 81.0 86.4
위의 표는 각 단어별(서울, 부산 등) 음성 데이터에 대한 음성인식 인식률(%)을 나타낸 것이다. 앞서 나타난 실험데이터1에서와 마찬가지로 화자독립인식의 경우, 음성인식률이 평균 약 5% 가량 향상되었음을 알 수 있다.
상과 같이, 본 발명은 비록 한정된 실시예와 도면에 의해 설명되었으나, 본 발명은 이것에 의해 한정되지 않으며 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자에 의해 본 발명의 기술사상과 아래에 기재될 특허청구범위의 균등범위 내에서 다양한 수정 및 변형이 가능함은 물론이다.
본 발명에 따르면, 음성인식 방법(특히, 은닉 마르코브 모델)에 있어서, 특징 변수를 이용하여 음절 및 음소를 분리함으로써, 초기상태 분할에 있어서의 속도 및 정확성이 높아지며, 나아가 음성인식률이 현저하게 향상되는 효과가 있다.

Claims (19)

  1. (a) 음성신호를 고역 통과 필터에 통과시킨 후, 그 음성신호에 적절한 윈도우를 승산하여 소정의 쇼트타임 신호를 추출함으로써 사전처리 과정을 수행하는 단계;
    (b) 상기 쇼트타임 신호로부터 음성신호의 각 프레임의 에너지, 영교차율, 1차 자기 상관계수, 스펙트럴 에너지비를 포함하는 특징변수 중 하나 이상을 계산하는 단계;
    (c) 상기 특징변수를 이용하여 음절을 분리하는 단계;
    (d) 상기 (c) 단계에서 분리된 음절을 상기 특징변수를 이용하여 음소로 분리하는 단계; 및,
    (e) 상기 (d) 단계에서 분리된 음소를 초기 상태로 할당하는 단계;
    를 포함하는 것을 특징으로 하는 음절 및 음소 분리를 통한 초기상태 분할방법.
  2. 제 1 항에 있어서,
    상기 (e) 단계는,
    (e) 상기 (d) 단계에서 분리된 음소를 은닉 마르코브 모델에서의 초기 상태로 할당하는 단계;
    인 것을 특징으로 하는 음절 및 음소 분리를 통한 초기상태 분할방법.
  3. 제 1 항에 있어서,
    상기 에너지는,
    다음 식으로 정의되는 것을 특징으로 하는 음절 및 음소 분리를 통한 초기상태 분할방법.
    Figure 112005064478086-PAT00008
    여기서, X는 음성 샘플값, i는 샘플 인덱스, N은 프레임 인덱스, FL은 프레임 길이
  4. 제 1 항에 있어서,
    상기 영교차율(Zero Crossing Rate)은,
    다음 식으로 정의되는 것을 특징으로 하는 음절 및 음소 분리를 통한 초기상태 분할 방법.
    Figure 112005064478086-PAT00009
    Figure 112005064478086-PAT00010
    여기서, X는 음성 샘플값, i는 샘플 인덱스, N은 프레임 인덱스, FL은 프레 임 길이
  5. 제 1 항에 있어서,
    상기 1차 자기 상관계수(autocorrelation coefficient at unit sample delay)는,
    다음 식으로 정의되는 것을 특징으로 하는 음절 및 음소 분리를 통한 초기상태 분할 방법.
    Figure 112005064478086-PAT00011
    여기서, X는 음성 샘플값, i는 샘플 인덱스, N은 프레임 인덱스, FL은 프레임 길이
  6. 제 1 항에 있어서,
    상기 스펙트럴 에너지비는,
    다음 식으로 정의되는 것을 특징으로 하는 음절 및 음소 분리를 통한 초기상태 분할 방법.
    Figure 112005064478086-PAT00012
    여기서, ELOW는 100~500Hz의 저주파 대역의 에너지이고, EHIGH는 800~1200Hz 대역의 에너지 또는 4000~4500Hz 대역의 에너지 또는 5000~5500Hz 대역의 에너지
  7. 제 1 항에 있어서,
    상기 (c) 단계는,
    (c1) 프레임 길이를 근거로 하여 대략적으로 음절을 분리하는 단계;
    (c2) 첫 음절의 종성 및 둘째 음절의 초성이 자음-자음, 자음-모음, 모음-자음, 모음-모음 중 어느 유형에 해당하는지 판단하는 단계;
    (c3) 상기 (c2)단계의 판단결과를 근거로 상기 특징변수를 이용하여 정확하게 음절을 분리하는 단계;
    를 포함하는 것임을 특징으로 하는 음절 및 음소 분리를 통한 초기상태 분할 방법.
  8. 제 7 항에 있어서,
    상기 (c2) 단계는,
    각 프레임별 특징 변수값을 근거로 하여 첫 음절의 종성 및 둘째 음절의 초성에 해당하는 프레임의 에너지가 매우 작고 영교차율이 매우 크며 1차 자기 상관계수가 작고 스펙트럴 에너지비가 양수인 경우 자음으로 결정하고, 에너지가 매우 크고 영교차율이 작으며 1차 자기 상관계수가 크며 스펙트럴 에너지비가 음수인 것 을 모음으로 결정함으로써, 첫 음절의 종성 및 둘째 음절의 초성이 자음-자음, 자음-모음, 모음-자음, 모음-모음 중 어느 유형에 해당하는지 판단하는 단계인 것을 특징으로 하는 음절 및 음소 분리를 통한 초기상태 분할 방법.
  9. 제 7 항에 있어서,
    상기 (c3) 단계는,
    상기 (c2) 단계의 판단결과를 근거로 상기 특징변수 중 스펙트럴 에너지비를 이용하여 음절을 분리하는 단계인 것을 특징으로 하는 음절 및 음소 분리를 통한 초기상태 분할 방법.
  10. 제 9 항에 있어서,
    상기 (c3) 단계는,
    (c31) 첫 음절의 종성과 둘째 음절의 초성이 자음-자음일 경우, 첫 음절의 스펙트럴 에너지비가 처음으로 양수가 되는 프레임과 둘째 음절의 스펙트럴 에너지비가 처음으로 음수가 되는 프레임의 양쪽 스펙트럴 거리가 같아지는 프레임을 음절이 분리되는 부분으로 결정하는 단계;
    (c32) 첫 음절의 종성과 둘째 음절의 초성이 자음-모음일 경우, 스펙트럴 에너지비가 처음으로 음수가 되는 부분을 음절이 분리되는 부분으로 결정하는 단계;
    (c33) 첫 음절의 종성과 둘째 음절의 초성이 모음-자음일 경우, 스펙트럴 에너지비가 처음으로 양수가 되는 부분을 음절이 분리되는 부분으로 결정하는 단계; 및,
    (c34) 첫 음절의 종성과 둘째 음절의 초성이 모음-모음일 경우, 각 음절의 모음이 안정되는 프레임 사이의 거리를 비교하여 거리가 같아지는 부분을 음절이 분리되는 부분으로 결정하는 단계;
    가 선택적으로 수행되는 단계임을 특징으로 하는 음절 및 음소 분리를 통한 초기상태 분할 방법.
  11. 제 1 항에 있어서,
    상기 (d) 단계는,
    (d1) 상기 (c) 단계에서 분리된 음절이 초성/중성/종성, 초성/중성, 중성/종성, 중성 중 어느 유형에 해당하는지 여부를 판단하는 단계; 및,
    (d2) 상기 (d1) 단계의 판단결과를 근거로 특징변수를 이용하여 상기 음절의 음소를 분리하는 단계;
    를 포함하는 단계인 것을 특징으로 하는 음절 및 음소 분리를 통한 초기상태 분할 방법.
  12. 제 11 항에 있어서,
    상기 (d1) 단계는,
    각 프레임별 특징 변수값을 근거로 하여 프레임의 에너지가 매우 작고 영교차율이 매우 크며 1차 자기 상관계수가 작고 스펙트럴 에너지비가 양수인 경우 자 음으로 결정하고, 에너지가 매우 크고 영교차율이 작으며 1차 자기 상관계수가 크며 스펙트럴 에너지비가 음수인 것을 모음으로 결정함으로써, 상기 (c) 단계에서 분리된 음절이 초성/중성/종성, 초성/중성, 중성/종성, 중성 중 어느 유형에 해당하는지 여부를 판단하는 단계인 것을 특징으로 하는 음절 및 음소 분리를 통한 초기상태 분할 방법.
  13. 제 11 항에 있어서,
    상기 (d2) 단계는,
    (d21) 상기 음절이 초성/중성/종성으로 이루어지는 경우, 처음 열 개 프레임과 마지막 열 개 프레임의 에너지와 영교차율을 평균한 후, 에너지가 상기 평균보다 작아지는 프레임 인덱스, 및 영교차율이 상기 평균보다 커지는 프레임 인덱스를 비교하고, 스펙트럴 에너지비가 음수를 나타내는 프레임 인덱스를 저장하여 이 인덱스와 일치하거나 비슷한 부분의 프레임을 기준으로 음소를 분리하는 단계;
    (d22) 상기 음절이 초성/중성으로 이루어지는 경우, 처음 열 개 프레임의 에너지와 영교차율을 평균한 후, 스펙트럴 에너지비가 음수를 나타내는 프레임 인덱스를 저장하여 이 인덱스와 일치하거나 비슷한 부분의 프레임을 기준으로 음소를 분리하는 단계;
    (d23) 상기 음절이 중성/종성으로 이루어지는 경우, 마지막 열 개 프레임의 에너지와 영교차율을 평균한 후, 스펙트럴 에너지비가 음수를 나타내는 프레임 인덱스를 저장하여 이 인덱스와 일치하거나 비슷한 부분의 프레임을 기준으로 음소를 분리하는 단계;
    가 선택적으로 수행되는 단계임을 특징으로 하는 음절 및 음소 분리를 통한 초기상태 분할 방법.
  14. 제 1 항에 있어서,
    상기 (e) 단계는,
    (e1) 상기 (d) 단계에서 분리된 음소를 이용하여 상기 음절을 초성/중성/종성, 초성/중성, 중성/종성, 중성 중 어느 유형에 해당하는지 판단하는 단계;
    (e2) 상기 (e1)의 판단결과를 근거로 각 음절에 총 세 개의 초기 상태를 할당하는 단계;
    를 포함하는 것임을 특징으로 하는 음절 및 음소 분리를 통한 초기상태 분할 방법.
  15. 제 14 항에 있어서,
    상기 (e2) 단계는,
    (e21) 상기 음절이 초성/중성/종성으로 이루어지는 경우, 초성, 중성, 종성에 각각 하나의 상태를 할당하는 단계;
    (e22) 상기 음절이 초성/중성으로 이루어지는 경우, 초성에 하나의 상태를 할당하고 중성에 두 개의 상태를 할당하는 단계;
    (e23) 상기 음절이 중성/종성으로 이루어지는 경우, 중성에 두 개의 상태를 할당하고 종성에는 하나의 상태를 할당하는 단계;
    (e24) 상기 음절이 중성으로 이루어지는 경우, 중성에 세 개의 상태를 할당하는 단계;
    가 선택적으로 수행되는 단계임을 특징으로 하는 음절 및 음소 분리를 통한 초기상태 분할 방법.
  16. 음성신호가 입력되는 입력부;
    상기 입력부를 통해 입력된 음성신호를 고역 통과 필터에 통과시킨 후, 그 음성신호에 적절한 윈도우를 승산하여 소정의 쇼트타임 신호를 추출함으로써 사전처리 과정을 수행하고, 상기 쇼트타임 신호로부터 음성신호의 각 프레임의 에너지, 영교차율, 1차 자기 상관계수, 스펙트럴 에너지비를 포함하는 특징변수 중 하나 이상을 계산한 후, 상기 특징변수를 이용하여 음절을 분리하고, 분리된 음절을 상기 특징변수를 이용하여 음소로 분리하여, 분리된 음소를 초기 상태로 할당하는 제어부;
    를 포함하는 것을 특징으로 하는 단말기.
  17. 제 16 항에 있어서,
    상기 입력부는,
    마이크인 것을 특징으로 하는 단말기
  18. 제 16 항에 있어서,
    상기 제어부가 분리된 음소를 초기 상태로 할당하는 데 있어서,
    상기 분리된 음소를 은닉 마르코브 모델에서의 초기 상태로 할당하는 것을 특징으로 하는 단말기.
  19. 제 16 항에 있어서,
    상기 에너지는,
    다음 식으로 정의되고,
    Figure 112005064478086-PAT00013
    여기서, X는 음성 샘플값, i는 샘플 인덱스, N은 프레임 인덱스, FL은 프레임 길이
    상기 영교차율(Zero Crossing Rate)은,
    다음 식으로 정의되며,
    Figure 112005064478086-PAT00014
    Figure 112005064478086-PAT00015
    여기서, X는 음성 샘플값, i는 샘플 인덱스, N은 프레임 인덱스, FL은 프레 임 길이
    상기 1차 자기 상관계수(autocorrelation coefficient at unit sample delay)는,
    다음 식으로 정의되며,
    Figure 112005064478086-PAT00016
    여기서, X는 음성 샘플값, i는 샘플 인덱스, N은 프레임 인덱스, FL은 프레임 길이
    상기 스펙트럴 에너지비는,
    다음 식으로 정의되는 것을 특징으로 하는 단말기.
    Figure 112005064478086-PAT00017
    여기서, ELOW는 100~500Hz의 저주파 대역의 에너지이고, EHIGH는 800~1200Hz 대역의 에너지 또는 4000~4500Hz 대역의 에너지 또는 5000~5500Hz 대역의 에너지
KR1020050107034A 2005-11-09 2005-11-09 음절 및 음소 분리를 통한 초기상태 분할 방법, 및 이를구현하기 위한 단말기 KR20070049831A (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020050107034A KR20070049831A (ko) 2005-11-09 2005-11-09 음절 및 음소 분리를 통한 초기상태 분할 방법, 및 이를구현하기 위한 단말기

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020050107034A KR20070049831A (ko) 2005-11-09 2005-11-09 음절 및 음소 분리를 통한 초기상태 분할 방법, 및 이를구현하기 위한 단말기

Publications (1)

Publication Number Publication Date
KR20070049831A true KR20070049831A (ko) 2007-05-14

Family

ID=38273653

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020050107034A KR20070049831A (ko) 2005-11-09 2005-11-09 음절 및 음소 분리를 통한 초기상태 분할 방법, 및 이를구현하기 위한 단말기

Country Status (1)

Country Link
KR (1) KR20070049831A (ko)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108492837A (zh) * 2018-03-23 2018-09-04 腾讯音乐娱乐科技(深圳)有限公司 音频突发白噪声的检测方法、装置及存储介质
CN111883169A (zh) * 2019-12-12 2020-11-03 马上消费金融股份有限公司 一种音频文件切割位置处理方法及装置
CN113707156A (zh) * 2021-08-06 2021-11-26 武汉科技大学 一种用于车载的语音识别方法及系统

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108492837A (zh) * 2018-03-23 2018-09-04 腾讯音乐娱乐科技(深圳)有限公司 音频突发白噪声的检测方法、装置及存储介质
CN108492837B (zh) * 2018-03-23 2020-10-13 腾讯音乐娱乐科技(深圳)有限公司 音频突发白噪声的检测方法、装置及存储介质
CN111883169A (zh) * 2019-12-12 2020-11-03 马上消费金融股份有限公司 一种音频文件切割位置处理方法及装置
CN113707156A (zh) * 2021-08-06 2021-11-26 武汉科技大学 一种用于车载的语音识别方法及系统
CN113707156B (zh) * 2021-08-06 2024-04-05 武汉科技大学 一种用于车载的语音识别方法及系统

Similar Documents

Publication Publication Date Title
US10074363B2 (en) Method and apparatus for keyword speech recognition
US5333275A (en) System and method for time aligning speech
US10573300B2 (en) Method and apparatus for automatic speech recognition
JPS6336676B2 (ko)
Ma et al. Exploiting correlogram structure for robust speech recognition with multiple speech sources
CN106847259B (zh) 一种音频关键词模板的筛选和优化方法
US20150019218A1 (en) Method and apparatus for exemplary segment classification
Narayanan et al. The role of binary mask patterns in automatic speech recognition in background noise
CN106205601B (zh) 确定文本语音单元的方法及系统
KR101122591B1 (ko) 핵심어 인식에 의한 음성 인식 장치 및 방법
KR101122590B1 (ko) 음성 데이터 분할에 의한 음성 인식 장치 및 방법
KR20070049831A (ko) 음절 및 음소 분리를 통한 초기상태 분할 방법, 및 이를구현하기 위한 단말기
Ishi Perceptually-related F0 parameters for automatic classification of phrase final tones
US20050246172A1 (en) Acoustic model training method and system
Habeeb et al. An ensemble technique for speech recognition in noisy environments
KR101095865B1 (ko) 발화 검증 장치 및 그 방법
Lertwongkhanakool et al. An automatic real-time synchronization of live speech with its transcription approach
Lertwongkhanakool et al. Real-time synchronization of live speech with its transcription
Matsumoto et al. Frequency warping for nonuniform talker normalization
JP3868798B2 (ja) 音声認識装置
Sarma et al. Normalization and Automatic Recognition of Assamese Vowels
JPH0534679B2 (ko)
JPH0682275B2 (ja) 音声認識装置
JPH06348291A (ja) 単語音声認識方法
JP6451171B2 (ja) 音声認識装置、音声認識方法、及び、プログラム

Legal Events

Date Code Title Description
WITN Withdrawal due to no request for examination