KR20080052853A - Method and apparatus for speech recognition using reliability of articulatory feature - Google Patents

Method and apparatus for speech recognition using reliability of articulatory feature Download PDF

Info

Publication number
KR20080052853A
KR20080052853A KR1020060124556A KR20060124556A KR20080052853A KR 20080052853 A KR20080052853 A KR 20080052853A KR 1020060124556 A KR1020060124556 A KR 1020060124556A KR 20060124556 A KR20060124556 A KR 20060124556A KR 20080052853 A KR20080052853 A KR 20080052853A
Authority
KR
South Korea
Prior art keywords
feature
articulation
phoneme
score
speech
Prior art date
Application number
KR1020060124556A
Other languages
Korean (ko)
Other versions
KR100842754B1 (en
Inventor
김승희
Original Assignee
한국전자통신연구원
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 한국전자통신연구원 filed Critical 한국전자통신연구원
Priority to KR1020060124556A priority Critical patent/KR100842754B1/en
Publication of KR20080052853A publication Critical patent/KR20080052853A/en
Application granted granted Critical
Publication of KR100842754B1 publication Critical patent/KR100842754B1/en

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/14Speech classification or search using statistical models, e.g. Hidden Markov Models [HMMs]
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/28Constructional details of speech recognition systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/02Feature extraction for speech recognition; Selection of recognition unit
    • G10L2015/025Phonemes, fenemes or fenones being the recognition units

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Probability & Statistics with Applications (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

A method and an apparatus for speech recognition using reliability of an articulatory feature are provided to improve capability of the speech recognition. A method for speech recognition using reliability of an articulatory feature includes: receiving an audio signal and extracting an audio feature; extracting at least one of articulatory features corresponding to the audio feature which is extracted; calculating scores of the articulatory features per a phoneme; and calculating an observation score corresponding to the articulatory feature score per the phoneme and the observation probability value of the audio feature which is extracted. The articulatory feature per the phoneme searches at least one of the phoneme corresponding to the articulatory feature and calculates reliability of the articulatory features.

Description

조음 특징의 신뢰도를 이용한 음성 인식 방법 및 장치{Method and Apparatus for Speech Recognition using reliability of articulatory feature} Method and apparatus for speech recognition using reliability of articulation features {Method and Apparatus for Speech Recognition using reliability of articulatory feature}

도 1은 본 발명의 바람직한 일 실시예에 따른 조음 특징의 신뢰도를 이용한 음성 인식 방법을 개략적으로 나타낸 순서도. 1 is a flow chart schematically showing a speech recognition method using the reliability of the articulation feature according to an embodiment of the present invention.

도 2는 본 발명의 바람직한 일 실시예에 따른 음성 특징을 이용하여 고신뢰도 조음 특징을 추출하는 방법을 나타낸 도면. 2 is a diagram illustrating a method for extracting a high reliability articulation feature using a speech feature according to an embodiment of the present invention.

도 3은 본 발명의 바람직한 일 실시예에 따른 관측점수를 계산하는 방법을 나타낸 순서도. 3 is a flowchart illustrating a method of calculating an observation score according to an exemplary embodiment of the present invention.

도 4는 본 발명의 바람직한 일 실시예에 따른 음소별 조음특징 점수를 계산하는 방법에 대해서 설명하는 도면. 4 is a view for explaining a method for calculating the articulation characteristic score for each phoneme according to an embodiment of the present invention.

도 5는 본 발명의 바람직한 일 실시예에 따른 추가적인 음성 특징을 더 이용하여 음성을 인식하는 방법을 개략적으로 나타낸 순서도. 5 is a flow chart schematically illustrating a method for recognizing speech further using additional speech features according to a preferred embodiment of the present invention.

<도면의 주요 부분에 대한 부호의 설명> <Explanation of symbols for the main parts of the drawings>

401 : 조음 특징 선택부 401: articulation feature selection unit

403 : 음소 403 Phoneme

405 및 407 : 음소 조음특징 점수 부가 방법 405 and 407: How to add phoneme articulation feature score

본 발명은 조음 특징의 신뢰도를 이용한 음성 인식 방법 및 장치에 관한 것이다. The present invention relates to a method and apparatus for speech recognition using reliability of articulation features.

음성 인식 분야의 연구들에 의해 음성의 발성 과정에 기반하여 인식 모델을 구축함으로써 인식 성능을 개선하고자 하는 연구가 많이 보고되고 있다. 그 중에 주류를 이루는 방법이, 조음 특징(Articulatory Feature)에 기반하여 분류기(classifier) 혹은 검출기(detector)를 만들고 이로부터 직접 음성인식 결과를 구하거나, 혹은 검출기로부터의 결과 값을 다른 인식 모듈의 입력 값으로 사용하여 음성 인식을 수행하는 방법이었다. 조음 특징을 분류하거나 이에 기반한 분류기 혹은 검출기를 만드는 방법, 그리고 검출기로부터의 결과 값을 이용하는 방법 등은 연구 방법에 따라 다양한 방법들이 있다. Researches in the field of speech recognition have been reported to improve the recognition performance by building a recognition model based on the speech utterance process. Among them, the mainstream method is to create a classifier or detector based on Articulatory Feature and obtain a voice recognition result directly from the input, or input the result value of another recognition module from the detector. The speech recognition method was used as a value. There are various ways to classify or create a classifier or detector based on articulation features, and to use the results from the detector.

그리고 이들로부터의 결과 값을 음성 인식에 사용하는 방법으로는, 이들 결과 값만을 사용하여 음성인식을 수행하는 방법, 기존 HMM 인식모듈의 우도 값(likelihood)에 가중 합을 하는 방법, 다른 인식모듈의 입력 특징 벡터로 사용하는 방법 등이 주요하였다. As a method of using the result values from the speech recognition method, a method of performing speech recognition using only these result values, a weighted sum of likelihoods of the existing HMM recognition module, and a method of performing other recognition modules The method used as an input feature vector was mainly used.

그런데, 기존 연구들은 공통적으로 이들 조음특징에 기반한 검출기로부터의 결과 값을 신뢰도에 상관없이 모두 인식 과정에 사용하였다. 따라서 신뢰도가 낮은 결과 값이 전체 인식 성능에 나쁜 영향을 미칠 가능성이 상존하였다. However, the existing studies commonly used the results from detectors based on these articulation features in the recognition process regardless of the reliability. Therefore, there was always a possibility that a low reliability result adversely affects the overall recognition performance.

그리고 모든 검출기로부터의 결과값을 모든 음소 모델에 공통적으로 적용하기 때문에 특정 검출기에만 적용되는 음성 특징을 이용할 수 없었다. And since the results from all the detectors are applied to all phoneme models in common, the speech features that apply only to specific detectors cannot be used.

본 발명의 목적은, 조음 특징이나 혹은 기타 특징 벡터에 기반한 부가적인 검출기로부터의 결과 값 중 신뢰도 높은 결과 값만을 선택하고, 이렇게 선택된 신뢰도 높은 결과 값을 기존 인식과정에 반영함으로써 음성 인식 성능을 개선하고자 하는데 있다. An object of the present invention is to improve the speech recognition performance by selecting only the high reliability results among the results from additional detectors based on articulation features or other feature vectors, and reflecting the selected high reliability results in the existing recognition process. It is.

또한 본 발명은 부가적인 검출기로부터의 결과값을 기존 인식과정에 반영하는 새로운 방법을 적용하여 음성 인식 성능을 개선하는데 다른 목적이 있다. In addition, the present invention has another object to improve the speech recognition performance by applying a new method that reflects the result from the additional detector to the existing recognition process.

또한 본 발명은, 특정 음소에 한정되는 결과값도 주 인식과정에 반영할 수 있도록 하여 음성 인식 성능을 개선하는데 또 다른 목적이 있다. Another object of the present invention is to improve the speech recognition performance by allowing the result value limited to a specific phone to be reflected in the main recognition process.

상술한 목적들을 달성하기 위하여, 본 발명의 일 측면에 따르면, 음성 신호를 수신하여 음성 특징을 추출하는 단계, 상기 추출된 음성 특징에 상응하여 적어도 하나의 조음 특징을 추출하는 단계, 상기 추출된 조음 특징에 상응하여 음소별 조음특징점수를 계산하는 단계 및 상기 음소별 조음특징점수 및 상기 추출된 음성 특징의 관측 확률 값에 상응하여 관측 점수를 계산하는 단계를 포함하는 음성 인식 방법을 제공할 수 있다. In order to achieve the above objects, according to an aspect of the invention, the step of receiving a speech signal to extract a speech feature, extracting at least one articulation feature corresponding to the extracted speech feature, the extracted articulation Comprising a step of calculating the articulation feature score for each phoneme in accordance with the feature and calculating the observation score corresponding to the observation feature value of the phoneme feature feature for each phoneme and the extracted speech feature may be provided. .

바람직한 실시예에 있어서, 상기 음소별 조음특징점수는 상기 적어도 하나의 조음 특징에 상응하는 적어도 하나의 음소를 검색하고, 상기 검색된 적어도 하나의 음소 각각에 상응하는 조음 특징의 신뢰도를 가중합하여 계산하는 것을 특징으로 할 수 있다. 또한, 상기 음소별 조음특징점수는 상기 적어도 하나의 조음 특징에 상응하는 적어도 하나의 음소를 검색하고, 상기 검색된 적어도 하나의 음소 중 상기 적어도 하나의 조음 특징 모두에 상응하는 음소에 대해 조음 특징 신뢰도를 가중합하여 계산하는 것을 특징으로 할 수 있다. In a preferred embodiment, the phoneme feature score for each phoneme is calculated by searching for at least one phoneme corresponding to the at least one articulation feature and weighting the reliability of the articulation feature corresponding to each of the at least one searched phoneme. It can be characterized. The articulation feature score for each phoneme may search for at least one phoneme corresponding to the at least one articulation feature, and obtain an articulation feature reliability for a phoneme corresponding to all of the at least one articulation feature of the at least one phoneme. It can be characterized by weighted sum.

또한, 상기 관측 점수는

Figure 112006091081403-PAT00001
Figure 112006091081403-PAT00002
중 어느 한 수식에 의하되, 상기
Figure 112006091081403-PAT00003
는 t 번째 프레임의 임의의 관측 확률 값들의 차이의 평균이며, i는 음소 인덱스이고, t는 프레임 인덱스이고, j는 조음 특징의 인덱스이고,
Figure 112006091081403-PAT00004
Figure 112006091081403-PAT00005
는 실험에 의해 미리 결정된 임의의 상수이고, L은 검출된 조음 특징의 개수이고,
Figure 112006091081403-PAT00006
Figure 112006091081403-PAT00007
는 신뢰도가 반영된 조음 특징 점수인 것을 특징으로 할 수 있다. 또한, 상기 관측 확률 값들의 차이의 평균은
Figure 112006091081403-PAT00008
의 수식에 의하되, 상기 t는 프레임 인덱스이 고 상기 bj ,t는 프레임 t에서 구한 관측 확률 값 중에서 j 번째로 큰 관측 확률 값을 의미하며, M은 실험에 의해 미리 결정된 임의의 상수인 것을 특징으로 할 수 있다. In addition, the observation score is
Figure 112006091081403-PAT00001
And
Figure 112006091081403-PAT00002
According to any one of the above formulas,
Figure 112006091081403-PAT00003
Is the mean of the differences between any observed probability values of the t th frame, i is the phoneme index, t is the frame index, j is the index of the articulation feature,
Figure 112006091081403-PAT00004
And
Figure 112006091081403-PAT00005
Is any constant predetermined by the experiment, L is the number of articulation features detected,
Figure 112006091081403-PAT00006
And
Figure 112006091081403-PAT00007
May be an articulation feature score reflecting reliability. In addition, the average of the difference between the observed probability values is
Figure 112006091081403-PAT00008
According to the formula, wherein t is the frame index, and b j , t is the jth largest observation probability value of the observed probability value obtained in the frame t, M is characterized in that an arbitrary constant predetermined by the experiment can do.

본 발명의 다른 일 측면을 참조하면, 음성 신호를 수신하여 음성 특징을 추출하는 음성 특징 추출부, 상기 추출된 음성 특징에 상응하여 적어도 하나의 조음 특징을 추출하는 조음 특징 추출부 및 상기 추출된 조음 특징에 상응하여 음소별 조음특징점수를 계산하고 상기 음소별 조음특징점수 및 상기 추출된 음성 특징의 관측 확률 값에 상응하여 관측 점수를 계산하는 탐색부를 포함하는 음성 인식 장치를 제공할 수 있다. Referring to another aspect of the present invention, a voice feature extractor for receiving a voice signal to extract a voice feature, an articulation feature extractor for extracting at least one articulation feature corresponding to the extracted voice feature, and the extracted articulation The speech recognition apparatus may include a search unit configured to calculate an articulation feature score for each phoneme according to a feature, and calculate an observation score according to the articulation feature score for each phoneme and the observed probability value of the extracted speech feature.

이어서, 첨부한 도면들을 참조하여 본 발명의 바람직한 실시예를 상세히 설명하기로 한다. Next, preferred embodiments of the present invention will be described in detail with reference to the accompanying drawings.

도 1은 본 발명의 바람직한 일 실시예에 따른 조음 특징의 신뢰도를 이용한 음성 인식 방법을 개략적으로 나타낸 순서도이다. 1 is a flowchart schematically illustrating a speech recognition method using reliability of articulation features according to an exemplary embodiment of the present invention.

도 1을 참조하면, 우선 외부로부터 음성 신호를 수신한다(단계 101). 그 후, 수신된 음성 신호의 음성 특징을 추출한다(단계103). 이러한 음성 특징의 추출은 MFCC(Mel-Frequency Cepstral Coefficient), LPC(Linear Predictive Coding) 및 PLP(Perceptual linear prediction) 등과 같은 알고리듬을 사용하여 추출할 수 있다. Referring to FIG. 1, first, a voice signal is received from the outside (step 101). Then, the speech feature of the received speech signal is extracted (step 103). The extraction of speech features may be extracted using algorithms such as Mel-Frequency Cepstral Coefficient (MFCC), Linear Predictive Coding (LPC), Perceptual linear prediction (PLP), and the like.

그 후, 상기 수신된 음성 신호의 조음 특징을 추출하는데(단계105), 조음 특징은 여러 종류가 있을 수 있으며 각 조음 특징을 추출한 후 그 특징을 조합하여 신뢰성이 높은 조음 특징을 결정할 수 있다. 일반적으로 N 개의 조음 특징을 검출하기 위해서는 N 개의 조음 특징 검출기를 사용하여야 하며 조음 특징 검출기로 널리 사용되는 것은 GMM(Gaussian Mixture Model), 인공 신경망 및 SVM(Super Vector Machine)등이 있다. Thereafter, the articulation features of the received speech signal may be extracted (step 105). There may be various types of articulation features, and after extracting each articulation feature, the articulation features may be combined to determine a reliable articulation feature. In general, to detect N articulation features, N articulation feature detectors should be used. Commonly used articulation feature detectors include Gaussian Mixture Models (GMMs), artificial neural networks, and super vector machines (SVMs).

이렇게 조음 특징을 추출하면 그 후에는 추출된 조음 특징의 신뢰성을 구하는데(단계 107) 이는 도 2 및 도 4에서 자세히 설명하도록 한다. 조음 신뢰성을 구하여 고 신뢰도 조음 특징이 추출되면(단계 109), 참조 번호 103 단계에서 추출된 음성 특징과 고 신뢰도 조음 특징을 이용하여 단어열을 탐색하고(단계 111), 이러한 결과 음성 인식이 이루어진다(단계 113). When the articulation feature is extracted in this way, the reliability of the extracted articulation feature is then obtained (step 107), which will be described in detail with reference to FIGS. 2 and 4. When the high reliability articulation feature is obtained by obtaining articulation reliability (step 109), the word string is searched using the speech feature and the high reliability articulation feature extracted in step 103 (step 111), and the resulting speech recognition is performed (step 111). Step 113).

도 2는 본 발명의 바람직한 일 실시예에 따른 음성 특징을 이용하여 고신뢰도 조음 특징을 추출하는 방법을 나타낸 도면이다. 2 is a diagram illustrating a method of extracting a high reliability articulation feature by using a voice feature according to an exemplary embodiment of the present invention.

도 2를 참조하면, 우선 수신된 음성 신호로부터 음성 특징이 추출된다(단계 201). 이렇게 음성 특징이 추출되면 그러한 음성 특징에 상응하여 N 개의 조음 특징을 검출하기 위하여 N 개의 조음 특징 검출기를 사용한다(단계 203). Referring to Fig. 2, first, a voice feature is extracted from a received voice signal (step 201). When the speech feature is extracted in this way, N articulation feature detectors are used to detect N articulation features corresponding to the speech feature (step 203).

여기서 조음 특징은 음소의 변별적 자질로서 구분하면 모음성, 자음성, 구강 성, 전방성, 설정성, 연속성, 치찰성, 비음성, 경음성, 유기성, 후설성, 고설성, 저설성, 원순성 및 장음성 등으로 구분할 수 있다. 이때에 조음 특징은 15개가 될 것이며 따라서 조음 특징 검출기의 개수도 15개가 될 것이다. Here, the articulation characteristics are distinctive features of the phoneme. It can be divided into purity and long sound. At this point, there will be 15 articulation features, and therefore 15 articulation feature detectors.

한편으로 조음 특징을 음소의 변별적 자질 외에 유성성, 조음 방법, 조음 위치 및 원순성으로 구분할 수 도 있으며 이때에는 조음 특징이 4개이므로 조음 특징 검출기도 4개가 될 것이다. On the other hand, the articulation characteristics may be classified into voicey, articulation methods, articulation positions, and roundness in addition to the distinctive features of the phoneme.

여기서 유성성은 음이 유성음인지 무성음인지 묵음인지를 구분하는 것이고, 조음 방법은 음이 모음인지 파열음인지 마찰음인지 비음인지 유음인지 접근음인지 구분하는 것이며, 조음 위치는 양순음인지 치음인지 경구개음인지 연구개음인지 성문음인지 고모음인지 저모음인지 전설모음인지 후설모음인지 묵음인지를 구분하는 것이다. Here, voiced is to distinguish whether the voice is voiced, unvoiced or silent, and the articulation method is to distinguish whether the sound is vowel, rupture, friction, non-noise, oily or approach sound, and the position of articulation is positive sound, tooth sound or oral sound, or research sound It is to distinguish whether it is high vowel, low vowel, legend vowel, hustle vowel or mute.

이러한 조음 특징의 구분에 의한 조음 특징의 추출 방법은 도 5에서 설명할 본 발명의 다른 실시예에서도 사용된다. The method of extracting articulation features based on the division of articulation features is also used in another embodiment of the present invention to be described with reference to FIG. 5.

이러한 조음 특징 검출기에 의하여 검출된 조음 특징값의 신뢰도를 구하게 되는데, 본 발명에서는 조음 특징값을 0에서1 사이의 값으로 변환하고 변환된 값을 신뢰도로 사용한다 (단계205). 검출된 조음특징의 신뢰도가 미리 실험으로 정한 값 이상일 경우 신뢰도가 높은 것으로 간주하여 이를 고신뢰도 조음특징으로 추출한다(단계207). The reliability of the articulation feature value detected by the articulation feature detector is obtained. In the present invention, the articulation feature value is converted into a value between 0 and 1, and the converted value is used as the reliability (step 205). When the reliability of the detected articulation feature is equal to or higher than the value previously determined by the experiment, it is regarded as having high reliability and extracted as a high reliability articulation feature (step 207).

도 3은 본 발명의 바람직한 일 실시예에 따른 관측점수를 계산하는 방법을 나타낸 순서도이다. 3 is a flowchart illustrating a method of calculating observation scores according to an exemplary embodiment of the present invention.

도 3을 참조하면, 우선 도 2에서 설명한 방법에 의하여 고신뢰도 조음 특징이 추출된다(단계301). 그 후, 추출된 조음 특징을 이용하여 음소별 조음특징점수를 계산한다(단계303). 이러한 음소별 조음특징점수를 계산하는 방법에 대해서는 도 4에서 자세히 설명하도록 하지만, 간단히 설명하면 각 조음 특징의 신뢰도를 가중합하는 방식이다. Referring to FIG. 3, first, a high reliability modulation feature is extracted by the method described in FIG. 2 (step 301). Thereafter, the articulation feature score for each phoneme is calculated using the extracted articulation feature (step 303). A method of calculating the articulation feature score for each phoneme will be described in detail with reference to FIG. 4.

그 후, 관측 점수를 계산하는데(단계307), 이러한 관측 점수의 계산은 입력음성에서 추출된 음성 특징의 관측 확률 값(305)과 참조번호 303 단계에서 구한 음소별 조음특징 점수를 이용하여 구한다. Then, the observation score is calculated (step 307). The calculation of the observation score is obtained by using the observation probability value 305 of the speech feature extracted from the input speech and the articulation characteristic score for each phoneme obtained in step 303.

이러한 관측 점수는 우선 현재 프레임 t의 관측 확률 값 중 가장 큰 M개의 관측 확률 값을 추출하여 큰 순서대로 정렬한다. The observation scores are first sorted in large order by extracting the largest M observation probability values among the observation probability values of the current frame t.

이렇게 정렬된 관측 확률 값을

Figure 112006091081403-PAT00009
, (j=1,2,…,M)라 하고, 이렇게 정렬된 관측 확률 값들의 차이의 평균을 This sort of observation probability
Figure 112006091081403-PAT00009
, (j = 1,2,…, M), and the average of the differences of the observed probability values

[수식 1] [Equation 1]

Figure 112006091081403-PAT00010
Figure 112006091081403-PAT00010

와 같이 구한다. Obtain as

이렇게 구해진 관측 확률 값들의 차이의 평균을 이용하여 Using the average of the difference of observed probability values

관측 점수를 계산할 수 있는데, You can calculate the observation score,

관측 점수는  Observation score

[수식 2][Formula 2]

Figure 112006091081403-PAT00011
혹은
Figure 112006091081403-PAT00012
Figure 112006091081403-PAT00011
or
Figure 112006091081403-PAT00012

와 같이 계산한다. Calculate as

여기서 i는 음소 인덱스이고, t는 프레임 인덱스이다. j는 조음특징의 인덱스이고

Figure 112006091081403-PAT00013
Figure 112006091081403-PAT00014
는 실험에 의해 미리 결정된 임의의 상수이다. L은 검출된 신뢰도 높은 조음특징의 개수이며
Figure 112006091081403-PAT00015
Figure 112006091081403-PAT00016
는 신뢰도가 반영된 조음특징 점수이다. Where i is the phoneme index and t is the frame index. j is the index of the articulation feature
Figure 112006091081403-PAT00013
And
Figure 112006091081403-PAT00014
Is any constant predetermined by the experiment. L is the number of reliable modulation features detected
Figure 112006091081403-PAT00015
And
Figure 112006091081403-PAT00016
Is an articulation score that reflects reliability.

특히 검출된 고신뢰도의 조음특징에 상응하지 않는 음소의 경우에는

Figure 112006091081403-PAT00017
혹은
Figure 112006091081403-PAT00018
가 0이다. Especially for phonemes that do not correspond to the detected high-reliability articulation features
Figure 112006091081403-PAT00017
or
Figure 112006091081403-PAT00018
Is 0.

그 후 구해진 관측 점수를 이용하여 비터비(viterbi) 탐색을 수행한다(단계309). Thereafter, a Viterbi search is performed using the obtained observation score (step 309).

도 4는 본 발명의 바람직한 일 실시예에 따른 음소별 조음특징 점수를 계산하는 방법에 대해서 설명하는 도면이다. 4 is a diagram illustrating a method for calculating articulation feature scores for each phoneme according to an exemplary embodiment of the present invention.

도 4를 참조하면, 음소별 가중치를 적용하는 방식은 조음 특징의 추출 방법 에 따라 크게 2가지로 나누어 질 수 있다. Referring to FIG. 4, a method of applying a weight for each phoneme may be divided into two types according to a method of extracting articulation features.

우선 변별적 자질을 조음 특징으로 하는 경우를 위주로 설명하면, 참조 번호 401과 같이 조음 특징에 따라 조음 특징 검출기가 존재한다. 상기 참조 번호 401에서는 조음 특징 A, B 및 C에 따라 3가지 조음 특징 검출기가 존재한다. First, the case where the distinctive features are the articulation features will be described mainly. As shown by reference numeral 401, articulation feature detectors exist according to the articulation features. At reference numeral 401, there are three articulation feature detectors according to articulation features A, B and C.

각각의 조음 특징에는 해당하는 각각의 음소(403)들이 존재하는데, 조음특징 A 에는 음소 a1, a2, a3의 3개의 음소가 존재하고, 조음 특징 B에는 a1, b1, b2의 음소가 존재하며, 조음 특징 C 에는 a1, b1, c1의 음소가 존재한다. Each articulation feature has its own phonemes 403. In articulation feature A, there are three phonemes a1, a2, and a3. Articulation feature C includes the phonemes a1, b1, and c1.

이러한 조음 특징에 따른 음소에서In phonemes according to these articulation features

음소 a1은 조음 특징 A, B 및 C에 모두 포함되며 음소 b1은 조음 특징 B, C에 포함되고 음소 c1은 조음 특징 C에만 포함된다. 또한 음소 a2, a3은 조음 특징 A에만 포함되고, 음소 b2는 조음 특징 B에만 포함된다. 여기서 음소 a1이 조음특징 A에 포함된다는 것은 두 가지 의미를 포함한다. 첫째, 음소 a1은 조음특징 A의 성질을 가진다. 둘째, 조음특징 A의 검출기로부터 나온 결과값이 실험에서 미리 정한 값 이상이 되어 조음특징 A가 높은 신뢰도로 검출되었다. Phoneme a1 is included in both articulation features A, B, and C, phoneme b1 is included in articulation features B, C, and phoneme c1 is included only in articulation feature C. In addition, the phonemes a2 and a3 are included only in the articulation feature A, and the phonemes b2 are included in the articulation feature B only. Here, the phoneme a1 is included in the articulation feature A has two meanings. First, the phoneme a1 has the property of articulation feature A. Secondly, the result value from the detector of articulation feature A was more than a predetermined value in the experiment, and articulation feature A was detected with high reliability.

이 때, 변별적 자질을 조음 특징으로 하는 경우에는 참조 번호 405에서 알 수 있는 바와 같이 각 음소별로 상응하는 각 조음 특징의 신뢰성 점수를 가중합하는 것으로 계산한다. 따라서 음소 a1의 경우에는 조음 특징 A, B 및 C의 신뢰성 점수를 각각 모두 가중합하고, 음소 b1의 경우에는 조음 특징 B 및 C의 신뢰성 점수만을 가중합한다. 나머지 음소는 각 음소에 해당하는 조음 특징 신뢰성 점수를 가중합할 뿐이다. In this case, when the distinctive feature is an articulation feature, as shown by reference numeral 405, the reliability score of each articulation feature corresponding to each phoneme is calculated by weighting. Therefore, in the case of phoneme a1, the reliability scores of articulation features A, B, and C are all weighted, and in the case of phoneme b1, only the reliability scores of articulation features B and C are weighted. The remaining phonemes only weight the articulation feature reliability scores corresponding to each phoneme.

여기서

Figure 112006091081403-PAT00019
,
Figure 112006091081403-PAT00020
,
Figure 112006091081403-PAT00021
값들은 모두 각 조음 특징 검출기 별로 미리 결정된 가중치를 나타내며, AFa1 ~ c1 값들은 모두 조음 특징 점수를 나타낸다. here
Figure 112006091081403-PAT00019
,
Figure 112006091081403-PAT00020
,
Figure 112006091081403-PAT00021
The values all represent a predetermined weight for each articulation feature detector, and the AF a1 to c1 values all represent articulation feature scores.

반면에 다른 방식으로 조음특징점수를 계산하는 방법은 참조 번호 407에서 보는 바와 같이 모든 조음 특징을 가지고 있는 음소 a1만을 찾아서 이러한 a1 음소에 조음 특징 A, B 및 C의 신뢰성 점수를 가중합하는 것으로 조음특징점수를 계산하는 것이다. On the other hand, another method of calculating the articulation feature score is to find only the phonemes a1 having all articulation features and weight the reliability scores of articulation features A, B, and C to these a1 phones, as shown at 407. To calculate the score.

가중합할 때의 가중치는 실험에 의해 미리 결정한 임의의 상수이다. The weight at the time of weighting is any constant determined in advance by experiment.

도 5는 본 발명의 바람직한 일 실시예에 따른 추가적인 음성 특징을 더 이용하여 음성을 인식하는 방법을 개략적으로 나타낸 순서도이다. 5 is a flowchart schematically illustrating a method of recognizing a voice by further using additional voice features according to an exemplary embodiment of the present invention.

도 5를 참조하면, 우선 외부로부터 음성 신호를 수신한다(단계 501). 그 후, 수신된 음성 신호의 음성 특징을 추출한다(단계503). 이러한 음성 특징의 추출은 MFCC(Mel-Frequency Cepstral Coefficient), LPC(Linear Predictive Coding) 및 PLP(Perceptual linear prediction) 등과 같은 알고리듬을 사용하여 추출할 수 있다. Referring to FIG. 5, first, a voice signal is received from the outside (step 501). Thereafter, voice features of the received voice signal are extracted (step 503). The extraction of speech features may be extracted using algorithms such as Mel-Frequency Cepstral Coefficient (MFCC), Linear Predictive Coding (LPC), Perceptual linear prediction (PLP), and the like.

또한 이러한 음성 특징의 추출 시에 기본적인 음성 특징의 추출(단계 503)외에 추가적인 음성 특징을 추출할 수 있다(단계 505)이러한 추가적인 음성 특징으로는 FO 주파수, 포먼트 주파수, 포먼트에서 에너지값 및 주파수 밴드 에너지 등이 사용될 수 있다. 이러한 추가적인 음성 특징들은 각 조음 특징 검출기의 특성에 맞 게 선택하여 사용할 수 있다. 그리고, 음성 특징이 추출되면 상기 도 1에서 살펴본 바와 같이 조음 특징을 추출한다(단계 506).In addition, in the extraction of the voice feature, an additional voice feature may be extracted in addition to the basic voice feature extraction (step 503) (step 505). The additional voice feature may include an FO frequency, a formant frequency, an energy value and a frequency in the formant. Band energy and the like can be used. These additional voice features can be selected to suit the characteristics of each articulation detector. When the voice feature is extracted, the articulation feature is extracted as described above with reference to FIG. 1 (step 506).

그 후, 상기 수신된 음성 신호 음성 특징들을 이용하여 조음 특징을 추출하고 신뢰성을 탐색한다(단계507). 이러한 조음 특징 추출 및 신뢰성의 탐색 방법은 상기 도 2 및 도 4에서 설명하였다. The received voice signal voice features are then used to extract articulation features and search for reliability (step 507). Such articulation feature extraction and reliability searching methods have been described with reference to FIGS. 2 and 4.

그 후,조음 신뢰성을 탐색하여 고 신뢰도 조음 특징이 추출되면(단계 509), 참조 번호 503 단계에서 추출된 음성 특징과 고 신뢰도 조음 특징을 이용하여 단어열을 탐색하고(단계 511), 이러한 결과 음성 인식이 이루어진다(단계 513). Then, if the high reliability articulation feature is extracted by searching for articulation reliability (step 509), the word string is searched using the speech feature and the high reliability articulation feature extracted in step 503 (step 511), and the resultant speech Recognition is made (step 513).

이러한 방식은 상기 도 1에서 설명한 방식과 유사하나, 부가적인 음성 특징을 사용할 수 있어, 실제적으로는 기존의 다이나믹 프로그래밍 방식의 인식 과정과 결합하기 위해 모든 음소를 대상으로 음성 특징을 추출할 필요 없이 특정 음소에 한정되는 분류 방식이나 특정 벡터를 사용할 수 있다는 장점이 있다. This method is similar to the method described in FIG. 1, but additional speech features can be used, so that the speech features can be extracted without actually extracting the speech features of all the phonemes in order to be combined with the recognition process of the existing dynamic programming method. There is an advantage in that a classification scheme limited to phonemes or a specific vector can be used.

본 발명은 상기 실시예에 한정되지 않으며, 많은 변형이 본 발명의 사상 내에서 당 분야에서 통상의 지식을 가진 자에 의하여 가능함은 물론이다. The present invention is not limited to the above embodiments, and many variations are possible by those skilled in the art within the spirit of the present invention.

본 발명에 의하여, 조음 특징이나 혹은 기타 특징 벡터에 기반한 부가적인 검출기로부터의 결과 값 중 신뢰도 높은 결과 값만을 선택하고, 이렇게 선택된 신뢰도 높은 결과 값을 기존 인식과정에 반영함으로써 음성인식 성능을 개선할 수 있 다. According to the present invention, the speech recognition performance can be improved by selecting only a reliable result value among the results from additional detectors based on articulation features or other feature vectors, and reflecting the selected high confidence result value in the existing recognition process. have.

또한 본 발명은, 부가적인 검출기로부터의 결과값을 기존 인식과정에 반영하는 새로운 방법을 적용하여 음성인식 성능을 개선할 수 있다. In addition, the present invention can improve the speech recognition performance by applying a new method that reflects the result from the additional detector to the existing recognition process.

또한 본 발명은, 특정 음소에 한정되는 결과값도 주 인식과정에 반영할 수 있도록 하여 음성 인식 성능을 개선할 수 있다. In addition, the present invention can improve the speech recognition performance by allowing the result value limited to a specific phone to be reflected in the main recognition process.

Claims (6)

음성 신호를 수신하여 음성 특징을 추출하는 단계; Receiving a speech signal to extract a speech feature; 상기 추출된 음성 특징에 상응하여 적어도 하나의 조음 특징을 추출하는 단계; Extracting at least one articulation feature corresponding to the extracted speech feature; 상기 추출된 조음 특징에 상응하여 음소별 조음특징점수를 계산하는 단계 및 Calculating articulation feature scores for each phoneme in correspondence with the extracted articulation features; and 상기 음소별 조음특징점수 및 상기 추출된 음성 특징의 관측 확률 값에 상응하여 관측 점수를 계산하는 단계 Calculating an observation score corresponding to the articulation feature score of each phoneme and an observation probability value of the extracted speech feature; 를 포함하는 음성 인식 방법. Speech recognition method comprising a. 제1항에 있어서, The method of claim 1, 상기 음소별 조음특징점수는 상기 적어도 하나의 조음 특징에 상응하는 적어도 하나의 음소를 검색하고, 상기 검색된 적어도 하나의 음소 각각에 상응하는 조음 특징의 신뢰도를 가중합하여 계산하는 것 The articulation feature score for each phoneme is calculated by searching for at least one phoneme corresponding to the at least one articulation feature and weighting the reliability of the articulation feature corresponding to each of the found at least one phoneme. 을 특징으로 하는 음성 인식 방법. Speech recognition method characterized in that. 제1항에 있어서, The method of claim 1, 상기 음소별 조음특징점수는 상기 적어도 하나의 조음 특징에 상응하는 적어 도 하나의 음소를 검색하고, 상기 검색된 적어도 하나의 음소 중 상기 적어도 하나의 조음 특징 모두에 상응하는 음소에 대해 조음 특징 신뢰도를 가중합하여 계산하는 것 The articulation feature score for each phoneme searches for at least one phoneme corresponding to the at least one articulation feature, and weights articulation feature reliability for a phoneme corresponding to all of the at least one articulation feature of the at least one found phoneme. Counting 을 특징으로 하는 음성 인식 방법. Speech recognition method characterized in that. 제1항에 있어서, The method of claim 1, 상기 관측 점수는 The observation score is
Figure 112006091081403-PAT00022
Figure 112006091081403-PAT00023
중 어느 한 수식에 의하되,
Figure 112006091081403-PAT00022
And
Figure 112006091081403-PAT00023
By any of the formulas,
상기
Figure 112006091081403-PAT00024
는 t 번째 프레임의 임의의 관측 확률 값들의 차이의 평균이며, i는 음소 인덱스이고, t는 프레임 인덱스이고, j는 조음 특징의 인덱스이고,
Figure 112006091081403-PAT00025
Figure 112006091081403-PAT00026
는 실험에 의해 미리 결정된 임의의 상수이고, L은 검출된 조음 특징의 개수이고,
Figure 112006091081403-PAT00027
Figure 112006091081403-PAT00028
는 신뢰도가 반영된 조음 특징 점수인 것
remind
Figure 112006091081403-PAT00024
Is the mean of the differences between any observed probability values of the t th frame, i is the phoneme index, t is the frame index, j is the index of the articulation feature,
Figure 112006091081403-PAT00025
And
Figure 112006091081403-PAT00026
Is any constant predetermined by the experiment, L is the number of articulation features detected,
Figure 112006091081403-PAT00027
And
Figure 112006091081403-PAT00028
Is an articulation feature score that reflects reliability
을 특징으로 하는 음성 인식 방법. Speech recognition method characterized in that.
제1항에 있어서, The method of claim 1, 상기 관측 확률 값들의 차이의 평균은The mean of the differences between the observed probability values is
Figure 112006091081403-PAT00029
의 수식에 의하되, 상기 t는 프레임 인덱스이고 상기 bj ,t는 프레임 t에서 구한 관측 확률 값 중에서 j 번째로 큰 관측 확률 값을 의미하며, M은 실험에 의해 미리 결정된 임의의 상수인 것
Figure 112006091081403-PAT00029
According to the formula, wherein t is the frame index and b j , t is the jth largest observation probability value from the observation probability value obtained in the frame t, M is an arbitrary constant predetermined by the experiment
을 특징으로 하는 음성 인식 방법. Speech recognition method characterized in that.
음성 신호를 수신하여 음성 특징을 추출하는 음성 특징 추출부; A voice feature extractor configured to receive a voice signal and extract a voice feature; 상기 추출된 음성 특징에 상응하여 적어도 하나의 조음 특징을 추출하는 조음 특징 추출부 및 An articulation feature extraction unit for extracting at least one articulation feature corresponding to the extracted voice feature; 상기 추출된 조음 특징에 상응하여 음소별 조음특징점수를 계산하고 상기 음소별 조음특징점수 및 상기 추출된 음성 특징의 관측 확률 값에 상응하여 관측 점수를 계산하는 탐색부 A searcher for calculating an articulation feature score for each phoneme according to the extracted articulation feature and calculating an observation score according to the articulation feature score for each phoneme and an observation probability value of the extracted speech feature 를 포함하는 음성 인식 장치. Speech recognition device comprising a.
KR1020060124556A 2006-12-08 2006-12-08 Method and Apparatus for Speech Recognition using reliability of articulatory feature KR100842754B1 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020060124556A KR100842754B1 (en) 2006-12-08 2006-12-08 Method and Apparatus for Speech Recognition using reliability of articulatory feature

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020060124556A KR100842754B1 (en) 2006-12-08 2006-12-08 Method and Apparatus for Speech Recognition using reliability of articulatory feature

Publications (2)

Publication Number Publication Date
KR20080052853A true KR20080052853A (en) 2008-06-12
KR100842754B1 KR100842754B1 (en) 2008-07-01

Family

ID=39807379

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020060124556A KR100842754B1 (en) 2006-12-08 2006-12-08 Method and Apparatus for Speech Recognition using reliability of articulatory feature

Country Status (1)

Country Link
KR (1) KR100842754B1 (en)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100934218B1 (en) * 2007-12-13 2009-12-29 한국전자통신연구원 Multilevel speech recognition device and multilevel speech recognition method in the device
CN113284514A (en) * 2021-05-19 2021-08-20 北京大米科技有限公司 Audio processing method and device

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100449912B1 (en) * 2002-02-20 2004-09-22 대한민국 Apparatus and method for detecting topic in speech recognition system
KR100577387B1 (en) * 2003-08-06 2006-05-10 삼성전자주식회사 Method and apparatus for handling speech recognition errors in spoken dialogue systems
KR20060067107A (en) * 2004-12-14 2006-06-19 한국전자통신연구원 Continuous speech recognition apparatus using articulatory model and method thereof

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100934218B1 (en) * 2007-12-13 2009-12-29 한국전자통신연구원 Multilevel speech recognition device and multilevel speech recognition method in the device
CN113284514A (en) * 2021-05-19 2021-08-20 北京大米科技有限公司 Audio processing method and device

Also Published As

Publication number Publication date
KR100842754B1 (en) 2008-07-01

Similar Documents

Publication Publication Date Title
JP4568371B2 (en) Computerized method and computer program for distinguishing between at least two event classes
US10522134B1 (en) Speech based user recognition
Mantena et al. Query-by-example spoken term detection using frequency domain linear prediction and non-segmental dynamic time warping
JP4322785B2 (en) Speech recognition apparatus, speech recognition method, and speech recognition program
KR20140079092A (en) Method and Apparatus for Context Independent Gender Recognition Utilizing Phoneme Transition Probability
Ryant et al. Highly accurate mandarin tone classification in the absence of pitch information
Mantena et al. Use of articulatory bottle-neck features for query-by-example spoken term detection in low resource scenarios
WO2021118793A1 (en) Speech processing
JP5050698B2 (en) Voice processing apparatus and program
Quan et al. Reduce the dimensions of emotional features by principal component analysis for speech emotion recognition
Bhati et al. Unsupervised Speech Signal to Symbol Transformation for Zero Resource Speech Applications.
JP2007240589A (en) Speech recognition reliability estimating device, and method and program therefor
US11308939B1 (en) Wakeword detection using multi-word model
Zhang et al. Improved mandarin keyword spotting using confusion garbage model
Deb et al. Exploration of phase information for speech emotion classification
KR100842754B1 (en) Method and Apparatus for Speech Recognition using reliability of articulatory feature
Zolnay et al. Extraction methods of voicing feature for robust speech recognition.
JP2012053218A (en) Sound processing apparatus and sound processing program
Vasudev et al. Query-by-example spoken term detection using bessel features
Laszko Using formant frequencies to word detection in recorded speech
Laleye et al. Automatic boundary detection based on entropy measures for text-independent syllable segmentation
Bonjyotsna et al. Signal processing for segmentation of vocal and non-vocal regions in songs: A review
JP5136621B2 (en) Information retrieval apparatus and method
EP2948943B1 (en) False alarm reduction in speech recognition systems using contextual information
Huang et al. Discriminative incorporation of explicitly trained tone models into lattice based rescoring for Mandarin speech recognition

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant
FPAY Annual fee payment

Payment date: 20121214

Year of fee payment: 5

LAPS Lapse due to unpaid annual fee