KR19990050440A - 유성음, 무성음, 묵음 구간 정보를 이용한 음성인식방법 및 음성인식장치 - Google Patents

유성음, 무성음, 묵음 구간 정보를 이용한 음성인식방법 및 음성인식장치 Download PDF

Info

Publication number
KR19990050440A
KR19990050440A KR1019970069559A KR19970069559A KR19990050440A KR 19990050440 A KR19990050440 A KR 19990050440A KR 1019970069559 A KR1019970069559 A KR 1019970069559A KR 19970069559 A KR19970069559 A KR 19970069559A KR 19990050440 A KR19990050440 A KR 19990050440A
Authority
KR
South Korea
Prior art keywords
unvoiced
voiced
silent
recognition
sound
Prior art date
Application number
KR1019970069559A
Other languages
English (en)
Inventor
서영주
박준
황규웅
Original Assignee
정선종
한국전자통신연구원
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 정선종, 한국전자통신연구원 filed Critical 정선종
Priority to KR1019970069559A priority Critical patent/KR19990050440A/ko
Publication of KR19990050440A publication Critical patent/KR19990050440A/ko

Links

Landscapes

  • Transmission Systems Not Characterized By The Medium Used For Transmission (AREA)

Abstract

본 발명은 컴퓨터를 이용한 음성인식 응용분야에서 유성음, 무성음, 묵음 구간 정보를 이용한 음성인식방법 및 음성 인식장치에 관한 것으로, 종래의 음성인식장치는 음성신호에 대해 프레임 단위로 특징 벡터를 추출하여 이를 음소나 유사 음소 단위로 모델링한 후, 입력된 미지의 특징 벡터를 탐색기에서 음소나 유사 음소 단위의 모델과 비교하는 방법을 사용하므로써 탐색 시간의 증가 및 인식 대상어의 증가로 인한 모호성이 커졌다. 이에 본 발명은 인간의 음성이 입력되었을 때 입력된 신호중에서 일반적으로 음성인식에 사용되는 기존의 특징 파라메터와 더불어 음성신호를 유성음/무성음/묵음으로 잘 부류화시킬 수 있는 또다른 특징 파라메터를 추가로 추출하여 유성음, 무성음, 및 묵음의 구간을 정확히 부류화시키고, 이 유성음/무성음/묵음으로 부류화된 정보를 음성인식기의 탐색기에서 부가적으로 사용하여 탐색 대상을 축소시킴으로써 기존의 음성인식기에 비해 현저한 탐색 시간의 감축 및 탐색 성능의 향상을 가져오게 하였다.

Description

유성음, 무성음, 묵음 구간 정보를 이용한 음성인식방법 및 음성인식장치
본 발명은 컴퓨터를 이용한 음성인식기와 관련된 분야에 관한 것으로서, 특히 계속적으로 입력되는 신호중에서, 유성음 (voiced sound), 무성음 (unvoiced sound), 및 묵음 (silence) 구간으로 부류화(classification)된 정보를 음성인식기의 탐색기에 사용할 수 있도록 한, 유성음, 무성음, 묵음 정보를 이용하여 개선된 음성인식방법 및 음성인식 장치에 관한 것이다.
인간과 기계 사이의 통신 수단으로서 사용자의 측면에서 가장 자연스러운 음성을 사용하고자 음성인식기를 개발하려는 노력들이 활발히 진행되고 있다. 이와 같은 장치들이 실용화에 성공하기 위해서는 여러가지 해결해야 할 문제점들이 있다. 우선 요구되는 점은 이들 장치들의 성능이 매우 높은 수준에 이르러서 사용자가 사용할 경우에 불편을 느끼지 않아야 한다. 그러나, 현재까지도 이러한 장치들의 성능은 사용자들의 요구를 완전히 만족시키지 못하며 따라서 계속적인 성능향상을 위해 연구하고 있는 상황이다.
이 분야의 종래의 기술로는 음성인식기의 탐색 기법으로서 빔 탐색 (beam search) 방법을 이용한 탐색 범위 축소 방법등을 들 수 있고 이에 대한 설명은 다음과 같다. 현재 제안된 대부분의 음성인식기는 음성의 특징을 잘 나타낼 수 있는 파라메터를 선정하고 이를 음성으로부터 추출하여 탐색기에서 미리 모델링된 기준 파라메터들과 비교 및 탐색하여 가장 유사한 모델열에 해당하는 대상어를 선정하는 방법을 사용한다. 이때에 방대한 탐색 대상을 축소하기 위하여 매 탐색 시점에서 유사성이 많이 떨어지는, 즉, 정해진 값보다 낮은 스코어를 기록하는 가상 경로들를 제외시키는 방법을 사용한다. 그러나, 이 기존의 방법에서 가상 경로를 제외시킬때 사용하는 스코어들은 모델별로 그 값들이 서로 큰 차이를 나타내지 않으며 또한, 입력된 특징 파라메터와 가장 유사한 모델이 항상 가장 좋은 스코어를 나타내지는 않는다. 따라서, 스코어 정렬 및 정해진 빔보다 큰 스코어를 가지는 경로 제외 방법에 기반한 기존의 음성인식기 탐색 방법은 탐색 시간의 축소 및 정확도 개선 측면에서 높은 성능을 얻기가 어렵다는 문제점이 있다.
따라서, 본 발명은 상기와 같은 문제점을 해결하기 위하여 입력된 음성신호로부터 유성음, 무성음, 묵음의 특징을 잘 표현하는 특징 파라메터를 프레임별로 추출하고, 이 특징 파라메터들을 입력받아 유성음, 무성음, 및 묵음의 여부를 프레임별로 판정하여 유성음, 무성음, 묵음의 프레임별 정보를 제공하며, 이 정보를 음성인식기의 탐색기에 제공하여 유성음, 무성음, 묵음의 정보에 의한 탐색 대상의 축소를 가져와 탐색 시간의 감소와 탐색의 정확도를 높임으로써 음성인식기의 성능을 개선시키는 기능을 가진 유성음, 무성음, 묵음 구간 정보를 이용한 음성인식방법 및 음성인식장치를 제공하는데 그 목적이 있다.
도 1은 본 발명의 유성음, 무성음, 묵음 구간 정보를 이용한 음성인식 장치의 블럭 구성도.
도 2는 도 1에 따른 인식 모델별 유성음, 무성음, 묵음 대응 사전부의 상세 흐름도.
도 3은 본 발명에 의한 탐색기부의 상세 흐름도.
*도면의 주요부분에 대한 부호의 설명*
10 : 신호 입력부 20 : 음성인식용 특징 파라메터 추출부
30 : 유성음/무성음/묵음 정보 추출용 특징 파라메터 추출부
40 : 인식 모델별 유성음/ 무성음, 묵음 대응 사전부
50 : 탐색기부 60 : 유성음/무성음/묵음 정보 추출부
70 : 음성인식 출력부
상기 목적을 달성하기 위한 본 발명에 의한 유성음, 무성음, 묵음 구간 정보를 이용한 음성인식방법은 입력된 파형을 전기적인 신호로 바꾸어 디지털화하는 신호 입력단계와; 입력된 음성신호를 정해진 구간으로 프레임화하고, 프레임 단위로 음성의 특성을 나타내는 특징 파라메터를 추출하기 위한 음성인식용 특징 파라메터 추출단계와; 입력된 음성신호를 정해진 구간으로 프레임화하고, 프레임 단위로 유성음, 무성음, 묵음의 특성을 나타내는 특징 파라메터를 추출하기 위한 유성음/무성음/묵음 정보 추출용 특징 파라메터 추출단계와; 인식에 사용되는 모델들을 각각 유성음, 무성음, 묵음 중에서 일치하는 하나의 음으로 대응시키는 인식 모델별 유성음/ 무성음, 묵음 대응단계와; 상기 음성인식용 특징 파라메터 추출단계에서 얻어진 음성인식용 특징 파라메터에 의거하여 각 인식 모델에 대해서 구해진 스코어와 상기 유성음/무성음/묵음 정보 추출용 특징 파라메터에 의거한 스코어를 계산하고 소정의 가중치를 각각 부과한 후 가산한 최종 스코어를 바탕으로 가상 경로 제외 및 최상 경로를 탐색하기 위한 탐색단계와; 상기 특징 파라메터 추출단계에서 얻어진 유성음, 무성음, 묵음 정보추출용 특징 파라메터에 의거하여 매 프레임당 유성음, 무성음, 묵음의 여부를 판정하여 유성음, 무성음, 묵음 정보를 추출하기 위한 유성음/무성음/묵음 정보 추출단계와; 상기 탐색단계에서 구해진 음성인식 결과를 출력하는 음성인식 출력단계를 수행하는 것을 특징으로 한다.
이하, 본 발명을 첨부된 도면에 의거하여 상세히 설명하면 다음과 같다.
도 1은 본 발명의 유성음, 무성음, 묵음 구간 정보를 이용한 음성인식기의 개선 장치의 구조도로서, 도시된 바와 같이 입력된 파형을 전기적인 신호로 바꾸어 디지털화하는 신호 입력부(10)와; 입력된 음성신호를 정해진 구간으로 프레임화하고, 프레임 단위로 음성의 특성을 나타내는 특징 파라메터를 추출하기 위한 음성인식용 특징 파라메터 추출부(20)와; 입력된 음성신호를 정해진 구간으로 프레임화하고, 프레임 단위로 유성음, 무성음, 묵음의 특성을 나타내는 특징 파라메터를 추출하기 위한 유성음/무성음/묵음 정보 추출용 특징 파라메터 추출부(30)와; 인식에 사용되는 모델들을 각각 유성음, 무성음, 묵음 중에서 일치하는 하나의 음으로 대응시키는 인식 모델별 유성음/ 무성음, 묵음 대응 사전부(40)와; 상기 음성인식용 특징 파라메터 추출부(20)로부터 음성인식용 특징 파라메터를 입력받아 각 인식 모델에 대한 스코어를 계산하고 또한 유성음/무성음/묵음 정보 추출용 특징파라메터를 입력받아 유성음/무성음/묵음에 대한 스코어를 계산하고 소정의 가중치를 각각 부과한 후 가산한 최종 스코어를 바탕으로 가상 경로 제외 및 최상 경로를 탐색하기 위한 탐색기부(50)와; 상기 특징 파라메터 추출부(30)로부터 유성음, 무성음, 묵음 정보추출용 특징 파라메터를 입력받아 매 프레임당 유성음, 무성음, 묵음의 여부를 판정하여 유성음, 무성음, 묵음 정보를 추출하기 위한 유성음/무성음/묵음 정보 추출부(60)와; 상기 탐색기부(50)에서 구해진 음성인식 결과를 출력하는 음성인식 출력부(70)로 구성되어 있다.
상기 탐색기부(50)는, 입력된 음성인식용 특징 파라메터와 전체 인식 모델들과의 유사도를 비교하여 전체 인식 모델에 대한 스코어들을 구하기 위한 음성인식용 특징 파라메터 스코어 계산부와; 상기 유/무성음, 묵음 정보 추출부(60)로부터 구해진 프레임당 유성음, 무성음, 묵음 정보의 수치와, 상기 인식 모델별 유/무성음, 묵음 대응 사전부(40)로부터 구해진 인식 모델별 유/무성음, 묵음 여부를 바탕으로 전체 인식 모델에 대한 스코어들을 계산하는 유성음, 무성음, 묵음용 특징 파라메터 스코어 계산부와; 상기 구해진 두 스코어들에 대한 가중치 부여 및 가산하여 결합시키는 가중치 부여 및 가산부와; 탐색 프레임이 마지막 프레임일때까지 경로 제외 및 최상 경로 탐색하는 경로제외 및 최상경로 탐색부와; 상기 경로제외 및 최상경로 탐색을 막지막 프레임까지 수행되었을 경우 시작 프레임에서 마지막 프레임까지 연결된 여러 경로들 중에서 최고의 스코어를 가지는 경로를 선택하여 해당하는 인식 대상어를 출력하기 위한 대상어 출력부로 구성된다.
상기 신호 입력부(10)는 입력된 파형을 전기적인 신호로 바꾸어주는 마이크와, 아날로그 전기 신호를 디지털화하는 아날로그-디지털 변환기(analog-to-digital converter)로 구성되어 있다. 상기 음성인식용 특징 파라메터 추출부(20)는 입력된 음성신호를 먼저 정해진 구간으로 프레임화한 다음, 프레임 단위로 음성의 특성을 효과적으로 잘 나타내는 특징 파라메터를 추출하여 이를 다음 단계로 전달하는 기능을 한다. 상기 유성음/무성음/묵음 정보 추출용 특징 파라메터 추출부(30)는 상기 음성인식용 특징 파라메터 추출부(20)와 비슷하게 입력된 음성신호를 먼저 정해진 구간으로 프레임화한 다음, 프레임 단위로 유성음, 무성음, 묵음의 특성을 효과적으로 잘 나타내는 특징 파라메터를 추출한다. 인식 모델별 유성음/ 무성음, 묵음 대응 사전부(40)는 인식에 사용되는 모델들을 각각 유성음, 무성음, 묵음 중에서 일치하는 하나의 음으로 대응시키는 사전 역할을 한다. 상기 탐색기부(50)는 음성인식용 특징 파라메터를 먼저 입력받아서 기존의 음성인식기에서 사용하는 방법으로 각 모델에 대한 스코어를 계산한다. 또한 상기 유성음/묵음 정보 추출부(60)에서 제공된 정보와 상기 인식 모델별 유성음/ 무성음, 묵음 대응 사전부(40)에서 정해지는 대응 관계를 바탕으로 각 인식 모델에 대한 유성음/무성음/묵음 스코어를 계산한다. 이러한 방식으로 계산된 인식 모델별 두 스코어들에 적당한 가중치를 각각 부과한 후 가산한 최종 스코어를 바탕으로 가상 경로 제외 및 최상 경로 탐색 과정을 수행하여 선택된 최상의 경로에 해당하는 대상어 결과를 다음 단계로 전달한다. 상기 유성음/무성음/묵음 정보 추출부(60)은 상기 특징 파라메터 추출부(30)에서 추출된 유성음, 무성음, 묵음 부류화용 특징 파라메터를 입력받아 매 프레임당 유성음, 무성음, 묵음의 여부를 판정하여 유성음, 무성음, 묵음 정보를 추출한다. 음성인식 출력부(70)는 상기 탐색기부(50)에서 구해진 음성인식 결과를 출력하는 기능을 한다.
도 2는 본 발명에 의한 인식 모델별 유성음/무성음/묵음 대응 사전부(40)의 상세 흐름도이다. 음성인식기에서 정의된 인식 모델들을 유성음, 무성음, 묵음 중의 하나로 대응시키기 위하여 인식 모델 입력 과정으로서 입력되는 인식 모델의 유성음, 무성음, 묵음 여부를 알기 위한 해당 인식 모델의 식별자를 입력받는다(41).
상기 입력된 인식 모델의 식별자에 해당되는 부분을 검색하여 그 인식 모델이 유성음인지 무성음인지 묵음인지를 읽어들이는 인식 모델별 유성음, 무성음, 묵음 대응 관계 검색 과정을 수행한다(42).
상기 구해진 인식 모델의 유성음, 무성음, 묵음 여부에 관한 정보를 탐색기부로 출력하는 인식 모델별 유성음, 무성음, 묵음 대응 관계 출력 과정을 수행한다(43).
도 3은 본 발명에 의한 탐색기부(50)의 상세 흐름도이다.
음성인식용 특징 파라메터에 대한 스코어 계산 과정으로서 입력된 음성인식용 특징 파라메터와 전체 인식 모델들과의 유사도를 비교하여 전체 인식 모델에 대한 스코어들을 구한다(51).
유성음, 무성음, 묵음용 특징 파라메터에 대한 스코어 계산 과정으로서 유/무성음, 묵음 정보 추출부(60)에서 구해진 프레임당 유성음, 무성음, 묵음 정보의 수치와, 상기 인식 모델별 유/무성음, 묵음 대응 사전부(40)에서 구해진 인식 모델별 유/무성음, 묵음 여부를 바탕으로 다음과 같은 식으로 전체 인식 모델에 대한 스코어들을 계산한다(52).
상기 수학식 1에서 m과 t는 각각 인식 모델과 특징 파라메터 프레임의 인덱스를 나타내며, 상기INFO_UVS i (t)는 프레임 t에서의 각각의 유성음, 무성음, 묵음 여부의 정도를 수치로 나타내는 값들로서 상기 유/무성음/묵음정보추출부(60)에서 구해진다. 상기wgt(m,i)는 그룹(유성음, 무성음, 묵음)에 따른 가중치이며 m과 i의 관계는 상기 인식 모델별 유/무성음, 묵음 대응 사전부(40)에서 정해진다.
상기 구해진 두 스코어들에 대한 가중치 부여 및 가산과정을 수행한다(53). 두 스코어를 결합시키는 과정으로서 다음식과 같이 구해진다.
상기 수학식 2에서SCORE_NORM m (t)는 인식 모델 m과 프레임 t에서, 1 과정에서 구해진 음성인식용 특징 파라메터에 대한 스코어를 나타내고SCORE_UVS m (t)는 상기 유성음, 무성음, 묵음용 특징 파라메터에 대한 스코어를 나타낸다. 또한는 이 두 스코어를 결합시키는데 사용되는 가중치이다.
일반적으로 사용되는 비터비 빔 탐색과 같은 탐색기에서 사용하는 탐색 방법을 사용하여 경로 제외 및 최상 경로 탐색 과정을 수행한다(54).
상기 경로 제외 및 최상 경로 탐색과정(54)은 탐색 프레임이 마지막 프레임일때까지 수행하는데 탐색 프레임이 마지막 프레임여부를 결정하여(53) 마지막 프레임까지 수행되었을 경우에 시작 프레임에서 마지막 프레임까지 연결된 여러 경로들 중에서 최고의 누적 스코어를 가지는 경로를 선택하여 해당하는 인식 대상어를 출력하고(56) 탐색 프레임이 마지막 프레임이 아닌 경우에는 상기의 단계를 반복하여 수행하게 한다.
본 발명에 의하면, 입력된 음성 신호로부터 얻어진 유성음, 무성음, 묵음의 구간에 관한 정보를 음성인식기의 탐색기에서 부가적으로 이용하여 음성인식기의 정확도를 높이고 수행 속도를 향상시키는 효과를 얻을 수 있다.

Claims (6)

  1. 입력된 파형을 전기적인 신호로 바꾸어 디지털화하는 신호 입력부(10)와;
    입력된 음성신호를 정해진 구간으로 프레임화하고, 프레임 단위로 음성의 특성을 나타내는 특징 파라메터를 추출하기 위한 음성인식용 특징 파라메터 추출부(20)와;
    입력된 음성신호를 정해진 구간으로 프레임화하고, 프레임 단위로 유성음, 무성음, 묵음의 특성을 나타내는 특징 파라메터를 추출하기 위한 유성음/무성음/묵음 정보 추출용 특징 파라메터 추출부(30)와;
    인식에 사용되는 모델들을 각각 유성음, 무성음, 묵음 중에서 일치하는 하나의 음으로 대응시키는 인식 모델별 유성음/ 무성음, 묵음 대응 사전부(40)와;
    상기 음성인식용 특징 파라메터 추출부(20)로부터 음성인식용 특징 파라메터를 입력받아 각 인식 모델에 대한 스코어를 계산하고 상기 유성음/무성음/묵음 정보 추출용 특징파라메터 추출부(30)로부터 유/무성음, 묵음 정보 추출용 특징 파라메터를 입력받아 각 인식 모델에 대한 스코어를 계산한 후 소정의 가중치를 각각 부과한 후 가산한 최종 스코어를 바탕으로 가상 경로 제외 및 최상 경로를 탐색하기 위한 탐색기부(50)와;
    상기 특징 파라메터 추출부(30)로부터 유성음, 무성음, 묵음 정보추출용 특징 파라메터를 입력받아 매 프레임당 유성음, 무성음, 묵음의 여부를 판정하여 유성음, 무성음, 묵음 정보를 추출하기 위한 유성음/무성음/묵음 정보 추출부(60)와;
    상기 탐색기부(50)에서 구해진 음성인식 결과를 출력하는 음성인식 출력부(70)로 구성된 것을 특징으로 하는 유성음, 무성음, 묵음 구간 정보를 이용한 음성인식장치.
  2. 제 1 항에 있어서,
    상기 인식 모델별 유성음/ 무성음, 묵음 대응 사전부(40)는,
    음성인식기에서 정의된 인식 모델들을 유성음, 무성음, 묵음 중의 하나로 대응시키기 위하여 입력되는 인식 모델의 유성음, 무성음, 묵음 여부를 알기 위한 해당 인식 모델의 식별자를 입력받는 인식 모델 식별자 입력부와;
    상기 입력된 인식 모델의 식별자에 해당되는 부분을 검색하여 그 인식 모델이 유성음인지 무성음인지 묵음인지를 읽어들이는 인식 모델별 유성음, 무성음, 묵음 대응 관계 검색부와;
    상기 구해진 인식 모델의 유성음, 무성음, 묵음 여부에 관한 정보를 탐색기부로 출력하는 인식 모델별 유성음, 무성음, 묵음 대응 관계 출력부로 구성된 것을 특징으로 하는 유성음, 무성음, 묵음 구간 정보를 이용한 음성인식장치.
  3. 제 1 항에 있어서,
    상기 탐색기부(50)는,
    입력된 음성인식용 특징 파라메터와 전체 인식 모델들과의 유사도를 비교하여 전체 인식 모델에 대한 스코어들을 구하기 위한 음성인식용 특징 파라메터 스코어 계산부와;
    상기 유/무성음, 묵음 정보 추출부(60)로부터 구해진 프레임당 유성음, 무성음, 묵음 정보의 수치와, 상기 인식 모델별 유/무성음, 묵음 대응 사전부(40)로부터 구해진 인식 모델별 유/무성음, 묵음 여부를 바탕으로 전체 인식 모델에 대한 스코어들을 계산하는 유성음, 무성음, 묵음용 특징 파라메터 스코어 계산부와;
    상기 구해진 두 스코어들에 대한 가중치 부여 및 가산하여 결합시키는 가중치 부여 및 가산부와;
    탐색 프레임이 마지막 프레임일때까지 경로 제외 및 최상 경로 탐색하는 경로제외 및 최상경로 탐색부와;
    상기 경로제외 및 최상경로 탐색을 막지막 프레임까지 수행되었을 경우 시작 프레임에서 마지막 프레임까지 연결된 여러 경로들 중에서 최고의 누적 스코어를 가지는 경로를 선택하여 해당하는 인식 대상어를 출력하기 위한 대상어 출력부로 구성된 것을 특징으로 하는 유성음, 무성음, 묵음 구간 정보를 이용한 음성인식장치.
  4. 입력된 파형을 전기적인 신호로 바꾸어 디지털화하는 신호 입력단계와;
    입력된 음성신호를 정해진 구간으로 프레임화하고, 프레임 단위로 음성의 특성을 나타내는 특징 파라메터를 추출하기 위한 음성인식용 특징 파라메터 추출단계와;
    입력된 음성신호를 정해진 구간으로 프레임화하고, 프레임 단위로 유성음, 무성음, 묵음의 특성을 나타내는 특징 파라메터를 추출하기 위한 유성음/무성음/묵음 정보 추출용 특징 파라메터 추출단계와;
    인식에 사용되는 모델들을 각각 유성음, 무성음, 묵음 중에서 일치하는 하나의 음으로 대응시키는 인식 모델별 유성음/ 무성음, 묵음 대응단계와;
    상기 음성인식용 특징 파라메터 추출단계에서 얻어진 음성인식용 특징 파라메터에 의거하여 각 인식 모델에 대한 스코어와 상기 유/무성음, 묵음 정보 추출용 특징파라미터 추출단계에서 얻어진 유/무성믐, 묵음정보추출용 특징 파라메터에 의거하여 각 인식모델에 대한 스코어를 모두 계산하고 소정의 가중치를 각각 부과한 후 가산한 최종 스코어를 바탕으로 가상 경로 제외 및 최상 경로를 탐색하기 위한 탐색단계와;
    상기 특징 파라메터 추출단계에서 얻어진 유성음, 무성음, 묵음 정보추출용 특징 파라메터에 의거하여 매 프레임당 유성음, 무성음, 묵음의 여부를 판정하여 유성음, 무성음, 묵음 정보를 추출하기 위한 유성음/무성음/묵음 정보 추출단계와;
    상기 탐색단계에서 구해진 음성인식 결과를 출력하는 음성인식 출력단계를 수행하는 것을 특징으로 하는 유성음, 무성음, 묵음 구간 정보를 이용한 음성인식방법.
  5. 제 4 항에 있어서,
    상기 인식 모델별 유성음/ 무성음, 묵음 대응단계는,
    음성인식기에서 정의된 인식 모델들을 유성음, 무성음, 묵음 중의 하나로 대응시키기 위하여 입력되는 인식 모델의 유성음, 무성음, 묵음 여부를 알기 위한 해당 인식 모델의 식별자를 입력받는 인식 모델 식별자 입력단계와;
    상기 입력된 인식 모델의 식별자에 해당되는 부분을 검색하여 그 인식 모델이 유성음인지 무성음인지 묵음인지를 읽어들이는 인식 모델별 유성음, 무성음, 묵음 대응 관계 검색단계와;
    상기 구해진 인식 모델의 유성음, 무성음, 묵음 여부에 관한 정보를 출력하는 인식 모델별 유성음, 무성음, 묵음 대응 관계 출력단계를 수행하는 것을 특징으로 하는 유성음, 무성음, 묵음 구간 정보를 이용한 음성인식방법.
  6. 제 4 항에 있어서,
    상기 탐색단계는,
    입력된 음성인식용 특징 파라메터와 전체 인식 모델들과의 유사도를 비교하여 전체 인식 모델에 대한 스코어들을 구하기 위한 음성인식용 특징 파라메터 스코어 계산단계와;
    상기 유/무성음, 묵음 정보 추출단계로부터 구해진 프레임당 유성음, 무성음, 묵음 정보의 수치와, 상기 인식 모델별 유/무성음, 묵음 대응단계로부터 구해진 인식 모델별 유/무성음, 묵음 여부에 의거하여 전체 인식 모델에 대한 스코어들을 계산하는 유성음, 무성음, 묵음용 특징 파라메터 스코어 계산단계와;
    상기 구해진 두 스코어들에 대한 가중치 부여 및 가산하여 결합시키는 가중치 부여 및 가산단계와;
    탐색 프레임이 마지막 프레임일때까지 반복하여 경로 제외 및 최상 경로 탐색하는 경로제외 및 최상경로 탐색단계와;
    상기 경로제외 및 최상경로 탐색을 마지막 프레임까지 수행되었을 경우 시작 프레임에서 마지막 프레임까지 연결된 여러 경로들 중에서 최고의 누적 스코어를 가지는 경로를 선택하여 해당하는 인식 대상어를 출력하는 대상어 출력단계를 수행하는 것을 특징으로 하는 유성음, 무성음, 묵음 구간 정보를 이용한 음성인식방법.
KR1019970069559A 1997-12-17 1997-12-17 유성음, 무성음, 묵음 구간 정보를 이용한 음성인식방법 및 음성인식장치 KR19990050440A (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1019970069559A KR19990050440A (ko) 1997-12-17 1997-12-17 유성음, 무성음, 묵음 구간 정보를 이용한 음성인식방법 및 음성인식장치

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1019970069559A KR19990050440A (ko) 1997-12-17 1997-12-17 유성음, 무성음, 묵음 구간 정보를 이용한 음성인식방법 및 음성인식장치

Publications (1)

Publication Number Publication Date
KR19990050440A true KR19990050440A (ko) 1999-07-05

Family

ID=66090325

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1019970069559A KR19990050440A (ko) 1997-12-17 1997-12-17 유성음, 무성음, 묵음 구간 정보를 이용한 음성인식방법 및 음성인식장치

Country Status (1)

Country Link
KR (1) KR19990050440A (ko)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100355384B1 (ko) * 2001-01-05 2002-10-12 삼성전자 주식회사 음성 신호에서의 유성화 확률 결정 장치 및 그 방법
KR100391123B1 (ko) * 2001-01-30 2003-07-12 이태성 피치 단위 데이터 분석을 이용한 음성인식 방법 및 시스템
KR100582408B1 (ko) * 1999-11-10 2006-05-23 주식회사 케이티 연속음성인식시스템에서의 묵음 모델 명명 방법

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100582408B1 (ko) * 1999-11-10 2006-05-23 주식회사 케이티 연속음성인식시스템에서의 묵음 모델 명명 방법
KR100355384B1 (ko) * 2001-01-05 2002-10-12 삼성전자 주식회사 음성 신호에서의 유성화 확률 결정 장치 및 그 방법
KR100391123B1 (ko) * 2001-01-30 2003-07-12 이태성 피치 단위 데이터 분석을 이용한 음성인식 방법 및 시스템

Similar Documents

Publication Publication Date Title
US10074363B2 (en) Method and apparatus for keyword speech recognition
US20190266998A1 (en) Speech recognition method and device, computer device and storage medium
US7013276B2 (en) Method of assessing degree of acoustic confusability, and system therefor
CN106782603B (zh) 智能语音评测方法及系统
CN111640418B (zh) 一种韵律短语识别方法、装置及电子设备
WO2008033095A1 (en) Apparatus and method for speech utterance verification
Mouaz et al. Speech recognition of moroccan dialect using hidden Markov models
CN1187693C (zh) 以自底向上方式将声调集成到汉语连续语音识别系统中的方法和系统
CN107886968B (zh) 语音评测方法及系统
CN112349289B (zh) 一种语音识别方法、装置、设备以及存储介质
JP2007047412A (ja) 認識文法モデル作成装置、認識文法モデル作成方法、および、音声認識装置
Vaissiere The use of prosodic parameters in automatic speech recognition
KR101424193B1 (ko) 타 언어권 화자음성에 대한 음성인식 시스템의 성능 향상을위한 비직접적 데이터 기반 발음변이 모델링 시스템 및방법
JP2955297B2 (ja) 音声認識システム
KR100391123B1 (ko) 피치 단위 데이터 분석을 이용한 음성인식 방법 및 시스템
KR19990050440A (ko) 유성음, 무성음, 묵음 구간 정보를 이용한 음성인식방법 및 음성인식장치
JP3440840B2 (ja) 音声認識方法及びその装置
JP3378547B2 (ja) 音声認識方法及び装置
JP2009058548A (ja) 音声検索装置
KR100366703B1 (ko) 인간 반응형 음성인식장치
CN111179902B (zh) 基于高斯模型模拟共鸣腔的语音合成方法、设备及介质
KR20000025827A (ko) 음성인식시스템에서의 반음소모델 구축방법및 그를 이용한 발화 검증방법
JP2980382B2 (ja) 話者適応音声認識方法および装置
JP3029654B2 (ja) 音声認識装置
KR100236962B1 (ko) 음소별 화자 종속 변이음 모델링 방법

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
E601 Decision to refuse application