KR100280873B1 - 음성인식 시스템 - Google Patents

음성인식 시스템 Download PDF

Info

Publication number
KR100280873B1
KR100280873B1 KR1019970035170A KR19970035170A KR100280873B1 KR 100280873 B1 KR100280873 B1 KR 100280873B1 KR 1019970035170 A KR1019970035170 A KR 1019970035170A KR 19970035170 A KR19970035170 A KR 19970035170A KR 100280873 B1 KR100280873 B1 KR 100280873B1
Authority
KR
South Korea
Prior art keywords
frequency
formant
standard pattern
voice
position diagram
Prior art date
Application number
KR1019970035170A
Other languages
English (en)
Other versions
KR19990011915A (ko
Inventor
유하진
Original Assignee
구자홍
엘지전자주식회사
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 구자홍, 엘지전자주식회사 filed Critical 구자홍
Priority to KR1019970035170A priority Critical patent/KR100280873B1/ko
Publication of KR19990011915A publication Critical patent/KR19990011915A/ko
Application granted granted Critical
Publication of KR100280873B1 publication Critical patent/KR100280873B1/ko

Links

Images

Landscapes

  • Telephonic Communication Services (AREA)

Abstract

본 발명은 달리는 혼동되기 쉬운 숫자를 정확하게 인식할 수 있는 음성인식 시스템에 관한 것으로, 본 발명에 따른 음성인식 시스템은 숫자에 대한 음성신호를 입력하는 수단과, 음성신호를 일정한 크기의 프레임들로 분할하는 구간분할수단과, 구간분할수단으로부터의 음성신호 프레임들 각각에 대한 포만트 주파수들을 추출하고 추출된 포만트 주파수 중 가장 낮은 두 개의 제1 및 제2 포만트를 출력하는 포만트추출수단과, 포만트추출수단에 의해 추출되어진 제1 및 제2 포만트들에 의해 음성신호의 프레임에 대한 주파수 평면 상의 위치를 결정 ·도식하는 주파수 위치 도식수단과, 주파수 위치 도식수단으로부터의 출력신호에 근거하여 음성신호의 숫자별 주파수 평면 상의 위치들에 대한 발생빈도를 산출하고 그 발생빈도에 의존하여 그래프 형태의 단어별 표준패턴들을 발생하는 표준패턴발생수단과, 표준패턴발생수단에 의해 발생된 숫자별 표준패턴들을 저장하기 위한 메모리와, 주파수 위치 도식수단으로부터의 출력신호에 의하여 메모리에 저장된 숫자별 표준패턴들 각각에 대한 점수를 산출하고 그 산출된 점수들중 가장 큰 값을 가지는 표준패턴에 대한 숫자를 출력하는 음성매칭수단과, 주파수 위치 도식수단을 상기 표준패턴발생수단 및 음성 매칭수단에 선택적으로 접속시키는 절환수단을 구비한다.

Description

음성인식 시스템
본 발명은 한 단어씩 구분 발성된 한국어 숫자음 인식기에 관한 것으로, 특히 포만트 주파수 평면을 이용하여 모음을 판별하는 음성인식 시스템에 관한 것이다.
차량용 휴대 전화기는 교통체증이 심한 우리나라에서 긴급한 상황을 전할 수 있어 편리하게 사용되고 있다. 그런데 주행중인 차안에서는 운전자는 다이얼 버튼을 누르기가 힘들어 교통사고의 위험이 따르게 된다. 따라서 주행중인 차안에서 음성으로 다이얼을 할 수 있다면 사고의 위험을 줄이며 대단히 편리할 것이다.
여기에서 사용되는 음성인식기를 각 전화기마다 부착하면 그 비용이 크게 되므로, 음성인식기는 교환기에 설치하고, 사용자가 발성한 전화번호를 교환기에 보내어 인식하여 다이얼링을 하게 된다. 휴대 전환기에서는 사용할 수 있는 음성의 주파수 대역폭이 제한되므로 전화기를 통하여 전달된 음성은 음질이 저하되며, 따라서 인식 성능이 저하된다. 특히 우리나라의 숫자는 모두 단음절로 구성되어 있으므로, 5와 9, 1과 2 등 서로 유사한 숫자에 대해서는 구별이 어렵게 된다.
현재 음성인식방법으로서는 HMM(Hidden Markov Model)이 가장 많이 사용되고 있으나, 이것은 학습자료가 녹음된 환경에서만 높은 성능을 나타내며, 달리는 차안에서와 같이 주변 잡음이나 전화기의 변화 등 다양한 환경하에서는 그 성능이 낮아지게 된다. 특히 5와 9두 가지 숫자는 서로 오인식 되는 경우가 많다. 따라서 혼동되기 쉬운 숫자에 대해서는 별도의 처리를 함으로써 인식률 저하를 막아야 할 필요가 있다.
따라서, 본 발명의 목적은 달리는 차안 등 잡음이 심한 환경에서 발성된 혼동되기 쉬운 숫자를 정확하게 인식할 수 있는 음성인식시스템을 제공함에 있다.
본 발명의 다른 목적은 음성을 인식하는데 소요되는 시간을 최소화 할 수 있는 음성인식시스템을 제공함에 있다.
제1도는 본 발명의 바람직한 실시예에 따른 음성인식시스템의 블럭도.
제2도는 히스토그램의 일 예를 도시하는 도면.
* 도면의 주요부분에 대한 부호의 설명
10 : 음성입력부 12 : 음성구간추출부
14 : 포만트추출부 16 : 주파수위치도식부
18 : 선택스위치 20 : 히스토그램작성부
22 : 메모리 24 : 매칭부
상기 목적을 달성하기 위한 본 발명에 따른 음성인식 시스템은 숫자에 대한 음성신호를 입력하는 수단과, 음성신호를 일정한 크기의 프레임들로 분할하는 구간 분할수단과, 구간분할수단으로부터의 음성신호 프레임들 각각에 대한 포만트 주파수들을 추출하고 추출된 포만트 주파수 중 가장 낮은 두 개의 제1 및 제2 포만트를 출력하는 포만트추출수단과, 포만트추출수단에 의해 추출되어진 제1 및 제2 포만트들에 의해 음성신호의 프레임에 대한 주파수 평면 상의 위치를 결정 ·도식하는 주파수 위치 도식수단과, 주파수 위치 도식수단으로부터의 출력신호에 근거하여 음성신호의 숫자별 주파수 평면 상의 위치들에 대한 발생빈도를 산출하고 그 발생빈도에 의존하여 그래프 형태의 단어별 표준패턴들을 발생하는 표준패턴발생수단과, 표준패턴발생수단에 의해 발생된 숫자별 표준패턴들을 저장하기 위한 메모리와, 주파수 위치 도식수단으로부터의 출력신호에 의하여 메모리에 저장된 숫자별 표준패턴들 각각에 대한 점수를 산출하고 그 산출된 점수들중 가장 큰 값을 가지는 표준패턴에 대한 숫자를 출력하는 음성매칭수단과, 주파수 위치 도식수단을 상기 표준패턴 발생수단 및 음성매칭수단에 선택적으로 접속시키는 절환수단을 구비한다.
이하, 본 발명의 바람직한 실시예를 첨부한 제1도를 참조하여 상세히 설명하기로 한다.
제1도를 참조하면, 본 발명의 실시예에 따른 음성인식시스템은 음성입력부(10)에 직렬 접속되어진 음성구간추출부(12), 포만트추출부(14) 및 주파수위치검출부(16)를 구비한다. 음성입력부(10)는 휴대전화기(도시하지 않음)로부터 대기를 경유하여 전송되어진 고주파신호로부터 기저대역신호를 복원한다. 음성입력부(10)에 의해 수신되어진 기저대역신호는 음성구간추출부(12)에 공급된다. 이를 위하여, 음성입력부(10)는 고주파신호 수신장치들을 구비한다. 음성구간추출부(12)는 음성입력부(10)로부터의 기저대역신호중 음성정보가 포함되어진 음성구간을 추출한다. 이를 위해, 음성구간추출부(12)는 기저대역신호를 일정한 시간간격의 프레임 단위로 분할하고 그 분할된 프레임단위의 기저대역신호에 음성정보가 포함되어 있는가를 판단한다. 음성구간추출부(12)는 음성정보가 포함된 프레임단위의 기저대역신호 (이하, “프레임음성신호”라 함)들만을 포만트추출부(14)에 공급한다. 포만트추출부(14)는 모든 프레임음성신호에 대하여 포만트(formant) 주파수들을 추출한다. 이 포만트 주파수는 인간의 성도 특성을 나타내며, 음성 인식에서 모음을 구별하는데 많이 사용된다. 포만트 주파수 중 가장 낮을 두 개의 주파수를 제1 및 제2 포만트라고 한다. 주파수위치도식부(16)는 포만트추출부(14)로부터의 제1 및 제2 포만트에 의해 주파수평면상의 임의의 위치에 한점(P(F1,F2))을 표시한다. 주파수평면은 제1 포만트주퐈수(F1)과 제2 포만트주파수(F2)에 의해 형성되며, 이 주파수평면상에 제1 포만트와 제2 포만트에 해당하는 위치에 한점(P(F1,F2))을 표시한다.
음성인식시스템은 포만트위치도식부(16)의 출력신호를 히스토그램작성부(20)와 매칭부(24)쪽으로 절환하는 선택스위치(18)를 추가로 구비한다. 선택스위치(18)는 운용자의 선택에 따라 포만트위치도식부(16)를 히스토그램작성부(20) 또는 매칭부(24)에 접속시킨다. 이를 상세히 하면, 선택스위치(18)는 휴대전화기 가입자가 자신의 음성을 학습시키고자 하는 경우에 포만트위치도식부(16)를 히스토그램작성부(20)에 접속시키는 반면에 휴대전화기 가입자의 음성을 인식하고자 하는 경우에는 포만트위치도식부(16)을 매칭부(24)에 연결시킨다. 히스토그램작성부(20)는 포만트위치도식부(16)로부터 선택스위치(18)를 경유하여 입력되는 도식화된 위치신호에 의해 주파수평면상의 위치들(즉, 점들) 각각에 대한 출현빈도를 산출한다. 그리고 그 산출된 주파수평면상의 위치들 각각에 대한 출현빈도를 그래프의 형태의 히스토그램을 작성한다. 이 히스토그램을 제2도를 참조하여 상세히 살펴보기로 한다.
제2도는 숫자음 “5”에 대한 히스토그램의 예를 도시한다. 제2도에서, 가로축 및 세로축은 로그스케일로 표현되는 주파수이고 이 가로축 및 세로축에 의해 형성되는 주파수평면내의 점들은 그 위치에서의 출현빈도를 나타낸다. 이 히스토그램은 표준패턴으로서 메모리(22)에 저장되게 된다. 따라서, 메모리(22)에는 숫자음들(0 내지 9) 각각에 대한 히스토그램들이 저장되게 된다. 그리고 메모리(22)에는 숫자들(0 내지9)들이 저장되어 있다.
다시 제1도로 되돌아가면, 매칭부(24)는 선택스위치(18)를 경유하여 포만트위치도식부(16)으로부터의 도식화된 위치신호에 의해 주파수평면상의 점들의 열을 산출한다. 그리고 각 점들 각각에 대한 표준패턴 별로 점수를 산출한 다음 표준패턴 별로 점들의 열의 총점(Si)을 식1 과 같이 산출한다.
[식 1]
Si = ∑jHij(F1,F1)/∑j(1 - Hij(F1,F2))
여기서, Hij(F1,F2)는 i번째 점(Pi(F1,F2))에 대한 j번째 표준패턴에서의 출현갯수이다. 다음으로, 매칭부(24)는 표준패턴 별 총점들 중 가장 큰 값을 가지는 표준패턴을 검출하고 그 검출된 표준패턴에 대판 숫자를 인식된 결과로서 출력하게 된다.
이상에서와 같이 본 발명은 간단하고 빠른 처리로 모음을 인식하여 혼동하기 쉬운 두 개의 숫자(예를 들면, 5와 9)를 구별할 수 있으므로 구분단어 인식기의 인식률을 향상시킬 수 있다. 또한 모든 프레임이 하나의 주파수평면에 포함되므로 끝점검출 알고리즘의 오류로 인한 인식률 저하를 막을 수 있다. 따라서 기존의 단어 인식기가 가지는 취약점을 해결할 수 있으므로 전화 음성 다이얼링 시스템 등의 실용화를 앞당길 수 있다.

Claims (1)

  1. 숫자에 대한 음성신호를 입력하는 수단과, 음성신호를 일정한 크기의 프레임들로 분할하는 구간분할수단과, 상기 구간분할수단으로부터의 음성신호 프레임들 각각에 대한 포만트 주파수들을 추출하고 추출된 포만트 주파수 중 가장 낮은 두 개의 제1 및 제2 포만트를 출력하는 포만트추출수단과, 상기 포만트추출수단에 의해 추출되어진 제1 및 제2 포만트들에 의해 음성신호의 프레임에 대한 주파수 평면 상의 위치를 결정 ·도식하는 주파수 위치 도식수단과, 상기 주파수 위치 도식수단으로부터의 출력신호에 근거하여 음성신호의 숫자별 주파수 평면 상의 위치들에 대한 발생빈도를 산출하고 그 발생빈도에 의존하여 그래프 형태의 단어별 표준패턴들을 발생하는 표준패턴발생수단과, 상기 표준패턴발생수단에 의해 발생된 숫자별 표준패턴들을 저장하기 위한 메모리와, 상기 주파수 위치 도식수단으로부터의 출력신호에 의하여 상기 메모리에 저장된 숫자별 표준패턴들 각각에 대한 점수를 산출하고 그 산출된 점수들중 가장 큰 값을 가지는 표준패턴에 대한 숫자를 출력하는 음성매칭수단과, 상기 주파수 위치 도식수단을 상기 표준패턴발생수단 및 음성매칭수단에 선택적으로 접속시키는 절환수단을 구비하는 것을 특징으로 하는 음성인식시스템.
KR1019970035170A 1997-07-25 1997-07-25 음성인식 시스템 KR100280873B1 (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1019970035170A KR100280873B1 (ko) 1997-07-25 1997-07-25 음성인식 시스템

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1019970035170A KR100280873B1 (ko) 1997-07-25 1997-07-25 음성인식 시스템

Publications (2)

Publication Number Publication Date
KR19990011915A KR19990011915A (ko) 1999-02-18
KR100280873B1 true KR100280873B1 (ko) 2001-02-01

Family

ID=66040412

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1019970035170A KR100280873B1 (ko) 1997-07-25 1997-07-25 음성인식 시스템

Country Status (1)

Country Link
KR (1) KR100280873B1 (ko)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20010096056A (ko) * 2000-04-17 2001-11-07 고성욱 긴급상황 통보방법 및 장치

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100717625B1 (ko) 2006-02-10 2007-05-15 삼성전자주식회사 음성 인식에서의 포먼트 주파수 추정 방법 및 장치
KR100901640B1 (ko) * 2006-05-10 2009-06-09 주식회사 케이티 음성 인식을 위한 음성 특징 벡터 양자화에 있어 비균일표본을 기반으로 하는 학습 데이터 선정 방법

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20010096056A (ko) * 2000-04-17 2001-11-07 고성욱 긴급상황 통보방법 및 장치

Also Published As

Publication number Publication date
KR19990011915A (ko) 1999-02-18

Similar Documents

Publication Publication Date Title
US4624008A (en) Apparatus for automatic speech recognition
EP1301922B1 (en) System and method for voice recognition with a plurality of voice recognition engines
DE60024236T2 (de) Sprach endpunktbestimmung in einem rauschsignal
US6553342B1 (en) Tone based speech recognition
EP1220197A2 (en) Speech recognition method and system
US9911408B2 (en) Dynamic speech system tuning
JPS62231997A (ja) 音声認識システム及びその方法
RU2466468C1 (ru) Система и способ распознавания речи
JPH07210190A (ja) 音声認識方法及びシステム
WO2002095729A1 (en) Method and apparatus for adapting voice recognition templates
US20040215454A1 (en) Speech recognition apparatus, speech recognition method, and recording medium on which speech recognition program is computer-readable recorded
ES2286014T3 (es) Esquema de rechazo de reconocimiento de voz.
EP1600942B1 (en) Automatic word pronunciation generation for speech recognition
JP2002116793A (ja) データ入力システム及びその方法
US5159637A (en) Speech word recognizing apparatus using information indicative of the relative significance of speech features
EP1024476A1 (en) Speech recognizing device and method, navigation device, portable telephone, and information processor
KR100280873B1 (ko) 음성인식 시스템
KR100554442B1 (ko) 음성인식 기능을 가진 이동 통신 단말기, 및 이를 위한음소 모델링 방법 및 음성 인식 방법
EP1316944B1 (en) Sound signal recognition system and method, and dialog control system and method using it
US6308152B1 (en) Method and apparatus of speech recognition and speech control system using the speech recognition method
EP0177854B1 (en) Keyword recognition system using template-concatenation model
Matassoni et al. Some results on the development of a hands-free speech recognizer for carenvironment
KR100827074B1 (ko) 이동 통신 단말기의 자동 다이얼링 장치 및 방법
KR950000532B1 (ko) 핸드프리 음성 다이얼링 시스템의 음성인식 방법
KR100647291B1 (ko) 음성의 특징을 이용한 음성 다이얼링 장치 및 방법

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
E601 Decision to refuse application
J201 Request for trial against refusal decision
AMND Amendment
E902 Notification of reason for refusal
B701 Decision to grant
GRNT Written decision to grant
FPAY Annual fee payment

Payment date: 20070918

Year of fee payment: 8

LAPS Lapse due to unpaid annual fee