KR0180651B1

KR0180651B1 - 음성인식장치

Info

Publication number: KR0180651B1
Application number: KR1019960033486A
Authority: KR
Inventors: 강성춘; 안기환; 이수영; 조정욱
Original assignee: 구자홍; Lg전자주식회사
Priority date: 1996-08-13
Filing date: 1996-08-13
Publication date: 1999-04-01
Also published as: KR19980014495A

Abstract

본 발명은 전자제품등에도 응용이 가능한 음성인식장치에 관한 것으로, 이 음성인식장치는 아날로그신호 음성신호를 디지털신호로 변환하는 A/D변환기와, A/D 변환기에서 변환된 12비트의 디지털 신호를 채널로 필터링하는 필터 처리부와, 상기 필터 처리부로부터 잡음에 음성 특징을 추출하는 특징 추출부, 상기 디지털신호로 변환된 음성신호에 기초하여 이 음성신호의 시작점과 끝점 정보를 판별하는 워드경계 검출부, 상기 음성 특징과 상기 음성신호 시작과 끝점 정보에 기초하여 시간 정규화 및 신경회로망을 이용한 분류과정을 거쳐 최종의 결과를 코딩하여 출력하는 분석 처리부를 구비함으로써 외부잡음에 둔감하구, 실제 전자제품등에도 응용이 가능한 효과가 있다.

Description

음성인식장치

제1도는 종래의 음성인식 장치를 개략적으로 도시한 블록 구성도.

제2도는 본 발명의 실시예에 따른 음성인식 장치를 도시한 블록 구성도.

제3도는 제2도의 동작을 설명하기 위한 타이밍도.

* 도면의 주요부분에 대한 부호의 설명

10 : 필터 처리부 20 : 특징 추출부

30 : 워드경계 검출부 40 : 워드경계 검출부

본 발명은 음성인식 장치에 관한 것으로, 특히 외부잡음에 둔감하고, 실제 전자제폼등에도 응용이 가능한 음성인식장치에 관한 것이다.

제1도는 종래의 음성인식 장치를 개략적으로 도시한 블럭 구성도이다.동도면에서 도시된 바와 같이, 음성인식 장치는 크게 특징추출부(2)와 인식기(4)등으로 구성된다. 즉, 입력 음성신호는 기존의 특징추출 방법으로 LPG(Line Prediction Coding Analysis)등과 같은 방법을 이용하였고, 인식기는 HMM(Hidden Markov Model)과 같은 방법을 많이 이용하였다. 따라서 기존의 방법으로는 ASIC 구현이 어렵기 때문에 소프트웨어만 처리하던지 아니면 DSP를 이용하여 복잡한 시스템을 구성해야만 함으로 가전제폼과 같은 실생활에 응용하기가 어려웠다.

따라서,본 발명은 상기한 문제점을 해결하기 위하여 안출안 것으로, 본 발명의 목적은 사람의 청각모델과 신경회로망을 이용하여 외부잡음에 둔감하고, 실제 전자제폼등에도 응용이 가능한 음성인식장치를 제공하는데 있다.

상기의 목적을 달성하기 위하여, 본 발명에 따른 음성인식장치는 아날로그신호 음성신호를 디지털신호로 변환하는 A/D 변환기와, A/D 변환기에서 변환된 12비트의 디지털 신호를 16개의 채널로 필터링하는 필터 처리부와, 필터처리부의 출력신호로부터 잡음에 강한 음성 특징을 추출하고 이 추출된 결과를 출력하는 특징 추출부와: 디지털신호로 변환된 음성신호에 기초하여 이 음성신호의 시작점과 끝점 정보를 판별하는 워드경계 검출부와: 특징 추출부로부터 제공되는 음성 특징과 상기 워드경계 검출부로부터의 음성신호 시작과 끝점 정보에 기초하여 시간 정규화 및 신경회로망을 이용한 분류과정을 거쳐 최종의 결과를 코딩하여 출력하는 분석 처리부를 구비한다.

이하, 예시된 도면을 참조하여 본 발명을 상세히 설명한다.

제2도는 본 발명에 따른 음성인식 장치를 도시한 블록 구성도이고, 제3도는 제2도의 장치를 설명하는 타이밍도이다.

제2도를 참조하면, 본 발명에 따른 음성인식 장치는 클럭 발생부(5)와, 필터 처리부(10), 특징 추출부(20), 워드경계 검출부(30), 분석 처리부(40)를 포함한다.

A/D 변환기는 아날로그신호인 음성신호를 입력받아 이를 12비트의 디지털 음성신호로 변환하여 후술하는 필터 처리부(10)와 워드경계검출부(30)로 출력하도록 구성된다.

필터 처리부(10)는 A/D 변환기에서 변환된 12비트의 디지털 신호를 16개의 채널로 필터링하여 후술하는 특징 추출부(20)에 출력하도록 이루어지며, 상기 필터 처리부(10)는 16 채널을 갖는 필터 밴크로 구성된다. 상기 각 채널의 주파수 특징은 포유류의 귀로부터 얻어지는 데이터에 기초하여 만들어진다.

이 필터는 100단의 FIR 필터로 구현되며, 한쌍의 곱셈기와 가산기만을 가지고 있어서, 이를 순차적으로 바꾸어 가면서 16 채널의 필터 출력을 차례대로 만들낸 후에 음성신호, 필터계수, 필터의 출력 모두 12비트의 신호로 정규화한다.

특징 추출부(20)는 필터 처리부(10)의 출력신호로부터 잡음에 강한 음성 특징을 추출하고 이 추출된결과를 후술하는 분석 처리부(40)에 출력하도록 구성되며, 상기 특징 추출부(20)는 인간의 청각모델링을 기초로해서 음성 특징을 추출한다.

워드경계검출부(30)는 상기 디지털신호로 변환된 음성신호에 기초하여 이 음성신호의 시작점과 끝점 정보를 판별하여 후술하는 분석 처리부(40)로 출력되도록 구성되며, 상기 워드경계 검출부(30)는 음성신호의 프레임 별로 에너지와 영점교차율을 계산해서 상기 음성신호의 시작점과 끝점 정보를 판별한다.

분석 처리부(40)는 특징 추출부(20)에서 추출된 50개 단어중에서 선별하며, 상기 워드경계검출부(30)로부터의 음성신호 시작과 끝점 정보에 기초하여 시간 정규화를 수행하게 되는데, 이때 사용되는 정규화방법은 비선형 방법인 트레이스 세크멘트(Trace Segment) 방법을 이용한다. 또한, 정규화된 데이터를 SOFFA(Self-Organizing Feature with Fuzzy Association)라는 신경회로망 입력으로 가해서 50개의 기준 단어에 대한 각각의 출력값을 구한 다음에 각각의 출력값중 가장 큰값을 갖는 단어를 6 비트로 코딩하여 출력하게 된다.

분류하는 음성에 따라 변하게되는 신경회로망의 가중값 데이터는 외부롬을 이용하여 저장하고, 롬 데이터를 바꿈으로서 다른 음성에 대해서도 쉽게 적용할 수 있다.

상기와 같이 구성된 본 발명을 상세히 설명한다.

제2도를 참조하면, 필터 처리부(10)는 A/D 변환기에서 변환된 12비트의 디지털 신호를 16개 채널로 필터링하여 특징 추출부(20)에 출력한다. 여기에서 FS는 12비트 신호로 샘플링 주파수인Clk1s(=11.025kHz)과 Clk2(=11.025k × 12 = 176.4khz)에 동기되며, 타이밍은 제3도(a)와 같다.

특징 추출부(20)는 필터 처리부(10)의 출력신호로부터 잡음에 강한 음성 특징을 추출한 신호를 분석 처리부(40)로 제공한다. 즉, FFS는 특징 추출부(20)의 출력인 주파수 빈값이 상기 분석 처리부(40)로 전송되는 신호이다. 이 신호는 8비트이며, 매 10.15873(112샘플)마다 clk3s (=11.025kHz/112=98.437h clk4(=(11.025khz/112)×16=1.575hz)에 동기되며, 타이민은 제3도(b)와 같다.

분석처리부(40)는 특징 추출부(20)로부터 제공되는 음성 특징과 상기 워드경계 검출부(30)의 음성신호 시작과 끝점 정보에 기초하여 분류과정을 거쳐 최종의 결과를 코딩한다. 여기에서 시작태그, 종료태그는 워드의 시작과 끝을 찾았음을 의미하는 신호로서 이 두 신호는 항상 분석 처리부(40)가 clk3s의 라이징 에지에서 체크되도록 전후 1 동기클럭의 여유를 두면된다. 이 신호들과 동시에 태그에는 시작태그와 종료태그가 실린다.(case-1)

반면, 분석 처리부(40)은 현재의 퓨쳐메모리(Feature Memory)(특징 추출부로부터의 FES를 메모리)의 위치를 clk3s와 동기되어 있는 롬((Featur Memory Address) 신호를 통하여 알 수 있다. FMA는 clk3s의 한 주기 동안 유지되어야만 한다.(case-2) 즉, 분석 처리부(40)의 내무 메모리가 완전히 차더라도, 원드경계 검출부(30)에서 주어지는 FMA신호는 계속해서 올라가므로, 분석 처리부(40)는 메모리가 풀(Full) 인가를 스스로 점검해서 같은 곳에 데이터가 덮어쓰여지지 않도록 되어있다. 그리고 원드경계 검출부(30)에서 시작태그를 넘어서는 종료태그를 넘겨주어서는 안되며, 이때는 항상 시작태그-1을 넘겨주는데, 이는 타이밍은 제3도(c)와 같다.

A/D 변환기로부터 인가되는 SD(Speech Data)는 clk1s의 라이징 에지에서 필터 처리부(10)와 원드경계 검출부(30)에 의해서 읽혀진다. 그러므로 음성신호를 디지털 신호로 변환하는 외부의 12비트 디지털 신호는 적어도 clk1s의 라이징 에지에서 한 시스템 클럭 이전에 변환을 마쳐야한다. A/D 변환을 위해서는 외부로 clkOut(내부적으로는 clk1sd)이라는 신호를 내보내는데, 이 신호는 clk1보다 1/16 주기만큼 늦춰진 것이다. 이 신호가 라이징 에지에서 변환을 계시하는 A/D 변환의 제어신호에 연결한다면 85μsec의 여유가 있게되고, 폴링 에지에서 변환을 계시하는 A/D 변환의 제어신호에 연결한다면 79μsec의 여유가 있게된다. 타이밍은 제3도(d)와 같다.

한편, 출력(OO- O5)이 모두 '1'인 경우는 리젝트를 의미한다. 패턴의 번호는 0부터 시작한다. /OV는 출력이 나올 때, '0'으로 되고, /OVACK가 '0'으로 떨어지면, 다시 '1'로 된다.(Case-1)

/OV가 '0'으로 떨어질 때, 이미 /OVACK가 '0'이면, 두 시스템 클럭(동기클럭)만큼만 '0'을 유지한 후 '1'로 돌아간다.(Case-2)

모든 경우에 /OV의 앞위 한 클럭 전휴에 출력이 나오므로, 외부 회로에서는 라이징 에지, 폴링 에지 둘다 래치가 가능하다. 즉, 이는 타이밍은 제3도(e)와 같다.

롬은 분석 처리부(40)에서만 읽어간다. 이에 관련된 신호들은 ADDR DATA,/READ이다. ADDR에 어드레스가 실리는 동시에 /READ신호가 떨어진다, 그 휴 8 시스템 클럭 후에 DATA를 래치하면 된다. 그 후로 ADDR과 /READ는 2 시스템 클럭간은 유지해야한다. 이러한 타이밍은 200nsec의 액세스 시간을 갖는 EEP롬을 구동하는데 충분하면, 타이밍응 제3도(f)와 같다.

이상에서 설명한 바와 같이 본 발명의 음성인식장치는 외부잡음에 둔감하고, 실제 전자제품등에도 응용이 가능한 효과가 있다.

Claims

아날로그신호 음성신호를 디지털신호로 변환하는 A/D 변환기와; 상기 A/D 변환기에서 변환된 12비트의 디지털 신호를 소정개의 채널로 필터링하는 필터 처리부와; 상기 필터처리부의 출력신호로부터 잡음에 강한 음성 특징을 추출하고 이 추출된 결과를 출력하는 특징 추출부와: 상기 디지털신호로 변환된 음성신호에 기초하여 이 음성신호의 시작점과 끝점 정보를 판별하는 워드경계 검출부와; 상기 특징 추출부로부터 제공되는 음성 특징과 상기 워드경계 검출부로부터의 음성신호 시작과 끝점 정보에 기초하여 시간 정규화 및 신경회로망을 이용한 분류과정을 거쳐 최종의 결과를 코딩하여 출력하는 분석 처리부를 구비함을 특징으로 하는 음성인식장치.
제1항에 있어서, 상기 필터 처리부는 A/D 변환기에서 변환된 12비트의 디지털 신호가 16개의 채널로 필터링됨을 특징으로 하는 음성인식장치.