KR20020073825A

KR20020073825A - 음성 인식 시스템

Info

Publication number: KR20020073825A
Application number: KR1020010013689A
Authority: KR
Inventors: 민홍식; 고성택
Original assignee: 민홍식
Priority date: 2001-03-16
Filing date: 2001-03-16
Publication date: 2002-09-28

Abstract

본 발명은 음성 인식 시스템에 관한 것으로, 보다 상세하게는 말하는 사람이나 성별에 관계없이 쉽게 음성을 인식할 수 있는 음성 인식 시스템에 관한 것이다.

본 발명은 음성 인식을 위하여 티칭된 패턴을 저장하는 음성 데이터 저장부와; 화자의 음성을 입력시켜 주는 마이크와; 상기 마이크를 통하여 입력된 화자의 음성에 대응하는 음성 신호를 출력시켜 주는 스피커와; 상기 마이크를 통하여 입력된 음성 신호를 상기 음성 데이터 저장부에 저장되어 있는 다수의 음성 데이터와 비교하여 그 패턴이 가장 유사한 음성 데이터를 추출하여, 음성 신호로 변환하여 상기 스피커로 출력하는 제어부와; 상기 제어부의 동작에 필요한 프로그램을 저장하는 프로그램 메모리와; 상기 제어부의 데이터 처리에 필요한 메모리 영역을 제공하는 임시 메모리와; 상기 제어부의 동작에 필요한 프로그램 입력과 데이터 통신을 위하여 컴퓨터와의 통신을 위한 포트를 포함하는 것을 특징으로 하는 음성 인식 시스템을 제공한다.

Description

음성 인식 시스템{System of Voice Recognition}

일반적으로 종래의 음성 인식 기술은 인식되기를 바라는 단어들에 대해서 각각 데이터화 된 웨이트 테이블(weight table)이 필요한데, 웨이트 테이블을 만들기 위해서는 긴 시간(약 3개월)과 많은 비용이 필요하고, 한 번 정해진 단어는 변경하기가 불가능하다.

따라서, 종래의 음성 인식 기술은 그 기술이 적용되는 분야에 따라서 웨이트 테이블이 저장된 메모리를 교체함으로써, 적용할 수밖에 없었다.

다시 말하면, 종래의 음성 인식 기술에 의한 완구의 경우에 음성 인식 ASIC 칩을 완구에 장착하면, 아동이 완구와 적절한 범위 내에서 대화가 가능하지만, 대화 범위를 변경하기 위해서는 관련 내용별로 분류된 컨텐츠에 따라서 음성 데이터인 웨이트 테이블이 다른 메모리(ROM)를 교체해 주어야 하는 문제점이 있었다.

특히, 웨이트 테이블은 인식될 각각의 단어들에 대해 많은 사람(500∼1000명 정도)의 음성을 티칭(teaching)하여 만들어지는데, 여기서 많은 시간과 비용이 소요되기 때문에 어려움이 많았다.

따라서, 본 발명은 이러한 종래 기술의 문제점을 감안하여 안출된 것으로, 그 목적은 말하는 사람이나 성별에 관계없이 간편하게 음성 인식을 구현할 수 있는 음성 인식 시스템을 제공하는데 있다.

도 1은 본 발명에 따른 음성 인식 시스템의 구성을 설명하기 위한 블록도.

* 도면의 주요 부분에 대한 부호 설명 *

10 : 제어부15 : 디코더

20 : 메모리22 : 프로그램 저장부

24 : 제 1음성 데이터 저장부26 : 제 2음성 데이터 저장부

28 : 제 3음성 데이터 저장부30 : 임시 메모리

40 : 마이크45 : 스피커

50 : 포트

상기한 목적을 달성하기 위하여, 본 발명은 음성 인식을 위하여 샘플링된 패턴 데이터를 저장하는 음성 데이터 저장부와; 화자의 음성을 입력시켜 주는 마이크와; 상기 마이크를 통하여 입력된 화자의 음성에 대응하는 음성 신호를 출력시켜 주는 스피커와; 내부 SRAM을 포함하여 구성되며, 상기 마이크를 통하여 입력된 음성 신호를 상기 음성 데이터 저장부에 저장되어 있는 다수의 음성 데이터와 비교하여 그 패턴이 가장 유사한 음성 데이터를 추출하여, 음성 신호로 변환하여 상기 스피커로 출력하는 제어부와; 상기 제어부의 동작에 필요한 프로그램을 저장하는 프로그램 메모리와; 음성 인식을 위하여 상기 제어부에서 동작하는 음성 인식용 프로그램에 의한 데이터 처리에 필요한 패턴 데이터를 상기 메모리 영역을 제공하는 임시 메모리와; 상기 제어부의 동작에 필요한 프로그램 입력과 데이터 통신을 위하여 컴퓨터와의 통신을 위한 포트를 포함하고, 상기 제어부는 상기 마이크를 통하여 입력되는 음성을 디지털 신호로 변환하고, 변환된 데이터는 입력된 음성의 특징을 추출하여 패턴 데이터로 다시 변환하고, 그 결과를 상기 내부 SRAM에 저장하며, 음성 인식용 프로그램을 이용하기 위해 내부 SRAM에 저장된 패턴 데이터를 상기 임시 메모리로 복사한 후에, 음성 인식용 프로그램과 임시 메모리에 저장된 패턴 데이터를 이용하여 입력된 음성을 인식하고, 상기와 같이 인식된 데이터에 상응하는 음성 데이터를 상기 음성 데이터 저장부에서 추출하여 출력하는 것을 특징으로 하는 음성 인식 시스템을 제공한다.

상기 제어부는 RSC-364 음성 인식 칩으로 이루어지고, 상기 제어부는 상기 메모리를 액세스하기 위한 디코더를 더 포함한다.

상기 음성 데이터 저장부에 저장되는 음성 데이터는 인식될 단어에 대해 여러 사람의 음성을 샘플링하고, 패턴 데이터를 생성한 후에, 각각의 단어에 대한 패턴 데이터를 평균 처리하여 이루어진다.

상기 제어부에 의한 음성 인식은 입력된 음성을 일정한 크기의 패턴 데이터로 만들고, 상기 패턴 데이터와 상기 음성 데이터 저장부에 저장된 패턴 데이터를비교하고 감산하여 가장 차이가 작은 음성을 선택하여 출력한다.

상기한 바와 같이 본 발명에서는 많은 비용과 시간을 들이지 않고 화자 독립 음성 인식 기술을 구현할 수 있다.

(실시예)

이하에 상기한 본 발명을 바람직한 실시예가 도시된 첨부 도면을 참고하여 더욱 상세하게 설명한다.

첨부한 도면, 도 1은 본 발명에 따른 음성 인식 시스템의 구성을 설명하기 위한 블록도이다.

본 발명에서 제어부(10)는 RSC-364 음성 인식 칩으로써, 메모리(20)에 저장된 음성 데이터의 출력을 위한 마이크로컨트롤러이다.

최고, 14.318MHz의 시스템 클럭으로 동작하고, 외부의 다른 장치들을 제어할 수 있는 16개의 입출력 포트를 보유하고 있으며, 아날로그 음성 신호를 디지털 신호로 변환하고, 변환된 신호(패턴)에 대하여 음성 인식을 위한 수치적 계산을 수행한다. 그리고, 디지털 신호로 압축되어 상기 메모리(20)에 저장된 음성 데이터를 추출하여 사람이 들을 수 있는 아날로그 신호로 출력하는 기능을 갖고 있다.

상기 메모리(20)는 256kByte의 EEPROM으로, 음성 인식을 위한 프로그램과 음성 출력을 위한 음성 데이터를 저장하는 영역으로 분리되어 있다.

상기 제어부(10)의 어드레스 버스는 64kByte의 메모리 영역만 직접 액세스할 수 있기 때문에 상기 메모리(20)는 4개의 뱅크로 분리하여 사용한다.

첫 번째 뱅크는 음성 인식을 위한 프로그램을 저장하는 프로그램 메모리(22)로 사용하고, 나머지 3개의 뱅크는 각각 제 1∼3음성 데이터 저장부(24, 26, 28)로 이용한다.

상기 제 1∼3음성 데이터 저장부(24, 26, 28)에는 인식된 음성에 대해 적절히 대답할 수 있도록 출력을 위한 압축된 음성 데이터를 저장하는 것이다.

상기 메모리(20)는 제어부(10)에 의하여 직접적으로 액세스되지 못하기 때문에 제어부(10)에 연결된 디코더(15)에 의하여 각 메모리가 선택된다.

이 디코더(15)는 제어부(10)의 입출력 포트를 프로그램으로 제어함으로써 그에 연결된 각각의 메모리를 선택할 수 있다.

상기 제어부(10)에 연결된 임시 메모리(30)는 시리얼 RAM으로써, 인식될 음성 데이터에서 추출된 패턴 데이터를 임시로 저장하기 위한 메모리이다.

이 메모리는 기존의 음성 인식 기술이 화자 독립 인식 방법(speaker independent recognition)에 의한 프로그램을 사용하지 않고 직접 이 패턴 데이터를 다른 프로그램에서 사용할 수 있도록 해 주는 기능을 갖고 있다.

상기 제어부(10)에는 화자의 음성을 입력할 수 있는 마이크(40)와 상기 메모리(20)에 저장되어 있는 압축된 음성 데이터를 음성 신호로 출력하기 위한 스피커(45)가 연결되어 있으며, 상기 제어부(10)의 동작에 필요한 프로그램(프로그램 메모리에 저장되는 프로그램)의 입력 및 데이터 입력을 위하여 다른 컴퓨터와의 데이터 입출력이 가능한 직렬 포트(50)가 연결되어 있다.

상기 제어부(10)의 동작에 필요한 프로그램은 RSC-364용 어셈블러로 코딩되어 상기 프로그램 메모리(22)에 저장되며, 상기 제어부(10)의 데이터 처리 영역은상기 임시 메모리(30)를 이용한다.

한편, 음성이 마이크(40)를 통하여 입력되면 상기 제어부는 라이브러리를 이용하여 128바이트의 패턴을 만들고, 이는 상기 제어부에 내장되어 있는 SRAM에 저장하고, 이 패턴을 이용하여 음성 인식을 실행한다.

그러나, 패턴이 저장된 SRAM에 접근할 수 있는 유일한 객체는 상기 음성 인식용 라이브러리뿐이고, 사용자는 접근이 금지되어 있다.

그러므로, 사용자가 상기 음성 인식용 라이브러리를 사용하지 않고 새로운 음성 인식 프로그램을 이용하기 위해서는 상기 SRAM에 저장된 패턴을 다른 기억 장소로 복사를 해야 하는데, 이를 위해서 본 발명은 상기 임시 메모리(30)를 이용하는 것이다.

상기 임시 메모리(30)를 사용하여 패턴을 복사해 저장함으로써 사용자는 생성된 패턴에 직접 접근이 가능하여 상기 음성 인식용 라이브러리를 사용하지 않고 새로운 음성 인식 프로그램을 사용할 수 있는 것이다.

상기 메모리(20)의 제 1∼3음성 데이터 저장부(24, 26, 28)에 저장되는 음성 데이터는 기존의 웨이트 테이블과 같은 기능을 수행하는 티칭된 패턴으로 이루어진다.

즉, 인식될 단어에 대해 여러 사람의 음성을 샘플링하고, 패턴 데이터를 생성한 후에, 각각의 단어에 대한 패턴 데이터를 평균하는 방법으로 티칭된 패턴을 만드는 것이다.

이렇게 만들어진 패턴 데이터는 메모리(20)의 제 1∼3음성 데이터저장부(24, 26, 28)에 저장되고, 마이크(40)를 통하여 입력되는 화자의 음성과 비교되어 그에 상응하는 대답에 해당하는 음성 데이터를 추출하여 출력하기 위한 데이터로 사용된다.

여러 사람의 음성을 샘플링하고 패턴 데이터를 생성하는 일은 제어부(10)를 사용하여 만들고, 컴퓨터와 직렬 포트(50)를 통하여 파일로 저장된다.

이렇게 여러 사람의 패턴 데이터를 가지고 있는 파일은 C 언어로 제작한 프로그램을 통하여 평균 처리함으로 티칭된 패턴으로 변환되고 메모리(20)의 제 1∼3음성 데이터 저장부(24, 26, 28)에 저장하는 것이다.

그리고, 실제적으로 음성 인식을 수행하는 프로그램으로써 인식되기를 원하는 음성이 상기 마이크(40)를 통하여 제어부(10)에 입력되면, 제 1∼3음성 데이터 저장부(24, 26, 28) 중에서 특정 영역에 저장된 티칭된 패턴과 비교하여 가장 근접한 음성을 찾는다.

즉, 인식되기를 원하는 음성이 입력되었을 경우 일정한 크기의 패턴 데이터로 만들고, 이렇게 만들어진 패턴과 미리 티칭된 패턴을 비교하고 감산하여 가장 차이가 작은 음성을 선택하여 출력하는 것이다.

패턴 데이터 생성 과정을 다시 보다 구체적으로 설명하면 다음과 같은 단계로 이루어진다.

1. 인식될 단어들에 대해 여러 사람의 목소리로 음성을 샘플링한다.

2. 샘플링된 음성에 대해 RSC364를 통하여 패턴을 생성하고, 이를 상기 임시 메모리(30)에 저장한다.

3. 시리얼 포트를 통하여 기억될 패턴들을 컴퓨터로 전송하고 데이터 파일로 저장한다.

4. C 언어로 작성한 프로그램을 통하여 데이터 파일에 저장된 패턴들을 각 단어별로 평균하여 패턴 데이터로 생성하고, 이를 BIN 파일로 저장한다.

5. 음성 인식 프로그램, 음성 출력 데이터, 패턴 데이터를 하나의 파일로 만들고, 이를 메모리(20) 즉, ROM으로 구성된 프로그램 저장부(22), 제 1∼3음성 데이터 저장부(24, 26, 28)에 저장한다.

여기서, 상기 패턴 데이터는 ROM의 일정한 위치에 저장되어 음성 인식 프로그램이 패턴 데이터에 접근할 수 있도록 한다.

상기와 같은 과정을 통하여 생성된 패턴 데이터를 이용한 상기 제어부에 의한 음성 인식 과정은 다음과 같다.

상기 마이크를 통하여 입력되는 음성은 RSC364에 내장된 증폭기로 증폭되고, 디지털 신호로 변환된다.

변환된 데이터는 입력된 음성의 특징을 추출한 128바이트의 패턴으로 다시 변환되고, 내부 SRAM에 저장된다.

본 발명에서는 사용되는 음성 인식용 프로그램을 이용하기 위해 내부 SRAM에 저장된 패턴은 임시 메모리로 복사되고, 음성 인식용 프로그램은 임시 메모리에 저장된 패턴을 이용하여 음성 인식을 수행한다.

음성 인식 과정은 상기 설명과 같이, 여러 사람의 음성으로 미리 만들어진 패턴 데이터들과 임시 메모리에 저장된 패턴을 비교하여 가장 근접한 음성을 찾음으로써 수행되고, 찾았을 경우 인식 과정은 1차적으로 종결된다.

본 발명에서는 인식될 단어에 대한 출력으로 음성 출력이 사용되는데, ROM에 저장된 음성 데이터가 RSC364에 내장된 증폭기를 통하여 출력함으로써 이루어진다.

상기한 바와 같이 이루어진 본 발명은 저가의 소형 화자 독립 음성 인식 기술을 많은 시간과 자금을 들이지 않고 단시간에 구현할 수 있고, 이를 이용하여 저가의 완구에 적용하여 생산할 수 있어서 음성 인식 완구의 생산성을 높여 주는 효과를 제공한다.

이상에서는 본 발명을 특정의 바람직한 실시예를 예로 들어 도시하고 설명하였으나, 본 발명은 상기한 실시예에 한정되지 아니하며 본 발명의 정신을 벗어나지 않는 범위 내에서 당해 발명이 속하는 기술 분야에서 통상의 지식을 가진 자에 의해 다양한 변경과 수정이 가능할 것이다.

Claims

음성 인식을 위하여 샘플링된 패턴 데이터를 저장하는 음성 데이터 저장부와;

화자의 음성을 입력시켜 주는 마이크와;

상기 마이크를 통하여 입력된 화자의 음성에 대응하는 음성 신호를 출력시켜 주는 스피커와;

내부 SRAM을 포함하여 구성되며, 상기 마이크를 통하여 입력된 음성 신호를 상기 음성 데이터 저장부에 저장되어 있는 다수의 음성 데이터와 비교하여 그 패턴이 가장 유사한 음성 데이터를 추출하여, 음성 신호로 변환하여 상기 스피커로 출력하는 제어부와;

상기 제어부의 동작에 필요한 프로그램을 저장하는 프로그램 메모리와;

음성 인식을 위하여 상기 제어부에서 동작하는 음성 인식용 프로그램에 의한 데이터 처리에 필요한 패턴 데이터를 상기 메모리 영역을 제공하는 임시 메모리와;

상기 제어부의 동작에 필요한 프로그램 입력과 데이터 통신을 위하여 컴퓨터와의 통신을 위한 포트를 포함하고,

상기 제어부는 상기 마이크를 통하여 입력되는 음성을 디지털 신호로 변환하고, 변환된 데이터는 입력된 음성의 특징을 추출하여 패턴 데이터로 다시 변환하고, 그 결과를 상기 내부 SRAM에 저장하며, 음성 인식용 프로그램을 이용하기 위해 내부 SRAM에 저장된 패턴 데이터를 상기 임시 메모리로 복사한 후에, 음성 인식용프로그램과 임시 메모리에 저장된 패턴 데이터를 이용하여 입력된 음성을 인식하고, 상기와 같이 인식된 데이터에 상응하는 음성 데이터를 상기 음성 데이터 저장부에서 추출하여 출력하는 것을 특징으로 하는 음성 인식 시스템.
제 1항에 있어서, 상기 제어부는 RSC-364 음성 인식 칩으로 이루어지는 것을 특징으로 하는 음성 인식 시스템.
제 1항에 있어서, 상기 음성 데이터 저장부에 저장되는 음성 데이터는 인식될 단어에 대해 여러 사람의 음성을 샘플링하고, 패턴 데이터를 생성한 후에, 각각의 단어에 대한 패턴 데이터를 평균 처리하여 이루어진 패턴 데이터인 것을 특징으로 하는 음성 인식 시스템.
제 1항에 있어서, 상기 제어부에 의한 음성 인식은 입력된 음성을 일정한 크기의 패턴 데이터로 만들고, 상기 패턴 데이터와 상기 음성 데이터 저장부에 저장된 패턴 데이터를 비교하고 감산하여 가장 차이가 작은 음성을 선택하여 출력하는 것을 특징으로 하는 음성 인식 시스템.
제 1항 또는 제 2항에 있어서, 상기 제어부는 상기 메모리를 액세스하기 위한 디코더를 더 포함하는 것을 특징으로 하는 음성 인식 시스템.