KR100861653B1

KR100861653B1 - 음성 특징을 이용한 네트워크 기반 분산형 음성 인식단말기, 서버, 및 그 시스템 및 그 방법

Info

Publication number: KR100861653B1
Application number: KR1020070050837A
Authority: KR
Inventors: 이우영; 박귀홍; 김영명; 정성택; 이영훈
Original assignee: 주식회사 케이티
Priority date: 2007-05-25
Filing date: 2007-05-25
Publication date: 2008-10-02

Abstract

1. 청구범위에 기재된 발명이 속한 기술분야

본 발명은 음성 특징을 이용한 네트워크 기반 분산형 음성 인식 단말기, 서버, 및 그 시스템 및 그 방법과, 상기 방법들을 실현시키기 위한 프로그램을 기록한 컴퓨터로 읽을 수 있는 기록매체에 관한 것임.

2. 발명이 해결하려고 하는 기술적 과제

본 발명은 사용자로부터 발화된 음성으로부터 압축된 음성 특징 파라미터를 생성해 음성인식서버로 전송하는 음성 특징을 이용한 네트워크 기반 분산형 음성 인식 단말기 및 그 방법과, 상기 단말기로부터 수신받은 압축된 음성 특징 파라미터를 복원해 음성 인식을 수행하는 음성 특징을 이용한 네트워크 기반 분산형 음성 인식 서버 및 그 방법과, 이러한 음성 특징을 이용한 네트워크 기반 분산형 음성 인식 시스템 및 그 방법과, 상기 방법들을 실현시키기 위한 프로그램을 기록한 컴퓨터로 읽을 수 있는 기록매체를 제공하는데 그 목적이 있음.

3. 발명의 해결방법의 요지

본 발명은 음성 특징을 이용한 네트워크 기반 분산형 음성 인식 단말기에 있어서, 사용자로부터 발화되는 음성을 입력받기 위한 음성 입력부; 상기 음성 입력부에서 입력받은 사용자 음성 데이터에 섞인 외부 잡음신호를 제거하기 위한 잡음 제거부; 상기 잡음 제거부에서 잡음신호가 제거된 사용자 음성 데이터로부터 음성 특징 파라미터[MFCC 벡터]를 생성(추출)하기 위한 음성 특징 생성부; 상기 음성 특징 생성부에서 생성한 음성 특징 파라미터에 대해 양자화를 수행하여, 상기 사용자 음성 데이터에 대응되는 벡터의 각 샘플값이 양자화된 코드북 인덱스를 포함시켜 상기 음성 특징 파라미터를 압축하기 위한 음성 특징 압축부; 및 상기 음성 특징 압축부로부터 전달받은 압축된 음성 특징 파라미터를 인코딩하여 외부의 음성인식서버로 전송하기 위한 음성 특징 전송부를 포함함.

4. 발명의 중요한 용도

본 발명은 지능형 로봇 등의 음성 인식 분야 등에 이용됨.

네트워크, 분산형 음성 인식, 음성 특징, 스칼라 양자화, 압축, 복원, 지능형 로봇

Description

음성 특징을 이용한 네트워크 기반 분산형 음성 인식 단말기, 서버, 및 그 시스템 및 그 방법{System and Method for the Distributed Speech Recognition using the speech features}

도 1은 본 발명에 따른 음성 특징을 이용한 네트워크 기반 분산형 음성 인식 시스템에 대한 일실시예 구성도,

도 2a 및 도 2b는 본 발명에서 제시하는 음성 데이터 학습 과정을 보여주기 위한 일실시예 설명도,

도 3은 본 발명에서 제시하는 음성 특징 파라미터 생성 과정을 보여주기 위한 일실시예 설명도,

도 4는 본 발명에 따른 음성 특징을 이용한 네트워크 기반 분산형 음성 인식 방법에 대한 일실시예 흐름도이다.

* 도면의 주요 부분에 대한 부호 설명

10 : 단말기 11 : 음성 입력부

12 : 잡음 제거부 13 : 음성 특징 생성부

14 : 음성 특징 압축부 15 : 음성 특징 전송부

20 : 음성인식서버 21 : 음성 특징 수신부

22 : 음성 특징 복원부 23 : 음성 인식 수행부

24 : 음성 재생부 25 : 음성 인식 결과 반환부

본 발명은 음성 특징을 이용한 네트워크 기반 분산형 음성 인식 시스템 및 그 방법과 상기 방법을 실현시키기 위한 프로그램을 기록한 컴퓨터로 읽을 수 있는 기록매체에 관한 것으로, 더욱 상세하게는 사용자로부터 발화된 음성으로부터 압축된 음성 특징 파라미터를 생성해 음성인식서버로 전송하는 음성 특징을 이용한 네트워크 기반 분산형 음성 인식 단말기 및 그 방법과, 상기 단말기로부터 수신받은 압축된 음성 특징 파라미터를 복원해 음성 인식을 수행하는 음성 특징을 이용한 네트워크 기반 분산형 음성 인식 서버 및 그 방법과, 이러한 음성 특징을 이용한 네트워크 기반 분산형 음성 인식 시스템 및 그 방법과, 상기 방법들을 실현시키기 위한 프로그램을 기록한 컴퓨터로 읽을 수 있는 기록매체에 관한 것이다.

최근에 사용자와 단말기[예; 지능형 로봇(일명 "URC(Ubiquitous Robotic Companion) 로봇"이라고도 함), 휴대폰 등]간의 의사소통, 정보 전달, 콘텐츠 제공 등의 편의를 위해 음성 기반의 멀티모달 방식이 각광받고 있다.

특히, 위와 같은 음성 기반의 멀티모달 방식에 있어 그 음성 인식 기술이 매 우 중요한 문제인데, 저사양의 단말기 특성에 기인해 고성능의 서버에서 실질적인 음성 인식을 수행하는 네트워크 기반 분산형 음성 인식 기술(DSR; Distributed Speech Recognition)이 활발히 연구되고 있다.

상기와 같은 네트워크 기반 분산형 음성 인식 시스템은 단말기-음성인식서버 구조로 이원화되어 있는데, 저사양의 단말기에서는 사용자로부터 발화된 음성을 단지 녹음하고서 이 녹음한 음성 데이터를 유/무선 인터넷을 통해 음성인식서버로 전송하며, 이에 고사양의 음성인식서버에서 단말기로부터 수신받은 음성 데이터에 대해 발음사전DB, 발성문법DB, 음향모델DB 등을 통해 그 음성 인식을 수행한다.

그런데, 상기와 같은 종래 기술은 단말기와 음성인식서버간의 네트워크 상황이 좋더라도, 그 송수신 음성 데이터의 크기가 크고 그 전송 횟수가 많은 경우에 트래픽에 기반한 네트워크 사용 요금이 사용자에게 과다하게 청구되는 문제점이 있다. 예컨대, 댁내에 구성된 무선망에 접속된 지능형 로봇과 어린 아이가 지능형로봇서버에서 제공하는 각종 교육용 콘텐츠 등을 음성으로서 질의/응답하는 경우에 그 무선 인터넷 사용 요금이 과다하게 발생되고 있는 형편이다.

또한, 상기와 같은 종래 기술은 단말기와 음성인식서버간의 네트워크 상황이 좋지 않거나 음성인식서버에서 수많은 단말기로부터 수신받은 방대한 음성 데이터를 처리하는 경우에, 그 네트워크 부하가 과다하게 발생될 뿐더러 각각의 단말기로 음성 인식 결과를 반환하는데 대기 시간이 길어져 사용자측에서도 지능형 로봇으로부터의 응답을 받는데 많은 시간이 소요되고 있는 형편이다.

본 발명은 상기와 같은 문제점을 해결하고 상기와 같은 요구에 부응하기 위하여 제안된 것으로, 사용자로부터 발화된 음성으로부터 압축된 음성 특징 파라미터를 생성해 음성인식서버로 전송하는 음성 특징을 이용한 네트워크 기반 분산형 음성 인식 단말기 및 그 방법과, 상기 단말기로부터 수신받은 압축된 음성 특징 파라미터를 복원해 음성 인식을 수행하는 음성 특징을 이용한 네트워크 기반 분산형 음성 인식 서버 및 그 방법과, 이러한 음성 특징을 이용한 네트워크 기반 분산형 음성 인식 시스템 및 그 방법과, 상기 방법들을 실현시키기 위한 프로그램을 기록한 컴퓨터로 읽을 수 있는 기록매체를 제공하는데 그 목적이 있다.

본 발명의 다른 목적 및 장점들은 하기의 설명에 의해서 이해될 수 있으며, 본 발명의 실시예에 의해 보다 분명하게 알게 될 것이다. 또한, 본 발명의 목적 및 장점들은 특허 청구 범위에 나타낸 수단 및 그 조합에 의해 실현될 수 있음을 쉽게 알 수 있을 것이다.

상기의 목적을 달성하기 위한 본 발명의 단말기는, 음성 특징을 이용한 네트워크 기반 분산형 음성 인식 단말기에 있어서, 사용자로부터 발화되는 음성을 입력받기 위한 음성 입력부; 상기 음성 입력부에서 입력받은 사용자 음성 데이터에 섞인 외부 잡음신호를 제거하기 위한 잡음 제거부; 상기 잡음 제거부에서 잡음신호가 제거된 사용자 음성 데이터로부터 음성 특징 파라미터[MFCC 벡터]를 생성(추출)하기 위한 음성 특징 생성부; 상기 음성 특징 생성부에서 생성한 음성 특징 파라미터에 대해 양자화를 수행하여, 상기 사용자 음성 데이터에 대응되는 벡터의 각 샘플값이 양자화된 코드북 인덱스를 포함시켜 상기 음성 특징 파라미터를 압축하기 위한 음성 특징 압축부; 및 상기 음성 특징 압축부로부터 전달받은 압축된 음성 특징 파라미터를 인코딩하여 외부의 음성인식서버로 전송하기 위한 음성 특징 전송부를 포함한다.

한편, 본 발명의 서버는, 음성 특징을 이용한 네트워크 기반 분산형 음성 인식 서버에 있어서, 특정 단말기로부터 수신받은 패킷을 디코딩하여 상기 패킷에 포함되어 있는 압축된 음성 특징 파라미터를 추출하기 위한 음성 특징 수신부; 상기 음성 특징 수신부에서 추출한 압축된 음성 특징 파라미터에 대해 역양자화를 수행하여 음성 특징 파라미터를 복원하기 위한 음성 특징 복원부; 및 상기 음성 특징 복원부에서 복원한 음성 특징 파라미터에 대응되는 MFCC 벡터에 대해 코드북 인덱스 간의 패턴 매칭을 통해 음성 인식을 수행하기 위한 음성 인식 수행부를 포함한다.

한편, 본 발명의 시스템은, 음성 특징을 이용한 네트워크 기반 분산형 음성 인식 시스템에 있어서, 사용자로부터 발화되는 음성을 입력받기 위한 음성 입력부; 상기 음성 입력부에서 입력받은 사용자 음성 데이터에 섞인 외부 잡음신호를 제거하기 위한 잡음 제거부; 상기 잡음 제거부에서 잡음신호가 제거된 사용자 음성 데이터로부터 음성 특징 파라미터[MFCC 벡터]를 생성(추출)하기 위한 음성 특징 생성부; 상기 음성 특징 생성부에서 생성한 음성 특징 파라미터에 대해 양자화를 수행하여 상기 음성 특징 파라미터를 압축하기 위한 음성 특징 압축부; 및 상기 음성 특징 압축부로부터 전달받은 압축된 음성 특징 파라미터를 인코딩하여 전송하기 위한 음성 특징 전송부를 포함하는 단말기와, 상기 단말기로부터 수신받은 패킷을 디코딩하여 상기 패킷에 포함되어 있는 압축된 음성 특징 파라미터를 추출하기 위한 음성 특징 수신부; 상기 음성 특징 수신부에서 추출한 압축된 음성 특징 파라미터에 대해 역양자화를 수행하여 음성 특징 파라미터를 복원하기 위한 음성 특징 복원부; 및 상기 음성 특징 복원부에서 복원한 음성 특징 파라미터에 대응되는 MFCC 벡터에 대해 코드북 인덱스 간의 패턴 매칭을 통해 음성 인식을 수행하기 위한 음성 인식 수행부를 포함하는 음성인식서버를 포함한다.

한편, 본 발명의 방법은, 단말기에서 음성 특징을 이용한 네트워크 기반 분산형 음성 인식 방법에 있어서, 사용자로부터 음성을 입력받으면 사용자 음성 데이터에 섞인 외부 잡음신호를 제거하는 단계; 상기 잡음신호가 제거된 사용자 음성 데이터로부터 음성 특징 파라미터[MFCC 벡터]를 생성(추출)하는 단계; 상기 생성한 음성 특징 파라미터에 대해 양자화를 수행하여, 상기 사용자 음성 데이터에 대응되는 벡터의 각 샘플값이 양자화된 코드북 인덱스를 포함시켜 상기 음성 특징 파라미터를 압축하는 단계; 및 상기 압축된 음성 특징 파라미터를 인코딩하여 외부의 음성인식서버로 전송하는 단계를 포함한다.

한편, 본 발명의 다른 방법은, 서버에서 음성 특징을 이용한 네트워크 기반 분산형 음성 인식 방법에 있어서, 특정 단말기로부터 패킷을 수신받으면 상기 패킷을 디코딩하여 상기 패킷에 포함되어 있는 압축된 음성 특징 파라미터를 추출하는 단계; 상기 추출한 압축된 음성 특징 파라미터에 대해 역양자화를 수행하여 음성 특징 파라미터를 복원하는 단계; 및 상기 복원한 음성 특징 파라미터에 대응되는 MFCC 벡터에 대해 코드북 인덱스 간의 패턴 매칭을 통해 음성 인식을 수행하는 단계를 포함한다.

한편, 본 발명의 또 다른 방법은, 음성 특징을 이용한 네트워크 기반 분산형 음성 인식 방법에 있어서, 단말기에서는 사용자로부터 음성을 입력받으면 사용자 음성 데이터에 섞인 외부 잡음신호를 제거하는 단계; 상기 단말기에서는 상기 잡음신호가 제거된 사용자 음성 데이터로부터 음성 특징 파라미터[MFCC 벡터]를 생성(추출)하는 단계; 상기 단말기에서는 상기 생성한 음성 특징 파라미터에 대해 양자화를 수행하여 상기 음성 특징 파라미터를 압축하는 단계; 및 상기 단말기에서는 상기 압축된 음성 특징 파라미터를 인코딩하여 전송하는 단계와, 음성인식서버에서는 상기 단말기로부터 패킷을 수신받으면 상기 패킷을 디코딩하여 상기 패킷에 포함되어 있는 압축된 음성 특징 파라미터를 추출하는 단계; 상기 음성인식서버에서는 상기 추출한 압축된 음성 특징 파라미터에 대해 역양자화를 수행하여 음성 특징 파라미터를 복원하는 단계; 및 상기 음성인식서버에서는 상기 복원한 음성 특징 파라미터에 대응되는 MFCC 벡터에 대해 코드북 인덱스 간의 패턴 매칭을 통해 음성 인식을 수행하는 단계를 포함한다.

한편, 본 발명은, 프로세서를 구비한 단말기에, 사용자로부터 음성을 입력받으면 사용자 음성 데이터에 섞인 외부 잡음신호를 제거하는 기능; 상기 잡음신호가 제거된 사용자 음성 데이터로부터 음성 특징 파라미터[MFCC 벡터]를 생성(추출)하는 기능; 상기 생성한 음성 특징 파라미터에 대해 양자화를 수행하여, 상기 사용자 음성 데이터에 대응되는 벡터의 각 샘플값이 양자화된 코드북 인덱스를 포함시켜 상기 음성 특징 파라미터를 압축하는 기능; 및 상기 압축된 음성 특징 파라미터를 인코딩하여 외부의 음성인식서버로 전송하는 기능을 실현시키기 위한 프로그램을 기록한 컴퓨터로 읽을 수 있는 기록매체를 제공한다.

한편, 본 발명은, 프로세서를 구비한 음성인식서버에, 특정 단말기로부터 패킷을 수신받으면 상기 패킷을 디코딩하여 상기 패킷에 포함되어 있는 압축된 음성 특징 파라미터를 추출하는 기능; 상기 추출한 압축된 음성 특징 파라미터에 대해 역양자화를 수행하여 음성 특징 파라미터를 복원하는 기능; 및 상기 복원한 음성 특징 파라미터에 대응되는 MFCC 벡터에 대해 코드북 인덱스 간의 패턴 매칭을 통해 음성 인식을 수행하는 기능을 실현시키기 위한 프로그램을 기록한 컴퓨터로 읽을 수 있는 기록매체를 제공한다.

상술한 목적, 특징 및 장점은 첨부된 도면과 관련한 다음의 상세한 설명을 통하여 보다 분명해 질 것이며, 그에 따라 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자가 본 발명의 기술적 사상을 용이하게 실시할 수 있을 것이다. 또한, 본 발명을 설명함에 있어서 본 발명과 관련된 공지 기술에 대한 구체적인 설명이 본 발명의 요지를 불필요하게 흐릴 수 있다고 판단되는 경우에 그 상세한 설명을 생략하기로 한다. 이하, 첨부된 도면을 참조하여 본 발명에 따른 바람직한 일실시예를 상세히 설명하기로 한다.

도 1은 본 발명에 따른 음성 특징을 이용한 네트워크 기반 분산형 음성 인식 시스템에 대한 일실시예 구성도이고, 도 2a 및 도 2b는 본 발명에서 제시하는 음성 데이터 학습 과정을 보여주기 위한 일실시예 설명도이고, 도 3은 본 발명에서 제시하는 음성 특징 파라미터 생성 과정을 보여주기 위한 일실시예 설명도이다.

도 1에 도시된 바와 같이, 본 발명에 따른 음성 특징을 이용한 네트워크 기반 분산형 음성 인식 시스템에 있어, 단말기(10)측에는 음성 입력부(11), 잡음 제거부(12), 음성 특징 생성부(13), 음성 특징 압축부(14) 및 음성 특징 전송부(15)가 구비되어 있으며, 음성인식서버(20)측에는 음성 특징 수신부(21), 음성 특징 복원부(22) 및 음성 인식 수행부(23)가 구비되어 있다. 한편, 이 음성인식서버(20)측에는 음성 재생부(24) 및 음성 인식 결과 반환부(25)가 더 구비될 수 있다.

본 발명에서는 분산형 음성 인식 기술을 제시하는데, 종래 방식에 있어 단말기에서 그 녹음한 음성 데이터를 유/무선 인터넷을 통해 음성인식서버로 전송하지만, 본 발명에서는 단말기가 압축된 음성 특징 파라미터를 생성해 패킷 형태로 음성인식서버로 전송하며, 이에 음성인식서버가 단말기로부터 수신받은 패킷으로부터 압축된 음성 특징 파라미터를 추출해 그 음성 인식을 수행하는 것이다.

예컨대, 본 발명에서는 네트워크를 기반으로 하여 단말기-음성인식서버간에 음성 인식을 수행하는데 있어 송수신 데이터의 양을 줄여 응답 속도 향상 및 네트워크 사용 요금을 절감시키기 위해 그 음성 인식 수행에 사용할 "압축된 음성 특징 파라미터"를 제시한다.

즉, 네트워크 기반 분산형 음성 인식 시스템에 있어 응답 속도는 음성 인식 수행 처리 시간과 데이터 전송 속도에 의해 좌우될 것인데, 음성 인식을 위한 데이터 송수신은 네트워크의 상황에 따라 다소 차이가 날 지라도 대략 0.5초 정도의 적은 시간이 소요될 뿐이기에, 본 발명에서는 음성 인식을 위한 데이터의 양이 그 처리 시간과 네트워크 부하 및 유/무선 인터넷 사용 요금에 밀접한 관계가 있음을 고려해, 통상의 음성 데이터보다 그 크기(양)이 작은 압축된 음성 특징 파라미터를 제시한 것이다.

한편, 도면에 도시되어 있지는 않으나 통상의 아날로그 음성신호, 디지털 음성 데이터 등을 처리하는 공지의 신호 처리기가 본 발명에서 제시하는 단말기 및 음성인식서버 각각에 구비되어 있음을 당업자라면 쉽게 이해할 수 있을 것이며, 본 발명의 요지를 흐릴 수 있다고 판단되어져 이러한 구성요소에 대해서는 그 설명을 생략하기로 한다.

덧붙여, 본 발명에서 제시하는 단말기로는 지능형 로봇(일명 "URC(Ubiquitous Robotic Companion) 로봇"이라고도 함), 휴대폰 등이 될 수 있으며, 또한 분산형 음성 인식 기술 분야에 있어 단말 기능으로서 수행되는 어떠한 기기라도 무방하다.

그럼, 이하 본 발명에서 제시하는 단말기(10) 및 음성인식서버(20)에 대해 구체적으로 살펴보기로 한다.

상기 단말기(10)의 음성 입력부(11)는 단말 사용자로부터 발화되는 음성을 입력받는다. 여기서, 사용자가 발화하는 음성으로는 단말기(예; 지능형 로봇)와의 의사소통을 위한 질의어, 단말기로부터 특정 감정 반응을 발생시키기 위한 명령어, 단말기로부터 특정 액션 반응을 발생시키기 위한 명령어, 단말기에서 교육 콘텐츠를 제공하는데 있어 사용되는 질문/응답어 등이 될 수 있다.

상기 잡음 제거부(12)는 음성 입력부(11)에서 입력받은 사용자 음성 데이터에 섞인 외부 잡음신호를 제거(감쇄)한다. 이는 하기의 음성 특징 생성부(13)에서 사용자 음성 데이터로부터 잡음에 견고한 음성 특징 파라미터를 생성할 수 있도록 하기 위함이다.

상기 음성 특징 생성부(13)는 잡음 제거부(12)에서 그 잡음신호가 제거된 사용자 음성 데이터로부터 음성 특징 파라미터[MFCC 벡터]를 생성(추출)한다. 여기서, MFCC(Mel-Frequency Cepstrum Coefficient) 벡터란 멜스케일로 표현된 주파수 스펙트럼의 형태를 정현파 성분으로 나타낸 것으로서, 음성을 표현하는 음성 특징 벡터(파라미터)를 의미한다.

상기 음성 특징 압축부(14)는 음성 특징 생성부(13)에서 생성한 음성 특징 파라미터를 압축, 예컨대 스칼라 양자화를 수행해 그 데이터 크기를 줄인다. 여기서, 본 발명에서 제시하는 "압축된 음성 특징 파라미터"란 사용자 음성 데이터에 대응되는 벡터의 각 샘플값을 양자화시킨 "1" 바이트의 코드북 인덱스(codebook index)를 의미한다. 그렇다면, 본 발명에서 제시하는 압축된 음성 특징 파라미터를 생성하는 과정에 대해 도 2a 및 도 2b를 참조하여 상세히 설명하면 다음과 같다.

사용자가 발화한 음성 데이터로부터 음성 특징 파라미터를 생성하기 위해서는 그 전처리 과정으로서, 음성 데이터 학습 과정[Train]을 거쳐야 한다.

예컨대, 도 2a에 도시된 바와 같이 본 발명에서는 사전에 음성 DB[Speech DB]에 수집해 놓은 수많은 음성 데이터의 특징을 분석(추출)한 후에[Feature Analysis], 플로팅 39차 MFCC 셋[Floating 39 MFCC set]을 통해 학습용 음성 특징 벡터열을 계산하고서, 이 학습용 음성 특징 벡터열에 대해 스칼라 양자화[Scalar Quantization, 일명 손실 압축 양자화 기법]를 수행해 128개의 평균 벡터[128 mean vector]를 생성한다.

상기 스칼라 양자화 과정에서는 학습 대상 음성 데이터로부터 추출한 MFCC 학습 벡터들을 m개(예컨대 128개)의 크기에 대응되는 블록들로 분할한 후에 각각의 블록에 코드워드로서 대표되는 코드북 인덱스를 생성한다. 이러한 코드북은 음성에 관해서 유사한 값을 갖는 군집에 대한 중심값을 갖으며, MFCC 학습 벡터들 중에서 가장 대표되는 값으로 선정된다.

즉, 상기 128개의 평균 벡터[128 mean vector]를 생성하는 과정은 도 2b에 도시되어 있다.

도 2b에 도시된 바와 같이, MFCC 학습 벡터들을 128개의 그룹으로 나누어서 각 그룹의 평균값(mean)을 구하는데, 이러한 과정은 다음과 같다.

먼저, 전체 MFCC 학습 벡터들을 모두 모아서 평균을 취해 하나의 중심 벡터를 생성한다. 그리고서, 상기 각 중심 벡터에 대해 아주 작은 값을 한 번은 더하고, 또 한 번은 빼서 2개의 중심 벡터를 만든다. 그리고서, 상기 MFCC 학습 벡터들와 상기 만든 2개의 중심 벡터간의 거리를 계산하여 이 MFCC 학습 벡터들이 속할 중심 벡터를 찾는다. 그리고서, 상기 중심 벡터에 속한 MFCC 학습 벡터들에 대해 평균값을 취해 새로운 각 중심 벡터로 선정한다.

위와 같이 중심 벡터를 찾는 과정 및 새로운 각 중심 벡터 선정 과정을 반복적으로 수행해 전체 거리의 합(양자화 에러의 합)이 기준치 이하가 되도록 한 후에, 원래 원하던 개수의 중심 벡터가 생성되면 본 과정을 종료한다.

위와 같이 음성 데이터 학습 과정을 거쳐 128개의 평균 벡터[128 mean vector]를 생성한 상태에서, 도 3에 도시된 바와 같이 실질적인 음성 특징 파라미터 생성 과정에서는 사용자로부터 발화되는 음성 데이터의 특징을 분석한 후에[Feature Analysis], 플로팅 39차 MFCC 셋[Floating 39 MFCC set]을 통해 계산한 사용자 음성 특징 벡터열에 대해 상기 사전에 생성해 놓은 128개의 평균 벡터[128 mean vector]를 이용하여 "1" 바이트의 코드북 인덱스(codebook index)[Unsigned char 39 MFCC]를 생성한다. 이러한 코드북 인덱스는 음성 인식을 수행하는데 있어 미리 구해진 확률값을 불러오는데 사용된다.

전술한 바와 같이, 본 발명에서 제시한 압축된 음성 특징 파라미터의 특징은 다음과 같다.

기존의 39차 MFCC 벡터를 1개의 코드워드로 대치하는 "벡터 양자화[Vector Quantization] 방식"은 데이터 전송 효율은 좋을지 모르나, 음성 벡터를 512개 이상으로 분할해야지만 공지의 HMM(Hidden Markov Model)과 동일한 성능을 갖으며, 또한 단말기에서 VQ 코드워드를 계산하는데 상당한 시간이 소요된다. 이에 반해, 본 발명에서 제시한 스칼라 양자화 방식으로 생성한 압축된 음성 특징 파라미터는 데이터 전송 효율과 함께 음성 인식 성능 향상 및 적은 리소스 사용과 적은 계산 시간이 소요되기에 더욱 효과적이라 할 수 있다. 이에, 본 발명의 압축된 음성 특 징 파라미터는 저사양 하드웨어/소프트웨어의 단말기에서도 음성 인식 성능을 높일 수 있겠다.

상기 음성 특징 전송부(15)는 음성 특징 압축부(14)에서 생성한 압축된 음성 특징 파라미터를 인코딩, 예컨대 압축된 음성 특징 파라미터와 오류확인부호(예; CRC 등)를 결합시켜 패킷화하고서 이 패킷을 유/무선 인터넷을 통해 음성인식서버(20)로 전송한다.

상기 음성인식서버(20)의 음성 특징 수신부(21)는 단말기(10)로부터 수신받은 패킷[주; 이 패킷에는 압축된 음성 특징 파라미터가 포함되어 있음]을 디코딩, 예컨대 패킷을 해석하여 이 패킷에 포함되어 있는 오류확인부호(예; CRC 등)를 토대로 그 패킷 오류를 제거하고서 이 패킷에 포함되어 있는 압축된 음성 특징 파라미터를 추출한다.

상기 음성 특징 복원부(22)는 음성 특징 수신부(21)에서 추출한 압축된 음성 특징 파라미터에 대해 스칼라 역양자화를 수행해 그 음성 특징 파라미터를 복원한다.

상기 음성 인식 수행부(23)는 음성 특징 복원부(22)에서 복원한 음성 특징 파라미터에 대응되는 39차 MFCC 벡터에 대해 음성인식모델 DB(미도시), 발음사전 DB(미도시), 발성문법 DB(미도시) 등을 이용해 사전에 음성 데이터 학습 과정을 통해 생성했던 코드북 인덱스 간의 패턴 매칭을 통해 확률값을 최대로 갖는 단어열을 찾아, 그 음성 인식을 수행, 예컨대 그 사용자 음성 데이터에 상응되는 텍스트 형태의 단어, 문장을 만든다.

상기 음성 인식 과정은 음성 데이터 학습 과정의 코드워드 생성의 역순으로 수행하면 되기 때문에 1개의 MFCC 벡터에 대해 8번의 패턴 매칭 비교만으로 해당 코드워드를 생성할 수 있으며, 이는 저사양의 서버단에서도 실시간으로 음성 인식을 수행할 수 있도록 한다. 통상적으로 서버단의 디코더에서 출력 확률 계산에 상당한 시간 및 리소스가 소요되는데, 본 발명에서는 가우시안 평균값[Gaussian mean]을 SQ 코드북을 이용해 코드워드별로 미리 계산하여 테이블에 저장한 상태에서 입력되는 코드워드에 대해 별도의 계산없이 바로 테이블을 참조해 그 출력 확률을 계산함으로서 음성 인식 응답 시간을 30% 이상 단축할 수 있겠다.

한편, 본 발명의 부가적인 구성요소인 음성 재생부(24)는 음성 인식 수행부(23)에서 수행한 음성 인식 결과가 정당한지를 검증하는 구성으로서, 그 입력 음성 데이터를 재생시켜 음성 인식 결과와 일치하는지를 확인한다.

또한, 본 발명의 부가적인 구성요소인 음성 인식 결과 반환부(25)는 음성 인식 수행부(23)에서 수행한 음성 인식 결과[텍스트 형태의 단어, 문자 등]를 유/무선 인터넷을 통해 단말기(10)로 전송하거나 디스플레이를 통해 서버 관리자 등에게 출력한다.

도 4는 본 발명에 따른 음성 특징을 이용한 네트워크 기반 분산형 음성 인식 방법에 대한 일실시예 흐름도이며, 하기의 과정에 있어 앞서 도 1 내지 도 3을 참조해 설명했던 상세 과정에 대해서는 그 구체적인 설명은 생략하기로 한다.

먼저, 단말기(10)에서의 플로우를 설명하면 다음과 같다.

단말 사용자로부터 음성을 입력받으면(201), 이 입력받은 사용자 음성 데이 터에 섞인 외부 잡음신호를 제거(감쇄)한다(202).

그런후, 상기 잡음신호가 제거된 사용자 음성 데이터로부터 음성 특징 파라미터[39차 MFCC 벡터]를 생성(추출)한다(203). 여기서, MFCC(Mel-Frequency Cepstrum Coefficient) 벡터란 멜스케일로 표현된 주파수 스펙트럼의 형태를 정현파 성분으로 나타낸 것으로서, 음성을 표현하는 음성 특징 벡터(파라미터)를 의미한다.

그리고서, 상기 생성(추출)한 음성 특징 파라미터를 압축, 예컨대 스칼라 양자화를 수행해 그 데이터 크기를 줄인다(204). 여기서, 본 발명에서 제시하는 "압축된 음성 특징 파라미터"란 사용자 음성 데이터에 대응되는 벡터의 각 샘플값을 양자화시킨 "1" 바이트의 코드북 인덱스(codebook index)를 의미한다.

그리고서, 상기 압축된 음성 특징 파라미터를 인코딩, 예컨대 압축된 음성 특징 파라미터와 오류확인부호(예; CRC 등)를 결합시켜 패킷화하고서 이 패킷을 유/무선 인터넷을 통해 음성인식서버(20)로 전송한다(205, 206).

다음으로, 음성인식서버(20)에서의 플로우를 설명하면 다음과 같다.

상기와 같이 단말기(10)로부터 패킷[주; 이 패킷에는 압축된 음성 특징 파라미터가 포함되어 있음]을 수신받으면(251), 이 수신받은 패킷을 디코딩, 예컨대 패킷을 해석하여 이 패킷에 포함되어 있는 오류확인부호(예; CRC 등)를 토대로 그 패킷 오류를 제거하고서 이 패킷에 포함되어 있는 압축된 음성 특징 파라미터를 추출한다(252, 253).

그런후, 상기 추출한 압축된 음성 특징 파라미터에 대해 스칼라 역양자화를 수행해 그 음성 특징 파라미터를 복원한다(254).

그리고서, 상기 복원한 음성 특징 파라미터에 대응되는 39차 MFCC 벡터에 대해 음성인식모델 DB(미도시), 발음사전 DB(미도시), 발성문법 DB(미도시) 등을 이용해 사전에 음성 데이터 학습 과정을 통해 생성했던 코드북 인덱스간의 패턴 매칭을 통해 확률값을 최대로 갖는 단어열을 찾아, 그 음성 인식을 수행, 예컨대 그 사용자 음성 데이터에 상응되는 텍스트 형태의 단어, 문장을 만든다(255).

부가적으로, 도 4에 도시하지는 않았으나, 음성인식서버(20)에서는 그 입력 음성 데이터를 재생시켜 음성 인식 결과와 일치하는지를 검증할 수도 있다.

또한, 음성인식서버(20)에서는 음성 인식 결과[텍스트 형태의 단어, 문자 등]를 유/무선 인터넷을 통해 단말기(10)로 전송하거나 디스플레이를 통해 서버 관리자 등에게 출력할 수도 있다.

전술한 바와 같이, 사용자 음성 데이터가 1초당 32KB의 크기를 갖는 경우에, 그 음성 특징 파라미터의 크기는 1초당 16KB의 크기가 되며, 특히 이 음성 특징 파라미터를 압축(스칼라 양자화)하게 되면 그 크기는 1초당 4KB가 됨을 알 수 있다. 이는 기존에 비해 본 발명이 단말기가 음성인식서버로 보내는 데이터 크기를 1/8 수준으로 낮출 수 있음을 확인할 수 있다.

또한, 본 발명에서 제시한 알고리즘은 지능형 로봇, 휴대폰, 네비게이션 기기, 홈 네트워크 제어, 텔레매틱스 정보 제어 등과 같이 그 음성 인식이 요구되는 다양한 기술 분야에 적용될 수 있으며, 이로서 음성 인식 응답 속도 향상, 네트워 크 부하 감소, 네트워크 사용 요금을 절감시킬 수 있는 잇점이 있다.

상술한 바와 같은 본 발명의 방법은 프로그램으로 구현되어 컴퓨터로 읽을 수 있는 형태로 기록매체(씨디롬, 램, 롬, 플로피 디스크, 하드 디스크, 광자기 디스크 등)에 저장될 수 있다. 이러한 과정은 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자가 용이하게 실시할 수 있으므로 더 이상 상세히 설명하지 않기로 한다.

이상에서 설명한 본 발명은, 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자에게 있어 본 발명의 기술적 사상을 벗어나지 않는 범위 내에서 여러 가지 치환, 변형 및 변경이 가능하므로 전술한 실시예 및 첨부된 도면에 의해 한정되는 것이 아니다.

상기와 같은 본 발명은 단말기-음성인식서버 간에 그 음성 인식에 요구되는 데이터의 크기(양)를 줄일 수 있는 효과가 있다.

또한, 본 발명은 적은 양의 데이터만을 사용해 음성 인식을 수행할 수 있으며, 이로써 음성 인식 응답 속도 향상, 네트워크 부하 감소, 네트워크 사용 요금을 절감시킬 수 있는 효과가 있다.

Claims

음성 특징을 이용한 네트워크 기반 분산형 음성 인식 단말기에 있어서,

사용자로부터 발화되는 음성을 입력받기 위한 음성 입력부;

상기 음성 입력부에서 입력받은 사용자 음성 데이터에 섞인 외부 잡음신호를 제거하기 위한 잡음 제거부;

상기 잡음 제거부에서 잡음신호가 제거된 사용자 음성 데이터로부터 음성 특징 파라미터[MFCC 벡터]를 생성(추출)하기 위한 음성 특징 생성부;

상기 음성 특징 생성부에서 생성한 음성 특징 파라미터에 대해 양자화를 수행하여, 상기 사용자 음성 데이터에 대응되는 벡터의 각 샘플값이 양자화된 코드북 인덱스를 포함시켜 상기 음성 특징 파라미터를 압축하기 위한 음성 특징 압축부; 및

상기 음성 특징 압축부로부터 전달받은 압축된 음성 특징 파라미터를 인코딩하여 외부의 음성인식서버로 전송하기 위한 음성 특징 전송부

를 포함하는 음성 특징을 이용한 네트워크 기반 분산형 음성 인식 단말기.
제 1 항에 있어서,

상기 음성 특징 압축부는,

사전에 수집해 놓은 학습 대상 음성 데이터의 특징을 분석한 후에 MFCC 셋(MFCC set)을 통해 학습용 음성 특징 벡터열을 계산하고서, 상기 학습용 음성 특 징 벡터열에 대해 스칼라 양자화를 수행하여 소정 개수의 평균 벡터(mean vector)를 생성하는 것을 특징으로 하는 음성 특징을 이용한 네트워크 기반 분산형 음성 인식 단말기.
제 2 항에 있어서,

상기 음성 특징 압축부는,

상기 학습 대상 음성 데이터로부터 추출한 MFCC 학습 벡터들을 소정 개수의 크기에 대응되는 블록들로 분할한 후에 각각의 블록에 코드워드로서 대표되는 코드북 인덱스를 생성하는 것을 특징으로 하는 음성 특징을 이용한 네트워크 기반 분산형 음성 인식 단말기.
제 2 항에 있어서,

상기 음성 특징 압축부는,

상기 소정 개수의 평균 벡터를 생성한 상태에서, 상기 사용자 음성 데이터의 특징을 분석한 후에 MFCC 셋을 통해 계산한 사용자 음성 특징 벡터열에 대해 상기 생성해 놓은 소정 개수의 평균 벡터를 이용하여 코드북 인덱스를 생성하는 것을 특징으로 하는 음성 특징을 이용한 네트워크 기반 분산형 음성 인식 단말기.
제 1 항에 있어서,

상기 음성 특징 전송부는,

상기 압축된 음성 특징 파라미터와 오류확인부호를 결합시켜 패킷화한 후에 외부의 유/무선 네트워크를 통해 상기 음성인식서버로 전송하는 것을 특징으로 하는 음성 특징을 이용한 네트워크 기반 분산형 음성 인식 단말기.
제 1 항 내지 제 5 항 중 어느 한 항에 있어서,

상기 압축된 음성 특징 파라미터는 상기 사용자 음성 데이터에 대응되는 벡터의 각 샘플값이 양자화된 1 바이트의 코드북 인덱스를 포함하는 것을 특징으로 하는 음성 특징을 이용한 네트워크 기반 분산형 음성 인식 단말기.
제 1 항 내지 제 5 항 중 어느 한 항에 있어서,

상기 음성 특징 파라미터는 39차 MFCC 벡터를 포함하는 것을 특징으로 하는 음성 특징을 이용한 네트워크 기반 분산형 음성 인식 단말기.
음성 특징을 이용한 네트워크 기반 분산형 음성 인식 서버에 있어서,

특정 단말기로부터 수신받은 패킷을 디코딩하여 상기 패킷에 포함되어 있는 압축된 음성 특징 파라미터를 추출하기 위한 음성 특징 수신부;

상기 음성 특징 수신부에서 추출한 압축된 음성 특징 파라미터에 대해 역양자화를 수행하여 음성 특징 파라미터를 복원하기 위한 음성 특징 복원부; 및

상기 음성 특징 복원부에서 복원한 음성 특징 파라미터에 대응되는 MFCC 벡터에 대해 코드북 인덱스 간의 패턴 매칭을 통해 음성 인식을 수행하기 위한 음성 인식 수행부

를 포함하는 음성 특징을 이용한 네트워크 기반 분산형 음성 인식 서버.
제 8 항에 있어서,

상기 음성 인식 수행부는,

1개의 상기 MFCC 벡터에 대해 8번의 패턴 매칭 비교를 통해 해당 코드워드를 생성하여 확률값을 최대로 갖는 단어열을 찾아 음성 인식을 수행하는 것을 특징으로 하는 음성 특징을 이용한 네트워크 기반 분산형 음성 인식 서버.
제 8 항 또는 제 9 항에 있어서,

상기 음성 인식 수행부는,

상기 코드북 인덱스를 이용하여 가우시안 평균값을 코드워드별로 미리 계산하여 테이블에 저장한 상태에서 입력되는 코드워드에 대해 상기 테이블을 참조하여 출력 확률을 계산하여 음성 인식을 수행하는 것을 특징으로 하는 음성 특징을 이용한 네트워크 기반 분산형 음성 인식 서버.
제 8 항에 있어서,

상기 음성 특징 수신부는,

상기 특정 단말기로부터 수신받은 패킷을 해석하여 상기 패킷에 포함되어 있는 오류확인부호를 토대로 패킷 오류를 제거하고서 상기 패킷에 포함되어 있는 압축된 음성 특징 파라미터를 추출하는 것을 특징으로 하는 음성 특징을 이용한 네트워크 기반 분산형 음성 인식 서버.
음성 특징을 이용한 네트워크 기반 분산형 음성 인식 시스템에 있어서,

사용자로부터 발화되는 음성을 입력받기 위한 음성 입력부;

상기 음성 입력부에서 입력받은 사용자 음성 데이터에 섞인 외부 잡음신호를 제거하기 위한 잡음 제거부;

상기 잡음 제거부에서 잡음신호가 제거된 사용자 음성 데이터로부터 음성 특징 파라미터[MFCC 벡터]를 생성(추출)하기 위한 음성 특징 생성부;

상기 음성 특징 생성부에서 생성한 음성 특징 파라미터에 대해 양자화를 수행하여 상기 음성 특징 파라미터를 압축하기 위한 음성 특징 압축부; 및

상기 음성 특징 압축부로부터 전달받은 압축된 음성 특징 파라미터를 인코딩하여 전송하기 위한 음성 특징 전송부를 포함하는 단말기와,

상기 단말기로부터 수신받은 패킷을 디코딩하여 상기 패킷에 포함되어 있는 압축된 음성 특징 파라미터를 추출하기 위한 음성 특징 수신부;

상기 음성 특징 수신부에서 추출한 압축된 음성 특징 파라미터에 대해 역양자화를 수행하여 음성 특징 파라미터를 복원하기 위한 음성 특징 복원부; 및

상기 음성 특징 복원부에서 복원한 음성 특징 파라미터에 대응되는 MFCC 벡터에 대해 코드북 인덱스 간의 패턴 매칭을 통해 음성 인식을 수행하기 위한 음성 인식 수행부를 포함하는 음성인식서버

를 포함하는 음성 특징을 이용한 네트워크 기반 분산형 음성 인식 시스템.
단말기에서 음성 특징을 이용한 네트워크 기반 분산형 음성 인식 방법에 있어서,

사용자로부터 음성을 입력받으면 사용자 음성 데이터에 섞인 외부 잡음신호를 제거하는 단계;

상기 잡음신호가 제거된 사용자 음성 데이터로부터 음성 특징 파라미터[MFCC 벡터]를 생성(추출)하는 단계;

상기 생성한 음성 특징 파라미터에 대해 양자화를 수행하여, 상기 사용자 음성 데이터에 대응되는 벡터의 각 샘플값이 양자화된 코드북 인덱스를 포함시켜 상기 음성 특징 파라미터를 압축하는 단계; 및

상기 압축된 음성 특징 파라미터를 인코딩하여 외부의 음성인식서버로 전송하는 단계

를 포함하는 단말기에서 음성 특징을 이용한 네트워크 기반 분산형 음성 인식 방법.
서버에서 음성 특징을 이용한 네트워크 기반 분산형 음성 인식 방법에 있어서,

특정 단말기로부터 패킷을 수신받으면 상기 패킷을 디코딩하여 상기 패킷에 포함되어 있는 압축된 음성 특징 파라미터를 추출하는 단계;

상기 추출한 압축된 음성 특징 파라미터에 대해 역양자화를 수행하여 음성 특징 파라미터를 복원하는 단계; 및

상기 복원한 음성 특징 파라미터에 대응되는 MFCC 벡터에 대해 코드북 인덱스 간의 패턴 매칭을 통해 음성 인식을 수행하는 단계

를 포함하는 서버에서 음성 특징을 이용한 네트워크 기반 분산형 음성 인식 방법.
음성 특징을 이용한 네트워크 기반 분산형 음성 인식 방법에 있어서,

단말기에서는 사용자로부터 음성을 입력받으면 사용자 음성 데이터에 섞인 외부 잡음신호를 제거하는 단계;

상기 단말기에서는 상기 잡음신호가 제거된 사용자 음성 데이터로부터 음성 특징 파라미터[MFCC 벡터]를 생성(추출)하는 단계;

상기 단말기에서는 상기 생성한 음성 특징 파라미터에 대해 양자화를 수행하여 상기 음성 특징 파라미터를 압축하는 단계; 및

상기 단말기에서는 상기 압축된 음성 특징 파라미터를 인코딩하여 전송하는 단계와,

음성인식서버에서는 상기 단말기로부터 패킷을 수신받으면 상기 패킷을 디코딩하여 상기 패킷에 포함되어 있는 압축된 음성 특징 파라미터를 추출하는 단계;

상기 음성인식서버에서는 상기 추출한 압축된 음성 특징 파라미터에 대해 역양자화를 수행하여 음성 특징 파라미터를 복원하는 단계; 및

상기 음성인식서버에서는 상기 복원한 음성 특징 파라미터에 대응되는 MFCC 벡터에 대해 코드북 인덱스 간의 패턴 매칭을 통해 음성 인식을 수행하는 단계

를 포함하는 음성 특징을 이용한 네트워크 기반 분산형 음성 인식 방법.
프로세서를 구비한 단말기에,

사용자로부터 음성을 입력받으면 사용자 음성 데이터에 섞인 외부 잡음신호를 제거하는 기능;

상기 잡음신호가 제거된 사용자 음성 데이터로부터 음성 특징 파라미터[MFCC 벡터]를 생성(추출)하는 기능;

상기 생성한 음성 특징 파라미터에 대해 양자화를 수행하여, 상기 사용자 음성 데이터에 대응되는 벡터의 각 샘플값이 양자화된 코드북 인덱스를 포함시켜 상기 음성 특징 파라미터를 압축하는 기능; 및

상기 압축된 음성 특징 파라미터를 인코딩하여 외부의 음성인식서버로 전송하는 기능

을 실현시키기 위한 프로그램을 기록한 컴퓨터로 읽을 수 있는 기록매체.
프로세서를 구비한 음성인식서버에,

특정 단말기로부터 패킷을 수신받으면 상기 패킷을 디코딩하여 상기 패킷에 포함되어 있는 압축된 음성 특징 파라미터를 추출하는 기능;

상기 추출한 압축된 음성 특징 파라미터에 대해 역양자화를 수행하여 음성 특징 파라미터를 복원하는 기능; 및

상기 복원한 음성 특징 파라미터에 대응되는 MFCC 벡터에 대해 코드북 인덱스 간의 패턴 매칭을 통해 음성 인식을 수행하는 기능

을 실현시키기 위한 프로그램을 기록한 컴퓨터로 읽을 수 있는 기록매체.