KR100432373B1

KR100432373B1 - 독립적 음성처리를 위한 음성인식 시스템

Info

Publication number: KR100432373B1
Application number: KR10-2001-0069128A
Authority: KR
Inventors: 김영진
Original assignee: 주식회사 아이엔커넥트
Priority date: 2001-11-07
Filing date: 2001-11-07
Publication date: 2004-05-24
Also published as: KR20030038921A

Abstract

본 발명은 음성인식 시스템에 관한 것으로서, 더욱 상세하게는 음성인식 시스템의 일 구성요소인 음성인식/합성서버를 교체하여도 새롭게 시스템을 재건축 할 필요가 없으며, 더욱이 다양한 종류의 음성인식/합성서버를 운영하여도 시스템의 구현이 가능한 독립적 음성처리를 위한 음성인식 시스템에 관한 것이다.

이를 위해, 사용자의 음성신호의 입력에 의해, 답변을 제공하여 주는 음성인식 시스템 상에서, 음성대응신호를 요청할 수 있도록, 신호전송수단(20)에서 전송되는 음성신호를 음성대응 요청신호로 가공하는 어플리케이션부(30a)와, 상기 어플리케이션부(30a)에서 입력된 음성대응 요청신호에 대응하여 답변을 생성하는 음성인식/합성서버(50a)(50b)의 지정과, 상기 지정된 음성인식/합성서버에서 답변을 생성하도록 하는 문법파일정보에 음성신호의 발음의 범위에 속하는 텍스트정보를 삽입하고, 상기 텍스트정보가 삽입된 문법파일정보와 음성신호를 포함하는 가공이 된 음성신호를 생성하는 스위칭서버(100)와, 상기 스위칭서버(100)에서 생성된 가공이 된 음성신호를 자동으로 출력시켜주는 인터페이스부(40a)를 통하여 가공이 된 음성신호를 입력받아 음성인식/합성엔진에 의해, 가공이 된 음성신호와 음성대응신호 저장부를 매칭하여 사용자가 요구하는 음성대응신호를 생성하는 해당 음성인식/합성서버(50a)(50b)를 포함하는 음성인식 시스템을 제공한다.

Description

독립적 음성처리를 위한 음성인식 시스템{The voice recognition system for independent speech processing}

일반적으로 음성인식 시스템이라 함은 사용자의 음성을 인식하여 그 내용대로 동작해 주는 장치로서, 최근 이동통신단말기(셀룰러폰, PCS) 등에서 음성으로 콜(call)을 하거나, 인터넷상에서의 음성포털 서비스, 증권업무, 교육분야(예를 들어, 문답시, 문장 또는 단어의 발음이 요구되는 외국어 학습분야) 및 전화망서비스에서 항공 및 승차권 예약 등에서 사용자의 음성에 의해 해당 정보를 검색하여 주는 등, 여러 측면에서 활용가능성이 제시되고 있다.

도 1은 일반적인 음성인식 시스템을 나타낸 블록도이다.

도시한 바와 같이, 사용자의 음성이 입력이 되는 음성신호입력수단(10), 입력된 음성신호를 전송하여 주는 신호전송수단(20), 전송이 된 음성신호를 음성인식/합성서버(50)가 인식할 수 있는 형식으로 음성신호를 가공하여 주는 어플리케이션부(30), 가공된 음성신호를 인터페이스부(40)를 통하여 입력받은 후, 가공된 음성신호를 인지하여, 거기에 대한 답변인 음성대응신호를 생성하는 음성인식/합성서버(50), 생성된 음성대응신호가 사용자가 인지할 수 있도록, 출력되는 음성대응신호출력수단(60)으로 구성되어 있다.

상기 음성신호입력수단(10)에는 컴퓨터 단말기에 구비되는 마이크, 이동통신단말기에 있어서 인터넷 서비스가 가능한 왑폰(WAP phone: Wireless Application Protocol phone) 및 전화기 등을 이용하여 사용자의 음성이 입력된다.

상기 신호전송수단(20)에는 음성신호입력수단(10)에서 입력된 음성신호를 전송하여 주기 위해, 인터넷망, 기지국과 기지국 제어기 등을 포함하여 구성되는 이동통신망 및 공중전화망(PSTN: public switched telephone network) 등을 포함하여 구성되며, 음성신호입력수단(10)에서 입력이 된 음성신호를 어플리케이션부(30)로 전송한다.

어플리케이션부(30)에는 전송되는 음성신호의 발음의 범위에 속하는 텍스트들을 경우의 수를 참조하여 데이터베이스화 한 텍스트저장부(미도시)를 구비하고, 상기 신호전송수단(20)에서 전송된 음성신호와 텍스트신호를 사전에 프로그래밍화 되어진 문법파일형식(명령어)에 삽입을 하여 인터페이스부(40)를 통하여 음성인식/합성서버(50)로 입력한다.

여기서 상기 어플리케이션부(30)는 음성인식/합성서버(50)에 종속적이기 때문에 음성인식/합성서버(50)가 인식할 수 있는 문법파일형식(명령어)으로 신호를 가공해야 한다.

즉, 음성인식 서비스를 제공하기 전에 탑재가 된 음성인식/합성서버(50)가 인식할 수 있는 문법파일형식을 생성할 수 있도록, 어플리케이션부(30)는 사전에 프로그래밍화 되어 있어야 한다.

음성인식/합성서버(50)에는 음성인식엔진 및 음성합성엔진과 가공이 된 음성신호에 대응이 되는 음성대응신호(문자, 특별문자, 도형, 음성 및 이들의 조합)가 데이터베이화 된 음성대응신호 저장부(미도시)를 구비하고, 인터페이스부(40)를 통하여 입력된 가공이 된 음성신호를 인식한 후에 음성합성엔진에 의해 가공이 된 음성신호와 음성대응신호 저장부를 매칭함으로써, 사용자가 요구하는 음성대응신호를 생성한다.

여기서 상기 음성인식/합성서버(50)와 어플리케이션부(30)와 인터페이스부(40)는 네트워크로 구성되어진다.

또한, 음성인식/합성서버(50)는 음성인식 서비스 제공자가 요구하는 다양한 요구, 예를 들어, 숫자, 이름, 서비스명, 음성 위주, 또는 이들의 조합이냐에 따라 자신에게 필요한 음성인식/합성서버를 선택할 수 있도록, 다양한 종류의 음성인식/합성서버가 제공되어진다.

생성된 음성대응신호는 신호전송수단(20)을 통하여 음성대응신호출력수단(60)에 출력되어진다.

여기서 음성대응신호출력수단(60)에 출력되어지는 음성대응신호의 전송경로는 음성인식/합성서버(50)에서 인터페이스부(40)와 어플리케이션부(30)를 통하여 신호전송수단(20)으로 전송될 수도 있으며, 또는 음성인식/합성서버(50)에서 바로 신호전송수단(20)으로 전송될 수도 있다.

상기와 같이 기술된 음성인식 시스템의 수요는 나날이 증가되고 있는 추세이며, 다수의 사용자의 다양한 욕구를 충족시켜 줄 수 있도록, 사용자의 질의에 따른 음성신호를 인지하고, 거기에 합당한 음성대응신호를 생성하는 다양한 종류의 음성인식/합성서버가 구축이 된 음성인식 시스템이 요구되고 있는 실정이다

그러나 상기 일반적인 음성인식 시스템에 있어서, 어플리케이션부는 음성인식/합성서버에 종속적이어서, 음성인식서비스 제공자가 음성인식 서비스의 용도에따라 다른 종류의 음성인식/합성서버를 사용할 경우, 상기 다른 종류의 음성인식/합성서버로 입력이 되는 가공이 된 음성신호를 인식할 수 있도록, 이전에 프로그래밍 되어진 어플리케이션부의 문법파일형식을 교체되어진 다른 종류의 음성인식/합성서버에 맞게 새롭게 프로그래밍을 하여야 하기 때문에 음성인식/합성서버의 변경에 따른 음성인식 시스템의 보수 및 재개발이 요구되어져 프로그램 개발자의 재교육과 시스템 재구축에 따른 비용지출이 발생하는 문제점이 있다.

또한, 서로 다른 음성인식/합성서버 제공자들이 제공한 다양한 종류의 음성인식/합성서버들을 운영할 경우, 상기 개개의 음성인식/합성서버가 인식할 수 있도록, 구축되어진 음성인식/합성서버의 종류별만큼 프로그래밍 되어진 다수의 어플리케이션부가 구축이 되어야 하는 문제점이 있다.

본 발명은 상기 종래 기술의 문제점을 해결하기 위한 것으로, 본 발명의 목적은 음성인식서비스 제공자가 음성인식 서비스의 용도에 따라 다른 종류의 음성인식/합성서버로 교체하여 사용할 경우에도 음성인식 시스템의 일 구성요소인 어플리케이션부를 새롭게 프로그래밍 할 필요 없이, 간단한 매개변수 입력값 만으로 음성인식 시스템의 구동을 가능하게 하여 프로그램 개발자의 재교육이 요구되지 않으며, 또한 음성인식 시스템의 재구축에 따른 비용지출도 없는 독립적 음성처리를 위한 음성인식 시스템을 제공하는데 있다.

본 발명의 다른 목적은 음성인식 서비스 제공자가 다양한 종류의 음성인식/합성서버들을 운영할 경우에도 음성인식 시스템의 구현이 가능하도록 제어하여 주는 미들웨어가 탑재가 된 독립적 음성처리를 위한 음성인식 시스템을 제공하는데 있다.

본 발명의 목적을 달성하기 위한 기술적 사상으로, 사용자의 음성이 입력되는 음성신호 입력수단, 상기 음성신호 입력수단에 입력이 된 음성신호를 전송하는 신호전송수단에 의해 전송이 된 음성신호를 인식하여 해당 음성신호에 대응하는 신호를 합성하여 음성대응신호를 출력하여 주는 음성인식 시스템에 있어서, 음성대응신호를 요청할 수 있도록, 상기 신호전송수단에서 전송되는 음성신호를 음성대응 요청신호로 가공하는 어플리케이션부와, 상기 어플리케이션부에서 가공된 음성대응 요청신호를 입력받아, 상기 입력된 음성대응 요청신호에 대응하여 답변을 생성하는 음성인식/합성서버의 지정과, 상기 지정된 음성인식/합성서버에서 답변을 생성하도록 하는 명령어인 문법파일정보에 음성대응 요청신호인 음성신호의 발음의 범위에 속하는 텍스트정보를 삽입하고, 상기 텍스트정보가 삽입된 문법파일정보와 음성신호를 포함하는 가공이 된 음성신호를 생성하는 스위칭서버와, 상기 스위칭서버에서 생성된 가공이 된 음성신호를 자동으로 출력시켜주는 인터페이스부와, 상기 인터페이스부로부터 입력된 가공이 된 음성신호를 입력받아 음성인식/합성엔진에 의해, 가공이 된 음성신호와 음성대응신호 저장부를 매칭하여 사용자가 요구하는 음성대응신호를 생성하는 해당 음성인식/합성서버를 포함하여 제시한다.

여기서 상기 스위칭서버부는, 음성인식 시스템에 구축되어 있는 음성인식/합성서버의 IP어드레스 및 상표명, 상기 음성인식/합성서버가 인식하여 음성대응신호를 생성할 수 있도록 하는 문법파일 및 사용자가 입력한 음성신호의 발음의 범위에속하는 텍스트들을 입력하는 사용자입력부와, 상기 사용자입력부에서 입력이 되는 데이터 중, 음성인식/합성서버인식용 문법파일데이터와 사용자가 입력한 음성신호의 발음의 범위에 속하는 텍스트데이터가 저장이 되는 외부데이터 저장부와, 음성인식/합성서버의 전송경로가 지정이 된 음성대응 요청신호를 입력받아 상기 외부데이터 저장부와 매칭하여 해당 음성인식/합성서버의 문법파일정보 및 사용자가 입력한 음성신호의 발음의 범위에 속하는 해당 텍스트데이터를 각각 추출하고, 상기 추출된 문법파일정보에 상기 추출된 텍스트정보를 삽입하여, 상기 텍스트정보가 삽입이 된 문법파일정보와 사용자의 음성신호를 포함하는 가공이 된 음성신호를 생성하는 데이터취합부와, 상기 사용자입력부에서 입력이 된 음성인식/합성서버의 IP어드레스데이터와 상표명데이터, 상기 음성인식/합성서버가 인식하여 음성대응신호를 생성할 수 있도록 하는 문법파일데이터 및 사용자가 입력한 음성신호의 발음의 범위에 속하는 텍스트데이터를 임시저장부에 래치하고, 상기 래치된 데이터 중, 문법파일데이터 및 텍스트데이터를 외부데이터 저장부에 저장이 되도록 제어하고, 입력된 음성대응 요청신호의 답변인 음성대응신호를 생성하는 음성인식/합성서버를 임시저장부에 래치된 음성인식/합성서버의 상표명데이터를 판독하여 해당 음성인식/합성서버를 지정하고, 상기 지정된 음성인식/합성서버에서 음성대응신호를 생성할 수 있도록, 상기 데이터취합부를 제어하는 제어부를 포함하여 구성이 된다.

여기서 상기 제어부는 입력이 되는 음성대응 요청신호가 폭주할 경우, 상기 임시저장부에 저장되어 있는 음성인식/합성서버의 상표명 데이터를 판독하여, 선택적으로 음성인식/합성서버들을 지정할 수 있도록 제어한다.

또한, 상기 음성인식/합성서버는 사용자의 음성신호에 대응하여 답변을 생성하도록 하는 명령어인 문법파일이 서로 다른 다양한 종류로 구성이 되어도 음성대응신호의 생성이 가능하다.

도 1은 일반적인 음성인식 시스템을 나타낸 블록도,

도 2는 본 발명의 음성인식 시스템을 나타낸 블록도,

도 3은 도 2의 음성인식 시스템의 한 구성요소인 미들웨어를 나타낸 상세 블록도이다.

<도면의 주요부분에 대한 부호설명>

A : 미들웨어 10 : 음성신호입력수단

20 : 신호전송수단 30,30a : 어플리케이션부

40,40a : 인터페이스부 50,50a,50b : 음성인식/합성서버

60 : 음성대응신호출력수단 100 : 스위칭서버

110 : 사용자입력부 120 : 데이터취합부

130 : 외부데이터 저장부 140 : 제어부

이하에서는 본 발명의 실시예에 대한 구성 및 작용을 첨부한 도면을 참조하면서 상세히 설명하기로 한다.

도 2는 본 발명의 음성인식 시스템을 나타낸 블록이고, 도 3은 상기 도 2의 한 구성요소인 미들웨어를 나타낸 상세블록도이다.

도 2에 도시한 바와 같이, 사용자의 음성이 입력되는 음성신호 입력수단(10), 상기 음성신호 입력수단(10)에 입력이 된 음성신호를 전송하는 신호전송수단(20)에 의해 전송이 된 음성신호를 인식하여 해당 음성신호에 대응하는 신호를 합성하여 음성대응신호를 출력하여 주는 음성인식 시스템에 있어서, 음성대응신호를 요청할 수 있도록, 상기 신호전송수단(20)에서 전송되는 음성신호를 음성대응 요청신호로 가공하는 어플리케이션부(30a)와, 상기 어플리케이션부(30a)에서 가공된 음성대응 요청신호를 입력받아, 상기 입력된 음성대응 요청신호에 대응하여 답변을 생성하는 음성인식/합성서버(50a)(50b)의 지정과, 음성대응 요청신호인 음성신호의 발음의 범위에 속하는 텍스트정보를 추출한 후, 지정된 음성인식/합성서버가 인식할 수 있도록, 상기 지정된 음성인식/합성서버에서 답변을 생성하도록 하는 명령어인 해당문법파일에 상기 텍스트정보를 삽입함으로써, 상기 텍스트정보가 삽입이 된 해당 문법파일과 사용자의 음성신호를 포함하는 가공이 된 음성신호를생성하는 스위칭서버(100)와, 상기 스위칭서버(100)에서 생성된 가공이 된 음성신호를 자동으로 출력시켜주는 인터페이스부(40a)와, 상기 인터페이스부(40a)로부터 입력된 가공이 된 음성신호를 입력받아 음성인식/합성엔진(미도시)에 의해, 가공이 된 음성신호와 음성대응신호 저장부(미도시)를 매칭하여 사용자가 요구하는 음성대응신호를 생성하는 해당 음성인식/합성서버(50a)(50b)를 포함하여 구성된다.

상기 어플리케이션부(30a)는 입력되는 음성신호가 있을 때마다 거기에 대응하여 생성이 되는 음성대응신호를 요청하기만 한다.

상기 스위칭서버부(100)는 음성인식 시스템에 구축되어 있는 음성인식/합성서버(50a)(50b)의 IP(Internet Protocol)어드레스, 상기 음성인식/합성서버(50a)(50b)의 상표명, 상기 음성인식/합성서버(50a)(50b)가 인식하여 음성대응신호를 생성할 수 있도록 하는 문법파일(명령어) 및 사용자가 입력한 음성신호의 발음의 범위에 속하는 텍스트를 경우의 수를 참조하여 제작이 된 텍스트들을 입력하는 사용자입력부(110)와, 상기 사용자입력부(110)에서 입력이 되는 데이터 중, 음성인식/합성서버(50a)(50b)인식용 문법파일데이터와 사용자가 입력한 음성신호의 발음의 범위에 속하는 텍스트데이터가 저장이 되는 외부데이터 저장부(130)와, 음성인식/합성서버(50a)(50b)의 전송경로가 지정이 된 음성대응 요청신호를 입력받아 상기 외부데이터 저장부(130)에 저장된 음성인식/합성서버(50a)(50b)인식용 문법파일데이터에서 해당 음성인식/합성서버(50a)(50b)의 문법파일정보 추출 및 이와 동시에 상기 외부데이터 저장부(130)에 저장된 사용자가 입력한 음성신호의 발음의 범위에 속하는 텍스트데이터와 상기 입력된 음성대응 요청신호인 음성신호를 매칭하여 추출되는 텍스트정보를 상기 해당 음성인식/합성서버(50a)(50b)의 문법파일정보에 삽입하여, 상기 텍스트정보가 삽입이 된 문법파일정보와 사용자의 음성신호를 포함하는 가공이 된 음성신호를 생성하는 데이터취합부(120)와, 상기 사용자입력부(110)에서 입력이 된 음성인식/합성서버(50a)(50b)의 IP어드레스데이터와 상표명데이터, 상기 음성인식/합성서버(50a)(50b)가 인식하여 음성대응신호를 생성할 수 있도록 하는 명령어인 문법파일데이터 및 사용자가 입력한 음성신호의 발음의 범위에 속하는 텍스트데이터를 임시저장부(미도시)에 래치하고, 상기 래치된 데이터 중, 문법파일데이터 및 텍스트데이터를 외부데이터 저장부(130)에 저장이 되도록 제어하며, 입력이 된 음성대응 요청신호의 답변인 음성대응신호를 생성하는 음성인식/합성서버(50a)(50b)를 지정할 수 있도록, 임시저장부에 래치된 음성인식/합성서버(50a)(50b)의 상표명데이터를 판독하여 해당 음성인식/합성서버(50a)(50b)를 지정하고, 상기 지정된 해당 음성인식/합성서버(50a)(50b)의 음성대응요청신호에 의해 음성대응신호를 생성할 수 있도록, 가공이 된 음성신호를 생성하도록 상기 데이터취합부(120)를 제어하는 제어부(140)를 포함하여 구성이 되며, 상기 스우칭서버부(100)의 한 구성요소인 제어부(140)에서 생성된 가공이 된 음성신호를 해당 음성인식/합성서버로 데이터를 자동으로 전송하는 인터페이스부(40a)를 더 포함하여 구성하고, 상기 스우칭서버부(100)와 인터페이스부(40a)를 통칭하여 미들웨어(A)라 명명한다.

상기 사용자입력부(110)에서 입력되는 데이터 중,음성인식/합성서버(50a)(50b)의 상표명 및 상기 음성인식/합성서버(50a)(50b)가 인식하여 음성대응신호를 생성할 수 있도록 하는 문법파일은 음성인식 시스템에 구축되어 있는 음성인식/합성서버(50a)(50b)의 종류가 바뀌어 대체되어질 경우, 상기 사용자입력부(110)에서 바뀌어진 음성인식/합성서버(50a)(50b)의 해당 상표명과 바뀌어진 음성인식/합성서버(50a)(50b)의 문법파일만 재입력만 하면 되며, 다양한 종류의 음성인식/합성서버(50a)(50b)가 구축이 되어 운영이 되어질 경우에도, 간단히 종류별 음성인식/합성서버(50a)(50b)의 상표명과 종류별 음성인식/합성서버(50a)(50b)의 문법파일만 입력을 하기만 하면, 제어부(140)의 제어에 의해 원활하게 음성인식 시스템이 구현되어진다.

또한 상기 제어부(140)는 사용자의 음성대응 요청신호가 폭주할 경우, 임의의 하나의 음성인식/합성서버(50a)(50b)로만 입력되어 부하가 발생하는 것을 방지하기 위해, 임시저장부에 저장되어 있는 음성인식/합성서버(50a)(50b)의 상표명 데이터를 판독하여 선택적으로 개개의 음성인식/합성서버(50a)(50b)에 분산입력이 되도록 제어한다.

이하 상기 구성을 이용하여 작용을 설명하면 다음과 같다.

음성인식 시스템의 서비스를 받고자 하는 사용자가 음성신호입력수단(10)을 이용하여 음성을 입력하면, 입력된 음성신호는 신호전송수단(20)을 통하여 어플리케이션부(30a)로 전송이 되며, 어플리케이션부(30a)는 전송이 된 음성신호를 음성대응신호를 요청하는 음성대응 요청신호로 가공을 한 후에 스위칭서버(100)의 한 구성요소인 제어부(140)로 입력한다.

제어부(140)는 임시저장부에 래치된 음성인식/합성서버(50a)(50b)의 상표명데이터를 판독하여 입력된 음성대응 요청신호의 답변인 음성대응신호를 생성하는 음성인식/합성서버(50a)(50b)를 지정하고, 음성인식/합성서버(50a)(50b)가 지정이 된 음성대응 요청신호를 데이터취합부(120)로 입력한다.

여기서 제어부(140)는 입력이 되는 음성대응 요청신호가 폭주할 경우, 임의의 하나의 음성인식/합성서버(50a)(50b)로 집중되어 부하가 발생하는 것을 방지하기 위해, 음성인식 시스템에 구축된 개개의 음성인식/합성서버(50a)(50b)에 고르게 분산이 되도록, 임시저장부에 래치된 음성인식/합성서버(50a)(50b)의 상표명데이터를 판독하여 선택적으로 음성인식/합성서버(50a)(50b)들을 지정할 수 있다.

데이터취합부(120)는 입력된 음성인식/합성서버(50a)(50b)가 지정이 된 음성대응 요청신호에 의해 외부데이터 저장부(130)에서 해당 음성인식/합성서버(50a)(50b)의 문법파일데이터를 추출하고, 이와 동시에 입력된 음성인식/합성서버(50a)(50b)가 지정이 된 음성대응 요청신호인 음성신호의 발음의 범위에 속하는 텍스트데이터도 추출한다.

여기서 추출된 문법파일데이터에 텍스트데이터를 삽입하고, 텍스트데이터가 삽입된 문법파일데이터와 사용자의 음성신호를 포함하는 가공이 된 음성신호를 제어부(140)로 입력을 하며, 인터페이스부(40a)는 상기 제어부(140)에 입력된 가공이 된 음성신호를 입력받아 자동으로 해당 음성인식/합성서버(50a)(50b)로 입력하고, 해당 음성인식/합성서버(50a)(50b)는 입력된 가공이 된 음성신호를 인식하여 음성합성엔진에 의해, 가공이 된 음성신호와 음성대응신호 저장부를 매칭하여 사용자가요구하는 음성대응신호를 생성한다.

생성된 음성대응신호는 사용자가 인지할 수 있도록, 음성대응신호출력수단(60)에 출력되어진다.

여기서 음성대응신호출력수단(60)에 출력되어지는 음성대응신호의 전송경로는 해당 음성인식/합성서버(50a)(50b)에서 스위칭서버(100)와 인터페이스부(40a)를 포함하는 미들웨어(A)로 입력이 되어 신호전송수단(20)에 의해 전송될 수도 있으며, 또는 해당 음성인식/합성서버(50a)(50b)에서 바로 신호전송수단(20)으로 전송될 수도 있다.

이상에서 설명한 바와 같이, 본 발명은 음성인식서비스 제공자가 음성인식 서비스의 용도에 따라 다른 종류의 음성인식/합성서버로 교체하여 사용할 경우에도 음성인식 시스템에 구축이 된 소프트웨어를 새롭게 프로그래밍 할 필요가 없어 음성인식 시스템의 재구축에 따른 비용지출이 없으며, 더욱이 음성인식 시스템의 재구축시 요구되는 프로그램 개발자의 재교육이 필요하지 않은 효과가 있다.

또한, 음성인식 서비스 제공자가 다양한 종류의 음성인식/합성서버들을 운영할 경우에도 개개의 음성인식/합성서버에 요구되는 개개의 어플리케이션부가 없이도 음성인식 시스템의 운영이 가능한 효과가 있다.

또한, 사용자의 음성신호가 폭주하여도, 선택적으로 각각의 음성인식/합성서버에 음성신호를 분산입력 하도록 제어하여 음성인식/합성서버에 부하가 발생하는 것을 방지하는 효과가 있다.

본 발명은 기재된 구체예 대해서만 상세히 설명되었지만 본 발명의 사상과 범위내에서 변형이나 변경할 수 있음은 본 발명이 속하는 분야의 당업자에게는 명백한 것이며, 그러한 변형이나 변경은 첨부한 특허청구범위에 속한다 할 것이다.

Claims

사용자의 음성이 입력되는 음성신호 입력수단(10), 상기 음성신호 입력수단(10)에 입력이 된 음성신호를 전송하는 신호전송수단(20)에 의해 전송이 된 음성신호를 인식하여 해당 음성신호에 대응하는 신호를 합성하여 음성대응신호를 출력하여 주는 음성인식 시스템에 있어서,

음성대응신호를 요청할 수 있도록, 상기 신호전송수단(20)에서 전송되는 음성신호를 음성대응 요청신호로 가공하는 어플리케이션부(30a)와,

상기 어플리케이션부(30a)에서 가공된 음성대응 요청신호를 입력받아, 상기 입력된 음성대응 요청신호에 대응하여 답변을 생성하는 음성인식/합성서버(50a)(50b)의 지정과, 상기 지정된 음성인식/합성서버에서 답변을 생성하도록 하는 명령어인 문법파일정보에 음성대응 요청신호인 음성신호의 발음의 범위에 속하는 텍스트정보를 삽입하고, 상기 텍스트정보가 삽입된 문법파일정보와 음성신호를 포함하는 가공이 된 음성신호를 생성하는 스위칭서버(100)와,

상기 스위칭서버에서 생성된 가공이 된 음성신호를 자동으로 출력시켜주는 인터페이스부(40a)와,

상기 인터페이스부(40a)로부터 입력된 가공이 된 음성신호를 입력받아 음성인식/합성엔진에 의해, 가공이 된 음성신호와 음성대응신호 저장부를 매칭하여 사용자가 요구하는 음성대응신호를 생성하는 해당 음성인식/합성서버를 포함하여 구성되는 것을 특징으로 하는 독립적 음성처리를 위한 음성인식 시스템.
제1항에 있어서,

상기 스위칭서버(100)는, 음성인식 시스템에 구축되어 있는 음성인식/합성서버(50a)(50b)의 IP어드레스 및 상표명, 상기 음성인식/합성서버(50a)(50b)가 인식하여 음성대응신호를 생성할 수 있도록 하는 문법파일 및 사용자가 입력한 음성신호의 발음의 범위에 속하는 텍스트들을 입력하는 사용자입력부(110)와,

상기 사용자입력부(110)에서 입력이 되는 데이터 중, 음성인식/합성서버(50a)(50b)인식용 문법파일데이터와 사용자가 입력한 음성신호의 발음의 범위에 속하는 텍스트데이터가 저장이 되는 외부데이터 저장부(130)와,

음성인식/합성서버(50a)(50b)의 전송경로가 지정이 된 음성대응 요청신호를 입력받아 상기 외부데이터 저장부(130)와 매칭하여 해당 음성인식/합성서버(50a)(50b)의 문법파일정보 및 사용자가 입력한 음성신호의 발음의 범위에 속하는 해당 텍스트데이터를 각각 추출하고, 상기 추출된 문법파일정보에 상기 추출된 텍스트정보를 삽입하여, 상기 텍스트정보가 삽입이 된 문법파일정보와 사용자의 음성신호를 포함하는 가공이 된 음성신호를 생성하는 데이터취합부(120)와,

상기 사용자입력부(110)에서 입력이 된 음성인식/합성서버(50a)(50b)의 IP어드레스데이터와 상표명데이터, 상기 음성인식/합성서버(50a)(50b)가 인식하여 음성대응신호를 생성할 수 있도록 하는 문법파일데이터 및 사용자가 입력한 음성신호의 발음의 범위에 속하는 텍스트데이터를 임시저장부에 래치하고, 상기 래치된 데이터중, 문법파일데이터 및 텍스트데이터를 외부데이터 저장부(130)에 저장이 되도록 제어하고, 입력된 음성대응 요청신호의 답변인 음성대응신호를 생성하는 음성인식/합성서버(50a)(50b)를 임시저장부에 래치된 음성인식/합성서버(50a)(50b)의 상표명데이터를 판독하여 해당 음성인식/합성서버(50a)(50b)를 지정하고, 상기 지정된 음성인식/합성서버(50a)(50b)에서 음성대응신호를 생성할 수 있도록, 상기 데이터취합부(120)를 제어하는 제어부(140)를 포함하여 구성되는 것을 특징으로 하는 독립적 음성처리를 위한 음성인식 시스템.
제2항에 있어서,

상기 제어부(140)는 입력이 되는 음성대응 요청신호가 폭주할 경우, 상기 임시저장부에 저장되어 있는 음성인식/합성서버(50a)(50b)의 상표명 데이터를 판독하여, 선택적으로 음성인식/합성서버(50a)(50b)들을 지정하여 부하를 분담할 수 있도록 제어하는 것을 더 포함하는 것을 특징으로 하는 독립적 음성처리를 위한 음성인식 시스템.
제1항 내지 3항 중 어느 한 항에 있어서,

상기 음성인식/합성서버(50a)(50b)는 사용자의 음성신호에 대응하여 답변을 생성하도록 하는 명령어인 문법파일이 서로 다른 다양한 종류로 구성이 되어도 음성대응신호의 생성이 가능한 것을 특징으로 하는 독립적 음성처리를 위한 음성인식 시스템.