KR100432373B1 - 독립적 음성처리를 위한 음성인식 시스템 - Google Patents

독립적 음성처리를 위한 음성인식 시스템 Download PDF

Info

Publication number
KR100432373B1
KR100432373B1 KR10-2001-0069128A KR20010069128A KR100432373B1 KR 100432373 B1 KR100432373 B1 KR 100432373B1 KR 20010069128 A KR20010069128 A KR 20010069128A KR 100432373 B1 KR100432373 B1 KR 100432373B1
Authority
KR
South Korea
Prior art keywords
voice
signal
voice recognition
synthesis server
input
Prior art date
Application number
KR10-2001-0069128A
Other languages
English (en)
Other versions
KR20030038921A (ko
Inventor
김영진
Original Assignee
주식회사 아이엔커넥트
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 주식회사 아이엔커넥트 filed Critical 주식회사 아이엔커넥트
Priority to KR10-2001-0069128A priority Critical patent/KR100432373B1/ko
Publication of KR20030038921A publication Critical patent/KR20030038921A/ko
Application granted granted Critical
Publication of KR100432373B1 publication Critical patent/KR100432373B1/ko

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Telephonic Communication Services (AREA)

Abstract

본 발명은 음성인식 시스템에 관한 것으로서, 더욱 상세하게는 음성인식 시스템의 일 구성요소인 음성인식/합성서버를 교체하여도 새롭게 시스템을 재건축 할 필요가 없으며, 더욱이 다양한 종류의 음성인식/합성서버를 운영하여도 시스템의 구현이 가능한 독립적 음성처리를 위한 음성인식 시스템에 관한 것이다.
이를 위해, 사용자의 음성신호의 입력에 의해, 답변을 제공하여 주는 음성인식 시스템 상에서, 음성대응신호를 요청할 수 있도록, 신호전송수단(20)에서 전송되는 음성신호를 음성대응 요청신호로 가공하는 어플리케이션부(30a)와, 상기 어플리케이션부(30a)에서 입력된 음성대응 요청신호에 대응하여 답변을 생성하는 음성인식/합성서버(50a)(50b)의 지정과, 상기 지정된 음성인식/합성서버에서 답변을 생성하도록 하는 문법파일정보에 음성신호의 발음의 범위에 속하는 텍스트정보를 삽입하고, 상기 텍스트정보가 삽입된 문법파일정보와 음성신호를 포함하는 가공이 된 음성신호를 생성하는 스위칭서버(100)와, 상기 스위칭서버(100)에서 생성된 가공이 된 음성신호를 자동으로 출력시켜주는 인터페이스부(40a)를 통하여 가공이 된 음성신호를 입력받아 음성인식/합성엔진에 의해, 가공이 된 음성신호와 음성대응신호 저장부를 매칭하여 사용자가 요구하는 음성대응신호를 생성하는 해당 음성인식/합성서버(50a)(50b)를 포함하는 음성인식 시스템을 제공한다.

Description

독립적 음성처리를 위한 음성인식 시스템{The voice recognition system for independent speech processing}
본 발명은 음성인식 시스템에 관한 것으로서, 더욱 상세하게는 음성인식 시스템의 일 구성요소인 음성인식/합성서버를 교체하여도 새롭게 시스템을 재건축 할 필요가 없으며, 더욱이 다양한 종류의 음성인식/합성서버를 운영하여도 시스템의 구현이 가능한 독립적 음성처리를 위한 음성인식 시스템에 관한 것이다.
일반적으로 음성인식 시스템이라 함은 사용자의 음성을 인식하여 그 내용대로 동작해 주는 장치로서, 최근 이동통신단말기(셀룰러폰, PCS) 등에서 음성으로 콜(call)을 하거나, 인터넷상에서의 음성포털 서비스, 증권업무, 교육분야(예를 들어, 문답시, 문장 또는 단어의 발음이 요구되는 외국어 학습분야) 및 전화망서비스에서 항공 및 승차권 예약 등에서 사용자의 음성에 의해 해당 정보를 검색하여 주는 등, 여러 측면에서 활용가능성이 제시되고 있다.
도 1은 일반적인 음성인식 시스템을 나타낸 블록도이다.
도시한 바와 같이, 사용자의 음성이 입력이 되는 음성신호입력수단(10), 입력된 음성신호를 전송하여 주는 신호전송수단(20), 전송이 된 음성신호를 음성인식/합성서버(50)가 인식할 수 있는 형식으로 음성신호를 가공하여 주는 어플리케이션부(30), 가공된 음성신호를 인터페이스부(40)를 통하여 입력받은 후, 가공된 음성신호를 인지하여, 거기에 대한 답변인 음성대응신호를 생성하는 음성인식/합성서버(50), 생성된 음성대응신호가 사용자가 인지할 수 있도록, 출력되는 음성대응신호출력수단(60)으로 구성되어 있다.
상기 음성신호입력수단(10)에는 컴퓨터 단말기에 구비되는 마이크, 이동통신단말기에 있어서 인터넷 서비스가 가능한 왑폰(WAP phone: Wireless Application Protocol phone) 및 전화기 등을 이용하여 사용자의 음성이 입력된다.
상기 신호전송수단(20)에는 음성신호입력수단(10)에서 입력된 음성신호를 전송하여 주기 위해, 인터넷망, 기지국과 기지국 제어기 등을 포함하여 구성되는 이동통신망 및 공중전화망(PSTN: public switched telephone network) 등을 포함하여 구성되며, 음성신호입력수단(10)에서 입력이 된 음성신호를 어플리케이션부(30)로 전송한다.
어플리케이션부(30)에는 전송되는 음성신호의 발음의 범위에 속하는 텍스트들을 경우의 수를 참조하여 데이터베이스화 한 텍스트저장부(미도시)를 구비하고, 상기 신호전송수단(20)에서 전송된 음성신호와 텍스트신호를 사전에 프로그래밍화 되어진 문법파일형식(명령어)에 삽입을 하여 인터페이스부(40)를 통하여 음성인식/합성서버(50)로 입력한다.
여기서 상기 어플리케이션부(30)는 음성인식/합성서버(50)에 종속적이기 때문에 음성인식/합성서버(50)가 인식할 수 있는 문법파일형식(명령어)으로 신호를 가공해야 한다.
즉, 음성인식 서비스를 제공하기 전에 탑재가 된 음성인식/합성서버(50)가 인식할 수 있는 문법파일형식을 생성할 수 있도록, 어플리케이션부(30)는 사전에 프로그래밍화 되어 있어야 한다.
음성인식/합성서버(50)에는 음성인식엔진 및 음성합성엔진과 가공이 된 음성신호에 대응이 되는 음성대응신호(문자, 특별문자, 도형, 음성 및 이들의 조합)가 데이터베이화 된 음성대응신호 저장부(미도시)를 구비하고, 인터페이스부(40)를 통하여 입력된 가공이 된 음성신호를 인식한 후에 음성합성엔진에 의해 가공이 된 음성신호와 음성대응신호 저장부를 매칭함으로써, 사용자가 요구하는 음성대응신호를 생성한다.
여기서 상기 음성인식/합성서버(50)와 어플리케이션부(30)와 인터페이스부(40)는 네트워크로 구성되어진다.
또한, 음성인식/합성서버(50)는 음성인식 서비스 제공자가 요구하는 다양한 요구, 예를 들어, 숫자, 이름, 서비스명, 음성 위주, 또는 이들의 조합이냐에 따라 자신에게 필요한 음성인식/합성서버를 선택할 수 있도록, 다양한 종류의 음성인식/합성서버가 제공되어진다.
생성된 음성대응신호는 신호전송수단(20)을 통하여 음성대응신호출력수단(60)에 출력되어진다.
여기서 음성대응신호출력수단(60)에 출력되어지는 음성대응신호의 전송경로는 음성인식/합성서버(50)에서 인터페이스부(40)와 어플리케이션부(30)를 통하여 신호전송수단(20)으로 전송될 수도 있으며, 또는 음성인식/합성서버(50)에서 바로 신호전송수단(20)으로 전송될 수도 있다.
상기와 같이 기술된 음성인식 시스템의 수요는 나날이 증가되고 있는 추세이며, 다수의 사용자의 다양한 욕구를 충족시켜 줄 수 있도록, 사용자의 질의에 따른 음성신호를 인지하고, 거기에 합당한 음성대응신호를 생성하는 다양한 종류의 음성인식/합성서버가 구축이 된 음성인식 시스템이 요구되고 있는 실정이다
그러나 상기 일반적인 음성인식 시스템에 있어서, 어플리케이션부는 음성인식/합성서버에 종속적이어서, 음성인식서비스 제공자가 음성인식 서비스의 용도에따라 다른 종류의 음성인식/합성서버를 사용할 경우, 상기 다른 종류의 음성인식/합성서버로 입력이 되는 가공이 된 음성신호를 인식할 수 있도록, 이전에 프로그래밍 되어진 어플리케이션부의 문법파일형식을 교체되어진 다른 종류의 음성인식/합성서버에 맞게 새롭게 프로그래밍을 하여야 하기 때문에 음성인식/합성서버의 변경에 따른 음성인식 시스템의 보수 및 재개발이 요구되어져 프로그램 개발자의 재교육과 시스템 재구축에 따른 비용지출이 발생하는 문제점이 있다.
또한, 서로 다른 음성인식/합성서버 제공자들이 제공한 다양한 종류의 음성인식/합성서버들을 운영할 경우, 상기 개개의 음성인식/합성서버가 인식할 수 있도록, 구축되어진 음성인식/합성서버의 종류별만큼 프로그래밍 되어진 다수의 어플리케이션부가 구축이 되어야 하는 문제점이 있다.
본 발명은 상기 종래 기술의 문제점을 해결하기 위한 것으로, 본 발명의 목적은 음성인식서비스 제공자가 음성인식 서비스의 용도에 따라 다른 종류의 음성인식/합성서버로 교체하여 사용할 경우에도 음성인식 시스템의 일 구성요소인 어플리케이션부를 새롭게 프로그래밍 할 필요 없이, 간단한 매개변수 입력값 만으로 음성인식 시스템의 구동을 가능하게 하여 프로그램 개발자의 재교육이 요구되지 않으며, 또한 음성인식 시스템의 재구축에 따른 비용지출도 없는 독립적 음성처리를 위한 음성인식 시스템을 제공하는데 있다.
본 발명의 다른 목적은 음성인식 서비스 제공자가 다양한 종류의 음성인식/합성서버들을 운영할 경우에도 음성인식 시스템의 구현이 가능하도록 제어하여 주는 미들웨어가 탑재가 된 독립적 음성처리를 위한 음성인식 시스템을 제공하는데 있다.
본 발명의 목적을 달성하기 위한 기술적 사상으로, 사용자의 음성이 입력되는 음성신호 입력수단, 상기 음성신호 입력수단에 입력이 된 음성신호를 전송하는 신호전송수단에 의해 전송이 된 음성신호를 인식하여 해당 음성신호에 대응하는 신호를 합성하여 음성대응신호를 출력하여 주는 음성인식 시스템에 있어서, 음성대응신호를 요청할 수 있도록, 상기 신호전송수단에서 전송되는 음성신호를 음성대응 요청신호로 가공하는 어플리케이션부와, 상기 어플리케이션부에서 가공된 음성대응 요청신호를 입력받아, 상기 입력된 음성대응 요청신호에 대응하여 답변을 생성하는 음성인식/합성서버의 지정과, 상기 지정된 음성인식/합성서버에서 답변을 생성하도록 하는 명령어인 문법파일정보에 음성대응 요청신호인 음성신호의 발음의 범위에 속하는 텍스트정보를 삽입하고, 상기 텍스트정보가 삽입된 문법파일정보와 음성신호를 포함하는 가공이 된 음성신호를 생성하는 스위칭서버와, 상기 스위칭서버에서 생성된 가공이 된 음성신호를 자동으로 출력시켜주는 인터페이스부와, 상기 인터페이스부로부터 입력된 가공이 된 음성신호를 입력받아 음성인식/합성엔진에 의해, 가공이 된 음성신호와 음성대응신호 저장부를 매칭하여 사용자가 요구하는 음성대응신호를 생성하는 해당 음성인식/합성서버를 포함하여 제시한다.
여기서 상기 스위칭서버부는, 음성인식 시스템에 구축되어 있는 음성인식/합성서버의 IP어드레스 및 상표명, 상기 음성인식/합성서버가 인식하여 음성대응신호를 생성할 수 있도록 하는 문법파일 및 사용자가 입력한 음성신호의 발음의 범위에속하는 텍스트들을 입력하는 사용자입력부와, 상기 사용자입력부에서 입력이 되는 데이터 중, 음성인식/합성서버인식용 문법파일데이터와 사용자가 입력한 음성신호의 발음의 범위에 속하는 텍스트데이터가 저장이 되는 외부데이터 저장부와, 음성인식/합성서버의 전송경로가 지정이 된 음성대응 요청신호를 입력받아 상기 외부데이터 저장부와 매칭하여 해당 음성인식/합성서버의 문법파일정보 및 사용자가 입력한 음성신호의 발음의 범위에 속하는 해당 텍스트데이터를 각각 추출하고, 상기 추출된 문법파일정보에 상기 추출된 텍스트정보를 삽입하여, 상기 텍스트정보가 삽입이 된 문법파일정보와 사용자의 음성신호를 포함하는 가공이 된 음성신호를 생성하는 데이터취합부와, 상기 사용자입력부에서 입력이 된 음성인식/합성서버의 IP어드레스데이터와 상표명데이터, 상기 음성인식/합성서버가 인식하여 음성대응신호를 생성할 수 있도록 하는 문법파일데이터 및 사용자가 입력한 음성신호의 발음의 범위에 속하는 텍스트데이터를 임시저장부에 래치하고, 상기 래치된 데이터 중, 문법파일데이터 및 텍스트데이터를 외부데이터 저장부에 저장이 되도록 제어하고, 입력된 음성대응 요청신호의 답변인 음성대응신호를 생성하는 음성인식/합성서버를 임시저장부에 래치된 음성인식/합성서버의 상표명데이터를 판독하여 해당 음성인식/합성서버를 지정하고, 상기 지정된 음성인식/합성서버에서 음성대응신호를 생성할 수 있도록, 상기 데이터취합부를 제어하는 제어부를 포함하여 구성이 된다.
여기서 상기 제어부는 입력이 되는 음성대응 요청신호가 폭주할 경우, 상기 임시저장부에 저장되어 있는 음성인식/합성서버의 상표명 데이터를 판독하여, 선택적으로 음성인식/합성서버들을 지정할 수 있도록 제어한다.
또한, 상기 음성인식/합성서버는 사용자의 음성신호에 대응하여 답변을 생성하도록 하는 명령어인 문법파일이 서로 다른 다양한 종류로 구성이 되어도 음성대응신호의 생성이 가능하다.
도 1은 일반적인 음성인식 시스템을 나타낸 블록도,
도 2는 본 발명의 음성인식 시스템을 나타낸 블록도,
도 3은 도 2의 음성인식 시스템의 한 구성요소인 미들웨어를 나타낸 상세 블록도이다.
<도면의 주요부분에 대한 부호설명>
A : 미들웨어 10 : 음성신호입력수단
20 : 신호전송수단 30,30a : 어플리케이션부
40,40a : 인터페이스부 50,50a,50b : 음성인식/합성서버
60 : 음성대응신호출력수단 100 : 스위칭서버
110 : 사용자입력부 120 : 데이터취합부
130 : 외부데이터 저장부 140 : 제어부
이하에서는 본 발명의 실시예에 대한 구성 및 작용을 첨부한 도면을 참조하면서 상세히 설명하기로 한다.
도 2는 본 발명의 음성인식 시스템을 나타낸 블록이고, 도 3은 상기 도 2의 한 구성요소인 미들웨어를 나타낸 상세블록도이다.
도 2에 도시한 바와 같이, 사용자의 음성이 입력되는 음성신호 입력수단(10), 상기 음성신호 입력수단(10)에 입력이 된 음성신호를 전송하는 신호전송수단(20)에 의해 전송이 된 음성신호를 인식하여 해당 음성신호에 대응하는 신호를 합성하여 음성대응신호를 출력하여 주는 음성인식 시스템에 있어서, 음성대응신호를 요청할 수 있도록, 상기 신호전송수단(20)에서 전송되는 음성신호를 음성대응 요청신호로 가공하는 어플리케이션부(30a)와, 상기 어플리케이션부(30a)에서 가공된 음성대응 요청신호를 입력받아, 상기 입력된 음성대응 요청신호에 대응하여 답변을 생성하는 음성인식/합성서버(50a)(50b)의 지정과, 음성대응 요청신호인 음성신호의 발음의 범위에 속하는 텍스트정보를 추출한 후, 지정된 음성인식/합성서버가 인식할 수 있도록, 상기 지정된 음성인식/합성서버에서 답변을 생성하도록 하는 명령어인 해당문법파일에 상기 텍스트정보를 삽입함으로써, 상기 텍스트정보가 삽입이 된 해당 문법파일과 사용자의 음성신호를 포함하는 가공이 된 음성신호를생성하는 스위칭서버(100)와, 상기 스위칭서버(100)에서 생성된 가공이 된 음성신호를 자동으로 출력시켜주는 인터페이스부(40a)와, 상기 인터페이스부(40a)로부터 입력된 가공이 된 음성신호를 입력받아 음성인식/합성엔진(미도시)에 의해, 가공이 된 음성신호와 음성대응신호 저장부(미도시)를 매칭하여 사용자가 요구하는 음성대응신호를 생성하는 해당 음성인식/합성서버(50a)(50b)를 포함하여 구성된다.
상기 어플리케이션부(30a)는 입력되는 음성신호가 있을 때마다 거기에 대응하여 생성이 되는 음성대응신호를 요청하기만 한다.
상기 스위칭서버부(100)는 음성인식 시스템에 구축되어 있는 음성인식/합성서버(50a)(50b)의 IP(Internet Protocol)어드레스, 상기 음성인식/합성서버(50a)(50b)의 상표명, 상기 음성인식/합성서버(50a)(50b)가 인식하여 음성대응신호를 생성할 수 있도록 하는 문법파일(명령어) 및 사용자가 입력한 음성신호의 발음의 범위에 속하는 텍스트를 경우의 수를 참조하여 제작이 된 텍스트들을 입력하는 사용자입력부(110)와, 상기 사용자입력부(110)에서 입력이 되는 데이터 중, 음성인식/합성서버(50a)(50b)인식용 문법파일데이터와 사용자가 입력한 음성신호의 발음의 범위에 속하는 텍스트데이터가 저장이 되는 외부데이터 저장부(130)와, 음성인식/합성서버(50a)(50b)의 전송경로가 지정이 된 음성대응 요청신호를 입력받아 상기 외부데이터 저장부(130)에 저장된 음성인식/합성서버(50a)(50b)인식용 문법파일데이터에서 해당 음성인식/합성서버(50a)(50b)의 문법파일정보 추출 및 이와 동시에 상기 외부데이터 저장부(130)에 저장된 사용자가 입력한 음성신호의 발음의 범위에 속하는 텍스트데이터와 상기 입력된 음성대응 요청신호인 음성신호를 매칭하여 추출되는 텍스트정보를 상기 해당 음성인식/합성서버(50a)(50b)의 문법파일정보에 삽입하여, 상기 텍스트정보가 삽입이 된 문법파일정보와 사용자의 음성신호를 포함하는 가공이 된 음성신호를 생성하는 데이터취합부(120)와, 상기 사용자입력부(110)에서 입력이 된 음성인식/합성서버(50a)(50b)의 IP어드레스데이터와 상표명데이터, 상기 음성인식/합성서버(50a)(50b)가 인식하여 음성대응신호를 생성할 수 있도록 하는 명령어인 문법파일데이터 및 사용자가 입력한 음성신호의 발음의 범위에 속하는 텍스트데이터를 임시저장부(미도시)에 래치하고, 상기 래치된 데이터 중, 문법파일데이터 및 텍스트데이터를 외부데이터 저장부(130)에 저장이 되도록 제어하며, 입력이 된 음성대응 요청신호의 답변인 음성대응신호를 생성하는 음성인식/합성서버(50a)(50b)를 지정할 수 있도록, 임시저장부에 래치된 음성인식/합성서버(50a)(50b)의 상표명데이터를 판독하여 해당 음성인식/합성서버(50a)(50b)를 지정하고, 상기 지정된 해당 음성인식/합성서버(50a)(50b)의 음성대응요청신호에 의해 음성대응신호를 생성할 수 있도록, 가공이 된 음성신호를 생성하도록 상기 데이터취합부(120)를 제어하는 제어부(140)를 포함하여 구성이 되며, 상기 스우칭서버부(100)의 한 구성요소인 제어부(140)에서 생성된 가공이 된 음성신호를 해당 음성인식/합성서버로 데이터를 자동으로 전송하는 인터페이스부(40a)를 더 포함하여 구성하고, 상기 스우칭서버부(100)와 인터페이스부(40a)를 통칭하여 미들웨어(A)라 명명한다.
상기 사용자입력부(110)에서 입력되는 데이터 중,음성인식/합성서버(50a)(50b)의 상표명 및 상기 음성인식/합성서버(50a)(50b)가 인식하여 음성대응신호를 생성할 수 있도록 하는 문법파일은 음성인식 시스템에 구축되어 있는 음성인식/합성서버(50a)(50b)의 종류가 바뀌어 대체되어질 경우, 상기 사용자입력부(110)에서 바뀌어진 음성인식/합성서버(50a)(50b)의 해당 상표명과 바뀌어진 음성인식/합성서버(50a)(50b)의 문법파일만 재입력만 하면 되며, 다양한 종류의 음성인식/합성서버(50a)(50b)가 구축이 되어 운영이 되어질 경우에도, 간단히 종류별 음성인식/합성서버(50a)(50b)의 상표명과 종류별 음성인식/합성서버(50a)(50b)의 문법파일만 입력을 하기만 하면, 제어부(140)의 제어에 의해 원활하게 음성인식 시스템이 구현되어진다.
또한 상기 제어부(140)는 사용자의 음성대응 요청신호가 폭주할 경우, 임의의 하나의 음성인식/합성서버(50a)(50b)로만 입력되어 부하가 발생하는 것을 방지하기 위해, 임시저장부에 저장되어 있는 음성인식/합성서버(50a)(50b)의 상표명 데이터를 판독하여 선택적으로 개개의 음성인식/합성서버(50a)(50b)에 분산입력이 되도록 제어한다.
이하 상기 구성을 이용하여 작용을 설명하면 다음과 같다.
음성인식 시스템의 서비스를 받고자 하는 사용자가 음성신호입력수단(10)을 이용하여 음성을 입력하면, 입력된 음성신호는 신호전송수단(20)을 통하여 어플리케이션부(30a)로 전송이 되며, 어플리케이션부(30a)는 전송이 된 음성신호를 음성대응신호를 요청하는 음성대응 요청신호로 가공을 한 후에 스위칭서버(100)의 한 구성요소인 제어부(140)로 입력한다.
제어부(140)는 임시저장부에 래치된 음성인식/합성서버(50a)(50b)의 상표명데이터를 판독하여 입력된 음성대응 요청신호의 답변인 음성대응신호를 생성하는 음성인식/합성서버(50a)(50b)를 지정하고, 음성인식/합성서버(50a)(50b)가 지정이 된 음성대응 요청신호를 데이터취합부(120)로 입력한다.
여기서 제어부(140)는 입력이 되는 음성대응 요청신호가 폭주할 경우, 임의의 하나의 음성인식/합성서버(50a)(50b)로 집중되어 부하가 발생하는 것을 방지하기 위해, 음성인식 시스템에 구축된 개개의 음성인식/합성서버(50a)(50b)에 고르게 분산이 되도록, 임시저장부에 래치된 음성인식/합성서버(50a)(50b)의 상표명데이터를 판독하여 선택적으로 음성인식/합성서버(50a)(50b)들을 지정할 수 있다.
데이터취합부(120)는 입력된 음성인식/합성서버(50a)(50b)가 지정이 된 음성대응 요청신호에 의해 외부데이터 저장부(130)에서 해당 음성인식/합성서버(50a)(50b)의 문법파일데이터를 추출하고, 이와 동시에 입력된 음성인식/합성서버(50a)(50b)가 지정이 된 음성대응 요청신호인 음성신호의 발음의 범위에 속하는 텍스트데이터도 추출한다.
여기서 추출된 문법파일데이터에 텍스트데이터를 삽입하고, 텍스트데이터가 삽입된 문법파일데이터와 사용자의 음성신호를 포함하는 가공이 된 음성신호를 제어부(140)로 입력을 하며, 인터페이스부(40a)는 상기 제어부(140)에 입력된 가공이 된 음성신호를 입력받아 자동으로 해당 음성인식/합성서버(50a)(50b)로 입력하고, 해당 음성인식/합성서버(50a)(50b)는 입력된 가공이 된 음성신호를 인식하여 음성합성엔진에 의해, 가공이 된 음성신호와 음성대응신호 저장부를 매칭하여 사용자가요구하는 음성대응신호를 생성한다.
생성된 음성대응신호는 사용자가 인지할 수 있도록, 음성대응신호출력수단(60)에 출력되어진다.
여기서 음성대응신호출력수단(60)에 출력되어지는 음성대응신호의 전송경로는 해당 음성인식/합성서버(50a)(50b)에서 스위칭서버(100)와 인터페이스부(40a)를 포함하는 미들웨어(A)로 입력이 되어 신호전송수단(20)에 의해 전송될 수도 있으며, 또는 해당 음성인식/합성서버(50a)(50b)에서 바로 신호전송수단(20)으로 전송될 수도 있다.
이상에서 설명한 바와 같이, 본 발명은 음성인식서비스 제공자가 음성인식 서비스의 용도에 따라 다른 종류의 음성인식/합성서버로 교체하여 사용할 경우에도 음성인식 시스템에 구축이 된 소프트웨어를 새롭게 프로그래밍 할 필요가 없어 음성인식 시스템의 재구축에 따른 비용지출이 없으며, 더욱이 음성인식 시스템의 재구축시 요구되는 프로그램 개발자의 재교육이 필요하지 않은 효과가 있다.
또한, 음성인식 서비스 제공자가 다양한 종류의 음성인식/합성서버들을 운영할 경우에도 개개의 음성인식/합성서버에 요구되는 개개의 어플리케이션부가 없이도 음성인식 시스템의 운영이 가능한 효과가 있다.
또한, 사용자의 음성신호가 폭주하여도, 선택적으로 각각의 음성인식/합성서버에 음성신호를 분산입력 하도록 제어하여 음성인식/합성서버에 부하가 발생하는 것을 방지하는 효과가 있다.
본 발명은 기재된 구체예 대해서만 상세히 설명되었지만 본 발명의 사상과 범위내에서 변형이나 변경할 수 있음은 본 발명이 속하는 분야의 당업자에게는 명백한 것이며, 그러한 변형이나 변경은 첨부한 특허청구범위에 속한다 할 것이다.

Claims (4)

  1. 사용자의 음성이 입력되는 음성신호 입력수단(10), 상기 음성신호 입력수단(10)에 입력이 된 음성신호를 전송하는 신호전송수단(20)에 의해 전송이 된 음성신호를 인식하여 해당 음성신호에 대응하는 신호를 합성하여 음성대응신호를 출력하여 주는 음성인식 시스템에 있어서,
    음성대응신호를 요청할 수 있도록, 상기 신호전송수단(20)에서 전송되는 음성신호를 음성대응 요청신호로 가공하는 어플리케이션부(30a)와,
    상기 어플리케이션부(30a)에서 가공된 음성대응 요청신호를 입력받아, 상기 입력된 음성대응 요청신호에 대응하여 답변을 생성하는 음성인식/합성서버(50a)(50b)의 지정과, 상기 지정된 음성인식/합성서버에서 답변을 생성하도록 하는 명령어인 문법파일정보에 음성대응 요청신호인 음성신호의 발음의 범위에 속하는 텍스트정보를 삽입하고, 상기 텍스트정보가 삽입된 문법파일정보와 음성신호를 포함하는 가공이 된 음성신호를 생성하는 스위칭서버(100)와,
    상기 스위칭서버에서 생성된 가공이 된 음성신호를 자동으로 출력시켜주는 인터페이스부(40a)와,
    상기 인터페이스부(40a)로부터 입력된 가공이 된 음성신호를 입력받아 음성인식/합성엔진에 의해, 가공이 된 음성신호와 음성대응신호 저장부를 매칭하여 사용자가 요구하는 음성대응신호를 생성하는 해당 음성인식/합성서버를 포함하여 구성되는 것을 특징으로 하는 독립적 음성처리를 위한 음성인식 시스템.
  2. 제1항에 있어서,
    상기 스위칭서버(100)는, 음성인식 시스템에 구축되어 있는 음성인식/합성서버(50a)(50b)의 IP어드레스 및 상표명, 상기 음성인식/합성서버(50a)(50b)가 인식하여 음성대응신호를 생성할 수 있도록 하는 문법파일 및 사용자가 입력한 음성신호의 발음의 범위에 속하는 텍스트들을 입력하는 사용자입력부(110)와,
    상기 사용자입력부(110)에서 입력이 되는 데이터 중, 음성인식/합성서버(50a)(50b)인식용 문법파일데이터와 사용자가 입력한 음성신호의 발음의 범위에 속하는 텍스트데이터가 저장이 되는 외부데이터 저장부(130)와,
    음성인식/합성서버(50a)(50b)의 전송경로가 지정이 된 음성대응 요청신호를 입력받아 상기 외부데이터 저장부(130)와 매칭하여 해당 음성인식/합성서버(50a)(50b)의 문법파일정보 및 사용자가 입력한 음성신호의 발음의 범위에 속하는 해당 텍스트데이터를 각각 추출하고, 상기 추출된 문법파일정보에 상기 추출된 텍스트정보를 삽입하여, 상기 텍스트정보가 삽입이 된 문법파일정보와 사용자의 음성신호를 포함하는 가공이 된 음성신호를 생성하는 데이터취합부(120)와,
    상기 사용자입력부(110)에서 입력이 된 음성인식/합성서버(50a)(50b)의 IP어드레스데이터와 상표명데이터, 상기 음성인식/합성서버(50a)(50b)가 인식하여 음성대응신호를 생성할 수 있도록 하는 문법파일데이터 및 사용자가 입력한 음성신호의 발음의 범위에 속하는 텍스트데이터를 임시저장부에 래치하고, 상기 래치된 데이터중, 문법파일데이터 및 텍스트데이터를 외부데이터 저장부(130)에 저장이 되도록 제어하고, 입력된 음성대응 요청신호의 답변인 음성대응신호를 생성하는 음성인식/합성서버(50a)(50b)를 임시저장부에 래치된 음성인식/합성서버(50a)(50b)의 상표명데이터를 판독하여 해당 음성인식/합성서버(50a)(50b)를 지정하고, 상기 지정된 음성인식/합성서버(50a)(50b)에서 음성대응신호를 생성할 수 있도록, 상기 데이터취합부(120)를 제어하는 제어부(140)를 포함하여 구성되는 것을 특징으로 하는 독립적 음성처리를 위한 음성인식 시스템.
  3. 제2항에 있어서,
    상기 제어부(140)는 입력이 되는 음성대응 요청신호가 폭주할 경우, 상기 임시저장부에 저장되어 있는 음성인식/합성서버(50a)(50b)의 상표명 데이터를 판독하여, 선택적으로 음성인식/합성서버(50a)(50b)들을 지정하여 부하를 분담할 수 있도록 제어하는 것을 더 포함하는 것을 특징으로 하는 독립적 음성처리를 위한 음성인식 시스템.
  4. 제1항 내지 3항 중 어느 한 항에 있어서,
    상기 음성인식/합성서버(50a)(50b)는 사용자의 음성신호에 대응하여 답변을 생성하도록 하는 명령어인 문법파일이 서로 다른 다양한 종류로 구성이 되어도 음성대응신호의 생성이 가능한 것을 특징으로 하는 독립적 음성처리를 위한 음성인식 시스템.
KR10-2001-0069128A 2001-11-07 2001-11-07 독립적 음성처리를 위한 음성인식 시스템 KR100432373B1 (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR10-2001-0069128A KR100432373B1 (ko) 2001-11-07 2001-11-07 독립적 음성처리를 위한 음성인식 시스템

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR10-2001-0069128A KR100432373B1 (ko) 2001-11-07 2001-11-07 독립적 음성처리를 위한 음성인식 시스템

Publications (2)

Publication Number Publication Date
KR20030038921A KR20030038921A (ko) 2003-05-17
KR100432373B1 true KR100432373B1 (ko) 2004-05-24

Family

ID=29568332

Family Applications (1)

Application Number Title Priority Date Filing Date
KR10-2001-0069128A KR100432373B1 (ko) 2001-11-07 2001-11-07 독립적 음성처리를 위한 음성인식 시스템

Country Status (1)

Country Link
KR (1) KR100432373B1 (ko)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105551493A (zh) * 2015-11-30 2016-05-04 北京光年无限科技有限公司 儿童语音机器人数据处理方法、装置及儿童语音机器人

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5632002A (en) * 1992-12-28 1997-05-20 Kabushiki Kaisha Toshiba Speech recognition interface system suitable for window systems and speech mail systems
JPH10240493A (ja) * 1997-01-06 1998-09-11 Texas Instr Inc <Ti> Javaへ音声認識能力を加えるシステムと方法
US6058366A (en) * 1998-02-25 2000-05-02 Lernout & Hauspie Speech Products N.V. Generic run-time engine for interfacing between applications and speech engines
US6298324B1 (en) * 1998-01-05 2001-10-02 Microsoft Corporation Speech recognition system with changing grammars and grammar help command

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5632002A (en) * 1992-12-28 1997-05-20 Kabushiki Kaisha Toshiba Speech recognition interface system suitable for window systems and speech mail systems
JPH10240493A (ja) * 1997-01-06 1998-09-11 Texas Instr Inc <Ti> Javaへ音声認識能力を加えるシステムと方法
US6298324B1 (en) * 1998-01-05 2001-10-02 Microsoft Corporation Speech recognition system with changing grammars and grammar help command
US6058366A (en) * 1998-02-25 2000-05-02 Lernout & Hauspie Speech Products N.V. Generic run-time engine for interfacing between applications and speech engines

Also Published As

Publication number Publication date
KR20030038921A (ko) 2003-05-17

Similar Documents

Publication Publication Date Title
KR101027548B1 (ko) 통신 시스템용 보이스 브라우저 다이얼로그 인에이블러
CN101207586B (zh) 用于实时自动通信的方法和系统
US7421390B2 (en) Method and system for voice control of software applications
US6937986B2 (en) Automatic dynamic speech recognition vocabulary based on external sources of information
EP1125279B1 (en) System and method for providing network coordinated conversational services
US20060235694A1 (en) Integrating conversational speech into Web browsers
US20070156411A1 (en) Control center for a voice controlled wireless communication device system
JP2002528804A (ja) サービスアプリケーションに対するユーザインタフェースの音声制御
KR100814641B1 (ko) 사용자 주도형 음성 서비스 시스템 및 그 서비스 방법
JP2002125047A (ja) 通訳サービス方法および通訳サービス装置
EP1215656A2 (en) Idiom handling in voice service systems
US20050114139A1 (en) Method of operating a speech dialog system
US7054421B2 (en) Enabling legacy interactive voice response units to accept multiple forms of input
US7451086B2 (en) Method and apparatus for voice recognition
JP2005151553A (ja) ボイス・ポータル
KR100432373B1 (ko) 독립적 음성처리를 위한 음성인식 시스템
US20020077814A1 (en) Voice recognition system method and apparatus
KR100372007B1 (ko) 음성 포탈서비스를 위한 보이스엑스엠엘 텔레게이트웨이시스템
KR100380829B1 (ko) 에이전트를 이용한 대화 방식 인터페이스 운영 시스템 및방법과 그 프로그램 소스를 기록한 기록 매체
KR20220140304A (ko) 학습자의 음성 명령을 인식하는 화상 학습 시스템 및 그 방법
US20040049386A1 (en) Speech recognition method and system for a small device
KR20020054192A (ko) 외국인을 위한 전화안내 자동 통역시스템 및 방법
JP2004516563A (ja) ユーザインタフェースのコンフィギュレーション方法
JP4813798B2 (ja) ネットワークのオーディオデータを処理する方法およびその方法を実行する装置
Pargellis et al. A language for creating speech applications.

Legal Events

Date Code Title Description
A201 Request for examination
E701 Decision to grant or registration of patent right
GRNT Written decision to grant
N231 Notification of change of applicant
FPAY Annual fee payment

Payment date: 20100510

Year of fee payment: 7

LAPS Lapse due to unpaid annual fee