KR100432373B1 - 독립적 음성처리를 위한 음성인식 시스템 - Google Patents
독립적 음성처리를 위한 음성인식 시스템 Download PDFInfo
- Publication number
- KR100432373B1 KR100432373B1 KR10-2001-0069128A KR20010069128A KR100432373B1 KR 100432373 B1 KR100432373 B1 KR 100432373B1 KR 20010069128 A KR20010069128 A KR 20010069128A KR 100432373 B1 KR100432373 B1 KR 100432373B1
- Authority
- KR
- South Korea
- Prior art keywords
- voice
- signal
- voice recognition
- synthesis server
- input
- Prior art date
Links
- 238000012545 processing Methods 0.000 title claims abstract description 13
- 230000015572 biosynthetic process Effects 0.000 claims abstract description 119
- 238000003786 synthesis reaction Methods 0.000 claims abstract description 119
- 230000004044 response Effects 0.000 claims abstract description 58
- 230000008054 signal transmission Effects 0.000 claims abstract description 15
- 238000013500 data storage Methods 0.000 claims description 10
- 238000013480 data collection Methods 0.000 claims description 6
- 238000000034 method Methods 0.000 claims description 6
- 230000005540 biological transmission Effects 0.000 claims description 5
- 239000000284 extract Substances 0.000 claims description 4
- 230000002194 synthesizing effect Effects 0.000 claims description 3
- 238000010586 diagram Methods 0.000 description 6
- 238000010295 mobile communication Methods 0.000 description 3
- 230000001419 dependent effect Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 230000001413 cellular effect Effects 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000012423 maintenance Methods 0.000 description 1
- 230000005236 sound signal Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Telephonic Communication Services (AREA)
Abstract
본 발명은 음성인식 시스템에 관한 것으로서, 더욱 상세하게는 음성인식 시스템의 일 구성요소인 음성인식/합성서버를 교체하여도 새롭게 시스템을 재건축 할 필요가 없으며, 더욱이 다양한 종류의 음성인식/합성서버를 운영하여도 시스템의 구현이 가능한 독립적 음성처리를 위한 음성인식 시스템에 관한 것이다.
이를 위해, 사용자의 음성신호의 입력에 의해, 답변을 제공하여 주는 음성인식 시스템 상에서, 음성대응신호를 요청할 수 있도록, 신호전송수단(20)에서 전송되는 음성신호를 음성대응 요청신호로 가공하는 어플리케이션부(30a)와, 상기 어플리케이션부(30a)에서 입력된 음성대응 요청신호에 대응하여 답변을 생성하는 음성인식/합성서버(50a)(50b)의 지정과, 상기 지정된 음성인식/합성서버에서 답변을 생성하도록 하는 문법파일정보에 음성신호의 발음의 범위에 속하는 텍스트정보를 삽입하고, 상기 텍스트정보가 삽입된 문법파일정보와 음성신호를 포함하는 가공이 된 음성신호를 생성하는 스위칭서버(100)와, 상기 스위칭서버(100)에서 생성된 가공이 된 음성신호를 자동으로 출력시켜주는 인터페이스부(40a)를 통하여 가공이 된 음성신호를 입력받아 음성인식/합성엔진에 의해, 가공이 된 음성신호와 음성대응신호 저장부를 매칭하여 사용자가 요구하는 음성대응신호를 생성하는 해당 음성인식/합성서버(50a)(50b)를 포함하는 음성인식 시스템을 제공한다.
Description
본 발명은 음성인식 시스템에 관한 것으로서, 더욱 상세하게는 음성인식 시스템의 일 구성요소인 음성인식/합성서버를 교체하여도 새롭게 시스템을 재건축 할 필요가 없으며, 더욱이 다양한 종류의 음성인식/합성서버를 운영하여도 시스템의 구현이 가능한 독립적 음성처리를 위한 음성인식 시스템에 관한 것이다.
일반적으로 음성인식 시스템이라 함은 사용자의 음성을 인식하여 그 내용대로 동작해 주는 장치로서, 최근 이동통신단말기(셀룰러폰, PCS) 등에서 음성으로 콜(call)을 하거나, 인터넷상에서의 음성포털 서비스, 증권업무, 교육분야(예를 들어, 문답시, 문장 또는 단어의 발음이 요구되는 외국어 학습분야) 및 전화망서비스에서 항공 및 승차권 예약 등에서 사용자의 음성에 의해 해당 정보를 검색하여 주는 등, 여러 측면에서 활용가능성이 제시되고 있다.
도 1은 일반적인 음성인식 시스템을 나타낸 블록도이다.
도시한 바와 같이, 사용자의 음성이 입력이 되는 음성신호입력수단(10), 입력된 음성신호를 전송하여 주는 신호전송수단(20), 전송이 된 음성신호를 음성인식/합성서버(50)가 인식할 수 있는 형식으로 음성신호를 가공하여 주는 어플리케이션부(30), 가공된 음성신호를 인터페이스부(40)를 통하여 입력받은 후, 가공된 음성신호를 인지하여, 거기에 대한 답변인 음성대응신호를 생성하는 음성인식/합성서버(50), 생성된 음성대응신호가 사용자가 인지할 수 있도록, 출력되는 음성대응신호출력수단(60)으로 구성되어 있다.
상기 음성신호입력수단(10)에는 컴퓨터 단말기에 구비되는 마이크, 이동통신단말기에 있어서 인터넷 서비스가 가능한 왑폰(WAP phone: Wireless Application Protocol phone) 및 전화기 등을 이용하여 사용자의 음성이 입력된다.
상기 신호전송수단(20)에는 음성신호입력수단(10)에서 입력된 음성신호를 전송하여 주기 위해, 인터넷망, 기지국과 기지국 제어기 등을 포함하여 구성되는 이동통신망 및 공중전화망(PSTN: public switched telephone network) 등을 포함하여 구성되며, 음성신호입력수단(10)에서 입력이 된 음성신호를 어플리케이션부(30)로 전송한다.
어플리케이션부(30)에는 전송되는 음성신호의 발음의 범위에 속하는 텍스트들을 경우의 수를 참조하여 데이터베이스화 한 텍스트저장부(미도시)를 구비하고, 상기 신호전송수단(20)에서 전송된 음성신호와 텍스트신호를 사전에 프로그래밍화 되어진 문법파일형식(명령어)에 삽입을 하여 인터페이스부(40)를 통하여 음성인식/합성서버(50)로 입력한다.
여기서 상기 어플리케이션부(30)는 음성인식/합성서버(50)에 종속적이기 때문에 음성인식/합성서버(50)가 인식할 수 있는 문법파일형식(명령어)으로 신호를 가공해야 한다.
즉, 음성인식 서비스를 제공하기 전에 탑재가 된 음성인식/합성서버(50)가 인식할 수 있는 문법파일형식을 생성할 수 있도록, 어플리케이션부(30)는 사전에 프로그래밍화 되어 있어야 한다.
음성인식/합성서버(50)에는 음성인식엔진 및 음성합성엔진과 가공이 된 음성신호에 대응이 되는 음성대응신호(문자, 특별문자, 도형, 음성 및 이들의 조합)가 데이터베이화 된 음성대응신호 저장부(미도시)를 구비하고, 인터페이스부(40)를 통하여 입력된 가공이 된 음성신호를 인식한 후에 음성합성엔진에 의해 가공이 된 음성신호와 음성대응신호 저장부를 매칭함으로써, 사용자가 요구하는 음성대응신호를 생성한다.
여기서 상기 음성인식/합성서버(50)와 어플리케이션부(30)와 인터페이스부(40)는 네트워크로 구성되어진다.
또한, 음성인식/합성서버(50)는 음성인식 서비스 제공자가 요구하는 다양한 요구, 예를 들어, 숫자, 이름, 서비스명, 음성 위주, 또는 이들의 조합이냐에 따라 자신에게 필요한 음성인식/합성서버를 선택할 수 있도록, 다양한 종류의 음성인식/합성서버가 제공되어진다.
생성된 음성대응신호는 신호전송수단(20)을 통하여 음성대응신호출력수단(60)에 출력되어진다.
여기서 음성대응신호출력수단(60)에 출력되어지는 음성대응신호의 전송경로는 음성인식/합성서버(50)에서 인터페이스부(40)와 어플리케이션부(30)를 통하여 신호전송수단(20)으로 전송될 수도 있으며, 또는 음성인식/합성서버(50)에서 바로 신호전송수단(20)으로 전송될 수도 있다.
상기와 같이 기술된 음성인식 시스템의 수요는 나날이 증가되고 있는 추세이며, 다수의 사용자의 다양한 욕구를 충족시켜 줄 수 있도록, 사용자의 질의에 따른 음성신호를 인지하고, 거기에 합당한 음성대응신호를 생성하는 다양한 종류의 음성인식/합성서버가 구축이 된 음성인식 시스템이 요구되고 있는 실정이다
그러나 상기 일반적인 음성인식 시스템에 있어서, 어플리케이션부는 음성인식/합성서버에 종속적이어서, 음성인식서비스 제공자가 음성인식 서비스의 용도에따라 다른 종류의 음성인식/합성서버를 사용할 경우, 상기 다른 종류의 음성인식/합성서버로 입력이 되는 가공이 된 음성신호를 인식할 수 있도록, 이전에 프로그래밍 되어진 어플리케이션부의 문법파일형식을 교체되어진 다른 종류의 음성인식/합성서버에 맞게 새롭게 프로그래밍을 하여야 하기 때문에 음성인식/합성서버의 변경에 따른 음성인식 시스템의 보수 및 재개발이 요구되어져 프로그램 개발자의 재교육과 시스템 재구축에 따른 비용지출이 발생하는 문제점이 있다.
또한, 서로 다른 음성인식/합성서버 제공자들이 제공한 다양한 종류의 음성인식/합성서버들을 운영할 경우, 상기 개개의 음성인식/합성서버가 인식할 수 있도록, 구축되어진 음성인식/합성서버의 종류별만큼 프로그래밍 되어진 다수의 어플리케이션부가 구축이 되어야 하는 문제점이 있다.
본 발명은 상기 종래 기술의 문제점을 해결하기 위한 것으로, 본 발명의 목적은 음성인식서비스 제공자가 음성인식 서비스의 용도에 따라 다른 종류의 음성인식/합성서버로 교체하여 사용할 경우에도 음성인식 시스템의 일 구성요소인 어플리케이션부를 새롭게 프로그래밍 할 필요 없이, 간단한 매개변수 입력값 만으로 음성인식 시스템의 구동을 가능하게 하여 프로그램 개발자의 재교육이 요구되지 않으며, 또한 음성인식 시스템의 재구축에 따른 비용지출도 없는 독립적 음성처리를 위한 음성인식 시스템을 제공하는데 있다.
본 발명의 다른 목적은 음성인식 서비스 제공자가 다양한 종류의 음성인식/합성서버들을 운영할 경우에도 음성인식 시스템의 구현이 가능하도록 제어하여 주는 미들웨어가 탑재가 된 독립적 음성처리를 위한 음성인식 시스템을 제공하는데 있다.
본 발명의 목적을 달성하기 위한 기술적 사상으로, 사용자의 음성이 입력되는 음성신호 입력수단, 상기 음성신호 입력수단에 입력이 된 음성신호를 전송하는 신호전송수단에 의해 전송이 된 음성신호를 인식하여 해당 음성신호에 대응하는 신호를 합성하여 음성대응신호를 출력하여 주는 음성인식 시스템에 있어서, 음성대응신호를 요청할 수 있도록, 상기 신호전송수단에서 전송되는 음성신호를 음성대응 요청신호로 가공하는 어플리케이션부와, 상기 어플리케이션부에서 가공된 음성대응 요청신호를 입력받아, 상기 입력된 음성대응 요청신호에 대응하여 답변을 생성하는 음성인식/합성서버의 지정과, 상기 지정된 음성인식/합성서버에서 답변을 생성하도록 하는 명령어인 문법파일정보에 음성대응 요청신호인 음성신호의 발음의 범위에 속하는 텍스트정보를 삽입하고, 상기 텍스트정보가 삽입된 문법파일정보와 음성신호를 포함하는 가공이 된 음성신호를 생성하는 스위칭서버와, 상기 스위칭서버에서 생성된 가공이 된 음성신호를 자동으로 출력시켜주는 인터페이스부와, 상기 인터페이스부로부터 입력된 가공이 된 음성신호를 입력받아 음성인식/합성엔진에 의해, 가공이 된 음성신호와 음성대응신호 저장부를 매칭하여 사용자가 요구하는 음성대응신호를 생성하는 해당 음성인식/합성서버를 포함하여 제시한다.
여기서 상기 스위칭서버부는, 음성인식 시스템에 구축되어 있는 음성인식/합성서버의 IP어드레스 및 상표명, 상기 음성인식/합성서버가 인식하여 음성대응신호를 생성할 수 있도록 하는 문법파일 및 사용자가 입력한 음성신호의 발음의 범위에속하는 텍스트들을 입력하는 사용자입력부와, 상기 사용자입력부에서 입력이 되는 데이터 중, 음성인식/합성서버인식용 문법파일데이터와 사용자가 입력한 음성신호의 발음의 범위에 속하는 텍스트데이터가 저장이 되는 외부데이터 저장부와, 음성인식/합성서버의 전송경로가 지정이 된 음성대응 요청신호를 입력받아 상기 외부데이터 저장부와 매칭하여 해당 음성인식/합성서버의 문법파일정보 및 사용자가 입력한 음성신호의 발음의 범위에 속하는 해당 텍스트데이터를 각각 추출하고, 상기 추출된 문법파일정보에 상기 추출된 텍스트정보를 삽입하여, 상기 텍스트정보가 삽입이 된 문법파일정보와 사용자의 음성신호를 포함하는 가공이 된 음성신호를 생성하는 데이터취합부와, 상기 사용자입력부에서 입력이 된 음성인식/합성서버의 IP어드레스데이터와 상표명데이터, 상기 음성인식/합성서버가 인식하여 음성대응신호를 생성할 수 있도록 하는 문법파일데이터 및 사용자가 입력한 음성신호의 발음의 범위에 속하는 텍스트데이터를 임시저장부에 래치하고, 상기 래치된 데이터 중, 문법파일데이터 및 텍스트데이터를 외부데이터 저장부에 저장이 되도록 제어하고, 입력된 음성대응 요청신호의 답변인 음성대응신호를 생성하는 음성인식/합성서버를 임시저장부에 래치된 음성인식/합성서버의 상표명데이터를 판독하여 해당 음성인식/합성서버를 지정하고, 상기 지정된 음성인식/합성서버에서 음성대응신호를 생성할 수 있도록, 상기 데이터취합부를 제어하는 제어부를 포함하여 구성이 된다.
여기서 상기 제어부는 입력이 되는 음성대응 요청신호가 폭주할 경우, 상기 임시저장부에 저장되어 있는 음성인식/합성서버의 상표명 데이터를 판독하여, 선택적으로 음성인식/합성서버들을 지정할 수 있도록 제어한다.
또한, 상기 음성인식/합성서버는 사용자의 음성신호에 대응하여 답변을 생성하도록 하는 명령어인 문법파일이 서로 다른 다양한 종류로 구성이 되어도 음성대응신호의 생성이 가능하다.
도 1은 일반적인 음성인식 시스템을 나타낸 블록도,
도 2는 본 발명의 음성인식 시스템을 나타낸 블록도,
도 3은 도 2의 음성인식 시스템의 한 구성요소인 미들웨어를 나타낸 상세 블록도이다.
<도면의 주요부분에 대한 부호설명>
A : 미들웨어 10 : 음성신호입력수단
20 : 신호전송수단 30,30a : 어플리케이션부
40,40a : 인터페이스부 50,50a,50b : 음성인식/합성서버
60 : 음성대응신호출력수단 100 : 스위칭서버
110 : 사용자입력부 120 : 데이터취합부
130 : 외부데이터 저장부 140 : 제어부
이하에서는 본 발명의 실시예에 대한 구성 및 작용을 첨부한 도면을 참조하면서 상세히 설명하기로 한다.
도 2는 본 발명의 음성인식 시스템을 나타낸 블록이고, 도 3은 상기 도 2의 한 구성요소인 미들웨어를 나타낸 상세블록도이다.
도 2에 도시한 바와 같이, 사용자의 음성이 입력되는 음성신호 입력수단(10), 상기 음성신호 입력수단(10)에 입력이 된 음성신호를 전송하는 신호전송수단(20)에 의해 전송이 된 음성신호를 인식하여 해당 음성신호에 대응하는 신호를 합성하여 음성대응신호를 출력하여 주는 음성인식 시스템에 있어서, 음성대응신호를 요청할 수 있도록, 상기 신호전송수단(20)에서 전송되는 음성신호를 음성대응 요청신호로 가공하는 어플리케이션부(30a)와, 상기 어플리케이션부(30a)에서 가공된 음성대응 요청신호를 입력받아, 상기 입력된 음성대응 요청신호에 대응하여 답변을 생성하는 음성인식/합성서버(50a)(50b)의 지정과, 음성대응 요청신호인 음성신호의 발음의 범위에 속하는 텍스트정보를 추출한 후, 지정된 음성인식/합성서버가 인식할 수 있도록, 상기 지정된 음성인식/합성서버에서 답변을 생성하도록 하는 명령어인 해당문법파일에 상기 텍스트정보를 삽입함으로써, 상기 텍스트정보가 삽입이 된 해당 문법파일과 사용자의 음성신호를 포함하는 가공이 된 음성신호를생성하는 스위칭서버(100)와, 상기 스위칭서버(100)에서 생성된 가공이 된 음성신호를 자동으로 출력시켜주는 인터페이스부(40a)와, 상기 인터페이스부(40a)로부터 입력된 가공이 된 음성신호를 입력받아 음성인식/합성엔진(미도시)에 의해, 가공이 된 음성신호와 음성대응신호 저장부(미도시)를 매칭하여 사용자가 요구하는 음성대응신호를 생성하는 해당 음성인식/합성서버(50a)(50b)를 포함하여 구성된다.
상기 어플리케이션부(30a)는 입력되는 음성신호가 있을 때마다 거기에 대응하여 생성이 되는 음성대응신호를 요청하기만 한다.
상기 스위칭서버부(100)는 음성인식 시스템에 구축되어 있는 음성인식/합성서버(50a)(50b)의 IP(Internet Protocol)어드레스, 상기 음성인식/합성서버(50a)(50b)의 상표명, 상기 음성인식/합성서버(50a)(50b)가 인식하여 음성대응신호를 생성할 수 있도록 하는 문법파일(명령어) 및 사용자가 입력한 음성신호의 발음의 범위에 속하는 텍스트를 경우의 수를 참조하여 제작이 된 텍스트들을 입력하는 사용자입력부(110)와, 상기 사용자입력부(110)에서 입력이 되는 데이터 중, 음성인식/합성서버(50a)(50b)인식용 문법파일데이터와 사용자가 입력한 음성신호의 발음의 범위에 속하는 텍스트데이터가 저장이 되는 외부데이터 저장부(130)와, 음성인식/합성서버(50a)(50b)의 전송경로가 지정이 된 음성대응 요청신호를 입력받아 상기 외부데이터 저장부(130)에 저장된 음성인식/합성서버(50a)(50b)인식용 문법파일데이터에서 해당 음성인식/합성서버(50a)(50b)의 문법파일정보 추출 및 이와 동시에 상기 외부데이터 저장부(130)에 저장된 사용자가 입력한 음성신호의 발음의 범위에 속하는 텍스트데이터와 상기 입력된 음성대응 요청신호인 음성신호를 매칭하여 추출되는 텍스트정보를 상기 해당 음성인식/합성서버(50a)(50b)의 문법파일정보에 삽입하여, 상기 텍스트정보가 삽입이 된 문법파일정보와 사용자의 음성신호를 포함하는 가공이 된 음성신호를 생성하는 데이터취합부(120)와, 상기 사용자입력부(110)에서 입력이 된 음성인식/합성서버(50a)(50b)의 IP어드레스데이터와 상표명데이터, 상기 음성인식/합성서버(50a)(50b)가 인식하여 음성대응신호를 생성할 수 있도록 하는 명령어인 문법파일데이터 및 사용자가 입력한 음성신호의 발음의 범위에 속하는 텍스트데이터를 임시저장부(미도시)에 래치하고, 상기 래치된 데이터 중, 문법파일데이터 및 텍스트데이터를 외부데이터 저장부(130)에 저장이 되도록 제어하며, 입력이 된 음성대응 요청신호의 답변인 음성대응신호를 생성하는 음성인식/합성서버(50a)(50b)를 지정할 수 있도록, 임시저장부에 래치된 음성인식/합성서버(50a)(50b)의 상표명데이터를 판독하여 해당 음성인식/합성서버(50a)(50b)를 지정하고, 상기 지정된 해당 음성인식/합성서버(50a)(50b)의 음성대응요청신호에 의해 음성대응신호를 생성할 수 있도록, 가공이 된 음성신호를 생성하도록 상기 데이터취합부(120)를 제어하는 제어부(140)를 포함하여 구성이 되며, 상기 스우칭서버부(100)의 한 구성요소인 제어부(140)에서 생성된 가공이 된 음성신호를 해당 음성인식/합성서버로 데이터를 자동으로 전송하는 인터페이스부(40a)를 더 포함하여 구성하고, 상기 스우칭서버부(100)와 인터페이스부(40a)를 통칭하여 미들웨어(A)라 명명한다.
상기 사용자입력부(110)에서 입력되는 데이터 중,음성인식/합성서버(50a)(50b)의 상표명 및 상기 음성인식/합성서버(50a)(50b)가 인식하여 음성대응신호를 생성할 수 있도록 하는 문법파일은 음성인식 시스템에 구축되어 있는 음성인식/합성서버(50a)(50b)의 종류가 바뀌어 대체되어질 경우, 상기 사용자입력부(110)에서 바뀌어진 음성인식/합성서버(50a)(50b)의 해당 상표명과 바뀌어진 음성인식/합성서버(50a)(50b)의 문법파일만 재입력만 하면 되며, 다양한 종류의 음성인식/합성서버(50a)(50b)가 구축이 되어 운영이 되어질 경우에도, 간단히 종류별 음성인식/합성서버(50a)(50b)의 상표명과 종류별 음성인식/합성서버(50a)(50b)의 문법파일만 입력을 하기만 하면, 제어부(140)의 제어에 의해 원활하게 음성인식 시스템이 구현되어진다.
또한 상기 제어부(140)는 사용자의 음성대응 요청신호가 폭주할 경우, 임의의 하나의 음성인식/합성서버(50a)(50b)로만 입력되어 부하가 발생하는 것을 방지하기 위해, 임시저장부에 저장되어 있는 음성인식/합성서버(50a)(50b)의 상표명 데이터를 판독하여 선택적으로 개개의 음성인식/합성서버(50a)(50b)에 분산입력이 되도록 제어한다.
이하 상기 구성을 이용하여 작용을 설명하면 다음과 같다.
음성인식 시스템의 서비스를 받고자 하는 사용자가 음성신호입력수단(10)을 이용하여 음성을 입력하면, 입력된 음성신호는 신호전송수단(20)을 통하여 어플리케이션부(30a)로 전송이 되며, 어플리케이션부(30a)는 전송이 된 음성신호를 음성대응신호를 요청하는 음성대응 요청신호로 가공을 한 후에 스위칭서버(100)의 한 구성요소인 제어부(140)로 입력한다.
제어부(140)는 임시저장부에 래치된 음성인식/합성서버(50a)(50b)의 상표명데이터를 판독하여 입력된 음성대응 요청신호의 답변인 음성대응신호를 생성하는 음성인식/합성서버(50a)(50b)를 지정하고, 음성인식/합성서버(50a)(50b)가 지정이 된 음성대응 요청신호를 데이터취합부(120)로 입력한다.
여기서 제어부(140)는 입력이 되는 음성대응 요청신호가 폭주할 경우, 임의의 하나의 음성인식/합성서버(50a)(50b)로 집중되어 부하가 발생하는 것을 방지하기 위해, 음성인식 시스템에 구축된 개개의 음성인식/합성서버(50a)(50b)에 고르게 분산이 되도록, 임시저장부에 래치된 음성인식/합성서버(50a)(50b)의 상표명데이터를 판독하여 선택적으로 음성인식/합성서버(50a)(50b)들을 지정할 수 있다.
데이터취합부(120)는 입력된 음성인식/합성서버(50a)(50b)가 지정이 된 음성대응 요청신호에 의해 외부데이터 저장부(130)에서 해당 음성인식/합성서버(50a)(50b)의 문법파일데이터를 추출하고, 이와 동시에 입력된 음성인식/합성서버(50a)(50b)가 지정이 된 음성대응 요청신호인 음성신호의 발음의 범위에 속하는 텍스트데이터도 추출한다.
여기서 추출된 문법파일데이터에 텍스트데이터를 삽입하고, 텍스트데이터가 삽입된 문법파일데이터와 사용자의 음성신호를 포함하는 가공이 된 음성신호를 제어부(140)로 입력을 하며, 인터페이스부(40a)는 상기 제어부(140)에 입력된 가공이 된 음성신호를 입력받아 자동으로 해당 음성인식/합성서버(50a)(50b)로 입력하고, 해당 음성인식/합성서버(50a)(50b)는 입력된 가공이 된 음성신호를 인식하여 음성합성엔진에 의해, 가공이 된 음성신호와 음성대응신호 저장부를 매칭하여 사용자가요구하는 음성대응신호를 생성한다.
생성된 음성대응신호는 사용자가 인지할 수 있도록, 음성대응신호출력수단(60)에 출력되어진다.
여기서 음성대응신호출력수단(60)에 출력되어지는 음성대응신호의 전송경로는 해당 음성인식/합성서버(50a)(50b)에서 스위칭서버(100)와 인터페이스부(40a)를 포함하는 미들웨어(A)로 입력이 되어 신호전송수단(20)에 의해 전송될 수도 있으며, 또는 해당 음성인식/합성서버(50a)(50b)에서 바로 신호전송수단(20)으로 전송될 수도 있다.
이상에서 설명한 바와 같이, 본 발명은 음성인식서비스 제공자가 음성인식 서비스의 용도에 따라 다른 종류의 음성인식/합성서버로 교체하여 사용할 경우에도 음성인식 시스템에 구축이 된 소프트웨어를 새롭게 프로그래밍 할 필요가 없어 음성인식 시스템의 재구축에 따른 비용지출이 없으며, 더욱이 음성인식 시스템의 재구축시 요구되는 프로그램 개발자의 재교육이 필요하지 않은 효과가 있다.
또한, 음성인식 서비스 제공자가 다양한 종류의 음성인식/합성서버들을 운영할 경우에도 개개의 음성인식/합성서버에 요구되는 개개의 어플리케이션부가 없이도 음성인식 시스템의 운영이 가능한 효과가 있다.
또한, 사용자의 음성신호가 폭주하여도, 선택적으로 각각의 음성인식/합성서버에 음성신호를 분산입력 하도록 제어하여 음성인식/합성서버에 부하가 발생하는 것을 방지하는 효과가 있다.
본 발명은 기재된 구체예 대해서만 상세히 설명되었지만 본 발명의 사상과 범위내에서 변형이나 변경할 수 있음은 본 발명이 속하는 분야의 당업자에게는 명백한 것이며, 그러한 변형이나 변경은 첨부한 특허청구범위에 속한다 할 것이다.
Claims (4)
- 사용자의 음성이 입력되는 음성신호 입력수단(10), 상기 음성신호 입력수단(10)에 입력이 된 음성신호를 전송하는 신호전송수단(20)에 의해 전송이 된 음성신호를 인식하여 해당 음성신호에 대응하는 신호를 합성하여 음성대응신호를 출력하여 주는 음성인식 시스템에 있어서,음성대응신호를 요청할 수 있도록, 상기 신호전송수단(20)에서 전송되는 음성신호를 음성대응 요청신호로 가공하는 어플리케이션부(30a)와,상기 어플리케이션부(30a)에서 가공된 음성대응 요청신호를 입력받아, 상기 입력된 음성대응 요청신호에 대응하여 답변을 생성하는 음성인식/합성서버(50a)(50b)의 지정과, 상기 지정된 음성인식/합성서버에서 답변을 생성하도록 하는 명령어인 문법파일정보에 음성대응 요청신호인 음성신호의 발음의 범위에 속하는 텍스트정보를 삽입하고, 상기 텍스트정보가 삽입된 문법파일정보와 음성신호를 포함하는 가공이 된 음성신호를 생성하는 스위칭서버(100)와,상기 스위칭서버에서 생성된 가공이 된 음성신호를 자동으로 출력시켜주는 인터페이스부(40a)와,상기 인터페이스부(40a)로부터 입력된 가공이 된 음성신호를 입력받아 음성인식/합성엔진에 의해, 가공이 된 음성신호와 음성대응신호 저장부를 매칭하여 사용자가 요구하는 음성대응신호를 생성하는 해당 음성인식/합성서버를 포함하여 구성되는 것을 특징으로 하는 독립적 음성처리를 위한 음성인식 시스템.
- 제1항에 있어서,상기 스위칭서버(100)는, 음성인식 시스템에 구축되어 있는 음성인식/합성서버(50a)(50b)의 IP어드레스 및 상표명, 상기 음성인식/합성서버(50a)(50b)가 인식하여 음성대응신호를 생성할 수 있도록 하는 문법파일 및 사용자가 입력한 음성신호의 발음의 범위에 속하는 텍스트들을 입력하는 사용자입력부(110)와,상기 사용자입력부(110)에서 입력이 되는 데이터 중, 음성인식/합성서버(50a)(50b)인식용 문법파일데이터와 사용자가 입력한 음성신호의 발음의 범위에 속하는 텍스트데이터가 저장이 되는 외부데이터 저장부(130)와,음성인식/합성서버(50a)(50b)의 전송경로가 지정이 된 음성대응 요청신호를 입력받아 상기 외부데이터 저장부(130)와 매칭하여 해당 음성인식/합성서버(50a)(50b)의 문법파일정보 및 사용자가 입력한 음성신호의 발음의 범위에 속하는 해당 텍스트데이터를 각각 추출하고, 상기 추출된 문법파일정보에 상기 추출된 텍스트정보를 삽입하여, 상기 텍스트정보가 삽입이 된 문법파일정보와 사용자의 음성신호를 포함하는 가공이 된 음성신호를 생성하는 데이터취합부(120)와,상기 사용자입력부(110)에서 입력이 된 음성인식/합성서버(50a)(50b)의 IP어드레스데이터와 상표명데이터, 상기 음성인식/합성서버(50a)(50b)가 인식하여 음성대응신호를 생성할 수 있도록 하는 문법파일데이터 및 사용자가 입력한 음성신호의 발음의 범위에 속하는 텍스트데이터를 임시저장부에 래치하고, 상기 래치된 데이터중, 문법파일데이터 및 텍스트데이터를 외부데이터 저장부(130)에 저장이 되도록 제어하고, 입력된 음성대응 요청신호의 답변인 음성대응신호를 생성하는 음성인식/합성서버(50a)(50b)를 임시저장부에 래치된 음성인식/합성서버(50a)(50b)의 상표명데이터를 판독하여 해당 음성인식/합성서버(50a)(50b)를 지정하고, 상기 지정된 음성인식/합성서버(50a)(50b)에서 음성대응신호를 생성할 수 있도록, 상기 데이터취합부(120)를 제어하는 제어부(140)를 포함하여 구성되는 것을 특징으로 하는 독립적 음성처리를 위한 음성인식 시스템.
- 제2항에 있어서,상기 제어부(140)는 입력이 되는 음성대응 요청신호가 폭주할 경우, 상기 임시저장부에 저장되어 있는 음성인식/합성서버(50a)(50b)의 상표명 데이터를 판독하여, 선택적으로 음성인식/합성서버(50a)(50b)들을 지정하여 부하를 분담할 수 있도록 제어하는 것을 더 포함하는 것을 특징으로 하는 독립적 음성처리를 위한 음성인식 시스템.
- 제1항 내지 3항 중 어느 한 항에 있어서,상기 음성인식/합성서버(50a)(50b)는 사용자의 음성신호에 대응하여 답변을 생성하도록 하는 명령어인 문법파일이 서로 다른 다양한 종류로 구성이 되어도 음성대응신호의 생성이 가능한 것을 특징으로 하는 독립적 음성처리를 위한 음성인식 시스템.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR10-2001-0069128A KR100432373B1 (ko) | 2001-11-07 | 2001-11-07 | 독립적 음성처리를 위한 음성인식 시스템 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR10-2001-0069128A KR100432373B1 (ko) | 2001-11-07 | 2001-11-07 | 독립적 음성처리를 위한 음성인식 시스템 |
Publications (2)
Publication Number | Publication Date |
---|---|
KR20030038921A KR20030038921A (ko) | 2003-05-17 |
KR100432373B1 true KR100432373B1 (ko) | 2004-05-24 |
Family
ID=29568332
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
KR10-2001-0069128A KR100432373B1 (ko) | 2001-11-07 | 2001-11-07 | 독립적 음성처리를 위한 음성인식 시스템 |
Country Status (1)
Country | Link |
---|---|
KR (1) | KR100432373B1 (ko) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105551493A (zh) * | 2015-11-30 | 2016-05-04 | 北京光年无限科技有限公司 | 儿童语音机器人数据处理方法、装置及儿童语音机器人 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5632002A (en) * | 1992-12-28 | 1997-05-20 | Kabushiki Kaisha Toshiba | Speech recognition interface system suitable for window systems and speech mail systems |
JPH10240493A (ja) * | 1997-01-06 | 1998-09-11 | Texas Instr Inc <Ti> | Javaへ音声認識能力を加えるシステムと方法 |
US6058366A (en) * | 1998-02-25 | 2000-05-02 | Lernout & Hauspie Speech Products N.V. | Generic run-time engine for interfacing between applications and speech engines |
US6298324B1 (en) * | 1998-01-05 | 2001-10-02 | Microsoft Corporation | Speech recognition system with changing grammars and grammar help command |
-
2001
- 2001-11-07 KR KR10-2001-0069128A patent/KR100432373B1/ko not_active IP Right Cessation
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5632002A (en) * | 1992-12-28 | 1997-05-20 | Kabushiki Kaisha Toshiba | Speech recognition interface system suitable for window systems and speech mail systems |
JPH10240493A (ja) * | 1997-01-06 | 1998-09-11 | Texas Instr Inc <Ti> | Javaへ音声認識能力を加えるシステムと方法 |
US6298324B1 (en) * | 1998-01-05 | 2001-10-02 | Microsoft Corporation | Speech recognition system with changing grammars and grammar help command |
US6058366A (en) * | 1998-02-25 | 2000-05-02 | Lernout & Hauspie Speech Products N.V. | Generic run-time engine for interfacing between applications and speech engines |
Also Published As
Publication number | Publication date |
---|---|
KR20030038921A (ko) | 2003-05-17 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
KR101027548B1 (ko) | 통신 시스템용 보이스 브라우저 다이얼로그 인에이블러 | |
CN101207586B (zh) | 用于实时自动通信的方法和系统 | |
US7421390B2 (en) | Method and system for voice control of software applications | |
US6937986B2 (en) | Automatic dynamic speech recognition vocabulary based on external sources of information | |
EP1125279B1 (en) | System and method for providing network coordinated conversational services | |
US20060235694A1 (en) | Integrating conversational speech into Web browsers | |
US20070156411A1 (en) | Control center for a voice controlled wireless communication device system | |
JP2002528804A (ja) | サービスアプリケーションに対するユーザインタフェースの音声制御 | |
KR100814641B1 (ko) | 사용자 주도형 음성 서비스 시스템 및 그 서비스 방법 | |
JP2002125047A (ja) | 通訳サービス方法および通訳サービス装置 | |
EP1215656A2 (en) | Idiom handling in voice service systems | |
US20050114139A1 (en) | Method of operating a speech dialog system | |
US7054421B2 (en) | Enabling legacy interactive voice response units to accept multiple forms of input | |
US7451086B2 (en) | Method and apparatus for voice recognition | |
JP2005151553A (ja) | ボイス・ポータル | |
KR100432373B1 (ko) | 독립적 음성처리를 위한 음성인식 시스템 | |
US20020077814A1 (en) | Voice recognition system method and apparatus | |
KR100372007B1 (ko) | 음성 포탈서비스를 위한 보이스엑스엠엘 텔레게이트웨이시스템 | |
KR100380829B1 (ko) | 에이전트를 이용한 대화 방식 인터페이스 운영 시스템 및방법과 그 프로그램 소스를 기록한 기록 매체 | |
KR20220140304A (ko) | 학습자의 음성 명령을 인식하는 화상 학습 시스템 및 그 방법 | |
US20040049386A1 (en) | Speech recognition method and system for a small device | |
KR20020054192A (ko) | 외국인을 위한 전화안내 자동 통역시스템 및 방법 | |
JP2004516563A (ja) | ユーザインタフェースのコンフィギュレーション方法 | |
JP4813798B2 (ja) | ネットワークのオーディオデータを処理する方法およびその方法を実行する装置 | |
Pargellis et al. | A language for creating speech applications. |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A201 | Request for examination | ||
E701 | Decision to grant or registration of patent right | ||
GRNT | Written decision to grant | ||
N231 | Notification of change of applicant | ||
FPAY | Annual fee payment |
Payment date: 20100510 Year of fee payment: 7 |
|
LAPS | Lapse due to unpaid annual fee |