KR20110035713A

KR20110035713A - 구내 교환 시스템 및 음성 합성 방법

Info

Publication number: KR20110035713A
Application number: KR1020090093529A
Authority: KR
Inventors: 류창선; 구명완; 김재인
Original assignee: 주식회사 케이티
Priority date: 2009-09-30
Filing date: 2009-09-30
Publication date: 2011-04-06
Also published as: KR101074069B1

Abstract

본 발명의 한 실시예에 따른 리소스 관리 서버와 연동하여 음성 합성 리소스 서버가 안내 멘트에 대한 음성을 합성하는 방법은, 리소스 관리 서버와 음성 합성 리소스 서버가 상태 정보를 교환하는 단계; 콜박스로부터 가용채널 정보를 요청 받은 경우, 상기 리소스 관리 서버가 상기 음성합성 리소스 서버의 가용 채널을 파악하고, 파악된 가용채널의 서버IP 정보를 상기 콜박스로 전송하는 단계; 및 상기 콜박스로부터 상기 서버IP 정보, 안내 멘트에 해당하는 문장이 포함된 음성 합성 요청을 받은 경우, 상기 음성 합성 리소스 서버가 상기 문장에 대한 음성 합성 파일을 생성하고, 상기 음성 합성 요청에 대한 결과를 상기 콜박스로 전송하는 단계를 포함한다.

구내 교환, 음성 합성, 리소스

Description

구내 교환 시스템 및 음성 합성 방법{System of Private Branch Exchange and Method of Speech Synthesis}

본 발명은 구내 교환 시스템 및 음성 합성 방법에 관한 것이다.

구내 교환(private branch exchange) 서비스란, 회사 또는 학교의 구내에서 발생하는 구내 통화 및 공중 전화망을 통한 일반 통화가 가능하도록 하는 서비스로서, 기술의 발전에 따라 구내 교환 서비스는 기존의 PSTN(public switched telephone network)과 같은 공중 전화망 기반에서 IP(internet protocol)망 기반으로 진화하고 있다.

최근 구내 교환 서비스는 종래의 키폰(key-phone) 기능, 즉 대표번호를 통해 구내의 특정 전화기를 연결해주는 기능뿐만 아니라 다양한 기능을 제공하게 되었다. 이에 각 사업장은 사업장의 특성에 따라 다양한 안내 멘트를 제작하고, 제작된 안내 멘트를 필요에 따라 변경하고자 하는 욕구가 증대되고 있다.

그런데, 안내 멘트는 일반적으로 성우의 음성을 녹음하는 방식으로 구현되는 것이 일반적이다. 즉, 녹음하고자 하는 문장을 미리 결정한 후, 성우를 섭외하여 성우가 문장을 읽는 음성을 녹음하고 이를 시스템에 적용하는 방식으로 안내 멘트 를 제작 또는 변경하였다. 따라서, 안내 멘트의 제작과 변경에는 시간과 비용이 많이 소요된다는 문제점이 있다.

본 발명이 이루고자 하는 기술적 과제는, 구내 교환 시스템 및 음성 합성 방법을 제공하는 것이다.

본 발명의 한 실시예에 따른 구내 교환 장치는 외부의 사용자로부터 호 설정 요청을 수신한 경우 안내 멘트를 서비스하는 콜박스를 포함하는 사업장 시스템; 상기 콜박스로부터 가용채널 정보를 요청 받은 경우, 음성합성 리소스 서버의 가용 채널을 파악하고, 파악된 가용채널의 서버IP 정보를 상기 콜박스로 전송하는 리소 스 관리 서버; 및 상기 콜박스로부터 상기 서버IP 정보, 안내 멘트에 해당하는 문장이 포함된 음성 합성 요청을 받은 경우, 상기 문장에 대한 음성 합성 파일을 생성하고, 상기 음성 합성 파일을 상기 콜박스로 전송하는 음성 합성 리소스 서버를 포함한다.

본 발명의 실시예에 의하면 구내 교환 시스템 및 음성 합성 방법을 제공할 수 있다.

아래에서는 첨부한 도면을 참고로 하여 본 발명의 실시예에 대하여 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자가 용이하게 실시할 수 있도록 상세히 설명한다. 그러나 본 발명은 여러 가지 상이한 형태로 구현될 수 있으며 여기에서 설명하는 실시예에 한정되지 않는다. 그리고 도면에서 본 발명을 명확하게 설명하기 위해서 설명과 관계없는 부분은 생략하였으며, 명세서 전체를 통하여 유사한 부분에 대해서는 유사한 도면 부호를 붙였다.

명세서 전체에서, 어떤 부분이 어떤 구성요소를 "포함"한다고 할 때, 이는 특별히 반대되는 기재가 없는 한 다른 구성요소를 제외하는 것이 아니라 다른 구성요소를 더 포함할 수 있는 것을 의미한다.

이제, 본 발명의 한 실시예에 따른 구내 교환 시스템 및 음성 합성 방법에 대하여 도면을 참고하여 상세하게 설명한다.

도 1은 본 발명의 한 실시예에 따른 구내 교환 시스템을 개념적으로 나타낸 도면이다. 도 1의 구내 교환 시스템(100)은 하나의 사업장에 구축되며, 운용자의 요청에 따라 안내 멘트에 해당하는 음성을 합성하는 음성 합성 서버(102)를 포함한다.

도 1을 참고하면, 본 발명의 한 실시예에 따른 구내 교환 시스템(100)은 콜박스(101), 음성 합성 서버(102), 및 복수의 구내 전화기(103_1, 103_2,… 103_n)를 포함한다.

콜박스(101)는 인터넷 망과 연결되어 있으며, 인터넷 망을 통해 수신한 호 설정 요청을 기초로 복수의 구내 전화기(103_1, 103_2,… 103_n) 중 하나의 전화기로 호 설정 절차를 수행한다. 또한, 콜박스(101)는 복수의 구내 전화기(103_1, 103_2,… 103_n) 상호 간의 호 설정 절차를 수행한다.

또한, 콜박스(101)는 운용자로부터 안내 멘트에 해당하는 음성을 합성하라는 음성 합성 요청을 입력 받은 경우, 음성 합성 서버(102)로 음성 합성을 요청한 후, 음성 합성 서버(102)로부터 합성된 음성 합성 파일을 수신하여 저장한다. 이후, 인터넷 망으로부터 호 설정 요청이 있는 경우, 저장되어 있는 음성 합성 파일을 재생하여 안내 멘트를 서비스한다.

음성 합성 서버(102)는 콜박스(101)와 연결되어 있으며, 콜박스(101)를 통해 운용자로부터 음성 합성 요청을 입력 받은 경우, 안내 멘트에 해당하는 음성을 합성하여 음성 합성 파일을 생성하고, 생성된 음성 합성 파일을 콜박스(101)로 전송한다.

복수의 구내 전화기(103_1, 103_2,… 103_n)는 하나의 사업장에 설치되어 있 는 전화기를 말하며, 이때, 전화기는 일반 전화기뿐만 아니라 팩스 등을 포함할 수 있다. 또한, 콜박스(101), 음성 합성 서버(102), 및 복수의 구내 전화기(103_1, 103_2,… 103_n)는 초고속 데이터 통신을 가능하게 하는 디지털 가입자 회선인 xDSL(x digital subscriber line) 등을 이용하여 연결되어 있을 수 있다.

그런데, 도 1의 구내 교환 시스템에 의하면, 콜박스(101)가 위치하는 사업장 마다 음성 합성 서버(102)가 구축되어야 하므로, 구축 비용이 증가된다는 문제점이 있다. 따라서, 음성 합성을 위한 서버를 사업장과는 별도로 구축할 필요가 있다.

도 2는 본 발명의 다른 실시예에 따른 구내 교환 시스템을 개념적으로 나타낸 도면이다.

도 2를 참고하면, 본 발명의 다른 실시예에 따른 구내 교환 시스템은 음성 합성 리소스 서버(200), 리소스 관리 서버(300) 및 사업장 시스템(400)을 포함한다.

음성 합성 리소스 서버(200)는 초기화 매니저(201), 리소스 매니저(202), 웹 매니저(203), 타이머 매니저(204), 엔진 매니저(205), 복수의 합성기 엔진(206_1, 206_2,…, 206_n), 및 복수의 DB(207~212, 213_1, 213_2,…, 213_m)를 포함한다.

초기화 매니저(201)는 리소스 매니저(202)로부터 초기화 요청을 받은 경우, 초기화DB(207)에 저장된 정보를 기초로 복수의 합성기 엔진(206_1, 206_2,…, 206_n)의 초기화를 수행한다. 또한, 초기화 매니저(201)는 엔진 매니저(205)에서 복수의 합성기 엔진(206_1, 206_2,…, 206_n) 각각의 구동 시 이용할 수 있는 초기화 정보를 관리한다.

이때, 초기화DB(207)에는 복수의 합성기 엔진(206_1, 206_2,…, 206_n)의 초기화를 위한 정보로, 음성 합성 파일을 음성 합성 리소스 서버(200)에 저장할 경우 이용하는 저장 디렉토리, 합성기 엔진의 최대 생성할 수 있는 개수(MaxChannel, n), 로그 파일의 개수(MaxLog), 로그 파일의 설명 레벨 정의(LogLevel), Vox, Wave등 음성 합성시 코딩 방식(CodingFormat), 성우의 아이디(SpeakerID), 음성 합성 파일의 속도(Speed), 음성 합성 파일의 피치(Pitch), 음성 합성 파일의 볼륨(Volume), 음성 합성 요청시 제작에 걸리는 최대시간(MaxResponseTime), CPU의 최대 이용율(MaxCPU), 디스크의 최대 이용율(MaxDISK) 등이 포함될 수 있다.

초기화DB(207)에 저장된 CPU의 최대 이용율(MaxCPU)을 넘어설 경우 음성 합성 리소스 서버(200)는 새로운 안내 멘트에 대한 음성을 합성할 수 없고, 채널DB(208)의 채널 상태를 모두 “busy”로 설정한다.

채널DB(208)에는 각 채널의 상태 정보가 저장되어 있다. 예를 들어, 초기화DB(207)에 현재 30개가 최대 채널이라고 설정되어 있는 경우, 채널DB(208)에는 현재 30개의 전체 채널 중에서 몇 개의 채널이 사용(busy)되고, 몇 개의 채널이 아이들(idle) 상태인지에 관한 정보가 저장된다.

리소스 매니저(202)는 음성 합성 리소스 서버(200)의 전체 동작을 제어한다. 구체적으로, 리소스 매니저(202)는 초기화 수행을 초기화 매니저(201)로 요청한다. 또한, 리소스 매니저(202)는 채널DB(208)에 저장된 내용을 리소스 관리 서버(300)로 정기적으로 또는 비정기적으로 전송하여, 리소스 관리 서버(300)가 음성 합성 리소스 서버(200)의 채널 상태를 실시간 파악할 수 있도록 한다.

또한, 리소스 매니저(202)는 콜박스(401)로부터 음성 합성 요청을 받은 경우, 엔진 매니저(205)에게 음성 합성을 요청하고, 타이머 매니저(204)에게 타이머 수행을 요청한다.

이후, 설정된 시간이 경과했음을 나타내는 정보를 타이머 매니저(204)로부터 수신할 때까지 엔진 매니저(205)로부터 음성 합성 완료 응답을 전달받지 못한 경우, 리소스 매니저(202)는 음성 합성을 요청한 콜박스(401)로 불완료 메시지를 전송한다.

생성된 음성 합성 파일을 저장하는 방식으로는, 생성된 음성 합성 파일을 음성 합성을 요청한 콜박스(401)에 저장하는 버퍼링 방식과 생성된 음성 합성 파일을 음성 합성 리소스 서버(200)에 저장하는 파일링 방식이 있다.

버퍼링 방식에 의하는 경우, 리소스 매니저(202)는 엔진 매니저(205)로부터 음성 합성 완료 응답을 전달받은 경우, 리소스DB(212)에 저장되어 있는 생성된 음성 합성 파일을 콜박스(401)로 전송한다.

반면, 파일링 방식에 의하는 경우, 리소스 매니저(202)는 엔진 매니저(205)로부터 음성 합성 완료 응답을 전달받은 경우, 리소스DB(212)에 저장되어 있는 생성된 음성 합성 파일을 확인하고, 콜박스(401)로 음성 합성 완료에 대한 정보를 전송한다.

웹 매니저(203)는 사용자가 웹을 통해 음성 합성 리소스 서버(200)의 운용 정보가 저장된 운용DB(211)에 접속하여 관리할 수 있도록 한다. 즉, 웹 매니저(203)는 사용자가 전용 단말을 이용하지 않고 웹을 통해 접속하여 운용DB(211)의 내용을 파악하고, 수정할 수 있도록 한다.

타이머 매니저(204)는 리소스 매니저(202)로부터 타이머 수행을 요청 받으면, 타이머를 작동시키고, 타이머DB(212)에 설정되어 있는 시간(예를 들어, 3초)에 도달하면 설정된 시간이 경과했음을 나타내는 정보를 리소스 매니저(202)로 전달한다.

엔진 매니저(205)는 복수의 합성기 엔진(206_1, 206_2,…, 206_n)의 생성과 소멸을 관리하고, 복수의 합성기 엔진(206_1, 206_2,…, 206_n)의 상태 정보를 각종DB(213_1, 213_2,…,213_m)에 반영한다.

복수의 합성기 엔진(206_1, 206_2,…, 206_n)은 초기화DB(207)에 저장되어 있는 정보를 기초로, 음성 합성시 생성되고 음성 합성이 완료되면 소멸하는 방식으로 구현된다. 복수의 합성기 엔진(206_1, 206_2,…, 206_n)은 하드웨어 성능에 따른 용량 한계로, 초기화DB(207)에 저장된 최대 엔진 개수(n) 이내에서 생성되고, 생성된 합성기 엔진의 개수는 채널DB(208)에 반영된다.

엔진 매니저(205)는 리소스 메니저(202)로부터 음성 합성을 요청 받은 경우, 합성기 엔진(206_1, 206_2,…, 206_n)의 생성 가부를 채널DB(208)와 초기화DB(207)에 저장되어 있는 정보를 기초로 판단한다. 콜박스(401)에서 요청한 초기화 데이터가 있는 경우는, 콜박스(401)로부터 수신한 초기화 데이터를 기초로 합성기 엔진(206_i)이 생성된다.

복수의 합성기 엔진(206_1, 206_2,…, 206_n)은 특정 문자 또는 문장에 대해 합성된 음성이 저장되어 있는 합성음DB(213_1, 213_2,…213_m)를 이용하여 안내 멘 트에 대한 음성을 합성하여 음성 합성 파일을 생성한다. 이때, 생성된 음성 합성 파일은 리소스DB(210)에 반영된다.

캐쉬 DB(209)에서는 엔진 매니저(205)에서 생성되는 음성 합성 파일이 버퍼링되고, 다른 콜박스에서 동일한 조건의 음성 합성을 요청하는 경우, 합성기 엔진을 구동하지 않고, 캐쉬DB(209)에 저장되어 있는 음성 합성 파일이 이용된다.

리소스DB(210)에는 콜박스(401)가 음성 합성 리소스 서버(200)에 음성 합성을 요청한 이후의 모든 상태가 저장된다. 구체적으로, 콜박스(401)로부터 수신한 요청 채널ID, 콜박스(401)의 InfoDB(403)의 내용이 저장된다. 또한, 리소스DB(210)에는 음성 합성 파일 및 음성 합성 결과가 정상인지에 대한 정보가 저장되고, 타이머 정보가 저장된다.

리소스 관리 서버(300)는 서버 매니저(301) 및 웹IF(302)를 포함하고, 콜박스(401)의 요청에 따라 음성 합성에 이용할 음성 합성 리소스 서버(200)의 자원을 할당한다.

서버 매니저(301)는 콜박스(401)로부터 음성 합성을 위한 가용채널 정보를 요청 받고, 음성 합성 리소스 서버(200)의 가용 채널을 서버DB(303)에 저장된 내용을 기초로 확인하여 콜박스(401)로 가용 채널의 서버IP에 대한 정보를 제공한다.

이때, 서버DB(303)에는 음성 합성 리소스 서버(200)의 상태 정보가 저장되어 있으며, 구체적으로, 음성 합성 리소스 서버(200)의 채널DB(208)와 동일한 정보가 저장되어 있을 수 있다.

웹IF(302)는 음성 합성 리소스 서버(200)의 웹 매니저(203)와 동일하게, 사 용자가 웹을 통해 음성 합성 리소스 서버(200)의 운용 정보가 저장된 운용DB(304)에 접속하여 관리할 수 있도록 한다. 이때, 운용DB(304)에는 음성 합성 리소스 서버(200) 내의 각종 DB(207~212, 213_1. 213-2,…, 213_n) 정보를 포함하고 있다.

웹IF(302)는 운용자에 의해 운용DB(304)의 내용이 수정된 경우, 수정된 내용을 음성 합성 리소스 서버(200)로 전송하고, 수정된 내용을 수신한 음성 합성 리소스 서버(200)는 해당 내용을 음성합성 리소스 서버(200) 내의 각종 DB(207~212, 213_1. 213-2,…, 213_n)에 반영한다. 이를 통해, 음성 합성 리소스 서버(200)와 리소스 관리 서버(300)는 항상 동일한 정보를 가지게 된다.

사업장 시스템(400)은 콜박스(401), 복수의 DB(402~405), 및 복수의 구내 전화기(103_1, 103_2,… 103_n)를 포함한다.

콜박스(401)는 인터넷 망과 연결되어 있으며, 인터넷 망을 통해 수신한 호 설정 요청을 기초로 복수의 구내 전화기(103_1, 103_2,… 103_n) 중 하나의 전화기로 호 설정 절차를 수행한다. 또한, 콜박스(401)는 복수의 구내 전화기(103_1, 103_2,… 103_n) 상호 간의 호 설정 절차를 수행한다.

또한, 콜박스(401)는 운용자로부터 음성 합성 요청을 입력 받은 경우, 리소스 관리 서버(300)로 사용 가능한 채널 정보를 요청하고, 리소스 관리서버(300)로부터 가용 채널의 서버IP 정보를 수신한다. 이후, 콜박스(401)는 가용 채널의 서버IP 정보, Info DB(403), 및 안내 멘트에 해당하는 문장을 음성 합성 리소스 서버(200)로 전송하며 음성 합성을 요청한다.

운용자로부터의 음성 합성 요청은 구체적으로 다음과 같은 방식으로 구현될 수 있다. 운용자로부터 음성 합성 요청에 대한 정보를 입력 받은 경우, 콜박스(401)는 안내 멘트에 대한 음성 합성 요청 화면을 사용자에게 표시하며 해당 화면에서 각 영역의 내용을 입력할 것을 요청한다.

이후, 버퍼링 방식에 의하는 경우, 음성 합성 리소스 서버(200)로부터 음성 합성 파일을 전송 받아 TTS Wave DB(402)에 저장하고, 인터넷 망으로부터 호 설정 요청이 있는 경우, TTS Wave DB(402)에 저장되어 있는 음성 합성 파일을 재생하여 안내 멘트를 서비스한다.

이때, 운용자로부터 음성 합성 요청에 대한 정보를 입력 받은 경우, 콜박스(401)가 사용자에게 표시하며 각 영역의 내용을 입력할 것을 요청하는 음성 합성 요청 화면은, 도 3과 같이 구현될 수 있다.

도 3은 본 발명의 한 실시예에 따른 음성 합성 요청 화면을 나타낸 도면이다. 도 3을 참고하면, 음성 합성 요청 화면(30)은 음성제목 영역(31), 음성파일명 영역(32), 음성파일 위치 영역(33), 음성제작용 텍스트 영역(34), 음성파일 포맷 영역(35), 성우 선택 영역(36), 코멘트 영역(39) 및 제작자명 영역(40)을 포함하고, 음성제작 수행 아이콘(37) 및 미리듣기 아이콘(38)을 포함한다.

운용자는 음성 제목 영역(31)에 안내 멘트에 대한 제목을 입력하고, 음성 파일명 영역(32)에 생성될 음성 합성 파일에 사용할 이름을 입력한다. 또한, 음성 파일 위치 영역(33)에 생성될 음성 합성 파일이 저장될 위치를 입력하고, 음성 제작용 텍스트 영역(34)에 음성 합성 파일을 생성할 안내 멘트에 해당하는 텍스트를 입력한다.

또한, 음성 파일 포맷 영역(35)에 생성될 음성 합성 파일의 코딩 방식(Vox, Wav,…)을 입력하고, 성우 선택 영역(36)에 음성 합성을 수행할 성우 음성을 입력한다.

이상의 각 영역(31~36)을 입력한 후, 운용자는 음성제작 수행 아이콘(37)을 클릭하여 콜박스(401)로 음성 합성을 요청한다. 이 경우, 콜박스(401)는 각 영역(31~36)에 입력된 내용, Info DB(304), 및 리소스 관리서버(300)로부터 수신한 서버IP 정보를 음성 합성 리소스 서버(200)로 전송하며 음성 합성을 요청한다.

이후, 버퍼링 방식에 의하는 경우, 음성 합성 리소스 서버(200)로부터 안내 멘트에 대한 음성 합성 파일을 수신한 콜박스(401)는 수신한 음성 합성 파일을 TTS Wave DB(402)에 저장한다.

이후, 운용자가 미리듣기 아이콘(38)을 클릭하면, 콜박스(401)는 TTS Wave DB(402)에 저장되어 있는 음성 합성 파일을 재생한다.

재생된 음성을 듣고, 운용자가 합성된 파일에 대한 보완 필요 사항 등의 의견이 있는 경우, 운용자는 음성 합성 요청 화면(30)의 코멘트 영역(39)에 의견을 입력하고, 입력된 의견은 코멘트DB(404)에 해당 음성 합성 파일에 대한 코멘트 내용으로 저장된다. 또한, 운용자는 제작자명 영역(40)에 자신의 이름을 입력할 수 있다.

다시 도 2를 참고하면, TTS Wave DB(402)에는 음성 합성 리소스 서버(200)에서 합성된 안내 멘트에 대한 음성 합성 파일이 저장된다.

Info DB(403)에는 콜박스(401)와 음성 합성 리소스 서버(200)의 통신을 위한 통신 프로토콜 정보가 저장되며, 구체적으로 버퍼링 방식 혹은 파일링 방식을 구분하는 구분자(BufferORFile), 문장 전체 길이(MessageLength), 음성 합성 처리 결과(nResult), 음성 합성 파일 생성시 코딩 방식(nFormat), 수신된 서버 IP(ServerIP), 음성 합성 파일 생성시 필요한 합성음 DB 정보(SpeakerID), 합성음 크기 정보(Volume), 속도 정보(Speed), 피치 정보(Pitch), 및 음성 합성 파일의 길이 정보(TTSLength)가 저장되어 있다.

코멘트DB(404)에는 음성 합성 리소스 서버(200)에서 생성된 음성 합성 파일에 대한 운용자의 의견 내용, 구체적으로, 운용자가 도 3의 음성 합성 요청 화면(60)의 코멘트 영역(69)에 입력한 내용이 저장된다. 코멘트 DB(404)에 저장된 내용은 추후 음성 합성 리소스 서버(200)에서 합성음DB(213_1, 213_2,…213_m)의 튜닝작업에 이용될 수 있다.

시나리오DB(405)에는 운용자가 음성 합성을 요청할 때 사용되는 형식이 저장되어 있다. 이때, 사용되는 형식은 구체적으로 도 3의 화면 형식일 수 있다.

이제, 본 발명의 한 실시예에 따른 음성 합성 방법을 도면을 참고하여 상세하게 설명한다.

도 4는 본 발명의 한 실시예에 따른 음성 합성 방법을 나타낸 흐름도이다.

도 4를 참고하면, 리소스 관리 서버(300)와 음성 합성 리소스 서버(200)는 상호 간의 상태 정보를 반영한다(S401). 음성 합성 리소스 서버(200)는 운용 중에 사용 가능한 채널 개수를 정기적으로 또는 비정기적으로 리소스 관리 서버(200)로 전송하고, 리소스 관리 서버(200)는 운용DB(304)의 정보가 변경된 경우, 변경 내용 을 음성 합성 리소스 서버(200)로 전송하여, 상호 간에 상태 정보를 반영한다.

음성 합성을 위해 콜박스(401)는 우선 리소스 관리서버(300)로 음성 합성 리소스 서버(200)의 가용채널 정보를 요청하고(S402), 리소스 관리서버(300)는 운용DB(304)에 저장된 정보를 기초로 가용 채널을 파악하고, 가용채널의 서버IP 정보를 콜박스(401)로 전송한다(S403).

서버IP 정보를 수신한 콜박스(401)는 수신한 서버IP 정보, Info DB(403), 및 안내 멘트에 해당하는 문장을 음성 합성 리소스 서버(200)로 전송하며 음성 합성을 요청한다(S404).

음성 합성을 요청 받은 음성 합성 리소스 서버(200)는 수신한 정보를 기초로 음성 합성 파일을 제작하고(S405), 버퍼링 방식에 의하는 경우, 생성한 음성 합성 파일을 콜박스(401)로 전송한다(S406). 콜박스(401)는 수신한 음성 합성 파일을 TTS Wave DB(402)에 저장하고, 이후 인터넷 망으로부터 호 설정 요청이 있는 경우, TTS Wave DB(402)에 저장되어 있는 음성 합성 파일을 재생하여 안내 멘트를 서비스한다.

이상에서는 음성 합성 파일을 버퍼링 방식으로 저장하는 경우를 설명하였다. 그런데, 버퍼링 방식은 데이터 전송에 따른 에러가 발생한다는 문제점이 있으며, 이에 대한 해결 방안으로 두 가지가 있다.

첫 번째 방법은 콜박스(401)의 Info DB(403)의 자료 구조를 음성 합성 리소스 서버(200)도 동일하게 가지는 방법이고, 두 번째 방법은 우선 Info DB(403)의 정보를 기초로 수신할 정보의 양을 확인한 후에 수신을 하는 방법이 있다.

두 번째 방법을 구체적으로 살펴보면, 콜박스(401)는 음성 합성 리소스 서버(200)로 음성 합성을 요청할 경우, 우선 Info DB(403)를 전송하고, 추후에 안내 멘트에 해당하는 문장을 전송한다. 즉, 음성 합성 리소스 서버(200)는 Info DB(403) 중 MessageLength의 정보를 기초로 수신할 안내 멘트의 문장 길이를 확인한 후에, MessageLength에 저장되어 있는 문장 길이가 올 때까지 수신 모드로 안내 멘트에 해당하는 문장을 수신한다.

이후, 콜박스(401)로부터 MessageLength에 저장되어 있는 문장 길이에 해당하는 데이터를 모두 받은 경우, 음성 합성 리소스 서버(200)는 수신한 안내 멘트에 대한 음성을 합성한다.

또한, 안내 멘트에 대한 음성 합성 파일이 생성된 후, 음성 합성 리소스 서버(200)는 캐쉬DB(209)에 저장된 음성 합성 파일의 사이즈를 파악하고, 파악된 사이즈를 Info DB(403) 중 TTSLength에 입력하여 콜박스(401)로 전송한다.

이후, 콜박스(401)는 수신한 Info DB(403) 중 TTSLength에 저장된 값을 확인 후, 저장된 크기만큼 수신 모드로 음성 합성 파일을 수신한다. 따라서, 두 번째 방법에 의하면, 버퍼링에 따른 데이터 에러를 감소시킬 수 있다.

이상에서는 음성 합성 파일을 버퍼링 방식으로 저장하는 방법에 대해서만 설명하였으나, Info DB(403)의 BufferORFile를 이용하면, 버퍼링 방식과 파일링 방식을 동시에 구현할 수 있다.

도 5는 본 발명의 한 실시예에 따른 버퍼링 방식과 파일링 방식을 동시에 구현한 흐름도이다.

도 5를 참고하면, 콜박스(401)는 InfoDB(403)의 BufferORFile에 수행할 방식에 대한 정보로서 버퍼링 방식 또는 파일링 방식 중 하나를 할당하고(S501), 리소스 관리서버(300)로부터 수신한 서버IP 정보, InfoDB(403), 및 안내 멘트에 해당하는 문장을 음성 합성 리소스 서버(200)로 전송하며 음성 합성을 요청한다(S502).

음성 합성을 요청 받은 음성 합성 리소스 서버(200)는 InfoDB(403)의 BufferORFile에 저장된 값을 기초로 버퍼링 방식 또는 파일링 방식 중 구현된 방식을 판단한다(S503).

버퍼링 방식으로 구현된 경우, 음성 합성 리소스 서버(200)는 안내멘트에 대한 음성 합성 파일을 생성하고, 캐쉬DB(209)로 음성 합성 파일을 사용한다(S504, S505). 이후, 음성 합성 파일의 사이즈를 파악하고, InfoDB(403)의 TTSLength에 파악된 사이즈를 할당한다(S506, S507).

이후, 음성 합성 리소스 서버(200)는 InfoDB(403)를 콜박스(401)로 전송한 후, 생성된 음성 합성 파일을 콜박스(401)로 전송한다(S508, S509). 음성 합성 파일이 콜박스(401)로 전송된 후, 음성 합성 리소스 서버(200)에서 해당 안내 멘트에 대한 음성을 합성한 합성 엔진은 소멸한다(S510).

파일링 방식으로 구현된 경우, 음성 합성 리소스 서버(200)는 안내 멘트에 대한 음성 합성 파일을 생성하고, 캐쉬DB(209)로 음성 합성 파일을 사용한다(S511, S512). 이후, InfoDB(403)의 SavedDirectory에 저장되어 있는 위치에 음성 합성 파일을 저장하고, InfoDB(403)를 콜박스(401)로 전송한다(S513, S514). 이후, 음성 합성 리소스 서버(200)에서 해당 안내 멘트에 대한 음성을 합성한 합성 엔진은 소멸한다(S515).

이상에서 설명한 본 발명의 실시예는 장치 및 방법을 통해서만 구현이 되는 것은 아니며, 본 발명의 실시예의 구성에 대응하는 기능을 실현하는 프로그램 또는 그 프로그램이 기록된 기록 매체를 통해 구현될 수도 있으며, 이러한 구현은 앞서 설명한 실시예의 기재로부터 본 발명이 속하는 기술분야의 전문가라면 쉽게 구현할 수 있는 것이다.

이상에서 본 발명의 실시예에 대하여 상세하게 설명하였지만 본 발명의 권리범위는 이에 한정되는 것은 아니고 다음의 청구범위에서 정의하고 있는 본 발명의 기본 개념을 이용한 당업자의 여러 변형 및 개량 형태 또한 본 발명의 권리범위에 속하는 것이다.

도 1은 본 발명의 한 실시예에 따른 구내 교환 시스템을 개념적으로 나타낸 도면이다.

도 3은 본 발명의 한 실시예에 따른 음성 합성 요청 화면을 나타낸 도면이다.

Claims

리소스 관리 서버와 연동하여 음성 합성 리소스 서버가 안내 멘트에 대한 음성을 합성하는 방법에 있어서,

리소스 관리 서버와 음성 합성 리소스 서버가 상태 정보를 교환하는 단계;

콜박스로부터 가용채널 정보를 요청 받은 경우, 상기 리소스 관리 서버가 상기 음성합성 리소스 서버의 가용 채널을 파악하고, 파악된 가용채널의 서버IP 정보를 상기 콜박스로 전송하는 단계; 및

상기 콜박스로부터 상기 서버IP 정보, 안내 멘트에 해당하는 문장이 포함된 음성 합성 요청을 받은 경우, 상기 음성 합성 리소스 서버가 상기 문장에 대한 음성 합성 파일을 생성하고, 상기 음성 합성 요청에 대한 결과를 상기 콜박스로 전송하는 단계를 포함하는

음성 합성 방법.
제1항에 있어서,

상기 음성 합성 요청에 대한 결과는 상기 음성 합성 파일이며,

상기 음성 합성 파일을 수신한 콜박스가 상기 음성 합성 파일을 저장하는 단계; 및

상기 콜박스가 호 설정 요청을 수신한 경우, 상기 음성 합성 파일을 재생하여 안내 멘트를 서비스하는 단계를 더 포함하는

음성 합성 방법.
제1항에 있어서,

상기 상태 정보를 교환하는 단계는,

상기 음성 합성 리소스 서버가 가용 채널에 대한 정보를 상기 리소스 관리 서버로 전송하는 단계; 및

상기 리소스 관리 서버에 저장된 정보가 변경된 경우, 변경 내용을 상기 음성 합성 리소스 서버로 전송하는 단계를 포함하는

음성 합성 방법.
제1항에 있어서,

상기 음성 합성 요청에 대한 결과를 상기 콜박스로 전송하는 단계는,

상기 음성 합성 리소스 서버가 상기 콜박스로부터 상기 문장의 전체 길이에 대한 정보를 수신하는 단계; 및

상기 음성 합성 리소스 서버가 상기 문장의 전체 길이에 대한 정보로 수신한 문장 길이가 수신될 때까지 수신 모드로 동작하고, 상기 문장의 전체 길이에 해당하는 데이터를 모두 수신한 경우, 상기 데이터에 대한 음성을 합성하는 단계를 포함하는

음성 합성 방법.
제1항에 있어서,

상기 음성 합성 요청에 대한 결과를 상기 콜박스로 전송하는 단계는,

상기 음성 합성 리소스 서버가 상기 음성 합성 파일의 길이를 파악하고, 파악된 음성 합성 파일의 길이를 상기 콜박스로 전송하는 단계: 및

상기 콜박스가 상기 음성 합성 파일의 길이가 수신될 때까지 수신 모드로 동작하는 단계를 포함하는

음성 합성 방법.
제1항에 있어서,

상기 음성 합성 요청에 대한 결과를 상기 콜박스로 전송하는 단계는,

상기 음성 합성 리소스 서버가 상기 콜박스로부터 상기 음성 합성 파일을 저장하는 방식에 대한 정보로, 상기 콜박스에 상기 음성 합성 파일이 저장되는 버퍼링 방식과 상기 음성 합성 리소스 서버에 상기 음성 합성 파일이 저장되는 파일링 방식 중 하나를 수신하는 단계를 포함하는

음성 합성 방법.
제1항에 있어서,

상기 음성 합성 요청에 대한 결과를 상기 콜박스로 전송하는 단계는,

상기 음성 합성 리소스 서버가 합성기 엔진을 생성하여 상기 문장에 대한 음성 합성 파일을 생성하고, 상기 음성 합성 파일이 생성된 후 상기 합성기 엔진을 소멸시키는 단계를 더 포함하는

음성 합성 방법.
제1항에 있어서,

상기 음성 합성 요청에 대한 결과를 상기 콜박스로 전송하는 단계는,

상기 음성 합성 리소스 서버가 상기 콜박스로부터 상기 음성 합성 파일을 저장하는 방식에 대한 정보로 파일링 방식을 수신한 경우, 상기 음성 합성 파일을 상기 음성 합성 리소스 서버에서 미리 설정되어 있는 위치에 저장하는 단계를 더 포함하는

음성 합성 방법.
외부의 사용자로부터 호 설정 요청을 수신한 경우 안내 멘트를 서비스하는 콜박스를 포함하는 사업장 시스템;

상기 콜박스로부터 가용채널 정보를 요청 받은 경우, 음성합성 리소스 서버의 가용 채널을 파악하고, 파악된 가용채널의 서버IP 정보를 상기 콜박스로 전송하는 리소스 관리 서버; 및

상기 콜박스로부터 상기 서버IP 정보, 안내 멘트에 해당하는 문장이 포함된 음성 합성 요청을 받은 경우, 상기 문장에 대한 음성 합성 파일을 생성하고, 상기 음성 합성 파일을 상기 콜박스로 전송하는 음성 합성 리소스 서버를 포함하는

구내 교환 장치.
제9항에 있어서,

상기 사업장 시스템은,

상기 음성 합성 파일을 저장하는 TTS Wave DB를 더 포함하는

구내 교환 장치.
제9항에 있어서,

상기 음성 합성 리소스 서버는

가용 채널에 대한 정보를 상기 리소스 관리 서버로 전송하는 리소스 매니저; 및

합성기 엔진을 생성하여 상기 문장에 대한 음성 합성 파일을 생성하고, 상기 음성 합성 파일이 생성된 후 상기 합성기 엔진을 소멸시키는 엔진 매니저를 포함하는

구내 교환 장치.
제9항에 있어서,

상기 리소스 관리 서버는

상기 콜박스로부터 음성 합성을 위한 가용채널 정보를 요청 받고, 상기 가용채널의 서버IP 정보를 상기 콜박스로 제공하는 서버 매니저; 및

상기 리소스 관리 서버에 저장된 정보가 변경된 경우, 변경 내용을 상기 음 성 합성 리소스 서버로 전송하는 웹IF를 포함하는

구내 교환 장치.