KR20130114852A

KR20130114852A - 엠알씨피를 이용하여 음성처리 기능을 제공하는 장치 및 그 방법

Info

Publication number: KR20130114852A
Application number: KR1020120037207A
Authority: KR
Inventors: 조성민
Original assignee: 삼성에스엔에스 주식회사
Priority date: 2012-04-10
Filing date: 2012-04-10
Publication date: 2013-10-21

Abstract

본 발명은 음성 인식과 TTS 기능을 제공하지 않는 기존 IVR 및 VMS 시스템에 해당 기능을 제공하기 위하여 음성엔진 서버 연동의 사실상의 표준인 MRCP를 이용하여 음성 기능을 부가하는 것이 목적이다. 이를 위해서, 고객으로부터 음성처리를 요청을 받고 이를 처리하는 IVR(Interactive Voice Response) application 부;와 MRCP(Media Resource Control Protocol) 서버와 통신하여 상기 음성처리 결과를 제공받는 MRCP client 부; 및 통신 호를 처리하는 call control 모듈과 상기 음성 처리를 수행하는 Voice Processing 모듈을 포함하는 UC(Unified Communication) Platform SDK(Software Development Kit);를 포함하는 MRCP 를 이용하여 음성처리 기능을 제공하는 CTI(Computer Telephony Integration) 기반 장치가 제공된다.

Description

엠알씨피를 이용하여 음성처리 기능을 제공하는 장치 및 그 방법{Voice processing device and method thereof using MRCP}

본 발명은 기존 서버 또는 PC에 PCI 방식 및 PCI Express방식으로 연결되는 CTI(Computer Telephony Integration)보드를 이용하여 구성된 IVR, 또는 VMS 시스템에 TTS(Text To Speech) 및 음성 인식 기능을 제공하기 방법과 장치에 관한 것이다.

종래의 IVR 및 VMS는 점점 더 유연하고 풍부한 사용자 interface를 제공하기 위하여 필수 요소가 되어 가고 있는 음성인식 및 TTS 기능을 포함하고 있지는 않다.

따라서, 종래의 IVR 및 VMS에 음성인식 및 TTS를 제공하기 위해서는 해당 기능을 제공하기 위하여 새로운 시스템을 설계 및 개발하거나 해당 기능을 위하여 해당 기능 각각을 위한 음성인식 엔진을 탑재 및 연동을 위한 상당한 개발 시간과 비용이 소요된다.

　또한, 종래의 IVR 및 VMS는 음성인식, TTS 및 사용자에 대한 풍부하고 유연한 기능에 대한 확장 가능한 interface를 고려하지 않고 개발되어 향후 해당 기능을 추가하려면 해당 기능을 개별적으로 적용 및 개발하기 위하여 상당한 시간과 비용이 소요된다.

본 발명은 음성 인식과 TTS 기능을 제공하지 않는 기존 IVR 및 VMS 시스템에 해당 기능을 제공하기 위하여 음성엔진 서버 연동의 사실상의 표준인 MRCP를 이용하여 음성 기능을 부가하는 것이 목적이다.

본 발명의 다른 목적들은 이하의 실시예에 대한 설명을 통해 쉽게 이해될 수 있을 것이다.

본 발명은 고객으로부터 음성처리를 요청을 받고 이를 처리하는 IVR(Interactive Voice Response) application 부;와 MRCP(Media Resource Control Protocol) 서버와 통신하여 상기 음성처리 결과를 제공받는 MRCP client 부; 및 통신 호를 처리하는 call control 모듈과 상기 음성 처리를 수행하는 Voice Processing 모듈을 포함하는 UC(Unified Communication) Platform SDK(Software Development Kit);를 포함하는 MRCP 를 이용하여 음성처리 기능을 제공하는 CTI(Computer Telephony Integration) 기반 장치가 제공된다.

여기서, 상기 MRCP client 부는 상기 음성 인식과 상기 TTS 기능이 요구되는 경우에 상기 MRCP 서버로 상기 음성 인식과 상기 TTS 기능을 요구하고, 상기 MRCP 서버로부터 상기 음성 인식과 상기 TTS 기능을 제공받는 것을 특징으로 할 수 있다.

여기서, 아날로그 방식, 디지털 방식 중 어느 하나 이상의 방식으로 상기 고객과 통신을 수행하는 CTI 보드를 더 포함하는 것을 특징으로 할 수 있다.

여기서, 상기 음성처리는 음성 인식 또는 TTS(Text to Speech) 기능인 것을 특징으로 할 수 있다.

또한, 고객으로부터 음성처리 기능을 요청받는 단계;와 MRCP client 부가 활성화되는 단계;와 상기 MRCP client 부가 MRCP 서버로 상기 음성처리 기능을 요청하는 단계;와 상기 MRCP 서버에서 상기 음성처리 기능을 수행하고 이에 대한 처리 결과를 상기 MRCP client 부로 제공하는 단계; 및 상기 고객으로 상기 음성처리 결과를 제공하는 단계; 를 포함하는 MRCP 를 이용하여 음성처리 기능을 제공하는 CTI 기반 방법이 제공된다.

여기서, MRCP client 부는 SIP(Session Initiation Protocol), MRCP(Media Resource Control Protocol), RTSP(Real Time Streaming Protocol), SDP(Session Description Protocol), RTP(Real Time Protocol), RTCP(Real Time Control Protocol) 중 어느 하나 이상의 통신 방식을 이용할 수 있는 것을 특징으로 할 수 있다.

여기서, MRCP client 를 초기화하는 단계;와 MRCP client 를 오픈 및 롤백 함수를 등록하는 단계;와 MRCP 명령어를 MRCP 서버로 전송하는 단계;와 MRCP 서버에서 상기 명령어를 처리하는 단계; 및 상기 MRCP 서버로부터 상기 처리 결과를 수신하는 단계;를 더 포함하는 것을 특징으로 할 수 있다.

본 발명은 기존 VMS 시스템에 MRCP Client를 통해 해당 서비스를 제공하여 기존 IVR 시스템 그대로 사용함으로써 비용이 저렴하다.

또한, 주요 음성인식 엔진 업체들이 사용하고 있는 표준인 MRCP를 이용함으로써 상황에 따라 음성엔진 선정과 교환이 용이하다.

도 1은 본 발명의 일 실시예로 MRCP 를 이용하여 음성처리 기능을 제공하는 CTI 기반 장치의 구성도이다.
도 2는 본 발명의 일 실시예로 MRCP 를 이용하여 음성처리 기능을 제공하는 CTI 기반 방법을 도시한 도면이다.
도 3은 본 발명의 일 실시예로 MRCP 를 이용하여 음성처리 기능을 제공하는 소프트웨어 인터페이스 과정을 도시한 도면이다.

본 발명은 다양한 변환을 가할 수 있고 여러 가지 실시예를 가질 수 있는 바, 특정 실시예들을 도면에 예시하고 상세한 설명에 상세하게 설명하고자 한다. 그러나, 이는 본 발명을 특정한 실시 형태에 대해 한정하려는 것이 아니며, 본 발명의 사상 및 기술 범위에 포함되는 모든 변환, 균등물 내지 대체물을 포함하는 것으로 이해되어야 한다.

본 발명에서 사용한 용어는 단지 특정한 실시예를 설명하기 위해 사용된 것으로, 본 발명을 한정하려는 의도가 아니다. 단수의 표현은 문맥상 명백하게 다르게 뜻하지 않는 한, 복수의 표현을 포함한다.

이하, 본 발명의 실시예를 첨부한 도면들을 참조하여 상세히 설명하기로 한다.

도 1은 본 발명의 일 실시예로 MRCP 를 이용하여 음성처리 기능을 제공하는 CTI 기반 장치의 구성도이다.

본 발명의 MRCP 를 이용하여 음성처리 기능을 제공하는 CTI 기반 장치(100)는 IVR Application부(110), MRCP Client부(120), UC Platform SDK(130), CTI 보드(140)를 포함한다.

IVR Application부(110)는 고객으로부터 음성처리를 요청을 받고 이를 처리하는 기능을 수행한다. 이를 위해서 IVR 관련 응용 프로그램이 저장되어 있다.

MRCP Client부(120)는 MRCP 서버(200)와 통신하여 고객으로부터 요청받은 음성처리 기능을 MRCP 서버(200)로 요청하고 전송하고, MRCP 서버(200)에서 처리한 음성처리 결과를 수신한다.

이를 위해서 MRCP client 부(120)는 SIP(Session Initiation Protocol), MRCP(Media Resource Control Protocol), RTSP(Real Time Streaming Protocol), SDP(Session Description Protocol), RTP(Real Time Protocol), RTCP(Real Time Control Protocol) 중 어느 하나 이상의 통신 방식을 이용하여 MRCP 서버(200)와 통신한다.

여기서 MRCP 서버(200)와 MRCP client 부(120)는 같은 호스트내에 존재할 수도 있고 다른 호스트에 각각 존재할 수도 있다. 서로 다른 호스트에 존재하는 경우에는 TCP/IP와 같은 통신 방식을 이용하여 원격 통신을 할 수 있다.

UC Platform SDK(130)는 call control 모듈(131)과 Voice Processing 모듈(132)을 포함한다.

call control 모듈(131)은 통신 호를 처리하는 기능을 수행한다.

Voice Processing 모듈(132)은 MRCP Client부(120)와 연결되어 고객으로부터 수신한 음성처리 관련 명령어를 전달하고 MRCP 서버(200)로부터 수신한 음성처리 기능 결과를 CTI 보드(140)와 연결되어 고객으로 제공한다.

CTI 보드(140)는 PSTN 과 같은 아날로그 방식, E1, T1, PRI 과 같은 디지털 방식 중 어느 하나 이상의 방식으로 상기 고객과 통신을 수행할 수 있다.

도 2는 본 발명의 일 실시예로 MRCP 를 이용하여 음성처리 기능을 제공하는 CTI 기반 방법을 도시한 도면이다.

S100 단계는 고객이 음성처리 기능을 요청하는 단계이다.

본 발명의 MRCP 를 이용하여 음성처리 기능을 제공하는 CTI 기반 장치(100)는 CTI 보드(140)를 통해서 고객과 연결되어 있고, 상기 고객으로부터 음성처리에 대한 요청을 수신한다.

S110 단계는 MRCP client(120)의 기능을 활성화하는 단계이다.

본 발명의 MRCP 를 이용하여 음성처리 기능을 제공하는 CTI 기반 장치(100)는 고객으로부터 음성처리에 대한 기능을 요청받으면 음성 처리 기능을 수행하는 MRCP 서버(200)와 통신하여 음성처리 기능을 요청하기 위해서 MRCP client(120)가 활성화된다.

S120 단계는 MRCP 서버(200)로 음성 처리 기능을 요청하는 단계이다.

활성화된 MRCP client(120)는 음성처리를 수행하는 MRCP 서버(200)로 해당 음성처리에 대한 기능을 수행하고 이에 대한 결과를 요청한다.

S130 단계는 MRCP 서버(200)에서 음성 처리 기능을 수행하는 단계이다.

MRCP 서버(200)는 MRCP client(120)로부터 음성처리 요청을 수신하고 이에 대한 음성처리 기능을 수행한다.

여기서 음성처리 기능은 음성 인식 또는 TTS(Text to Speech) 기능을 의미한다.

S140 단계는 MRCP 서버(200)에서 처리한 처리 결과를 MRCP client(120)로 제공하는 단계이다.

MRCP 서버(200)는 음성처리 기능을 수행하고 이에 대한 결과를 MRCP client(120)로 제공한다.

이를 위해서 MRCP client 부(120)와 MRCP 서버(200)는 상술한 바와 같이 SIP, MRCP, RTSP, SDP, RTP, RTCP 중 어느 하나 이상의 통신 방식을 이용하여 서로 통신하므로 MRCP 서버(200)에서 처리하는 음성처리 기능이 실시간으로 고객으로 제공될 수 있다.

S150 단계는 MRCP 서버(200)에서 처리한 음성처리 결과를 고객에게 제공하는 단계이다.

상술한 바와 같이 MRCP client 부(120)는 MRCP 서버(200)로부터 음성처리 결과를 제공받아 이를 CTI 보드(140)를 통해 고객으로 전달한다.

도 3은 본 발명의 일 실시예로 MRCP 를 이용하여 음성처리 기능을 제공하는 소프트웨어 인터페이스 과정을 도시한 도면이다.

S200 단계는 MRCP client 를 초기화하는 단계이다.

즉, 다음과 같은 ScommMrcpInit()함수 호출을 통하여 라이브러리 형태로 제공되는 MRCP Client 부(120)의 사용을 위해 필요한 자원을 할당하고 관련된 데이터를 초기화하는 단계이다.

int ScommMrcpInit( void )

parameter :

Remarks :

MRCP Clinet와　연동하기　위한 초기화를　수행한다.

Success : 1

S210 단계는 MRCP client 를 오픈 및 롤백 함수를 등록하는 단계이다.

S200 단계 이후에, 다음으로 서비스에 이용되는 ScommMrcpOpen()함수 호출을 통하여 MRCP Channel을 open 및 추후 전송된 명령의 결과값을 받기 위한 콜백함수를 등록하는 단계이다.

typedef void (* mrcp _ callback )( mrcp _ evp evt , void * data )

Remarks :

Used in ScommMrcpOpen Function parameter. 해당　event가　발생했을　때　MRCP Client로부터　수행될　CallBack 함수를　등록

int ScommMrcpOpen(* mrcp _ callback cb )

Parameter :

cb : MRCP Channel을　Open하기　위해　사용된다. 이때　CallBack 함수도　함께　등록한다.

Remarks :

Success : Channel id값을　return한다. 　

failure : -1　

S220 단계는 MRCP 명령어를 MRCP 서버로 전송하는 단계이다.

필요한 서비스 요청을 하는 단계로 ScommMrcpSend()호출을 통해 음성인식 및 TTS관련 mrcp_cmd type의 명령이 전송된다.

int ScommMrcp _send( mrcp _ cmd cmd , void * data )

Parameter :

cmd : command

data : 해당　cmd값과　관련된　data

Remarks :

MRCP Client에　mrcp_cmd 에　해당하는　command를　전송한다.

S230 단계는 MRCP 서버에서 MRCP 명령어를 처리하는 단계이다. 즉, 음성 처리 기능을 수행하는 단계이다.

예를 들어 MRCP 명령어는 다음과 같다.

mrcp _ cmd

enumeration command and events

typedef enum

{

/* Speech Resouce Cmd and Event */

SET-PARAMS,　　　　　

GET-PARAMS,　　　　　

SPEAK,　　　　　

STOP,　

BARGE-IN-OCCURED,　　　　　

PAUSE,　　　　　

RESUME,　　　　

CONTROL,　　　

SPEAK-COMPLETE,　

DEFINE-LEXICON,　

/* Recognize Resouce Cmd and Event */

DEFINE-GRAMMAR,　

RECOGNIZE,　

STOP-R,　

GET-RESULT,

START-OF-INPUT-TIMERS,

RECOGNITION-COMPLETE,

START-PRASE-ENROLLMENT,　

ENROLLMENT-ROLLBACK,　

END-PRASE-ENROLMENT,　

MODIFY-PRASE,　

DELETE-PRASE,　

INTERPRET,　

INTERPRETATION-COMPLETE,　　　

DEFINE-LEXICON,　

} mrcp_cmd;

Parameter :

Remarks:

MRCP COMMANDS and EVENT

S240 단계는 MRCP channel 을 닫는 단계이다.

int ScommMrcpClose( int id )

id값에　해당하는　Channel을　close한다.

Parameter :

id : Close할　channel id.

Remarks :

Success : 1

failure : -1

S250 단계는 MRCP client 를 해제하는 단계이다.

int ScommMrcpDestroy( void )

Parameter :

Remarks :

MRCP Client와　관련된　해제를　수행한다.

Success : 1

failure : -1

상기에서는 본 발명의 실시예를 참조하여 설명하였지만, 해당 기술 분야에서 통상의 지식을 가진 자라면 하기의 특허 청구의 범위에 기재된 본 발명의 사상 및 영역으로부터 벗어나지 않는 범위 내에서 본 발명을 다양하게 수정 및 변경시킬 수 있음을 이해할 수 있을 것이다.

100 : MRCP 를 이용하여 음성처리 기능을 제공하는 CTI 기반 장치
110 : IVR application 부
120 : MRCP client 부
130 : UC(Unified Communicaton) Platform SDK
131 : call control 모듈
132 : Voice Processing 모듈
140 : CTI 보드
200 : MRCP 서버

Claims

고객으로부터 음성처리를 요청을 받고 이를 처리하는 IVR(Interactive Voice Response) application 부;
MRCP(Media Resource Control Protocol) 서버와 통신하여 상기 음성처리 결과를 제공받는 MRCP client 부; 및
통신 호를 처리하는 call control 모듈과 상기 음성 처리를 수행하는 Voice Processing 모듈을 포함하는 UC(Unified Communication) Platform SDK(Software Development Kit);를 포함하는 MRCP 를 이용하여 음성처리 기능을 제공하는 CTI(Computer Telephony Integration) 기반 장치.
제1항에 있어서,
상기 MRCP client 부는 상기 음성 인식과 상기 TTS 기능이 요구되는 경우에 상기 MRCP 서버로 상기 음성 인식과 상기 TTS 기능을 요구하고, 상기 MRCP 서버로부터 상기 음성 인식과 상기 TTS 기능을 제공받는 것을 특징으로 하는 MRCP 를 이용하여 음성처리 기능을 제공하는 CTI 기반 장치.
제1항에 있어서,
아날로그 방식, 디지털 방식 중 어느 하나 이상의 방식으로 상기 고객과 통신을 수행하는 CTI 보드를 더 포함하는 것을 특징으로 하는 MRCP 를 이용하여 음성처리 기능을 제공하는 CTI 기반 장치.
제1항에 있어서,
상기 음성처리는 음성 인식 또는 TTS(Text to Speech) 기능인 것을 특징으로 하는 MRCP 를 이용하여 음성처리 기능을 제공하는 CTI 기반 장치.
고객으로부터 음성처리 기능을 요청받는 단계;
MRCP client 부가 활성화되는 단계;
상기 MRCP client 부가 MRCP 서버로 상기 음성처리 기능을 요청하는 단계;
상기 MRCP 서버에서 상기 음성처리 기능을 수행하고 이에 대한 처리 결과를 상기 MRCP client 부로 제공하는 단계;
상기 고객으로 상기 음성처리 결과를 제공하는 단계; 를 포함하는 MRCP를 이용하여 음성처리 기능을 제공하는 CTI 기반 방법.
제5항에 있어서,
MRCP client 부는 SIP(Session Initiation Protocol), MRCP(Media Resource Control Protocol), RTSP(Real Time Streaming Protocol), SDP(Session Description Protocol), RTP(Real Time Protocol), RTCP(Real Time Control Protocol) 중 어느 하나 이상의 통신 방식을 이용할 수 있는 것을 특징으로 하는 MRCP 를 이용하여 음성처리 기능을 제공하는 CTI 기반 방법.
제5항에 있어서,
MRCP client 를 초기화하는 단계;
MRCP client 를 오픈 및 롤백 함수를 등록하는 단계;
MRCP 명령어를 MRCP 서버로 전송하는 단계;
MRCP 서버에서 상기 명령어를 처리하는 단계; 및
상기 MRCP 서버로부터 상기 처리 결과를 수신하는 단계;를 더 포함하는 것을 특징으로 하는 MRCP 를 이용하여 음성처리 기능을 제공하는 CTI 기반 방법.
제5항에 있어서,
상기 음성처리는 음성 인식 또는 TTS(Text to Speech) 기능인 것을 특징으로 하는 MRCP 를 이용하여 음성처리 기능을 제공하는 CTI 기반 장치.