KR100814641B1

KR100814641B1 - 사용자 주도형 음성 서비스 시스템 및 그 서비스 방법

Info

Publication number: KR100814641B1
Application number: KR1020060102727A
Authority: KR
Inventors: 홍광석; 권형준
Original assignee: 성균관대학교산학협력단
Priority date: 2006-10-23
Filing date: 2006-10-23
Publication date: 2008-03-18
Also published as: US8504370B2; US20080097760A1

Abstract

음성 서비스를 제공하는 데 있어서 사용자가 서비스의 시나리오를 이끌어가는 사용자 주도적 음성 서비스 시스템을 설계하고 제공하는 방법에 관한 것으로, 단말기와 음성 서비스에 대한 신호를 송수신하는 호접속수단, 상기 단말기로부터 수신되는 음성지시를 해석하고 내부에서 생성되는 음성 서비스 문서를 음성으로 변환하는 음성처리수단, 사용자가 발성할 것으로 예측되는 인식후보를 상기 데이터베이스에서 추출하는 인식후보관리수단, 추출된 상기 인식후보를 음성앵커로서 포함시켜 상기 음성 서비스 문서를 생성하는 문서관리수단, 상기 음성지시에 매칭되는 상기 음성앵커의 관련 정보를 제공하도록 제어하는 제어수단을 포함하는 구성을 마련한다.

상기와 같은 사용자 주도형 음성 서비스 시스템 및 그 서비스 방법을 이용하는 것에 의해, 사용자 주도적 시나리오는 시나리오의 제약이 없기 때문에 웹 브라우저로 인터넷의 자원을 눈으로 탐색하는 것과 유사하게 유무선 단말기를 통하여 음성으로 자원을 탐색하고 정보를 획득할 수 있다.

음성 서비스, 전화 정보, ARS, 음성 앵커

Description

사용자 주도형 음성 서비스 시스템 및 그 서비스 방법{User Driven Voice Service System and Method Thereof}

도 1은 본 발명의 일실시예에 따른 사용자 주도형 음성 서비스 시스템을 도시한 블록도,

도 2는 본 발명의 일실시예에 따른 음성앵커와 음성노드의 구조를 도시한 도면,

도 3은 본 발명의 일실시예에 따른 사용자 주도형 음성 서비스 방법을 설명하는 흐름도,

도 4는 본 발명의 일실시예에 따른 인식후보 추출과정을 도시한 도면,

도 5는 본 발명의 일실시예에 따른 단어리스트 생성화면을 도시한 도면,

도 6은 본 발명의 일실시예에 따른 데이터베이스의 테이블 구조를 도시한 도면,

도 7은 본 발명의 일실시예에 따른 음성앵커 매칭과정을 도시한 도면,

도 8은 본 발명의 일실시예에 따른 음성앵커가 추가된 음성 서비스 문서를 도시한 도면.

* 도면의 주요 부분에 대한 부호의 설명 *

21: 호접속수단 22: 음성처리수단

23: 데이터베이스 24: 인식후보관리수단

25: 문서관리수단 26: 제어수단

100: 단말기 200: 음성 서비스 시스템

본 발명은 사용자 주도형 음성 서비스 시스템 및 그 서비스 방법에 관한 것으로, 특히 음성 서비스를 제공하는 데 있어서 사용자가 서비스의 시나리오를 이끌어가는 사용자 주도적 음성 서비스 시스템을 설계하고 제공하는 방법에 관한 것이다.

보다 구체적으로 말하자면, 음성앵커와 음성노드로 이루어진 데이터구조를 음성 서비스에 적용시켜 정해진 시나리오 없이 사용자가 자유롭게 원하는 정보 및 자원을 탐색할 수 있도록 지원한다. 따라서, 하나의 시나리오에 따라 서비스가 제공되는 기계 주도적 서비스와 사용자의 입력에 따라 시나리오의 흐름에 약간의 분기만 있는 상호 주도적 서비스가 제공하기 어려운 서비스를 제공하는 사용자 주도형 음성 서비스 시스템 및 그 서비스 방법에 관한 것이다.

일반적으로 음성 서비스란 음성인식 및 합성기술을 이용하여 기계와 사람이 대화하는 형태로 서비스 제공자가 서비스 사용자에게 자원을 서비스하는 것을 말한다. 이때 사용자의 음성은 유무선 단말기를 통하여 전송된다. 음성 서비스의 설계 시에는 사용자의 이용행태에 대해 사전조사하고, 이에 대한 시나리오를 작성하여 시스템을 설계한다. 즉, 사용자에게 어떠한 메뉴들을 제시하고, 특정 메뉴의 선택시에 다음 단계에서 어떠한 세부메뉴 또는 정보를 제시하는지 등의 서비스 시나리오를 계획한다. 종래의 서비스 시나리오로는 크게 2가지가 있으며, 이는 각각 기계 주도적 시나리오와 상호 주도적 시나리오이다.

먼저, 기계 주도적 시나리오는 사용자의 의사 및 정보를 알기 위한 용도로 사용되며, 시스템의 질문과 그에 대한 사용자의 응답으로 진행된다. 다음으로, 상호 주도적 시나리오는 사용자의 기호에 맞는 서비스를 제공하기 위해 시스템의 질문에 대한 사용자의 응답에 따라 시나리오의 분기가 발생하고, 각 분기별로 다시 질문과 응답이 반복되면서 진행된다. 이 두 서비스 시나리오는 시작과 끝이 미리 정해져 있다는 점에서 공통점을 갖으며, 사용자가 제공받은 서비스에 관련된 새로운 정보 혹은 분기가 이루어짐으로 인하여 사용자가 접하지 못한 정보에 접근하기 위해서는 시나리오의 처음부터 다시 진행해야 하는 단점을 갖는다. 따라서, 기계 주도적 시나리오는 예약 시스템과 같이 한가지 서비스만을 제공하는 데에 주로 이용되며, 상호 주도적 시나리오는 생활정보 안내 시스템과 같이 여러 서비스를 한 번에 제공하는 데에 주로 이용된다.

이와 같이 기계 주도적 시나리오 기술의 일례가 대한민국 특허 등록공보 제0620450호(2006.08.29 등록, 유, 무선통신을 이용한 실내 골프연습장 무인예약 운영 장치 및 방법)에 개시되어 있다.

상기 대한민국 특허 등록공보 제0620450호에 개시된 기술은 실내 골프연습장의 예약에서부터 타석배정까지 무인으로 관리하도록 한 유,무선통신을 이용한 실내 골프연습장 무인예약 운영방법에 관한 것으로, 전화와 양방향으로 송수신하는 ARS시스템, 예약정보를 인식하는 서버시스템, 상기 ARS시스템과 상기 서버시스템으로부터 인식된 예약정보를 승인하고 예약사항을 예약자에게 알려주도록 제어하는 관리제어부, 예약정보를 저장하는 예약DB, 예약자의 예약카드를 판독하는 카드리더, 예약사항을 예약자에게 디스플레이하는 모니터, 예약사항을 프린트하는 프린터로 구성된다고 기재되어 있다. 즉, 상기 공보 제0620450호에 개시된 기술에서는 인터넷과 전화를 이용하여 실내 골프연습장에 사용자가 원하는 날짜와 시간대를 예약이 가능하며, 예약사항을 자동으로 정리하고, 예약자에게 빈타석을 알려주기 때문에 관리인을 따로 둘 필요가 없어 유지, 관리보수비가 거의 들지 않아 경제적인 부담을 줄일 수 있는 효과가 있는 유, 무선통신을 이용한 실내 골프연습장 무인예약 운영 장치 및 방법에 대해 기재되어 있다.

또, 상호 주도적 시나리오 기술의 일례가 대한민국 특허 공개공보 제2003-0037514호(2003.05.14 공개, 음성웹방식의 생활정보 운영 시스템 및 그 운영 방법)에 개시되어 있다.

상기 대한민국 특허 공개공보 제2003-0037514호에 개시된 기술은 전화를 통해서 생활정보를 용이하게 찾은 후 바로 생활정보의 연락처로 전화 연결하여 사용자 편의를 극대화시킨 음성웹방식의 생활정보 운영시스템 및 그 운영방법에 관한 것으로, 보이스웹(VEB) 엔진, 과금 엔진, 접수 엔진, 내부인터페이스, 서비스 DB 및 기타 부가적인 네트워크 장비들을 구비하고 유무선공중전화망에 접속되어 데이터베이스화된 정보를 보이스 템플릿 형식의 음성인식/합성기술로 가공하여 음성으로 출력하는 보이스웹 운영서버, 텍스트형 데이터베이스를 보이스템플릿 형식의 데이터베이스로 변환시키는 데이터베이스 변환모듈, 단문자 메시징 서비스를 제공하는 SMS서버, 각각의 지역 단말기에 설치된 보이스웹 저작툴로 구성된다고 기재되어 있다. 상기 공보 제2003-0037514호에 개시된 기술에서는 품목이 많고 잦은 업그레이드가 필요한 정보 및 광고를 전화로 액세스할 수 있으며, 사용자의 전화번호를 노출시키지 않거나 원하는 경우 가상전화번호를 제공함으로써, 전화번호를 통한 범죄를 미연에 방지하고, 편의성을 극대화시킨 음성웹방식의 생활정보 운영시스템 및 그 운영방법을 제공하는 데 있다.

보이스웹 운영서버를 통해서 다품목으로 잦은 업그레이드가 필요한 정보들을 음성 정보 구조로 구분하여 전화상에서 입력 및 출력하고, 소비자와 광고주를 전화로 연결시킴으로써 전화번호를 통한 범죄를 미연에 방지하고, 편의성을 극대화시킬 수 있는 음성웹방식의 생활정보 운영 시스템 및 그 운영 방법에 대해 기재되어 있다.

이외에도 대형 어휘의 음성인식을 마친 후의 서비스 진행에 대한 프로그램 설계 및 방법에 관한 기술이 대한민국 특허 공개공보 제2006-0037228호(2006.05.03 공개, 음성인식을 위한 방법, 시스템 및 프로그램)에 개시되어 있다.

그러나, 상기 공보들에 개시된 기술을 비롯하여 종래의 음성 서비스 기술에 있어서는 정해진 하나의 시나리오에 따라 사용자가 맞춰가는 기계 주도적 시나리오 또는 사용자의 응답에 따라 시나리오에 분기가 일어나는 상호 주도적 시나리오를 제공함으로써 사용자의 다양한 요구를 만족시키는 서비스를 제공하지 못하는 문제가 있었다.

또, 상기 공보 제2006-0037228호에 개시된 기술에 있어서는 음성 인식 엔진의 인식 알고리즘을 구성하는 방법일 뿐 본 발명에 개시된 기술과 같이 사용자가 시나리오를 자유롭게 이끌어 갈 그러나, 상기 공보들에 개시된 기술을 비롯하여 종래의 음성 서비스 기술에 있어서는 정해진 하나의 시나리오에 따라 사용자가 맞춰가는 기계 주도적 시나리오 또는 사용자의 응답에 따라 시나리오에 분기가 일어나는 상호 주도적 시나리오를 제공함으로써 사용자의 다양한 요구를 만족시키는 서비스를 제공하지 못하는 문제가 있었다.

또, 상기 공보 제2006-0037228호에 개시된 기술에 있어서는 음성 인식 엔진의 인식 알고리즘을 구성하는 방법일 뿐 본 발명에 개시된 기술과 같이 사용자가 시나리오를 자유롭게 이끌어 갈 수 없는 문제가 있었다.

본 발명의 목적은 상술한 바와 같은 문제점을 해결하기 위한 것으로서, 비주얼 환경으로 자원 탐색 및 서비스를 제공받기 어려운 곳에서 음성을 통해 자원 탐색 및 서비스 제공을 유효하게 할 수 있도록 지원하는 사용자 주도형 음성 서비스 시스템 및 그 서비스 방법을 제공하는 것이다.

본 발명의 다른 목적은 기계 주도적 시나리오 및 상호 주도적 시나리오로는 실현하기 어려운 사용자 주도적 시나리오를 제공하는 사용자 주도형 음성 서비스 시스템 및 그 서비스 방법을 제공하는 것이다.

본 발명의 다른 목적은 음성앵커와 음성노드로 이루어진 데이터 구조를 이용하여 사용자 주도적 시나리오를 실현시키는 사용자 주도형 음성 서비스 시스템 및 그 서비스 방법을 제공하는 것이다.

본 발명의 다른 목적은 사용자가 발성할 것으로 예측되는 인식후보를 자동으로 수집하는 사용자 주도형 음성 서비스 시스템 및 그 서비스 방법을 제공하는 것이다.

상기 목적을 달성하기 위해 본 발명에 따른 사용자 주도형 음성 서비스 시스템은 정보를 저장하는 데이터베이스를 구비하고 다수의 단말기와 통신망으로 연결되는 음성 서비스 시스템에 있어서, 상기 단말기와 음성 서비스에 대한 신호를 송수신하는 호접속수단, 상기 단말기로부터 수신되는 음성지시를 해석하고 내부에서 생성되는 음성 서비스 문서를 음성으로 변환하는 음성처리수단, 사용자가 발성할 것으로 예측되는 인식후보를 상기 데이터베이스에서 추출하는 인식후보관리수단, 추출된 상기 인식후보를 음성앵커로서 포함시켜 상기 음성 서비스 문서를 생성하는 문서관리수단, 상기 음성지시에 매칭되는 상기 음성앵커의 관련 정보를 제공하도록 제어하는 제어수단을 포함하는 것을 특징으로 한다.

또, 본 발명에 따른 사용자 주도형 음성 서비스 시스템에 있어서, 상기 데이터베이스에 저장된 데이터는 사용자에게 제공할 정보의 핵심어인 다수의 음성앵커 및 상기 다수의 음성앵커와 관련되어 사용자에게 제공할 정보인 다수의 음성노드로 이루어지는 것을 특징으로 한다.

또, 본 발명에 따른 사용자 주도형 음성 서비스 시스템에 있어서, 상기 다수의 음성노드의 각각에는 다수의 음성앵커가 포함되고, 하나의 음성앵커는 관련성이 있는 다른 음성노드에 연결되는 구조를 가지는 것을 특징으로 한다.

또, 본 발명에 따른 사용자 주도형 음성 서비스 시스템에 있어서, 상기 인식후보관리부는 상기 데이터베이스에 저장되어 상기 단말기로 제공할 상기 음성노드의 텍스트를 어절 단위로 나누고, 접두어와 접미어 및 특수문자를 제거하여 단어의 리스트를 만든 후, 상기 데이터베이스에 저장된 상기 음성앵커와 매칭되는 상기 단어를 상기 인식후보로 추출하는 것을 특징으로 하는 사용자 주도형 음성 서비스 시스템.

또, 본 발명에 따른 사용자 주도형 음성 서비스 시스템에 있어서, 상기 제어수단은 상기 음성앵커가 이용되는 횟수를 카운트하여 상기 데이터베이스에 저장하는 것을 특징으로 한다.

또, 본 발명에 따른 사용자 주도형 음성 서비스 시스템에 있어서, 상기 음성 서비스 문서는 VXML(Voice eXtensible Markup Language) 문서를 포함하는 것을 특징으로 한다.

또, 상기 목적을 달성하기 위해 본 발명에 따른 사용자 주도형 음성 서비스 방법은 사용자에게 제공할 정보의 핵심어인 다수의 음성앵커와 상기 다수의 음성앵커와 관련되어 사용자에게 제공할 정보인 다수의 음성노드로 이루어지는 데이터를 저장하는 데이터베이스를 구비하고 다수의 단말기와 통신망으로 연결되는 음성 서비스 시스템으로 음성 서비스를 제공하는 방법에 있어서, 상기 음성 서비스 시스템이 상기 단말기로부터 접속요청을 수신하는 단계, 상기 접속요청에 따라 서비스 안내 음성을 상기 단말기로 송신하는 단계, 상기 음성 서비스 시스템이 상기 단말기로부터 음성지시가 수신되는지 여부를 판단하는 단계, 상기 음성지시가 수신될 경우 상기 음성지시를 해석하여 매칭되는 상기 음성앵커가 상기 데이터베이스에 존재하는지 여부를 판단하는 단계, 상기 매칭되는 음성앵커가 존재할 경우 상기 음성앵커의 관련 정보를 음성으로 변환하여 상기 단말기로 송신하는 단계를 포함하는 것을 특징으로 한다.

또, 본 발명에 따른 사용자 주도형 음성 서비스 방법에 있어서, 상기 다수의 음성노드의 각각에는 다수의 음성앵커가 포함되고, 하나의 음성앵커는 관련성이 있는 다른 음성노드에 연결되는 구조를 가지는 것을 특징으로 하는 음성 서비스 방법.

또, 본 발명에 따른 사용자 주도형 음성 서비스 방법에 있어서, 상기 송신하는 단계는 상기 음성앵커가 연결된 상기 음성노드를 상기 데이터베이스에서 검색하는 단계, 검색된 상기 음성노드에서 사용자가 발성할 것으로 예측되는 인식후보를 추출하는 단계, 추출된 상기 인식후보를 상기 음성앵커로서 포함시켜 상기 음성노드를 음성 서비스 문서로 변환하여 생성하는 단계, 생성된 상기 음성 서비스 문서 를 음성으로 변환하여 상기 단말기로 송신하는 단계를 포함하는 것을 특징으로 한다.

또, 본 발명에 따른 사용자 주도형 음성 서비스 방법에 있어서, 상기 추출하는 단계는 상기 음성노드의 텍스트를 어절 단위로 분리하는 단계, 분리된 상기 텍스트에서 접두어와 접미어 및 특수문자를 제거하는 단계, 제거된 상기 텍스트의 단어들을 단어리스트로 생성하는 단계, 생성된 상기 단어리스트의 각 단어를 상기 데이터베이스에 저장된 다수의 상기 음성앵커와 매칭하는 단계, 상기 음성앵커와 매칭되는 단어를 상기 인식후보로 추출하는 단계를 포함하는 것을 특징으로 한다.

또, 본 발명에 따른 사용자 주도형 음성 서비스 방법에 있어서, 상기 음성 서비스 방법은 상기 음성 서비스 시스템이 상기 음성앵커가 이용되는 횟수를 카운트하여 상기 데이터베이스에 저장하는 단계를 더 포함하는 것을 특징으로 한다.

또, 본 발명에 따른 사용자 주도형 음성 서비스 방법에 있어서, 상기 음성 서비스 문서는 VXML 문서를 포함하는 것을 특징으로 한다.

본 발명에 대한 구체적인 설명에 앞서 본 발명에서 제시하는 사용자 주도적

시나리오에 대해 설명한다. '사용자 주도적 시나리오'란 사용자의 선택에 따라 자유롭게 서비스의 시나리오를 생성하는 서비스 시나리오를 말한다. 따라서, 사용자 주도적 시나리오는 시나리오가 시작되고 난 후에 사용자가 의도하는 곳이 곧 서비스의 시작이며 사용자가 사용을 중지하는 곳이 끝이 되므로, 사용자가 자유로운 시나리오를 만들어가며 정보를 탐색하고 서비스를 제공받을 수 있다. 이를 위해 서는 사용자가 발성할 것이라고 예측되는 핵심어를 자동으로 음성앵커로 미리 등록시켜두고, 사용자가 원하는 정보의 핵심어를 발성하면 핵심어가 내포하는 정보를 사용자에게 제공하게 된다. 이러한 사용자 주도적 시나리오는 음성앵커의 개수에 따라 사용자가 얼마나 많은 정보를 획득할 수 있는지의 여부가 결정되고, 인식 신뢰도에 따라 얼마나 정확한 정보를 제공받을 수 있는지의 여부가 결정된다. 여기서 '음성앵커'란 제공될 정보의 핵심어를 말하며, 음성앵커가 될 후보들을 '인식후보'라 한다.

음성앵커에 대한 언급은 음성 인터넷 서비스를 구축할 때 사용하는 VXML(Voice XML) 문서의 네비게이션으로서 청취자가 제어하는 VXML 음성 애플리케이션(Listner-Controlled Dynamic Navigation of VoiceXML Documents. , University of Texas at Dallas, LNCS 3118, pp. 347-354, 2004.)에 관한 연구에서 명명되었다. 이 연구에서는 제약된 VXML 페이지에서의 네비게이팅을 위해 자신들이 개발한 프록시 서버를 예로 들었으며, 그래머(Grammer, 인식후보)를 조작할 수 없는 VXML의 단점을 CGI를 이용하여 극복함으로써 사용자가 원할 때 VXML 애플리케이션을 종료하고, 원하지 않는 내용을 건너뛸 수 있으며, 원하는 내용만을 얻는 이득을 취할 수 있는 기술에 대해 제안되어 있다. 본 발명에서도 상기 연구에서와 같이 그래머(인식후보)를 CGI로 조작하기는 하나, 상기 연구에 개시된 기술과는 다르게 원하지 않는 내용을 뛰어넘거나, 프로그램을 멈추는 것 이외에 음성앵커와 음성노드의 개념을 도입한 시스템과 그 서비스 방법에 대해 구체적으로 제시한다. 즉, 사용자에게 제공할 내용을 미리 분석하고 인식후보를 선별하여 음성앵커로 사용한다. 또, 사용자에게 제시한 음성앵커와 연결되는 음성노드가 가진 새로운 정보를 다시 사용자에게 제공하고, 제공할 정보를 다시 분석하여 음성앵커를 자동으로 설정하고 등록하여 새로운 음성노드와 연결시키는 사용자 주도형 음성 서비스 시스템 및 그 서비스 방법에 대해 제시한다.

이하, 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자가 본 발명을 용이하게 실시할 수 있을 정도로 상세히 설명하기 위하여, 본 발명의 가장 바람직한 실시 예를 첨부한 도면을 참조하여 상세하게 설명한다. 또한, 본 발명을 설명하는데 있어서 동일 부분은 동일 부호를 붙이고, 그 반복 설명은 생략한다.

본 발명에 따른 사용자 주도형 음성 서비스 시스템에 대해 도 1 내지 도 2에 따라 설명한다.

도 1은 본 발명의 일실시예에 따른 사용자 주도형 음성 서비스 시스템을 도시한 블록도이다.

도 1에서 도시한 바와 같이, 다수의 단말기(100)와 통신망으로 연결되어 음성 서비스를 제공하는 본 발명에 따른 사용자 주도형 음성 서비스 시스템(200)은 단말기(100)와 음성 서비스에 대한 신호를 송수신하는 호접속수단(21), 단말기(100)로부터 수신되는 음성지시를 해석하고 내부에서 생성되는 음성 서비스 문서를 음성으로 변환하는 음성처리수단(22), 사용자에게 제공할 정보의 핵심어인 다수의 음성앵커 및 다수의 음성앵커와 관련되어 사용자에게 제공할 정보인 다수의 음 성노드로 이루어지는 데이터를 저장하는 데이터베이스(23), 사용자가 발성할 것으로 예측되는 인식후보를 데이터베이스(23)에서 추출하는 인식후보관리수단(24), 추출된 인식후보를 음성앵커로서 포함시켜 상기 음성 서비스 문서를 생성하는 문서관리수단(25), 호접속수단(21), 음성처리수단(22), 데이터베이스(23), 인식후보관리수단(24), 문서관리수단(25), 및 음성 서비스 시스템(200) 내부를 제어하여 음성지시에 매칭되는 음성앵커의 관련 정보인 음성노드를 제공하도록 지원하는 제어수단(26)을 구비한다.

도 1에 도시된 호접속수단(21)은 유선 전화기나 모바일과 같이 전화서비스를 이용할 수 있는 단말기(100)로부터 전화신호 또는 음성신호를 수신하고, 내부에서 발생되는 음성신호를 단말기(100)로 전송하는 기능을 한다. 이러한 기능을 수행하는 호접속수단(21)을 통해 단말기(100)로부터 접속요청이 수신되면, 다시 말해서 단말기(100)로부터 전화가 걸려오면, 호접속수단(21)이 이를 인지하여 단말기(100)와의 통신을 연결한다. 음성 서비스 시스템(200)이 단말기(100)와 연결되면 이후부터는 단말기(100)로부터 음성신호를 수신하게 된다. 호접속수단(21)을 통해 수신되는 음성신호는 음성처리수단(22)을 통해 처리된다. 음성처리수단(22)은 수신되는 음성신호를 시스템 내부에서 이용될 수 있는 데이터의 형태로 변환하여 음성신호가 요청하는 바를 해석한다. 또한, 음성처리수단(22)은 사용자에게 음성 서비스를 제공하기 위해 생성되는 음성 서비스 문서를 음성으로 변환하여 호접속수단(21)로 전달한다. 음성 서비스 문서는 음성 서비스 시스템(200)이 단말기(100)로 전송할 음성을 문서화한 것으로서, 그 예로는 VXML(Voice eXtensible Markup Language) 문서 등이 있다. 이와 같이, 음성처리수단(22)이 음성과 문서를 상호변환하는 기능을 수행함으로써 단말기로의 음성 서비스 제공을 가능하게 한다. 음성과 문서의 상호변환 기술은 본 분야에서 통상으로 사용되는 기술이므로 구체적 설시는 생략한다.

또, 인식후보관리부(24)는 데이터베이스(23)에 저장되어 단말기(100)로 제공할 음성노드의 텍스트를 어절 단위로 나누고, 접두어와 접미어와 특수문자를 제거하여 단어리스트를 만든 후, 데이터베이스(23)에 저장된 음성앵커와 매칭되는 단어를 인식후보로 추출한다. 추출된 인식후보는 음성앵커로 이용되며, 사용자가 선택할 수 있는 메뉴와 유사한 기능을 수행한다. 메뉴란 사용자의 요구사항을 파악하기 위해 정보제공자가 제시하는 목록으로, 사용자는 정보제공자에게 정보를 요청하기 위해 정보제공자로부터 제시되는 메뉴들 중에서 특정 메뉴를 선택함으로써 원하는 정보를 얻을 수 있게 된다. 예를 들어, 사용자가 웹페이지에서 특정 서비스를 이용하고자 할 경우에는 그림 또는 텍스트의 형태로 된 메뉴 중에서 선택을 한다. 이와 마찬가지로, 사용자가 음성 서비스를 이용하기 위해서는 서비스 제공자로부터 제시되는 음성 형태의 메뉴들 중에서 특정 메뉴를 선택한다. 이때, 메뉴의 선택방법으로는 다이얼 버튼을 누르는 방법이나 음성을 전송하는 방법 등이 있다. 이렇듯, 음성앵커는 사용자에게 제공할 서비스를 나타내는 표시라는 점에서 메뉴와 유사하며, 사용자로부터 발성될 경우에는 관련된 정보를 제공할 수 있게 하는 기능을 한다.

도 2는 본 발명의 일실시예에 따른 음성앵커와 음성노드의 구조를 도시한 도면이다.

도 2에서 도시한 바와 같이, 본 발명에 따른 사용자 주도형 시나리오를 실현하기 위해 데이터베이스(23)에는 서비스할 데이터가 음성앵커(1)와 음성노드(2)의 형태로 저장되어 있다. 음성앵커(1)는 사용자에게 제공할 정보의 핵심어이며, 음성노드(2)는 음성앵커(1)와 관련되어 사용자에게 제공할 정보 및 콘텐츠이다. 다수의 음성노드(2)의 각각에는 다수의 음성앵커(1)가 포함되고, 하나의 음성앵커(1)는 관련성이 있는 다른 음성노드(2)에 연결되는 구조를 갖는다. 새롭게 연결된 다른 음성노드(2)에는 이전과는 다른 새로운 정보가 있으며, 새로운 음성앵커(1)들이 존재한다. 물론, 새로운 음성앵커(1)들은 각각 다시 새로운 음성노드(2)와 연결된다.

따라서, 만약 단말기(100)로부터 수신되는 음성지시가 음성앵커A1일 경우에는 음성앵커A1이 연결된 음성노드B가 단말기(100)로 제공된다. 마찬가지로, 단말기(100)로부터 수신되는 음성지시가 음성앵커D3일 경우에는 음성앵커D3가 연결된 음성노드C가 단말기(100)로 제공된다. 이는 하나의 음성앵커(1)가 하나의 음성노드(2)에 포함되어 있을 뿐만 아니라, 다른 면으로는 다른 음성노드(2)에도 포함될 수 있는 원리를 이용한 것이다. 예를 들어, 음성노드(2)인 '신기술 동향'을 사용자에게 제공하고, 이 음성노드(2)인 '신기술 동향'에는 '컴퓨터', '모바일', '반도체' 등의 음성앵커(1)들이 포함되어 있다고 가정하자. 사용자가 음성노드(2)인 '신기술 동향'을 제공받은 후 더 자세한 정보를 얻기 위해 음성앵커(1)인 '모바일'을 선택한다면, 음성 서비스 시스템(200)은 음성앵커(1)인 '모바일'이 연결된 다른 음성노드(2)인 '모바일 동향'을 다시 사용자에게 제공한다.

또, 제어수단(26)은 음성앵커(1)가 이용되는 횟수를 카운트하여 데이터베이 스(23)에 저장하며, 이는 시나리오의 진행패턴 등을 파악할 수 있는 통계자료로 이용된다.

다음에 본 발명에 따른 사용자 주도형 음성 서비스 방법에 대해 도 3 내지 도 8에 따라 설명한다.

도 3은 본 발명의 일실시예에 따른 사용자 주도형 음성 서비스 방법을 설명하는 흐름도이다.

도 3에서 도시한 바와 같이, 우선 음성 서비스 시스템(200)의 호접속수단(21)이 단말기(100)로부터 접속요청을 수신한다(ST3010). 상기 접속요청은 단말기(100)로부터 다이얼링(Dialing)을 통해 수신되는 전화신호이다. 수신된 접속요청에 따라 음성 서비스 시스템(200)은 안내할 서비스 안내 음성을 단말기(100)로 송신한다(ST3011). 최초 안내 멘트에 대한 정보는 데이터베이스(23)에 미리 생성되어 있다. 호접속수단(21)은 서비스 안내 음성을 송신한 후에 단말기(100)로부터 음성지시가 수신되는지의 여부를 판단한다(ST3020). 호접속수단(21)을 통해 단말기(100)로부터 음성지시가 수신될 경우, 호접속수단(21)은 수신된 음성지시를 음성처리수단(22)로 전달하고, 음성처리수단(22)은 전달받은 음성지시를 해석한다(ST3021). 인식후보관리수단(24)은 해석된 음성지시와 매칭되는 음성앵커가 데이터베이스(23)에 존재하는지 여부를 판단한다(ST3030).

만약, ST3030 단계에서 데이터베이스(23)에 매칭되는 음성앵커가 존재할 경우 음성앵커의 음성노드를 음성으로 변환하여 단말기(100)로 송신한다. 이 단계에 대한 구체적인 설명은 다음과 같다.

먼저, 인식후보관리수단(24)이 매칭되는 음성앵커가 연결된 음성노드를 데이터베이스(23)에서 검색한다(ST3040). 해당 음성노드가 검색되면 인식후보관리수단(24)이 검색된 음성노드에서 사용자가 발생할 것으로 예측되는 인식후보를 추출한다(ST3041). 다음으로, 문서관리수단(25)이 ST3041 단계에서 추출된 인식후보를 음성앵커로서 포함시켜 음성노드를 음성 서비스 문서로 변환하여 생성한다(ST3042). 생성된 음성 서비스 문서는 음성처리수단(22)으로 전달되어 음성으로 변환되면(ST3043), 변환된 음성신호는 호접속수단(21)을 통해 단말기(100)로 전송된다(ST3044).

만약, ST3030 단계에서 데이터베이스(23)에 매칭되는 음성앵커가 존재하지 않을 경우 음성지시의 재입력을 요구하는 멘트를 단말기(100)로 전송한 후 음성지시의 수신여부를 판단하기(ST3020) 위해 대기한다.

이후, 단말기(100)로부터 종료요청이 수신되면(ST3050) 서비스를 종료하고, 그렇지 않을 경우 ST3020 단계로 돌아가 음성지시가 수신되는지의 여부를 판단하고 그에 따른 단계를 다시 반복하여 수행한다.

도 4는 본 발명의 일실시예에 따른 인식후보 추출과정을 도시한 도면이다.

본 발명에 따른 음성 서비스 방법에서는 음성 서비스 시스템(200)이 단말기(100)로 정보를 제공하기 위해 먼저 사용자가 발성할 단어를 미리 예측하고 정의하여 인식후보를 추출해야 하는데, 본 발명에 따른 음성앵커와 음성노드의 구조를 적용하기 위해서는 음성앵커로 이용할 인식후보를 수집하는 과정이 필수적이다. 이를 위해 단말기(100)와 시스템(200)간의 연결이 이루어지고, 가장 처음 제공할 정보의 텍스트에서 인식후보를 추출한다. 단말기(100)로 제공할 정보의 텍스트를 어절 단위로 나누고, 접두어 및 접미어와 특수문자를 제거하여 단어리스트를 만든 후, 유효한 단어를 미리 구축해 둔 데이터베이스의 음성앵커와 매칭시켜 매칭된 단어를 인식후보에 등록한다. 등록된 인식후보는 제공할 정보의 음성앵커로 이용된다.

도 4에서 도시한 바와 같이, 유무선 전화 및 유무선 단말기(100)와 연결이 생성되어 단말기(100)로 음성지시를 입력하기를 요구한 후, 단말기(100)로부터 음성지시를 수신하면 수신된 음성지시가 음성앵커에 있는지에 대해 판단한다. 즉, 처음에는 '검색하고자 하는 기사의 분류를 선택하세요. 1. 경제 동향, 2. 정치 동향, 3. 신기술 동향'와 같은 서비스 안내가 음성으로 전송되면, 단말기(100)로부터 사용자의 음성지시를 수신하게 된다. 이때, 음성앵커는 '경제 동향', '정치 동향', '신기술 동향'이 된다.

수신된 음성지시가 음성앵커에 존재할 경우, 음성 서비스 시스템(200)은 해당하는 정보를 단말기(100)로 전송하는데, 정보를 전송하기 전에 제공할 정보의 내용을 분석하여 사용자가 발성할 것으로 예측되는 인식후보를 추출하여, 다음에 수신될 음성지시와 매칭되는 음성앵커로서 등록시켜 이용한다. 단말기(100)로부터 등록된 음성앵커 중 하나를 음성지시로서 수신하면 해당하는 새로운 정보를 단말기(100)로 제공하고, 인식후보를 추출하여 음성앵커로 등록시키는 과정을 반복한 다.

반면, 수신된 음성지시가 음성앵커에 존재하지 않을 경우에는 '음성지시를 다시 발성해달라'는 요청을 단말기(100)로 전송한다.

음성후보를 추출하는 과정인 ST3041 단계는 도 4에 도시된 바와 같이 구체적인 단계에 의해 수행된다. 먼저, 인식후보관리수단(24)이 음성노드의 텍스트를 어절 단위로 나누고, 다시 접두어와 접미어 및 특수문자를 제거한다. 다음으로, 명사형 단어로 분리된 단어들을 단어리스트로 생성하고, 생성된 단어리스트의 각 단어를 데이터베이스(23)에 저장된 다수의 음성앵커와 매칭시킨다. 매칭결과 음성앵커와 매칭되는 단어는 인식후보로 추출하여 음성앵커로 이용한다.

도 5는 본 발명의 일실시예에 따른 단어리스트 생성화면을 도시한 도면이다.

도 5에서 도시한 바와 같이, 음성 서비스 시스템(200)이 단말기(100)로 전송할 정보인 음성노드의 원문 텍스트는 '휴대전화와 개인휴대단말기(personal digital assistant; PDA)의 장점을 합친 것으로, 휴대 전화기에 일정관리, 팩스 송수신 및 인터넷 접속 등의 데이터 통신기능을 통합시킨 것이다.'라 가정한다.

먼저, 단말기(100)로 제공할 음성노드에 담긴 단어리스트를 만들기 위해 텍스트를 어절 단위로 분리하는 작업이 필요하다. 어절 단위로 분리하기 위해 문장의 공백을 기준으로 토크나이징한다. 음성노드의 원문 텍스트는 도 5의 '토크나이징 후' 항목에 도시한 바와 같이 어절 단위로 분리한다.

다음으로, 분리된 어절들에 포함된 특수문자를 제거한다. 즉, 각 문자마다 특수문자에 해당하는 아스키코드값과 비교하여 일치할 경우 해당 문자를 공백으로 대체한 뒤 문장의 끝에 도달하면 공백을 삭제함으로써 특수문자를 제거한다. 이는 어절에서 단어를 추출하기 위한 일련의 과정 중 하나로서, 도 5의 '특수문자 제거 후' 항목에 도시한 바와 같다.

다음으로, 특수문자가 제거된 어절들에서 접두어 및 접미어를 제거한다. 접두어 및 접미어를 제거하는 방법에는 특별한 기호(메타캐릭터)들을 이용하여 만들어진 일종의 패턴으로서 일련의 데이터를 가리킬 수 있는 표현식인 정규표현식(Regular Expression)을 활용한다. 정규표현식으로 작성된 패턴으로 특수문자가 제거된 어절들의 문자열 형식을 비교하여 패턴에 부합하는 문자 구조일 경우에 접두어 및 접미어를 제거한다. 접두어 및 접미어를 제거하기 위해서 도 5의 '제거할 접두어 및 접미어의 정규표현식'에 도시한 바와 같이 리스트를 최대한 많이 확보하여 작성한다. 접두어 및 접미어를 제거한 결과는 도 5의 '접두어 및 접미어 제거 후'에 도시된 바와 같다.

이와 같이, 어절로 분리되고, 접두어와 접미어 및 특수문자가 제거된 텍스트의 단어들을 단어리스트로 생성한다.

도 6은 본 발명의 일실시예에 따른 데이터베이스의 테이블 구조를 도시한 도면이며, 도 7은 본 발명의 일실시예에 따른 음성앵커 매칭과정을 도시한 도면이다.

특수문자와 접두어 및 접미어가 제거되어 생성된 어절들은 단어리스트로 생 성되며, 미리 구축해 두었거나 검색되어 저장된 데이터베이스(23)의 음성앵커들과 매칭한다. 즉, 접두어 및 접미어가 제거된 단어리스트에는 명사에 해당하는 단어들이 다수 포함되어 있고, 이 명사들 중에서 데이터베이스(23)가 가지고 있는 요소들로 음성앵커가 만들어진다. 본 발명에 따른 시스템(200)의 동작에서는 미리 구축해 두었거나 검색되어 저장된 데이터베이스(23)가 필요한데, 데이터베이스(23) 테이블이 갖는 필수 요소는 도 6에서 도시한 바와 같이 식별자, 핵심어, 핵심어가 내포하는 정보, 접근 개수, 기타 부가적인 데이터로 이루어진다.

원문 텍스트의 어절에서 특수문자와 접두어 및 접미어를 제거하여 추출한 단어리스트와 데이터베이스에 구축된 내용의 핵심어들은 도 7에서 도시한 바와 같이 인식후보관리수단(24)에 의해 각각 매칭되어 비교된다. 추출한 단어리스트와 데이터베이스(23)에 구축된 음성앵커를 각각 비교하여 서로 동일한 경우 인식후보에 등록하어 다음에 정보를 제공할 때 이용할 음성앵커로 사용한다.

도 8은 본 발명의 일실시예에 따른 음성앵커가 추가된 음성 서비스 문서를 도시한 도면이다.

음성앵커와 매칭되는 단어는 인식후보로 추출되어 음성앵커로 이용되는데, 이는 도 8에서 도시한 바와 같다. 도 8은 본 발명에 따라 미리 구축된 IT용어사전을 활용하는 뉴스 서비스 VXML 문서의 예제 화면이다. 도 8에서 도시한 바와 같이, <grammar> 태그 안의 내용이 음성앵커가 되는데, '일번', '이번', '삼번', '뒤로'는 기본으로 내장한 음성앵커이며, '휴대전화', '개인휴대단말기', '인터넷'은 인 식후보 추출과정을 통해 추가된 음성앵커이다. 음성 서비스 시스템(200)은 단말기(100)로부터 등록된 음성앵커를 발성하는 음성지시를 수신했을 경우, 데이터베이스(23)의 음성앵커가 연결된 음성노드를 음성으로 변환하여 단말기(100)로 전송한다.

이와 같이, 본 발명에 이용되는 음성앵커는 그 이용되는 횟수 역시 카운트되어 데이터베이스(23) 저장되어 관리된다. 즉, 음성앵커는 단말기(100)로부터 수신되는 음성지시를 통해 선택되고, 이에 따라 음성앵커에 연결된 음성노드가 단말기(100)로 제공되는데, 이때 음성앵커로의 접근시마다 횟수를 1씩 증가시켜 데이터베이스(23)에 해당 접근횟수 데이터로서 기록하고 갱신한다. 이 기능은 본 항목은 시스템 설계 및 서비스 제공 방법의 부가적인 요소로서, 이는 서비스를 이용하는 사용자들이 어떠한 정보를 많이 요구하는지, 어떠한 시나리오로 진행하는지 등의 통계자료 작성 및 차후 서비스 제공 방향을 결정하는 데에 활용될 수 있다.

유비쿼터스의 가장 효과적인 기계와 사람의 통신방법인 음성 인식 및 합성 기술이 대중화가 될 시기가 멀지 않았음을 예상해 볼 때, 큰 시장성을 잠재하고 있을 것이라 예상된다. 이에 본 발명은 음성 검색 엔진, 보이스 포탈, 음성 단어 사전, 핸드폰 및 전자수첩, 기타 음성 서비스 전 분야 등에 적용가능하며, 웹 에이전시, 음성인식 및 합성 응용 어플리케이션 제작 업체, 음성 솔루션 전문 업체 등에 이용될 것으로 예상된다.

이상, 본 발명자에 의해서 이루어진 발명을 상기 실시 예에 따라 구체적으로 설명하였지만, 본 발명은 상기 실시 예에 한정되는 것은 아니고, 그 요지를 이탈하지 않는 범위에서 여러 가지로 변경 가능한 것은 물론이다.

상술한 바와 같이, 본 발명에 따른 사용자 주도형 음성 서비스 시스템 및 그 서비스 방법에 의하면, 사용자 주도적 시나리오는 시나리오의 제약이 없기 때문에 웹 브라우저로 인터넷의 자원을 눈으로 탐색하는 것과 유사하게 유무선 단말기를 통하여 음성으로 자원을 탐색하고 정보를 획득할 수 있다는 효과가 얻어진다.

또, 본 발명에 따른 사용자 주도형 음성 서비스 시스템 및 그 서비스 방법에 의하면, 기계 주도적 시나리오 및 상호 주도적 시나리오로는 실현하기 어려운 다양한 음성 서비스를 제공할 수 있다는 효과도 얻어진다.

또, 본 발명에 따른 사용자 주도형 음성 서비스 시스템 및 그 서비스 방법에 의하면, 사용자가 발성할 것으로 예측되는 인식후보를 자동으로 수집하여 제공함으로써 시나리오의 발생 가능성에 자유로움을 보장할 수 있다는 효과도 얻어진다.

Claims

정보를 저장하는 데이터베이스를 구비하고 다수의 단말기와 통신망으로 연결되는 음성 서비스 시스템에 있어서,

상기 단말기와 음성 서비스에 대한 신호를 송수신하는 호접속수단,

상기 단말기로부터 수신되는 음성지시를 해석하고 내부에서 생성되는 음성 서비스 문서를 음성으로 변환하는 음성처리수단,

사용자가 발성할 것으로 예측되는 인식후보를 상기 데이터베이스에서 추출하는 인식후보관리수단,

추출된 상기 인식후보를 음성앵커로서 포함시켜 상기 음성 서비스 문서를 생성하는 문서관리수단,

상기 음성지시에 매칭되는 상기 음성앵커의 관련 정보를 제공하도록 제어하는 제어수단을 포함하는 것을 특징으로 하는 사용자 주도형 음성 서비스 시스템.
제 1항에 있어서,

상기 데이터베이스에 저장된 데이터는 사용자에게 제공할 정보의 핵심어인 다수의 음성앵커 및 상기 다수의 음성앵커와 관련되어 사용자에게 제공할 정보인 다수의 음성노드로 이루어지는 것을 특징으로 하는 사용자 주도형 음성 서비스 시스템.
제 2항에 있어서,

상기 다수의 음성노드의 각각에는 다수의 음성앵커가 포함되고, 하나의 음성앵커는 관련성이 있는 다른 음성노드에 연결되는 구조를 가지는 것을 특징으로 하는 사용자 주도형 음성 서비스 시스템.
제 1항에 있어서,

상기 인식후보관리수단은 상기 데이터베이스에 저장되어 상기 단말기로 제공할 음성노드의 텍스트를 어절 단위로 나누고, 접두어와 접미어 및 특수문자를 제거하여 단어의 리스트를 만든 후, 상기 데이터베이스에 저장된 상기 음성앵커와 매칭되는 상기 단어를 상기 인식후보로 추출하는 것을 특징으로 하는 사용자 주도형 음성 서비스 시스템.
제 1항에 있어서,

상기 제어수단은 상기 음성앵커가 이용되는 횟수를 카운트하여 상기 데이터베이스에 저장하는 것을 특징으로 하는 사용자 주도형 음성 서비스 시스템.
제 1항 내지 제 5항 중 어느 한 항에 있어서,

상기 음성 서비스 문서는 VXML(Voice eXtensible Markup Language) 문서를 포함하는 것을 특징으로 하는 사용자 주도형 음성 서비스 시스템.
사용자에게 제공할 정보의 핵심어인 다수의 음성앵커와 상기 다수의 음성앵커와 관련되어 사용자에게 제공할 정보인 다수의 음성노드로 이루어지는 데이터를 저장하는 데이터베이스를 구비하고 다수의 단말기와 통신망으로 연결되는 음성 서비스 시스템으로 음성 서비스를 제공하는 방법에 있어서,

상기 음성 서비스 시스템이 상기 단말기로부터 접속요청을 수신하는 단계,

상기 접속요청에 따라 서비스 안내 음성을 상기 단말기로 송신하는 단계,

상기 음성 서비스 시스템이 상기 단말기로부터 음성지시가 수신되는지 여부를 판단하는 단계,

상기 음성지시가 수신될 경우 상기 음성지시를 해석하여 매칭되는 상기 음성앵커가 상기 데이터베이스에 존재하는지 여부를 판단하는 단계,

상기 매칭되는 음성앵커가 존재할 경우 상기 음성앵커의 관련 정보를 음성으로 변환하여 상기 단말기로 송신하는 단계를 포함하는 것을 특징으로 하는 음성 서비스 방법.
제 7항에 있어서,

상기 다수의 음성노드의 각각에는 다수의 음성앵커가 포함되고, 하나의 음성앵커는 관련성이 있는 다른 음성노드에 연결되는 구조를 가지는 것을 특징으로 하는 음성 서비스 방법.
제 8항에 있어서,

상기 송신하는 단계는

상기 음성앵커가 연결된 상기 음성노드를 상기 데이터베이스에서 검색하는 단계,

검색된 상기 음성노드에서 사용자가 발성할 것으로 예측되는 인식후보를 추출하는 단계,

추출된 상기 인식후보를 상기 음성앵커로서 포함시켜 상기 음성노드를 음성 서비스 문서로 변환하여 생성하는 단계,

생성된 상기 음성 서비스 문서를 음성으로 변환하여 상기 단말기로 송신하는 단계를 포함하는 것을 특징으로 하는 음성 서비스 방법.
제 9항에 있어서,

상기 추출하는 단계는

상기 음성노드의 텍스트를 어절 단위로 분리하는 단계,

분리된 상기 텍스트에서 접두어와 접미어 및 특수문자를 제거하는 단계,

제거된 상기 텍스트의 단어들을 단어리스트로 생성하는 단계,

생성된 상기 단어리스트의 각 단어를 상기 데이터베이스에 저장된 다수의 상기 음성앵커와 매칭하는 단계,

상기 음성앵커와 매칭되는 단어를 상기 인식후보로 추출하는 단계를 포함하는 것을 특징으로 하는 음성 서비스 방법.
제 9항에 있어서,

상기 음성 서비스 방법은 상기 단말기로 송신하는 단계 후,

상기 음성 서비스 시스템이 상기 음성앵커가 이용되는 횟수를 카운트하여 상기 데이터베이스에 저장하는 단계를 더 포함하는 것을 특징으로 하는 음성 서비스 방법.
제 9항 내지 제 11항 중 어느 한 항에 있어서,

상기 음성 서비스 문서는 VXML 문서를 포함하는 것을 특징으로 하는 음성 서비스 방법.