KR20110127180A

KR20110127180A - 음성 통신을 이용하여 호스팅된 서비스에 인터렉티브하게 액세스하는 시스템 및 방법

Info

Publication number: KR20110127180A
Application number: KR1020117020568A
Authority: KR
Inventors: 에우게니우스 우라슉
Original assignee: 소프트허스 에스피. 제트. 오. 오
Priority date: 2009-02-03
Filing date: 2010-01-19
Publication date: 2011-11-24
Also published as: JP2012517174A; EP2394267A1; SG173511A1; TW201034004A; US8417523B2; US20100198595A1; IL214424A0; US20130226579A1; RU2011136720A; CN102369568A; US20130226575A1; WO2010089645A1

Abstract

음성 인식 모듈, 세션 매니저, 및 음성 생성기 모듈을 구비하는 시스템에서, 사용자에게 서비스를 제공하는 방법은 음성 인식 모듈을 통해 발음을 수신하는 단계; 상기 발음을 온톨로지에 관련된 어휘목록을 이용하여 하나 이상의 구조로 변환하는 단계; 상기 구조를 이용하여 발음에서 개념을 식별하는 단계; 상기 발음이 충분한 정보를 포함하면, 상기 개념에 기초하여 서비스를 선택하는 단계; 상기 선택된 서비스에 기초하여 텍스트 메시지를 생성하는 단계; 및 상기 텍스트 메시지를 음성 생성기를 이용하여 음성 메시지로 변환하는 단계;를 포함한다.

Description

음성 통신을 이용하여 호스팅된 서비스에 인터렉티브하게 액세스하는 시스템 및 방법{SYSTEMS AND METHODS FOR INTERACTIVELY ACCESSING HOSTED SERVICES USING VOICE COMMUNICATIONS}

본 출원에 개시된 실시예는 일반적으로 인터렉티브 음성 응답 시스템에 관한 것이고, 특히 예를 들면, 샵, 차량 렌탈, 모텔 등과 같은 호스팅된 서비스에 대해 텔레포니를 통해 음성 통신 액세스를 가능하게 하는 시스템 및 방법에 관한 것이다.

기업들은 비용 또는 편의성을 이유로 오늘날 일상적으로 인터넷과 전화를 통해 고객 서비스를 제공한다. 현재, 사용자는 웹 서버에 의해 생성된 하이퍼텍스트 마크업 언어(HTML)를 요청하고 수신하는 인터넷 웹 브라우저를 가지고 시각적 프리젠테이션 기능을 제공하는 예를 들면, 개인용 컴퓨터(PC)와 같은 액세스 장치로부터 이러한 인터넷 서비스를 획득할 수 있다. 전자 상거래 애플리케이션을 위해, 웹 서버는 사용자의 입력을 처리하는 서비스 로직 및 트랜잭션 서버 인터페이스를 가지거나 그에 대한 액세스를 제공한다. 서비스 로직은 임의의 수의 대중적인 웹 프로그래밍 툴을 이용하여 프로그래밍된다.

사용자는 예를 들면 전화, 또는 오디오 입력, 출력, 및 텔레포니 기능을 가진 음성자동응답(IVR: interactive voice response) 플랫폼이라고 부르는 음성인터넷 프로토콜(VOIP)을 통한 음성과 같은 음성 인터렉션 기능, 및 텔레포니 기능, 자신의 서비스 로직, 및 트랜잭션 서버 인터페이스를 가진 액세스 장치로 전화 서비스를 획득한다. IVR 시스템은 전화 사용자가 음성 명령을 통해 시스템 상에서 링크된 서비스에 액세스하는 것을 허용하도록 자동화된다. 서비스 로직은 일반적으로 플랫폼의 애플리케이션-프로그래밍 인터페이스(API)를 이용한 범용 소프트웨어 언어 또는 플랫폼 전용 스크립트 언어로 프로그래밍된다.

일반적인 인터렉션 형태의 IVR 시스템은 메뉴, 지시된 대화, 및 발음(utterance) 인식 기술에서의 발전에 의해 가능해진 믹싱된-독창적인 대화(mixed-initiative dialog)를 포함한다. 메뉴 스타일 인터렉션은 일반적으로 사용자가 전화 키패드 상의 번호를 누르거나 또는 예를 들면 "예", "아니오" 또는 단순한 숫자와 같은 단순한 답변을 말하여 일련의 선택사항으로부터 아이템을 선택하도록 요청하는 사전-녹음된 음성 프롬프트를 이용한다. 지시된 대화에서, 시스템은 불연속적인 대답을 필요로하는 불연속적인 질문을 물음으로써 데이터 수집을 통해 사용자를 리드한다. 예를 들면, 사용자가 거주하는 위치를 파악하기 위해, 불연속적인 대화 시스템은 먼저 도시를 묻는 것에 의해 후속된 자신이 사는 주의 이름을 사용자가 말하도록 요청한다. 믹싱된-독창적인 대화 시스템은 사용자로 하여금 단일한 발음으로된 다수 피스의 데이터를 입력하고 부차적인 정보를 제공하도록 한다.

이러한 진보에도 불구하고, 종래 IVR은 여전히 느리고, 비개인적이고, 시스템과 사용자 사이의 인터렉션을 보조하기에는 귀찮은 플랫폼을 제공한다. 전화 상의 복잡한 메뉴 옵션과 선택을 통한 이용은 매우 시간 소모적이며, 지시된 및 믹싱된 독창적인 대화 시스템의 음성 명령 인식/이해 특징은 스크립트된 질문에 응답하지 못하는 음성 명령을 효과적으로 처리하도록 설계되지 않았다. 간략히, 기존의 어떠한 IVR도 사용자에 의한 서비스의 진정한 인터렉티브 조작을 허용하지 못하고 있다.

음성 통신을 이용하여 호스팅된 서비스에 인터렉티브하게 액세스하는 시스템 및 방법이 본문에 개시된다.

하나의 측면에서, 음성 인식 모듈, 세션 매니저, 및 음성 생성기 모듈을 구비하는 시스템에서, 사용자에게 서비스를 제공하는 방법은 음성 인식 모듈을 통해 발음을 수신하는 단계; 상기 발음을 온톨로지(ontology)에 관련된 어휘목록을 이용하여 하나 이상의 구조로 변환하는 단계; 상기 구조를 이용하여 발음에서 개념을 식별하는 단계; 상기 발음이 충분한 정보를 포함하면, 상기 개념에 기초하여 서비스를 선택하는 단계; 상기 선택된 서비스에 기초하여 텍스트 메시지를 생성하는 단계; 및 상기 텍스트 메시지를 음성 생성기를 이용하여 음성 메시지로 변환하는 단계;를 포함한다.

또다른 측면에서, 사용자에게 서비스를 제공하는 것을 포함하는 시스템은, 발음을 수신하여 상기 발음을 텍스트로 변환하도록 설정된 음성 인식 모듈; 온톨로지에 관련된 어휘목록을 이용하는 하나 이상의 구조; 상기 음성 인식 모듈과 결합되고 온톨로지에 연관된 어휘목록을 이용하여 텍스트에 연관된 구조를 생성하고 상기 구조를 이용하여 발음에서의 개념을 식별하고, 상기 발음이 충분한 정보를 포함한다면, 상기 개념에 기초하여 서비스를 선택하고, 상기 선택된 서비스에 기초하여 응답 텍스트 메시지를 생성하도록 설정된 세션 매니저; 및 상기 세션 매니저에 결합되고 상기 응답 텍스트 메시지를 음성 메시지로 변환하도록 구성된 음성 생성기 모듈;을 포함한다.

본 발명의 이러한, 및 기타 특징, 측면, 및 실시예들은 "상세한 설명"이라는 섹션에서 하기에 기술된다.

본 발명에 따르면, 음성 통신을 이용하여 호스팅된 서비스에 인터렉티브하게 액세스하는 시스템 및 방법이 제공될 수 있다.

본 문에 개시된 원리와 그의 이점을 보다 완전히 이해하기 위해, 첨부 도면과 함께 취해진 하기의 설명을 참조한다.
도 1은 하나의 실시예에 따라, 사용자로 하여금 음성 통신을 이용하여 호스팅된 서비스에 인터렉티브하게 액세스하도록 허용하는 음성자동응답(IVR) 시스템의 기능적 엘리먼트를 도시하는 도면이다.
도 2는 하나의 실시예에 따라, 도 1에 도시된 시스템에 포함될 수 있는 세션 매니저의 내부 컴포넌트와 이들 컴포넌트들이 인간 이해 시스템(Human Understanding System)애서의 나머지 모듈과 어떻게 상호작용하는 지의 상세한 도면이다.
도 3은 하나의 실시예에 따라, 도 2 및 3에 도시된 시스템의 동작을 도시하는 플로우 차트이다.
도 4는 보다 상세하게 하나의 실시예에 따라 도 2 및 3에 도시된 시스템의 동작을 도시하는 플로우 차트이다.
도 5는 하나의 실시예에 따라 예를 들면 도 1 및 2의 세션 매니저에서 발생할 수 있는 발음의 구조 생성을 도시하는 도면이다.

하기에 기술된 바와 같이 음성 통신을 이용하여 호스팅된 서비스에 인터렉티브하게 액세스하는 방법 및 시스템이 제공된다. 그러나, 본문에 기술된 시스템 및 방법은 이러한 특정한 상세사항의 일부 또는 전부가 없이도 실시될 수 있다는 것이 이해될 것이다. 다른 예시에서, 공지된 프로세스 동작이 간략화를 위해 상세하게 기술되지 않았다.

본문에 사용된 바와 같이, 텔레포니는 원거리 음성 통신을 제공하기 위해 예를 들면 지상 통신선 전화, 이동 전화, 인터넷 통신 장치 등과 같은 장비를 일반적으로 사용한다. 텔레포니는 아날로그 형 신호, 즉 시간과 진폭이 연속한 신호를 통해 음성 통신을 전송하는 전통적인 아날로그 전화 시스템, 및 디지털 형 신호(즉, 이산 바이너리)를 통해 음성 통신을 전송하는 보다 근래의 디지털 전화 시스템을 포함한다. 음성 인터넷 프로토콜(VOIP)은 전송제어 프로토콜/인터넷 프로토콜(TCP/IP)과 인터넷을 통해 디지털화된 음성 데이터를 전송하는 기타 네트워크 전송 포맷을 이용하는 현대적 형태의 디지털-기반 텔레포니이다.

인터넷 또는 월드와이드웹(WWW)은 TCP/IP, RUDP(Reliable User Datagram Protocol), 또는 그의 등가물과 같은 네트워크 데이터 전송 프로토콜을 이용하여 하나의 서버로부터 다른 서버로 데이터가 전송되도록 하는 함께 링크된 다수의 서버로 이루어진 광역 네트워크(WAN)이다. 일반적으로, 인터넷은 넓은 지리적 면적으로 위치된 다수의 서버를 함께 링크한다. 반대로, 지역내 정보통신망(LAN)은 가정, 사무실 또는 대학과 같은 작은 지역 면적을 커버하는 것과 같은 더 작은 서버의 네트워크이다.

상술한 것에 관해, IVR 시스템은 고객에 의해 어떤 서비스가 요청되는지를 판정하기 위해 음성 통신을 인터렉티브하게 이용하고 이들 서비스를 고객에게 메뉴-구동 또는 프리-스크립트된 대화를 이용하지 않고 전달하기 위해, 본문에 기술되는 시스템 및 방법으로부터 효익을 얻을 수 있다는 것이 이해되어야 한다.

도 1은 하나의 실시예에 따라 음성 통신을 이용하여 호스팅된 서비스에 사용자가 인터렉티브하게 액세스할 수 있도록 하는 음성자동응답(IVR) 시스템의 기능적인 엘리먼트들을 도시한 다이어그램이다. 본문에 도시된 바와 같이, 시스템은 다양한 호스팅된 서비스(108)를 포함하는 인간 이해 시스템(Human Understanding System)(103)과 통신하도록 구성된 사용자(101) 운영 텔레포니 장치(102)를 핸들링한다. 인간 이해 시스템(103)을 통해 액세스되도록, 각각의 서비스(106)가 먼저 본 시스템에서 정의되어야 한다.

따라서, 시스템(100)은 복수의 서비스(108)를 핸들링하고 인간 이해 시스템(103)을 통해 그것들을 사용자(101)에게 제공하도록 구성될 수 있다. 예시적인 등록 프로세스동안, 각각의 서비스에 대해 하기의 엘리먼트들이 제공되어야 한다: 서비스 가용한 지리적 영역, 자연어로 된 서비스의 상세한 설명, 서비스가 사용자(101)에게 제공되기 위해 사용자(101)로부터 필요한 데이터 리스트, 및 대화 스크립트.

하나의 실시예에서, 각각의 등록된 호스팅된 서비스는 예를 들면, 샵, 차량 렌탈, 모텔과 같은 하나 이상의 서비스 공급자 그룹에 연관된다. 인간 생활의 다수의 측면들은 이들 서비스가 텔레포니 장치(102)를 통해 사용자(101)에 의해 주문받을 수 있는 한은 적절한 호스팅된 서비스에 의해 공급될 수 있다.

하나의 실시예에서, 텔레포니 장치(102)는 아날로그 신호를 이용하여 음성 데이터를 전송하도록 구성된, 예를 들면 아날로그 물리적 와이어 연결과 같은 아날로그 지상 통신선을 통해 인간 이해 시스템(103)과 통신가능하게 링크될 수 있다. 또다른 실시예에서, 텔레포니 장치(102)는 불연속적인 디지털 바이너리 신호를 이용하여 음성 데이터를 전송하도록 구성된, 예를 들면 디지털 광섬유 연결과 같은 디지털 지상 통신선을 통해 인간 이해 시스템(103)과 통신가능하게 링크될 수 있다.

또다른 실시예에서, 예를 들면, 이동전화, 위성전화와 같은 텔레포니 장치(102)는 라디오 주파수(RF) 또는 마이크로 웨이브 신호를 이용하여 음성 데이터를 인간 이해 시스템(103)으로 전송하도록 구성된 무선통신 링크를 통해 인간 이해 시스템(103)과 통신가능하게 링크될 수 있다. 전송 포맷은 아날로그 또는 디지털이 될 수 있고, 무선통신 링크는 인간 이해 시스템(103)과 직접 링크가 되거나 또는 지상 통신선 또는 다른 무선 연결을 통해 인간 이해 시스템(103)에 연결되는 베이스 유닛을 통해 인간 이해 시스템(103)과 연결될 수 있다. 또다른 실시예에서, 텔레포니 장치(102), 즉 인터넷 통신 장치는 음성 인터넷 프로토콜(VOIP) 또는 그 등가의 프로토콜을 이용하여 음성 데이터를 전송하도록 구성된 네트워크 연결에 의해 인간 이해 시스템(103)과 지상 통신선, 무선 연결 또는 그 둘 모두를 통해 통신가능하게 링크될 수 있다. 네트워크 연결은 지역화된 네트워크, 즉 LAN, 또는 광역 네트워크, 즉, 인터넷으로서 분산될 수 있다.

하나의 실시예에서, 시스템은 인간 이해 시스템(103)에 의해 제공되는 서비스에 액세스하기 위해 인간 이해 시스템(103)으로 호출을 하도록 이동 전화, 즉, 텔레포니 장치(102)를 운영하는 사용자(101)를 통해 동작하도록 구성될 수 있다. 이동 전화(102)는, 인간 이해 시스템(103)과 통신하는, 그 자체가 공중교환전화망(PSTN), 즉 지상 통신선에 링크되는 이동전화 공급자, 즉 휴대전화 네트워크 공급자와 RF 링크를 통해 통신한다. 인간 이해 시스템(103)은 차례로 인터넷 또는 LAN을 통해 다수의 도메인 시스템과 통신가능하게 링크될 수 있다. 또다른 시나리오에서, 사용자(101)는 인터넷에 링크된 인간 이해 시스템(103)에 VOIP 호출을 하기 위해 VOIP 이네이블드 컴퓨터, 즉 텔레포니 장치(102)를 동작시킬 수 있다. VOIP 이네이블드 컴퓨터는 예를 들면 인터넷, LAN, 등과 같은 네트워크 연결을 통해 인간 이해 시스템(103)에 통신가능하게 링크되는 광역 인터넷 연결을 통해 통신한다.

상기 제공된 시나리오는 예시적인 목적으로 포함되며, 어떠한 방식으로건 시스템(100)에 가용한 통신 구성을 제한할 의도가 아니라는 것을 이해해야한다. 사용자(101)와 인간 이해 시스템(102) 사이의 통신을 설정하기 위한 다수의 상상할 수 있는 접근방식이 있고; 인간 이해 시스템(103)으로 하여금 음성 데이터를 처리하고 이해하도록 하기 위해 충분히 명료하고 특정하여 음성 데이터를 인간 이해 시스템(103)으로 전송하는 결과적인 시스템의 기능에 의해서만 한정된다.

도 1을 계속 참조하면, 인간 이해 시스템(103)은 하기를 포함한다: 음성 인식 모듈(104), 음성 생성기 모듈(106), 및 세션 매니저 모듈(105). 음성 인식 모듈(104)은 예를 들면 임의의 상술한 텔레포니 통신 구성을 이용하여 인간 이해 시스템(103)에 통신가능하게 링크된 텔레포니 장치(102)를 통해 사용자(101)로부터의 발음을 수신하도록 구성될 수 있다. 특정한 실시예에서, 발음은, 예를 들면 사용자(101)가 액세스하도록 요청한 제공되는 서비스에 관한 정보뿐 아니라, 신원 정보, 인증 정보와 같은 사용자(101)에 관한 정보를 포함한다. 음성 인식 모듈(104)은 사용자(101)로부터 수신된 음성 데이터를 텍스트 데이터로 번역하고 그 데이터를 세션 매니저 모듈(105)로 전송하도록 구성될 수 있다.

인간 이해 시스템(103)은 본문에 기술된 기능을 수행하기 위해 필요한 하드웨어 및 소프트웨어 양측의 컴포넌트를 포함할 수 있다는 것이 이해될 것이다. 인간 이해 시스템(103)은 특정한 기능들이 동일한 또는 상이한 컴폰너트에 의해 수행될 수 있는 기타 컴포넌트 및 기능을 포함할 수 있다는 것이 이해될 것이다. 따라서, 도 1은 특정한 아키텍처나 구성에 대해 본문에 기술된 시스템 및 방법을 제한하는 것으로 도시될 필요가 없다. 오히려, 도 1은 예시의 방식으로만 제시된 것이다.

하나의 실시예에서, 음성 인식 모듈(104)은 30개의 세계에서 가장 일반적인 언어를 인식하도록 구성된다. 음성 인식 모듈이 인식할 수 있는 언어의 일부 예시는: 영어, 중국어, 힌디어, 스페인어, 벵골어, 포르투갈어, 러시아어, 독일어, 일본어, 및 프랑스어이다. 다른 예시에서, 음성 인식 모듈(104)은 인간 이해 시스템(103)에 의해 핸들링되는 서비스에 의해 정해진 언어만 인식하도록 구성된다. 그러나, 음성 인식 모듈(104)은, 언어의 말의 특성이 컴퓨터 처리를 통해 언어가 변환되도록 할 수 있는 한, 시스템 관리자에 의해 임의의 언어를 인식하도록 구성될 수 있다는 것이 이해되어야 한다. 음성 인식 모듈(104)은 장치(102)를 통해 제공된 사용자(101)의 음성을 텍스트로 변환하도록 더 구성될 수 있다.

세션 매니저 모듈(105)은 2개의 상태로 동작하도록 구성될 수 있다: 1) 세션 매니저 모듈(105)이 서비스(106)를 선택하도록 구성되는 "서비스 선택 상태", 및 2) 세션 매니저 모듈(105)이 선택된 서비스(106)에 적합한 대화 스크립트(203)을 실행하도록 구성되는 "대화 스크립트 상태".

세션 매니저 모듈(105)은 온톨로지(ontology)에 연결된 특정한 자연어에 대한 어휘목록의 세트가 설치되어 있다. 이는 그것으로 하여금 자연어 발음의 텍스트를 문법과 온톨로지 정보를 포함하고 있는 특수한 구조로 변환할 수 있다. 이러한 온톨로지 정보는 어떤 서비스(106)가 요구되는 지를 판정하기 위해 사용될 수 있고, 또한 예를 들면 어떤 특정한 개념이 사용자(101)에 의해 실제로 통신되는지 여부에 관해 문의하기 위해 "대화 스크립트 상태"에서 사용될 수 있다.

세션 매니저 모듈(105)이 "서비스 선택 상태"에서 작동할 때, 그것은 하기의 프로세스를 구현하도록 구성될 수 있다: 고객 발음에서 발생한 온톨로지 개념에 가장 근접한 온톨로지 개념을 정의하는 서비스(108)를 선택하고 동시에 이러한 서비스에 대해 정의된 온톨로지 조건이 이러한 고객 발음과 상충되는 서비스(108)를 배제한다. 세션 매니저 모듈(105)이 요청된 서비스(106)의 식별을 판정하기에 정보가 충분하지 않을때, 세션 매니저(105)는 상기 판정을 하기 위해 요구되는 필수 정보를 사용자(101)에 쿼리하는 적절한 텍스트를 생성하도록 구성될 수 있다. 세션 매니저 모듈(105)은 그런 다음, 텍스트를 발음으로 변환하도록 구성된 음성 생성기 모듈(106)로 텍스트를 포워딩하고, 상기 음성 생성기 모듈(106)은 사용자(101)가 청취를 하도록 텔레포니 장치(102)와 통신한다.

하나의 실시예에서, 이러한 프로세스는 사용자(101)에 의해 제공된 음성 데이터에서 요청된 서비스(108)의 신원을 판정하기 위해 세션 매니저(105)가 충분한 정보를 수신할 때까지 필요한 만큼 자주 세션 매니저(105)에 의해 반복될 수 있다. 또다른 실시예에서, 시스템 관리자는 고객에게 더 많은 정보를 요구하고 특정한 서비스(108)를 선택하도록 할 수 있는 적절한 대화 스크립트(203)로 예를 들면 서비스-투-선택 서비스와 같은 특수한 서비스를 이네이블 하게 하거나 또는 구현할 수 있다. 대화 스크립트(203)는 특정한 실시예에서 다른 서비스를 호출할 수 있다. 예를 들면, 렌탈 차량 애플리케이션에서, 주, 도시, 차량 종류, 등에 기초하여 적절한 렌탈 차량 회사를 선택하도록 구성된 특수한 서비스가 상기 서비스를 완료하기 위해 호출될 수 있다.

상술한 다양한 실시예는 사용자(101)와 인간 이해 시스템(103) 사이의 고 인터렉티브 대화를 실시하도록 구성된다는 것이 이해되어야 한다. 본 의도는 어떤 서비스(108) 또는 다른 정보가 사용자(101)에 의해 요청되는 지를 판정하도록 시도하는 것을 포함하는 사용자(101)와 핸들링된 서비스(108) 사이에서의 통신 환경을 가능한 근사하게 흉내내기 위한 것이다. 일련의 메뉴 옵션이 선택되거나, 일련의 정보 요청이 응답되는 종래 시스템과 반대로, 응답을 위한 선택 및 요청은 미리 정해진 결정 트리를 통해 고정된 상대적으로 선형 계산(linear progression)을 따른다. 이런한 종래 인터렉션은 2 명의 인간 사이에서의 자연적인 대화를 전혀 흉내내지 못한다.

하나의 실시예에서, 상술한 음성 인식 모듈(104)의 경우에서와 같이, 음성 생성기 모듈(106)은 30개의 가장 일방적인 세계 언어의 대화만을 이네이블하게 하도록 구성될 수 있다. 또다른 실시예에서, 음성 생성기 모듈(106)은 인간 이해 시스템(103)에 대해 핸들링되는 서비스에 의해 규정된 언어만을 인식하도록 구성될 수 있다. 그러나, 음성 생성기 모듈(106)은, 언어의 말의 특성이 컴퓨터 처리를 통해 언어가 변환되도록 할 수 있는 한, 시스템 관리자에 의해 임의의 언어를 인식하도록 구성될 수 있다는 것이 이해되어야 한다.

세션 매니저(105)가 사용자에 의해 요청된 서비스(108)를 성공적으로 인식하면, 세션 매니저(105)는 이러한 서비스에 대해 정의된 대화 스크립트를 실행하는 것을 시작한다.

도 2는 하나의 실시예에 따라 세션 매니저(105)의 내부 컴포넌트와 이들 컴포넌트가 인간 이해 시스템(103)에서의 모듈의 나머지와 어떻게 상호작용하는지의 상세도이다. 본 실시예에서 도시된 바와 같이, 세션 매니저(105)는 스크립트 엔진(202), 모든 서비스(108)에 대해 정의된 대화 스크립트(203), 서비스 데이터베이스(204), 및 서비스 데이터 관리 컴포넌트(205)를 포함한다.

세션 매니저는 또한 텍스트-투-구조 모듈(212)을 포함하고, 이는 인간 발음의 텍스트를 적절한 어휘목록(210)을 이용하여 특수한 구조로 변환할 수 있다. 이들 어휘목록(210)은 온톨로지(211)와 링크된다. 이러한 관계는 텍스트-투-구조 모듈(212)로 하여금 임의의 정의된 인간 언어에서의 텍스트를 인간 언어에 독립적인 문법 및 온톨로지 정보를 포함하는 구조로 변환하도록 한다.

세션 매니저(105)는 또한 특수 개념 탐색자(prospector)(230)를 포함할 수 있다. 특수 개념 탐색자(230)를 이해하기 위해, 이러한 특수 개념이 무엇인지를 설명할 필요가 있다. 그것들은 예를 들면 이름, 색상, 주소와 같이 이해할 필요가 없는 개념들이다. 오히려, 관심있는 것은 개념들에 연관될 수 있는 값 또는 등급이다. 이러한 개념은 인간으로 하여금 자신들에 관해 말하게 할 수 있는, 모든 자연어에서의, 다수의 패턴을 가진다. 따라서, 특수 개념 탐색자(230)는 특수 개념 값을 추출하기 위해 발음으로부터 산출된 텍스트와 구조를 분석한다. 추가로, 값에 연관된 개념을 더 명료화할 수 있는 사용자(101)로부터의 정보를 산출하도록 설계된, 적절한 언어로 된, 질문의 세트가 정의될 수 있다.

스크립트 엔진(202)이 대화 스크립트(203)에서 특수한 개념에 대한 요청을 만날때, 그것은 상기 개념에 연관된 값을 얻기위해 특수 개념 탐색기(230)를 호출한다. 이러한 정보가 부족할 경우, 특수 개념 탐색기(230)는 음성 생성기 모듈(106)을 통해 고객(101)으로 포워딩될 수 있는 적절한 질문을 스크립트 엔진(202)으로 리턴한다. 대답을 수신한 후에, 필요하다면 프로세스가 반복될 수 있다. 고객이 대답을 제공하는 것을 거부하면, 스크립트 엔진(202)은 스크립트가 반응할 수 있도록 하기 위해 이러한 사실을 기록한다. 특수 개념 및 그의 이용은 하기에 보다 상세히 기술된다.

특수 명령어는 적절한 데이터베이스를 쿼리하기 위해 대화 스크립트(203)에 내장될 수 있다. 다른 명령어들은 고객이 특정한 값을 선택할 수 있도록 결과가 고객에게 제시는 것을 허용하도록 서비스(108)에 연관된 대화 스크립트(203)에 내장될 수 있다. 그러나, 다른 명령어들은 적절한 데이터로 데이터베이스(204)를 업데이트하는 데에 이용될 수 있다.

대화 스크립트(203)에서의 조건 명령어는 그것이 예측되는 인간 반응에 반응할 수 있도록 한다. 이들 조건 명령어는 시스템을 이네이블하게 할 수 있는 명령어인, if, switch, while 등과 같은 명령어, 또는 사용자(101)가 대답 또는 특정한 정보를 제공하는 것을 거부하는 경우 무엇을 해야하는 지와 같은 다양한 시나리오를 처리하기 위한 보다 특정한 대화 스크립트(203)를 포함한다.

대화 스크립트(203)는 메시지 번호에 대해 동작하도록 구성될 수 있고, 이는 고객에 의해 사용되는 언어에 따라 자연어 메시지로 변환될 수 있다.

도 3은 하나의 실시예에 따라 보다 상세히 사용자(101)에 대해 서비스(108)("선택 서비스 상태")를 선택하고 그를 제공하기 위해 시스템이 사용되는 예시적인 프로세스를 나타내는 플로우 차트이다. 단계(302)에서, 음성 인식 엔진(104)은 장치(102) 및 연관된 통신 설비를 통해 사용자(101)로부터 음성 발음을 수신할 수 있다. 상술한 바와 같이, 발음은 이름, 번호, 주소 등과 같은 신원 정보; 사회보장 번호, 확인 번호 등과 같은 인증 번호; 세일, 고객 서비스, 예약 등과 같은 원하는 서비스에 관한 정보;와 같은 정보를 포함할 수 있고, 사용자(101)로부터 수신된 발음에 포함될 수 있는 유형의 정보의 소수의 예시를 명명한다.

단계(304)에서, 음성 인식 모듈은 발음을 단계(306)에서 세션 매니저(105)로 포워딩될 수 있는 텍스트로 번역 또는 변환 시키도록 구성될 수 있다.

세션 매니저(105)는 그런다음 온톨로지에 링크된 어휘목록을 이용하여 단계(308)에서 텍스트를 구조로 변환할 수 있다. 단계(310)에서, 세션 매니저(105)는 발음에 포함된 개념, 즉, 발음에 포함된 온톨로지 개념을 식별하기 위해 상기 구조를 이용할 수 있다. 상기 개념들은 그런다음 요청되는 서비스(108)를 식별하기 위해 단계(312)에서 사용될 수 있다. 시스템(103) 내에서의 개념과 그의 식별은 하기에 보다 상세히 기술된다.

서비스(108)를 충분히 식별하기 위해 발음으로 충분한 정보가 제공되지 않으면, 세션 매니저는 단계(314)에서 서비스(108)의 식별을 허용하기 위한 추가적인 정보를 도출하는 텍스트 메시지 설계를 생성하도록 구성될 수 있다. 텍스트 메시지는 대화 스크립트(203)를 이용하여 생성될 수 있고, 단계(316)에서 음성 생성기(106)로 전송될 수 있으며, 이는 장치(102)를 통해 사용자(101)에 통신되는 발음으로 텍스트 메시지를 변환하도록 구성될 수 있다.

프로세스는, 단계(318)에서 서비스를 선택하기 위해 충분한 정보가 제공될 때까지 반복될 것이다. 서비스가 선택되면, 적절한 대화 스크립트(203)가 단계(320)에서 음성 생성기(106)로 포워딩될 수 있는 텍스트 메시지를 생성하기 위해, 단계(322)에서 사용자(101)와 통신하기 위해 활성화될 수 있다.

도 4는 하나의 실시예에 따라 보다 상세히 세션 매니저(105)에 의해 수행되는 서비스를 선택하는 프로세스를 도시하는 플로우 차트이다. 단계(402)에서, 스크립트 엔진(202)은 음성 인식 모듈(104)로부터 텍스트 정보를 수신하고 텍스트를 텍스트-투-구조 엔진(212)으로 전송하며, 이는 적절한 어휘목록(210) 및 연관된 온톨로지(211)를 이용하여 단계(404)에서 텍스트를 구조로 변환하도록 구성될 수 있다. 구조는 그런다음 서비스 데이터베이스(204)로부터 서비스를 선택하기 위해 서비스 선택기(220)에 의해 단계(406)에서 사용될 수 있다.

단계(408)에서, 선택된 서비스는 스크립트 엔진(202)으로 하여금, 적절한 정보를 사용자(101)에게 제공하거나 또는 사용자(101)로부터 정보를 요청하기 위해 필요한 적절한 텍스트 메시지를 대화 스크립트(203)를 이용하여 생성하도록 할 수 있다. 즉, 대화 스크립트(203)와 함께 스크립트 엔진(202)은 시스템으로 하여금 선택된 서비스에 의해 지시된 바와 같이 사용자(101)와 적합한 방식으로 통신하도록 한다.

서비스 데이터 매니저(205)는 서비스 데이터베이스(204)에서의 다양한 서비스에 연관된 데이터를 저장하도록 구성될 수 있다. 추가로, 서비스 데이터베이스(205)는 예를 들면 특수 개념 프로세서(230) 뿐만 아니라 사용자(101)로부터 수신된 정보를 저장하도록 구성될 수 있다. 따라서, 메시지가 단계(408)에서 생성될 때, 새로운 정보가 단계(410)에서 그에 대해 응답하여 수신된다. 단계(412)에서, 단계(410)에서 수신된 정보에 연관된 정보 또는 값이 서비스 데이터베이스(412)에 저장될 수 있다.

도 5는 하나의 실시예에 따라 구조를 형성하고 그를 개념에 링크하는 예시를 도시하는 다이어그램이다. 도 5는 하기의 발음에 대한 프로세스를 도시한다:

및 폴란드어에서의 등가물

. 각각의 발음(502(영어) 및 514(폴란드어))는 그 언어에 대해 연관된 어휘목록(210)에 의해 정의된 바와 같은 복수의 어휘를 포함한다. 일반적으로, 각각의 언어의 어휘목록(210)에서의 각각의 어휘는, 어미 변화를 가진 언어에서, 적절한 개념 또는 개념들(508)에 대해 직접 또는 어근(root lexeme)을 통해 연결된다. 각각의 개념(508)은, 자연어 전달에서 동일한 개념을 전달하는 다수의 동의어와 상이한 방식이 있기 때문에, 각각의 어휘목록(210)에서 복수의 어휘에 연결된다.

도 5를 참조하면, 발음(502, 504)은 유닛(504 또는 512)으로 변환될 수 있다. 각각의 유닛(504, 512)은 발음에서 하나 이상의 어휘에 대응할 수 있다. 예를 들면, 유닛(504)은 단일한 어휘에 대응하거나, 또는 그것이 도 5의 예시의 발음(502)에서 "would like to"를 그룹화하는 것과 같은 다수 어휘에 대응하도록 하기 위해 다수의 서브-유닛을 구비할 수 있다. 각각의 유닛(504) 또는 서브-유닛은 연관된 온톨로지(211)에 기초하여 하나 이상의 개념(508)에 대해 링크(506 및 510)를 통해 연결될 수 있다.

유닛(504, 512)과 링크(506, 510)의 조합은 각각 다양한 개념(508)과 연관된 구조(505, 515)를 형성한다. 각각의 개념(508)은 식별되는 개념을 지시하거나 그로 이끄는 입력 발음에 포함된 어휘에 관계없이 고유한 구조를 가진다는 것에 유의해야한다. 즉, 발음(502)이 조금 상이하게 기술된다면, 즉,

또는

으로 기술된다면, 동일한 개념(508)의 식별을 하도록 하는 매우 유사한 구조(505, 515)가 생성된다.

따라서, 시스템(103)에서 정의된 각각의 서비스(108)는 그에 연관된 개념(508)의 세트를 가질 수 있다. 다수의 실시예에서, 중요한 개념만이 불필요한 연관을 방지하기 위해 포함된다. 또한, 다른 실시예에서, 문법만을 전달하는 어휘는 생략된다. 선택적으로, 각각의 서비스는 또한 배제 및 요구 조건을 포함할 수 있다. 예를 들면, 특정한 정보는 선택될 특정 서비스(108)에 대해 제공되어야 하지만, 반면 다른 정보는 특정 서비스(108)가 선택된다면 포함될 수 없다.

개념(508)은 그런다음 서비스(108)에 연관될 수 있다. 즉, 각각의 서비스는 그에 연관된 특정한 개념을 가진다. 세션 매니저(105)는 그런다음 예를 들면 발음(502)과 같은 발음에 연관된, 예를 들면 구조(505)와 같은 구조를 판정하고, 어떤 서비스(108)가 상기 구조(505)에 가장 밀접하게 연관되는지, 즉, 상기 구조(505)에 기초하여 상기 발음(502)과 가장 연관된 개념을 가지는지를 판정한다. 특정한 실시예에서, 세션 매니저(105)는 또한 임의의 필요 조건과 배제 조건이 어떤 서비스(108)가 상기 발음(502)에 가장 밀접하게 연관되는지를 판정할 때 각각의 서비스(108)에 적합한지를 판정하도록 구성될 수 있다.

서비스(108)가 선택되면, 다음 단계는 대화 스크립트(203)를 이용하여 서비스에 대한 데이터를 수집하는 것이 될 수 있다. 이는 상술한 바와 같이 특수한 개념을 포함할 수 있다. 다시, 특수한 개념은 시스템(103)이 실제로 이해하고자 시도하지 않는 개념이지만, 시스템은 연관된 값의 등급을 생성하는 것을 시도한다. 도 5의 예시에서, 이러한 개념은: 사람, 즉 의사에게 가려고 하는 사람; 시간, 즉 약속이 이루어져야 하는 때; 및 의사, 즉 어느 의사가 필요한지;가 될 수 있다.

먼저, 예를 들면, 발음(502)과 같은 발음은 그것이 필수 데이터를 포함하는지를 판정하기 위해 평가될 수 있다. 값 또는 등급은 얼마나 강력하게 제공된 데이터가 이러한 정보에 대응하는 지의 표시이다. 데이터가 포함되고 값 또는 등급을 제공하는지 여부를 판정하는 태스크는 특수 개념 프로세서(230)에 대한 것일 수 있다. 발음(502)이 요구 데이터를 포함하지 않는다고 나타나면, 선택된 서비스(108)의 제어하의 스크립트 엔진(202)은 정보를 도출하기 위해 설계된 대화 스크립트를 선택할 수 있다. 상기 예시에서, 고객은, 이러한 정보만이 서비스를 주문했을 때 규정지어지지 않기 때문에, 약속 날짜에 관해 요청(대화 스크립트로) 받는다.

생성된 값이 요구되는 정보 모두가 제공되는 것으로 표시하면, 데이터는 저장되고 약속을 하기 위해 사용될 수 있다. 대화 스크립트(204)는 그런다음 사용자에게 통신될 수 있는 약속을 확인하는 메시지를 생성하도록 사용될 수 있다.

다시, 대화 스크립트(203)는 자연어를 이용하여 적절한 방식으로 발음을 생성하고 수신된 발음에 응답한다. 따라서, 사용자(101)는 자신이 필요한 정보를 제공하도록 프롬프트되는 것과 같이 정상적인 대화를 하고 있다고 느껴져야한다.

본문에 기술된 시스템 및 방법의 일부 또는 모두는 컴퓨터 판독가능 매체 상의 컴퓨터 판독가능 코드로서 구현될 수 있다. 컴퓨터 판독가능 매체는 이후에 컴퓨터 시스템에 의해 판독될 수 있는 데이터를 저장할 수 있는 임의의 데이터 스토리지 장치이다. 컴퓨터 판독가능 매체의 예시로는 하드 드라이브, NAS(network attached storage), 판독 전용 메모리, 랜덤 액세스 메모리, CD-ROMs, CD-Rs, CD-RWs, 자기 테이프, 및 기타 광학 및 비광학 데이터 스토리지 장치를 포함한다. 컴퓨터 판독가능 매체는 또한 컴퓨터 판독가능 코드가 분산된 형태로 저장되고 실행되도록 네트워크로 연결된 컴퓨터 시스템을 통해 분산될 수 있다.

소수의 실시예들이 본문에 상세히 기술되었지만, 당업자는, 본문에 기술된 시스템 및 방법이 다수의 기타 특정한 형태로 구현될 수 있다는 것을 이해해야한다. 따라서, 본 예시와 실시예는 예시적인 것으로 간주되어야지 한정으로 간주되어서는 안되며, 본문에 기술된 시스템과 방법은 본문에 제공된 상세사항에 한정되지 않고, 첨부된 청구범위의 범위 내에서 변형되고 실시될 수 있다.

Claims

음성 인식 모듈, 세션 매니저, 및 음성 생성기 모듈을 구비하는 시스템에서, 사용자에게 서비스를 제공하는 방법으로서,
상기 음성 인식 모듈을 통해 발음을 수신하는 단계;
온톨로지에 관련된 어휘목록을 이용하여 상기 발음을 하나 이상의 구조로 변환하는 단계;
상기 구조를 이용하여 상기 발음에서의 개념들을 식별하는 단계;
상기 발음이 충분한 정보를 포함한다면, 상기 개념들에 기초하여 서비스를 선택하는 단계;
상기 선택된 서비스에 기초하여 텍스트 메시지를 생성하는 단계; 및
상기 텍스트 메시지를 상기 음성 생성기를 이용하여 음성 메시지로 변환하는 단계;
를 포함하는 것을 특징으로 하는 사용자에게 서비스를 제공하는 방법.
제 1 항에 있어서, 상기 발음을 텍스트로 변환한 다음, 상기 텍스트를 하나 이상의 구조로 변환하는 단계를 더 포함하는 것을 특징으로 하는 사용자에게 서비스를 제공하는 방법.
제 1 항에 있어서, 상기 발음이 충분한 정보를 포함하지 않을 때, 추가적인 정보를 도출하도록 설계된 텍스트 메시지를 생성하는 단계, 상기 텍스트 메시지를 상기 음성 생성기를 이용하여 음성 메시지로 변환하는 단계, 및 상기 음성 메시지를 사용자에게 통신하는 단계를 더 포함하는 것을 특징으로 하는 사용자에게 서비스를 제공하는 방법.
제 1 항에 있어서, 상기 음성 메시지를 사용자에게 통신하는 단계를 더 포함하는 것을 특징으로 하는 사용자에게 서비스를 제공하는 방법.
제 1 항에 있어서,
상기 사용자에게 통신된 음성 메시지에 응답하여 상기 음성 인식 모듈을 통해 발음을 더 수신하는 단계;
상기 발음을 온톨로지에 관련된 어휘목록을 이용하여 하나 이상의 구조로 변환하는 단계;
상기 구조를 이용하여 상기 발음에서의 개념을 식별하는 단계;
상기 식별된 개념에 기초하여 사용자에게 제공하기 위한 정보를 획득하는 단계;
상기 획득된 정보 또는 상기 식별된 개념 중 적어도 하나에 기초하여 또다른 텍스트 메시지를 생성하는 단계;
상기 텍스트 메시지를 상기 음성 생성기를 이용하여 음성 메시지로 변환하는 단계; 및
상기 텍스트 메시지를 사용자에게 통신하는 단계;
를 더 포함하는 것을 특징으로 하는 사용자에게 서비스를 제공하는 방법.
제 1 항에 있어서, 온톨로지에 관련된 어휘목록을 이용하여 상기 발음을 하나 이상의 구조로 변환하는 단계는 상기 발음을 차례로 복수의 서비스에 연관된 복수의 개념에 연결된 하나 이상의 유닛들과 관련시키는 단계를 포함하는 것을 특징으로 하는 사용자에게 서비스를 제공하는 방법.
제 6 항에 있어서, 상기 구조를 이용하여 상기 발음에서의 개념을 식별하는 단계는 어떤 개념들이 상기 유닛에 연결되는 지를 판정하는 단계를 포함하는 것을 특징으로 하는 사용자에게 서비스를 제공하는 방법.
제 7 항에 있어서, 상기 개념에 기초하여 서비스를 선택하는 단계는 복수의 서비스의 각각에 대해 유닛을 통해 상기 발음에 연결되는 연관된 개념의 수에 기초하여 어느 서비스가 상기 발음에 가장 밀접하게 연관되었는지를 판정하는 단계를 포함하는 것을 특징으로 하는 사용자에게 서비스를 제공하는 방법.
제 1 항에 있어서, 상기 선택된 서비스에 연관된 특수한 개념을 식별하는 단계 및 상기 발음에 포함된 정보에 기초하여 상기 식별된 특수한 개념에 값을 할당하는 단계를 포함하는 것을 특징으로 하는 사용자에게 서비스를 제공하는 방법.
제 9 항에 있어서, 상기 선택된 서비스에 연관된 모든 특수한 개념이 상기 발음에 있는지를 판정하고, 그렇지 않았다면, 임의의 누락된 특수한 개념에 연관된 정보를 도출하도록 설계된 텍스트 메시지를 생성하여 상기 텍스트 메시지를 상기 음성 생성기를 이용하여 음성 메시지로 변환하는 단계를 더 포함하는 것을 특징으로 하는 사용자에게 서비스를 제공하는 방법.
제 10 항에 있어서, 모든 특수한 개념이 제시되고 값이 할당될 때, 서비스를 실행하거나 완료하는 단계를 더 포함하는 것을 특징으로 하는 사용자에게 서비스를 제공하는 방법.
제 11 항에 있어서, 상기 서비스를 실행하는 단계는 상기 발음에 포함되고 상기 특수한 개념에 연관된 정보를 저장하는 단계를 포함하는 것을 특징으로 하는 사용자에게 서비스를 제공하는 방법.
사용자에게 서비스를 제공하는 것을 포함하는 시스템에 있어서,
발음을 수신하여 상기 발음을 텍스트로 변환하도록 구성된 음성 인식 모듈;
온톨로지에 관련된 어휘목록을 이용하는 하나 이상의 구조;
상기 음성 인식 모듈과 결합되는 세션 매니저로서,
온톨로지에 연관된 어휘목록을 이용하여 텍스트에 연관된 구조를 생성하고,
상기 구조를 이용하여 상기 발음에서의 개념을 식별하고,
상기 발음이 충분한 정보를 포함한다면, 상기 개념에 기초하여 서비스를 선택하고, 및
상기 선택된 서비스에 기초하여 응답 텍스트 메시지를 생성,
하도록 설정된 세션 매니저; 및
상기 세션 매니저에 결합되고 상기 응답 텍스트 메시지를 음성 메시지로 변환하도록 구성된 음성 생성기 모듈;
을 포함하는 것을 특징으로 하는 시스템.
제 13 항에 있어서, 상기 세션 매니저는, 상기 발음이 충분한 정보를 포함하지 않을때, 추가적인 정보를 도출하기위해 설계된 텍스트 메시지를 생성하도록 더 구성되고, 상기 음성 생성기 모듈은 상기 텍스트 메시지를 음성 메시지로 변환하여, 상기 음성 메시지를 사용자에게 통신하도록 더 구성되는 것을 특징으로 하는 시스템.
제 13 항에 있어서, 상기 세션 매니저는 차례로 복수의 서비스에 연관된 복수의 개념에 연결된 하나 이상의 유닛과 상기 발음을 연관시킴으로써 상기 텍스트에 연관된 구조를 생성하도록 더 구성되는 것을 특징으로 하는 시스템.
제 15 항에 있어서, 상기 세션 매니저는 어떤 개념이 상기 유닛에 연결되는지를 판정함으로써 상기 구조를 이용하여 상기 발음에서의 개념을 식별하도록 더 구성되는 것을 특징으로 하는 시스템.
제 16 항에 있어서, 상기 세션 매니저는 복수의 서비스 각각에 대해 유닛을 통해 상기 발음에 연결된 연관된 개념의 수에 기초하여 어느 서비스가 상기 발음에 가장 밀접하게 연관되었는 지를 판정함으로써 상기 개념에 기초하여 서비스를 선택하도록 더 구성되는 것을 특징으로 하는 시스템.
제 13 항에 있어서, 상기 세션 매니저는 상기 선택된 서비스에 연관된 특수한 개념을 식별하고 상기 발음에 포함된 정보에 기초하여 상기 식별된 특수한 개념에 값을 할당하도록 더 구성되는 것을 특징으로 하는 시스템.
제 18 항에 있어서, 상기 세션 매니저는 상기 선택된 서비스에 연관된 모든 특수한 개념이 상기 발음에 제시되어 있는지를 판정하고, 그렇지 않다면, 임의의 누락된 특수한 개념에 연관된 정보를 도출하도록 설계된 텍스트 메시지를 생성하도록 더 구성되고, 상기 음성 생성기 모듈은 상기 텍스트 메시지를 상기 음성 생성기를 이용하여 음성 메시지로 변환하도록 더 구성되는 것을 특징으로 하는 시스템.
제 19 항에 있어서, 상기 세션 매니저는, 모든 특수한 개념이 제시되고 값이 할당될 때, 서비스를 실행하거나 완료하도록 더 구성되는 것을 특징으로 하는 시스템.
제 20 항에 있어서, 상기 세션 매니저는 상기 발음에 포함되고 상기 특수한 개념에 연관된 정보를 저장함으로써 상기 서비스를 실행하도록 더 구성되는 것을 특징으로 하는 시스템.