KR19980070342A

KR19980070342A - Ｊａｖａ에 음성 인식 능력을 부가하기 위한 시스템 및 방법

Info

Publication number: KR19980070342A
Application number: KR1019980000055A
Authority: KR
Inventors: 헴필찰스티.; 베이커씨.스코트
Original assignee: 윌리엄비.켐플러; 텍사스인스트루먼츠인코포레이티드
Priority date: 1997-01-06
Filing date: 1998-01-05
Publication date: 1998-10-26
Also published as: TW421755B; EP0854418A3; KR100663821B1; SG72779A1; US6456974B1; JPH10240493A; EP0854418A2

Abstract

JAVA에 음성 인식 능력을 부가하기 위한 시스템(10)에 있어서, 애플리케이션 프로그램 인터페이스(20)을 통하여 JAVA 애플리케이션(24)에 결합된 음성 인식 서버(18)가 제공된다. JAVA 애플리케이션(24)는 음성 인식 서버(18)에 문법(56)을 통신하는 애플리케이션 프로그램 인터페이스(20)에 문법(56)을 동적으로 특정화한다. 음성 인식 서버(18)은 문법(56)과 음성 입력(66)을 수신한다. 음성 입력(66)이 수신되면, 음성 인식 서버(18)은 음성 인식을 수행하여 문법(56)에 기초한 결과(58)을 생성한다. 애플리케이션 프로그램 인터페이스(20)은 JAVA 애플리케이션(24)에 결과(58)을 통신하고, JAVA 애플리케이션(24)는 수신된 결과(58)에 기초하여 동작을 취한다.

Description

ＪＡＶＡ에 음성 인식 능력을 부가하기 위한 시스템 및 방법

본 발명은 일반적으로 데이타 통신 및 프로세싱 분야에 관한 것으로, 특히 JAVA에 음성 인식 능력을 부가하기 위한 시스템 및 방법에 관한 것이다.

컴퓨터 사용자들은 음성 명령(verbal commands)에 응답할 수 있는 개인용 소프트웨어 애플리케이션을 갈망해 왔다. 음성을 입력 매체로서 사용하는 소프트웨어 애플리케이션을 이용하여 통신하는 사용자들에게 예를 들면, 키보드, 마우스 또는 터치스크린 입력 장치 보다 자연스러운 인터페이스를 제공한다. 음성 입력은 손동작 없이도 다루기 쉬운 이점이 있다. 소프트웨어 애플리케이션을 이용하여 통신하는 동안 사용자로 하여금 다른 문제(matters)에 참여할 수 있게 하는 것 이외에도, 핸드프리(hands-free) 동작은 물리적으로 도전적인 사용자들에게 억세스(acess)할 수 있게 한다. 음성 입력은 철자 및 구문 에러의 문제를 방지할 수 있는 부가적인 이점을 제공하며, 다른 입력 방법에 관련된 커다란 리스트를 통하여 스크롤(scroll)할 수 있게 한다.

고객 애플리케이션에 음성 인식 능력을 제공하기 위한 한 가지 방안은 HTML(Hyper-Text Markup Language)에 기초한 스마트 페이지(smart page)의 구상이다. 스마트 페이지는 그 페이지에 특정한 문법의 링크(link)를 포함하는 Web(World-Wide-Web) 페이지이며, 그러한 문법의 결과를 해석할 수 있다. 스마트 페이지의 저자는 페이지가 응답될 문법을 정의하고, 스마트 페이지 내에 그 문법에 대한 접속을 내장하여, 예상되는 음성 입력의 형태에 관련된 사용자에게 가시적인 큐를 부여한다. 음성 엔진(speech engine)이 스마트 페이지와 접할 경우, 전술된 문법과 결합되어 음성 입력에 대하여 응답하고 그 결과를 스마트 페이지에 복귀시킨다. 스마트 페이지는 그 결과를 해석하여 그에 따른 응답을 행한다.

이러한 방안의 단점은 HTML에 기초한 웹(web) 페이지가 상실된다는 것인데; 즉, 현재의 페이지에 새로운 페이지가 링크될 경우, 이 새로운 페이지는 이전 페이지에 관하여 어떠한 것도 알지 못한다. URL(Uniform Resource Locator) 내에 상태 정보를 부호화함으로써 그러한 제한을 극복할 수 있는 반면, 이 방법은 매우 비효율적인 해결 방안을 제공한다. 이 방안의 다른 단점은 통상적으로 고객 애플리케이션에 음성 인식 능력을 부가하기 위한 해결 방안이 없다는 것이다. HTML이 풀(full) 프로그래핑 언어가 아니기 때문에, 실제적인 애플리케이션은 웹 페이지와 브라우징 명령에 국한된다.

본 발명의 가르침에 따르면, JAVA에 음성 인식 능력을 부가하기 위한 시스템은 이전에 개발된 시스템에 관련된 단점과 문제점을 제거하거나 실질적으로 감소시킨다.

본 발명의 일 실시예에 따르면, JAVA에 음성 인식 능력을 부가하기 위한 시스템은 응용 프로그램 인터페이스를 통하여 JAVA 애플리케이션에 결합된 음성 인식 서버를 포함한다. JAVA 애플리케이션은 음성 인식 서버에 문법을 통신하는 응용 프로그램 인터페이스에 그 문법을 동적으로 특정화한다. 음성 인식 서버는 문법과 음성 입력을 수신한다. 이 음성 인식 서버는 음성 입력 상에서 음성 인식을 수행하여, 문법에 기초한 결과를 생성한다. 응용 프로그램 인터페이스는 JAVA 애플리케이션에 그 결과를 통신하고, 수신된 결과에 기초한 동작을 취한다.

본 발명은 JAVA 애플리케이션 내의 상태 정보를 손쉽게 부호화하는 능력을 포함하는 중요한 기술적인 이점을 제공한다. 상실될 수 있는 HTML과는 달리, JAVA는 필요한 상태 정보를 효율적으로 전할 수 있는 풀 프로그래밍 언어이다. 또한, JAVA는 풀 프로그래밍 언어이기 때문에, 본 발명은 JAVA 프로그램 애플리케이션의 음성 능력을 촉진하며, 웹 브라우징 애플리케이션에 국한되지 않는다. 다른 이점은 JAVA가 플랫폼 독립형 언어(platform independent language)라는 점이다. 이와 같이, 본 발명은 음성 서버가 백그라운드 내에서 구동되는 경우, 동일 프로그램이 다중 플랫폼 상의 음성 인식을 이용할 수 있게 한다, 이것은 고객 프로그래머로 하여금 오디오 기록과 같은 플랫폼 독립 이슈를 무시할 수 있게 하여 음성 인식기를 특정화한다. 또 다른 이점은 JAVA 애플리케이션을 음성으로 인에이블하는데 사용된 애플리케이션 프로그램 인터페이스의 융통성이다. 본 발명은 무경험 프로그래머에게 간단한 템플릿(template)을 이용하여 애플리케이션을 신속하게 음성으로 인에이블하게 할 수 있게 하며, 더 많은 유경험 프로그래머에게 좀 더 복잡한 특징을 수행할 수 있게 하는 융통성을 제공한다.

본 발명의 또 다른 이점은 응용 프로그램 인터페이스가 기초하고 있는 고객/서버 모델이다. 음성 인식 서버가 대량의 프로세싱 부하를 다루기 때문에, 경량의 부하는 좀 더 느리게 해석하는 JAVA 애플리케이션 상에 배치된다. 게다가, 고객/서버 모델은 고객 애플리케이션을 개별적이며 서버 컴퓨터 보다는 덜 파워풀한 장치 상에서 실행할 수 있게 하여 융통성을 제공한다. 웹 상에서 JAVA 프로그램과 통신할 때, JAVA의 고객측 특성은 대화중의 트래킹 다이알로그 문맥을 크게 단순화시키는 것이다. 또한, JAVA 애플리케이션을 이용한 직접적인 통신은 응답 대기중 일 때 네트워크 지연을 제거한다.

본 발명의 또 다른 이점은 문법 데이타 구조의 내용을 동적으로 수정하는 규정이다. 동적 수정은 음성 엔진에 의해 조우된 문맥이 월드 와이드 웹 사이트를 브라우징하는 것과 같이, 예측할 수 없게 되는 경우에 귀중한 이점이 있다. 이 경우에, 동적 수정은 음성 인식 서버로 하여금 음성 엔진의 언어를 확장하게 하여, 조우된 애플리케이션의 문맥을 적합하게 하기 위한 것이다. 본 발명의 문법 데이타 구조는 종래의 단일 정규 문법 보다 간결하다는 추가적인 이점을 제공한다.

도 1은 본 발명에 따른 JAVA 애플리케이션의 음성 인터페이스를 용이하게 하기 위한 간략화된 예시적 시스템을 도시한 도면.

도 2는 본 발명에 따른 JAVA 애플리케이션에의 음성 인터페이스를 용이하게 하기 위한 예시적 시스템을 도시한 도면.

도 3은 본 발명에 따른 음성 인식 서버와 JAVA 애플리케이션 간의 예시적 인터페이스를 도시한 도면.

도 4는 본 발명에 따른 JAVA 애플리케이션에의 음성 인터페이스를 용이하게 하기 위한 예시적 방법을 도시한 도면.

도면의 주요 부분에 대한 부호의 설명

12 : 음성 호스트 컴퓨터

18 : 음성 인식 서버

20 : 애플리케이션 프로그램 인터페이스

24∼30 : JAVA 코드

50 : 음성 엔진

52 : 문법 데이타 구조

54 : 애플리케이션 데이타 구조

56 : 문법

58 : 결과

60 : 해석기

61 : 해석 결과

62 : 파라메티저

64 : 파라미터

218 : 서버측 API

224 : 애플리케이션측 API

본 발명의 바람직한 실시예들은 도 1 내지 도 4에 도시되었으며, 동일 참조부호들은 다양한 도면의 동일 및 대응 부분을 언급하는데 사용된다.

도 1은 음성 인식 능력을 가지는 JAVA를 인에이블하기 위한 시스템의 개략적인 도면이다. 시스템은 JAVA 애플리케이션(application; 24), 음성 인식 서버(SRS; 18), 서버측 애플리케이션 프로그램 인터페이스(서버측 API; 218) 및 애플리케이션측 응용 프로그램 인터페이스(애플리케이션측 API; 224)를 포함한다. 서버측 API(218)과 애플리케이션측 API(224)는 공동으로 API(20)으로 참조된다. 동작면에서, 애플리케이션(24)는 동적으로 하나 이상의 문법을 API(20)에 특정화한다. 문법은 애플리케이션(24)가 응답하게 될 구문과 어휘를 정의하는 규칙의 세트이다. API(20)은 문법을 수신하여 저장하는 SRS(18)에 문법을 통신한다. 문법을 프로세싱한 후, SRS(18)은 음성 입력을 수신할 수 있으며, JAVA 애플리케이션(24)에 의해 특정화된 문법에 기초하여 음성 인식을 수행하여 그 결과를 생성한다. 다음으로, API(20)은 JAVA 애플리케이션(24)에 그 결과를 통신할 수 있다. JAVA 애플리케이션(24)는 수신된 결과에 기초하여 적절한 동작을 수행할 수 있다.

동작 애플리케이션(24)는 애플리케이션(24)에 의해 지원되는 명령에 응답하여 적절하게 어떠한 행동을 취할 수 있다. 그 동작은 예를 들면, 명령어 scroll up에 응답하여 스크린을 위로 스크롤하고, 명령어 go back에 응답하여 이전 웹 페이지로 복귀하며, 명령어 show the forecast에 응답하여 일기 예보를 표시할 수 있다. 취해진 동작은 결과를 수신하는 특정 애플리케이션의 함수에 따라 좌우된다.

도 2는 음성 호스트 컴퓨터(12)를 포함하는 예시적 시스템(10)을 나타낸다. 음성 호스트 컴퓨터(12)는 SRS(18)과 애플리케이션들(24)∼(30)을 포함할 수 있다. 통상적으로, 애플리케이션(24)로서 언급되는 애플리케이션들(24)∼(30)은 API(20)를 통하여 SRS(18)과 인터페이스한다. JAVA 애플리케이션들(24)∼(28)은 네트워크(34) 상에 존재하는 네크워크 컴퓨터들(36)∼(38)로 부터 생겨날 수 있다. JAVA 애플리케이션(30)은 음성 호스트 컴퓨터(12)의 배선에 의한 성분으로서 또는 메모리 내에 음성 호스트 컴퓨터(12) 상에 국부적으로 존재할 수 있다. API(20)은 애플리케이션 번역기(22)를 통하여 JAVA 애플리케이션들(24)∼(30)과 인터페이스할 수 있다. 시스템(10)은 인터페이스(16)을 통하여 음성 호스트 컴퓨터(12)에 결합되는 인터페이스 장치(14)를 더 포함할 수 있다. JAVA 애플리케이션(32)는 인터페이스 장치(14) 상에 존재할 수 있으며 인터페이스(16)을 통하여 API(218)과 통신한다.

음성 호스트 컴퓨터(12)는 메인프레임, 미니컴퓨터, 워크스테이션, 또는 개인 컴퓨터와 같은 API(20)과 SRS(18)을 지원할 수 있는 어떠한 장치일 수 있다. 일반적으로, SRS(18)은 고객 애플리케이션으로 부터의 접속을 위하여 청취하게 될 애플리케이션 또는 어떠한 장치일 수 있으며, 고객 서버 프로토콜을 이해하여 애플리케이션(24)에 의해 요구되는 동작을 수행한다. 특정 실시예에 있어서, SRS(18)은 스피커 독립형, 연속적인 음성, 임의의 어휘 인식 시스템으로 집약될 수 있다. 스피커 독립형이란 새로운 스피커의 음성 특성에 훈련되지 않고도, 새로운 스피커의 도입하에서 연속적인 기능을 하기 위한 인식기의 능력을 언급한다. 연속적인 음성의 지원이란 구두의 워드 간에 정지를 요구하지 않고도 기능에 대한 인식기의 능력을 언급한다. 임의의 어휘란 선정된 어휘 사이즈 및/또는 내용에 의하여 한정되지 않는다는 것이다. SRS(18)은 JAVA 애플리케이션만을 특정화하지 않는다. 이것은 고객과 서버 간에 통신용 프로토콜을 따르는 어떤 애플리케이션과의 인터페이스일 수 있다.

SRS(18)은 월드 와이드 웹을 사용하여 음성으로 상호 작용하기 위한 특정 특성을 지원하기 위하여, 넷스케이프 또는 마이크로소프트 익스플로러와 같은 브라우저를 결합하여 사용될 수 있다. 월드 와이드 웹과 상호 작용할 경우에 제공되는 몇가지 이점 이외에도, SRS(18)은 다양한 다른 멀티미디어를 추구하기 위하여 음성 인식 서버로서 사용될 수 있다. 이들 중에는 키옥스(kiosks)를 통한 정보 억세스, 음성 파워의 상호 작용 멀티미디어 프리젠테이션, 상호 작용 훈련과 리페어 메뉴얼(repair manual)의 음성 네비게이션(voice navigation), 및 웹을 통한 텔레비젼의 통합이 있다.

응용 프로그램 인터페이스(20)은 루틴(routines)의 집합, 데이타 구조, 가상 및 다른 함수, 가상 및 다른 함수 호출, 데이타 정의, 및 SRS(18)의 하나 이상의 동작을 제어하는 다른 변수들을 포함할 수 있다. API(20)은 통상적으로 API(224)로서 참조되는 애플리케이션측 API들(224)∼(232)과 서버측 API(218)을 포함한다. 서버측 API(218)은 SRS(18)의 동작을 제어하는데 필요한 다량의 코드를 포함할 수 있다. 애플리케이션측 API(224)는 SRS(18)과 애플리케이션(24) 간의 상호작용을 촉진하는 코드의 특정 라인을 포함한다. 서버측 API(218)과 애플리케이션측 API(224)는 공동으로 API(20)을 형성한다. API(20)은 문법 상세 및 지시 유니크(directives unique)를 특정 애플리케이션에 허용하여 SRS(18)의 일부가 되게 한다. 이러한 특성을 이용하여, SRS(18)과 애플리케이션 간의 상호 작용을 촉진하기 위하여 프로그래머는 애플리케이션측 API를 부가함으로써 JAVA 애플리케이션을 음성으로 인에이블할 수 있다. 본 실시예에 있어서, 애플리케이션들(24)∼(32)은 이들을 애플리케이션측 API들(224)∼(232)으로 각기 부호화함으로써 음성으로 인에이블된다.

예로서 기술된 것이기에 이에 국한되지 않으며, 후속되는 예증적인 코드는 음성 인에이블 애플리케이션(24)에 사용될 수 있다.

import javaspeech. //The Java speech API package

. . .

public class MyApplet extends Applet implements Runnable Speakable

{

. . .

SpeechRecognizer SR;

SRGrammar grammar;

. . .

SR = new SpeechRecognizer(this);

if (SR.connect( )) {

SRGrammar grammar = new SRGrammar(blink_grammar);

grammar.addRule(blink_grammar ---＞ start blinking｜stop blinking);

SR.loadGrammarToRecognizer(grammar);

SR.startListening( );

}

. . .

public void onSpeechRecognition(SRResult result)

{

// simulated callback that receives the SRResult object and is

// responsible for its processing

}

. . .

SR.stopListening( );

SR.disconnect( );

. . .

}

목적에 근거한 프로그래밍에 있어서, 분류는 속성, 서비스, 데이타 구조, 루틴, 또는 목적을 특징지우는 다른 정보 또는 분류의 일예를 정의한다. 전술된 예증적인 코드에 있어서, 사용된 분류는 SpeechRecognizer, SRResult, 및 SRGrammar이다. SpeechReconizer 분류는 SRS(18)과 애플리케이션(24) 간의 접속을 설치하고, SRS(18)과의 통신 및 SRS(18)과의 단절과 같은 기본적인 음성 인식 동작을 제어한다. SRGrammar 분류는 문법(56)을 특정화하는데 사용된다. SRGrammar라고 할지라도, 애플리케이션(24)는 문법, 불활성화 및 반응 문법을 부가하여 대체할 수 있으며, 애플리케이션(24)을 실행하는 동안 동적으로 빠뀐 문법을 재로드한다. SRResult 분류는 문법(56), 이 문법(56)으로 부터 인식된 결과(58), 칸피던스 스코아 및 n-베스트 결과 및 칸피던스 스코어의 리스트와 같은 정보를 포함할 수 있다.

비동기 인식에 필요한 가상의 콜백(simulated callback)을 다루기 위하여, 애플리케이션(24)는 또한 인식 결과(58)가 수신되었을 때 자동적으로 호출되는 함수 온-음성인식을 포함할 수 있다.

전술된 예증적인 코드는 극도로 간단한 템플릿을 이용하여 애플리케이션(24)를 음성으로 인에이블하는 방법을 나타낸다. 예증적인 코드의 간단 명료성은 무경험자들에게 최소의 노력으로 애플리케이션을 음성으로 인에이블할 수 있는 음성 인식 API들을 제공한다. API(20)은 보다 경험이 많은 프로그래머들이 원할 수 있는 진보된 음성 인식 능력을 지원할 수 있는 추가적인 이점을 제공한다.

애플리케이션(24)는 JAVA 프로그래밍 언어에 적합한 어떠한 애플리케이션일 수 있다. 예로서 기술된 것이기에 이에 국한되지 않으며, 애플리케이션(24)는 컴퓨터 뱅킹 프로그램, 컴퓨터 게임 프로그램, 또는 월드 와이드 웹 페이지일 수 있다. JAVA는 플랫폼 독립 프로그래밍 언이이다. 이와 같이, 본 발명은 음성 호스트 컴퓨터(12)의 플랫폼에 관계없이 음성 인식 능력을 가진 고객 애플리케이션을 인에이블할 수 있는 이점을 제공한다.

API(20)은 수많은 방식으로 애플리케이션들(24)∼(32)과 인터페이스할 수 있다. 특정 실시예에 있어서, 애플리케이션(30)은 음성 호스트 컴퓨터(12)에 국부적(local)일 수 있다. 예를 들면, 애플리케이션(30)은 음성 호스트 컴퓨터(12)의 하드 드라이브 상에 존재, 플로피 디스크 또는 CD 롬과 같은 외부 드라이브 상에 존재하거나, 음성 호스트 컴퓨터(12)로의 배선에 존재할 수 있다. 일반적으로, 애플리케이션(30)은 애플리케이션(30)을 저장하기에 적합한 어떤 매체 상의 음성 호스트 컴퓨터(12)에 국부적으로 존재할 수 있으며 시스템(10) 내에서 그 동작을 촉진시킨다.

다른 실시예에 있어서, 애플리케이션(32)는 셀룰라 폰, 개인 디지탈 보조물 또는 셋탑 박스(set-top box)와 같은 인터페이스 장치(14) 상에 존재할 수 있다. 애플리케이션(32)는 인터페이스(16)을 통하여 API(20)과 통신할 수 있다. 인터페이스(16)은 인터페이스 장치(14)와 음성 호스트 컴퓨터(12) 간의 통신을 촉진하는데 적합한 유선 또는 무선 장치를 포함할 수 있다. 이러한 실시예에 있어서, 프로세싱 부하의 벌크(bulk)가 음성 호스트 컴퓨터(12) 상에 위치되기 때문에, 고객 애플리케이션(32)는 전력 및 메모리용 큰 용량을 가질 필요가 없다. 이것은 필요한 메모리 및 전력 요구 사항을 부족하게 할 수 있는 작고, 저전력인 인터페시스 장치 상에서 실행되는 애플리케이션에 음성 인식 능력을 제공할 수 있는 이점을 가진다.

또 다른 실시예에 있어서, 애플리케이션들(24)∼(28)은 네트워크(34) 상의 어딘가에 존재할 수 있다. 네트워크(34)는 음성 호스트 컴퓨터(12)와 네트워크 컴퓨터들(36)∼(40) 간의 통신을 촉진하기 위하여 어떤 적합한 유선 또는 무선 링크(link)를 포함할 수 있다. 예를 들면, 네트워크(34)는 공중 교환 전화망(public switched telephone network), ISDN(Integrated Services Digital Network), LAN(Local Area Network), MAN(Metropolitan Area Network), WAN(World Area Network), 월드 와이드 웹과 같은 글로벌 네트워크, 또는 다른 전용(dedicated) 또는 교환(switched) 네트워크 또는 다른 통신 기계 장치를 포함할 수 있다. 음성 호스트 컴퓨터(12)는 애플리케이션 번역기(22)를 통하여 애플리케이션들(24)∼(30)과 인터페이스로 접속시킬 수 있다. 애플리케이션 번역기(22)는 네트워크(34)를 억세스하기에 적합한 어떤 장치일 수 있으며, 브라우저 또는 애플렛 뷰어(applet viewer)와 같은 애플리케이션(24)를 배치하여 검색할 수 있다.

도 3은 본 발명의 가르침에 따른 음성 인식 서버(18)과 JAVA 애플리케이션들(24)∼(32) 간의 예시적 인터페이스이다. 음성 호스트 컴퓨터(12)는 통상적으로 애플리케이션(24)로서 참조되는 SRS(18), API(20) 및 하나 이상의 JAVA 애플리케이션들(24)∼(32)을 지원한다. SRS(18)은 문법 데이타 구조(52)와 애플리케이션 데이타 구조(54)를 억세스하는 음성 엔진(50)을 포함할 수 있다. 일반적으로, 음성 엔진(50)은 음성 입력 상에서 음성 인식을 수행하는데 적합한 알고리즘(algorithm)일 수 있다. 특정 실시예에 있어서, 음성 엔진(50)은 본 분야에서 알려진 바와 같이 적어도 3개의 층들을 포함할 수 있는데: 그것은 음파 모델을 나타내는 히든 마코브 모델 층(Hidden Markov Model layer), 선택 워드 발음 층, 및 예상되는 워드들의 시퀀스를 열거하는 문장 구조층이다.

일반적으로, 문법 데이타 구조(52)는 문법(56)의 검색을 수신, 저장 및 촉진하도록 동작 가능한 불특정 데이타 저장 장치 및 애플리케이션 내에 저장될 수 있다. 특정 실시예에 있어서, 문법 데이타 구조(52)는 본 분야에서 알려진 바와 같이 RGDAG(directed acyclic graph) 내의 정규 문법일 수 있다. RGDAG에 있어서, 제1 문법 내의 마지막 심볼과 제2 문법 내의 시작 심볼이 일치할 경우 하나의 문법은 다른 문법에 연결된다. 문법 데이타 구조(52)에서와 같이 RGDAG를 수행한다는 것은 음성 엔진(50)으로 하여금 RGDAG 내의 시작 심볼의 섭셋(subset)으로 서치 처리를 시작하게 한다. 이것은 조우되는 애플리케이션의 문맥에 따라 음성 엔진 언어의 동적인 변형을 촉진시킨다.

RGDAG의 동적인 변형은 월드 와이드 웹 사이트를 부라우징하는 것과 같이, 음성 엔진(50)에 의해 조우된 문맥을 예측할 수 없는 상황에서 음성 인식 서버(18)의 이점이 있다. 그러한 경우에, 문법의 동적인 변형은 음성 인식 서버(18)로 하여금 조우된 애플리케이션의 문맥이 적합하게 되도록 음성 엔진(50)의 언어를 확장하게 한다. RGDAG 구조는 종래의 단일 정규 문법 보다 효율적인 문법 저장을 촉진시킴으로써 간결함의 이점을 추가로 제공한다.

애플리케이션 데이타 구조(54)는 애플리케이션(24)의 상태를 추적한다. 애플리케이션 데이타 구조(54)는 애플리케이션(24)를 활성 또는 비활성으로서, 청취 또는 비청취로서, 또는 구동 또는 비구동으로서 지정할 수 있다. 부가적으로, 애플리케이션 데이타 구조(54)는 각 문법을 인에이블 또는 디스에이블로서 마킹함으로써 각 애플리케이션에 관련된 문법의 상태를 추적할 수 있다. 이러한 방식으로, 음성 인식 서버(18)은 다수 고객 애플리케이션의 동시 동작을 추적하여 지원할 수 있다. 애플리케이션 데이타 구조는 또한 음성 포커스를 수신하기 위하여 애플리케이션(24)를 인에이블시킬 수 있다. 음성 포커스는 그들 자신의 문법으로 부터의 결과를 각기 청취하는 수많은 애플리케이션들 간의 논쟁을 해결하는데 필요할 수 있다. 애플리케이션(24)에 음성 포커스를 부여함으로써, 애플리케이션(24)는 음성 엔진(50)으로 하여금 다른 청취 애플리케이션들에 결과(58)을 송신하지 못하게 할 수 있다. 이러한 방식으로, 의도된 애플리케이션, 애플리케이션(24)는 결과(58)을 수신한다.

SRS(18)은 또한 API(20)의 서버측 부분, 서버측 API(218)를 포함할 수 있다. 해석기(parser, 60)은 음성 엔진(50)으로 부터 결과(58)을 수신하여, 이 결과를 해석하고 이 해석 결과(61)을 애플리케이션(24)에 통신할 수 있다. 동작에 있어서, 해석기(60)은 고객으로 하여금 문법(56) 내의 어떤 비끝단을 특정화하게 할 수 있다. 다음으로, 해석기(60)은 특정화된 비끝단에 대응되는 결과(58)의 일부 만을 애플리케이션(24)에 귀환시킨다. 예를 들면, 문법(56)은 관사 형용사 명사 부사 동사 전치사 구와 같은 형태일 수 있으며, 해석기(60)은 명사 및 동사를 해석된 결과(61)로서 추출하여 애플리케이션(24)에 해석된 결과(61) 만을 통과시킬 수 있다. 이것은 애플리케이션(24)로 하여금 불필요한 정보를 무시할 수 있게 한다. 해석기(60)의 이점은 복잡한 문법에 대해서는 성가신 처리일 수 있는 결과(58)를 해석하기 위한 애플리케이션에 필요한 것을 제거하는 것이다.

또한, 서버측 API(218)은 파라메티저(62)를 포함할 수 있다. 파마메티저(62)는 애플리케이션(24)로 부터 파라미터(64)를 수신하여 음성 엔진(50)에 파마리터(64)를 통신할 수 있다. 음성 엔진(50)은 파라미터(64)를 수신하여 그에 따라 동작을 수정한다. 파라미터(64)는 음성 발성이 종료되는 것을 판정하기에 충분한 침묵 동안 특정화하는 종료점(endpoint) 파라미터와 같은 음성 엔진(50)의 함수 내에서의 어떤 변수일 수 있다.

도 4를 참조하면, 음성 인에이블 애플리케이션(24)에 대한 예제적인 방법이 나타난다. 이 방법은 애플리케이션(24)와 SRS(18) 간에 접속이 설치되는 단계(100)에서 시작한다. 일단 접속이 되면, 단계(102)에서 SRS(18)은 애플리케이션 데이타 구조(54)에서의 활성 애플리케이션의 리스트에 애플리케이션(24)를 부가하여, 애플리케이션(24)로 부터의 명령들을 주기적으로 체크한다. 다음으로, 애플리케이션(24)는 단계(104)에서 API(20)에 문법(56)을 동적으로 특정화할 수 있다. 문법(56)은 애플리케이션(24)로 하여금 문법을 API(20)에 억세스하여 특정화할 수 있는 어떤 위치 또는 상태 내에 존재할 수 있다. 예를 들면, 문법(56)은 애플리케이션(24)의 JAVA 코드 내의, 애플리케이션(24)에 의해 특정화된 파일내의, 또는 애플리케이션(24)에 의해 특정화된 URL(Uniform Resource Locator)에서 텍스트 스트링(text string) 내에 존재할 수 있다.

부가적으로 단계(104)에서, 애플리케이션(24)는 파라미터(64)를 특정화할 수 있다. 전술한 바와 같이, 파라미터(64)는 음성 엔진(50)의 변수에 대응될 수 있다. 다음으로, 단계(105)에서 API(20)은 문법(56) 및 파라미터(64)를 SRS(18)에 통신한다. 또한, 단계(104)에서, 애플리케이션(24)는 이미 SRS(18)과 통신된 문법이 인에이블됨 또는 디스에이블됨이라고 특정화할 수 있다.

단계(106)에서 SRS(18)이 문법(56)을 수신할 때, 문법 데이타 구조(52) 내의 애플리케이션(24)와 연관된 문법의 리스트에 문법(56)을 부가한다. 또한, 단계(106)에서, SRS(18)은 애플리케이션(24)에 의해 특정화되는 것 처럼 문법 데이타 구조(52)를 인에이블 또는 디스에이블할 수 있다. 또한, SRS(18)은 파라미터(64) 값에 따라 음성 엔진(50)의 파라미터들을 조정할 수 있다.

애플리케이션(24)는 단계(107)에서 이미 청취가 아니라면, 단계(108)에서 API(20)을 통한 청취 신호를 SRS(18)에 통신한다. 단계(109)에서 청취 신호를 수신하자마자, SRS(18)은 애플리케이션 데이타 구조(54) 내의 청취 애플리케이션의 리스트에 애플리케이션(24)를 부가한다. 애플리케이션이 청취로서 마킹되면, 단계(110)에서 SRS(18)은 애플리케이션(24)에 음성 포커스를 부여할 수 있다. 전술된 바와 같이, 음성 포커스는 음성 엔진(50)으로 하여금 다른 청취 애플리케이션에 결과(58)을 송신하지 못하게 한다.

단계(111)에서, 음성 엔진(50)은 음성 입력(66)을 수신할 수 있으며, 단계(112)에서, 음성 인식을 수행하여 음성 입력(66)에 기초하여 결과(58)을 생성한다. 해석기(60)은 단계(113)에서 결과(58)을 수신하여 결과(58)을 해석할 수 있다. 다음으로, 해석기(60)은 단계(114)에서 애플리케이션(24)에 해석 결과(61)을 통신할 수 있다. 결과(58) 또는 해석 결과(61)을 단계(116)에서 수신한다면, 애플리케이션(24)는 수신된 결과에 기초하여 동작을 취한다.

애플리케이션(24)는 단계(118)에서의 추가의 문법 및/또는 파라미터, 및/또는 문법 데이타 구조(52) 내의 인에이블 또는 디스에이블 문법들을 특정화할 수 있다. 대용적으로, 애플리케이션(24)는 단계(120)에서 API(20)에 청취 정지 신호를 통신함으로써 SRS(18)과의 통신을 일시적으로 인터럽트할 수 있다. 단계(121)에서 청취 정지 신호를 수신하면, SRS(18)은 애플리케이션 데이타 구조(54) 내의 청취 애플리케이션(24)의 리스트로 부터 애플리케이션(24)를 제거한다. 단계(122)에서, 애플리케이션(24)는 API(20)에 청취 신호를 통신함으로써 추가적인 문법을 송신 및/또는 SRS(18)과의 재통신할 수 있다. 대용적으로, 애플리케이션(24)는 단계(124)에서 API(20)에 단선 신호를 통신함으로써 SRS(18)과의 통신을 종료할 수 있다. 단계(126)에서 단선 신호를 수신하면, SRS(18)은 애플리케이션 데이타 구조로 부터 애플리케이션(24)를 제거한다.

JAVA에 음성 인식 능력을 부가하기 위한 시스템을 제공함으로써 이전에 개발된 시스템에 관련된 단점과 문제점을 제거하거나 실질적으로 감소시킬 수 있는 이점이 있다.

본 발명과 그 장점들이 상세히 기술되었다고 할지라도, 첨부된 청구범위에 의해 한정된 것과 같이 본 발명의 기술적 사상 및 범위를 벗어남이 없이 다양한 변경, 대체 및 교체가 이루어질 수 있음을 알 수 있을 것이다.

Claims

JAVA에 대한 음성 인터페이스를 용이하게 하기 위한 시스템에 있어서:

문법 및 음성 입력을 수신하도록 동작 가능하며, 상기 음성 입력에 응답하여 음성 인식을 수행하고 상기 문법에 기초한 결과를 생성하도록 동작 가능한 음성 인식 서버와;

상기 문법을 동적으로 특정화하고, 상기 결과를 수신하여 상기 결과에 기초한 동작을 수행하도록 동작 가능한 적어도 하나의 JAVA 애플리케이션(application)과;

상기 문법을 수신하고, 상기 음성 인식 서버에 상기 문법을 통신하며, 상기 음성 인식에 응답하여, 상기 음성 인식 서버로 부터 상기 결과를 수신하고 상기 JAVA 애플리케이션에 상기 결과를 통신하도록 동작 가능한 애플리케이션 프로그램 인터페이스

를 포함하는 것을 특징으로 하는 시스템.
제1항에 있어서, 상기 음성 인식 서버는

음성 인식을 수행하도록 동작 가능한 음성 엔진과;

상기 문법을 수신하여 저장하도록 동작 가능한 문법 데이타 구조

를 포함하는 것을 특징으로 하는 시스템.
제1항에 있어서, 상기 음성 인식 서버는

음성 인식을 수행하여 상기 결과를 생성하도록 동작 가능한 음성 엔진과;

상기 문법을 수신하여 저장하도록 동작 가능한 문법 데이타 구조와;

상기 JAVA 애플리케이션의 상태를 추적하고, 상기 JAVA 애플리케이션에 관련된 문법의 상태를 추적하도록 동작 가능한 애플리케이션 데이타 구조

를 포함하는 것을 특징으로 하는 시스템.
제3항에 있어서, 상기 애플리케이션 데이타 구조는 의도된 JAVA 애플리케이션으로의 상기 결과의 통신을 억제시키도록 동작 가능한 음성 포커스를 포함하는 것을 특징으로 하는 시스템.
제1항에 있어서, 상기 음성 인식 서버는

음성 인식을 수행하고 상기 결과를 생성하도록 동작 가능한 음성 엔진과;

상기 JAVA 애플리케이션의 상태를 추적하고, 상기 JAVA 애플리케이션에 관련된 문법의 상태를 추적하도록 동작 가능한 애플리케이션 데이타 구조와;

상기 문법을 수신하고 상기 문법 수신에 응답하여 다이렉트형 비순환 그래프(directed acyclic graph) 내의 정규 문법 세트의 내용을 동적으로 수정하도록 동작 가능한 다이렉트형 비순환 그래프 내의 정규 문법 세트

를 포함하는 것을 특징으로 하는 시스템.
제5항에 있어서, 상기 애플리케이션 데이타 구조는 의도된 JAVA 애플리케이션으로의 상기 결과의 통신을 억제시키도록 동작 가능한 음성 포커스를 포함하는 것을 특징으로 하는 시스템.
제1항에 있어서, 상기 애플리케이션 프로그램 인터페이스는 서버측 애플리케이션 프로그램 인터페이스와 애플리케이션측 애플리케이션 프로그램 인터페이스를 포함하는 것을 특징으로 하는 시스템.
제1항에 있어서, 상기 애플리케이션 프로그램 인터페이스는

서버측 애플리케이션 인터페이스와 애플리케이션측 애플리케이션 프로그램 인터페이스를 포함하며;

상기 서버측 애플리케이션 프로그램 인터페이스는 상기 음성 인식 서버로 부터의 상기 결과를 수신하여, 상기 결과를 해석하고 그 해석 결과를 생성하도록 동작 가능한 해석기(parser)를 포함하며, 또한 상기 JAVA 애플리케이션에 상기 해석 결과를 통신하도록 동작 가능한 것을 특징으로 하는 시스템.
제1항에 있어서, 상기 애플리케이션 프로그램 인터페이스는

서버측 애플리케이션 프로그램 인터페이스와 애플리케이션측 애플리케이션 프로그램 인터페이스를 포함하며;

상기 서버측 애플리케이션 프로그램 인터페이스는 상기 JAVA 애플리케이션으로 부터의 파라미터값을 수신하여 상기 수신된 파라미터값에 따라 상기 음성 인식 서버의 파라미터를 수정하도록 동작 가능한 파라메티저(parametizer)를 포함하는 것을 특징으로 하는 시스템.
제1항에 있어서, 상기 음성 인식 서버는 임의의 사이즈를 가지는 어휘를 포함하되, 스피커 독립형이며, 연속적인 음성을 지원하는 것을 특징으로 하는 시스템.
JAVA에 대한 음성 인터페이스를 용이하게 하는 방법에 있어서:

음성 인식 서버와 JAVA 애플리케이션 간에 통신을 설정하는 단계와;

상기 음성 인식 서버에 문법을 통신하는 단계와;

음성 입력에 응답하여 음성 인식을 수행하고 상기 문법에 기초한 결과를 생성하는 단계와;

상기 JAVA 애플리케이션에 상기 결과를 통신하는 단계

를 포함하는 것을 특징으로 하는 방법.
제11항에 있어서, 상기 음성 인식 서버와 상기 JAVA 애플리케이션 간에 통신을 설정하는 상기 단계는 애플리케이션 데이타 구조에 상기 JAVA 애플리케이션을 부가하는 단계를 포함하는 것을 특징으로 하는 방법.
제11항에 있어서, 상기 음성 인식 서버에 문법을 통신하는 상기 단계는

상기 애플리케이션 프로그램 인터페이스에 상기 문법을 특정화시키는 단계와;

문법 데이타 구조에 상기 문법을 부가하는 단계와;

상기 문법의 부가에 응답하여 상기 문법 데이타 구조를 동적으로 수정하는 단계

를 포함하는 것을 특징으로 하는 방법.
제11항에 있어서, 상기 부가된 문법을 상기 음성 인식 서버에 통신하는 단계를 더 포함하는 것을 특징으로 하는 방법..
제11항에 있어서, 상기 결과가 상기 JAVA 애플리케이션에 통신되기 전에 상기 결과를 해석하는 단계를 더 포함하는 것을 특징으로 하는 방법.
제11항에 있어서,

파라미터값을 수신하는 단계와;

상기 파라미터값에 기초하여 상기 음성 인식 서버의 파라미터를 수정하는 단계

를 더 포함하는 것을 특징으로 하는 방법.
제11항에 있어서, 의도된 JAVA 애플리케이션에 음성 포커스를 부여하는 단계를 더 포함하는 것을 특징으로 하는 방법.
JAVA 애플리케이션에 대한 음성 인터페이스를 용이하게 하는 방법에 있어서:

음성 인식 서버와 JAVA 애플리케이션 간에 통신을 설정하는 단계와;

애플리케이션 프로그램 인터페이스에 문법을 특정화하는 단계와;

상기 음성 인식 서버에 상기 문법을 통신하는 단계와;

상기 문법 수신에 응답하여 다이렉트형 비순환 그래프 내의 정규 문법 세트를 동적으로 수정하는 단계와;

음성 입력에 응답하여 음성 인식을 수행하고 상기 문법에 기초한 결과를 생성하는 단계와;

상기 JAVA 애플리케이션에 상기 결과를 통신하는 단계

를 포함하는 것을 특징으로 하는 방법.
제18항에 있어서,

상기 음성 인식 서버에 파라미터값을 특정화하고, 상기 수신된 파라미터값에 기초하여 상기 음성 인식 서버의 파라미터를 수정하는 단계와;

상기 음성 인식 서버에 의해 생성된 상기 결과를 해석하여, 해석된 결과를 생성하고 상기 JAVA 애플리케이션에 상기 해석된 결과를 통신하는 단계와;

상기 JAVA 애플리케이션에 음성 포커스를 부여하는 단계

를 더 포함하는 것을 특징으로 하는 방법.
제18항에 있어서,

복수개의 JAVA 애플리케이션의 상태를 추적하는 단계와;

상기 JAVA 애플리케이션에 관련된 문법의 상태를 추적하는 단계

를 더 포함하는 것을 특징으로 하는 방법.