KR20040063373A

KR20040063373A - VoiceXML을 이용한 웹페이지 제작방법과 음성웹브라우저

Info

Publication number: KR20040063373A
Application number: KR1020030000763A
Authority: KR
Inventors: 예상후; 장민석
Original assignee: 예상후; 장민석
Priority date: 2003-01-07
Filing date: 2003-01-07
Publication date: 2004-07-14

Abstract

본 발명은 음성인식·합성 기술 및 VoiceXML을 이용하여 기존의 HTML 문서뿐만 아니라 VoiceXML 문서를 동시에 처리하게 하는 방법과 이를 처리하는 음성웹브라우저 장치에 관한 것으로, 서버측에서는 HTML을 그대로 수용하면서 VoiceXML을 처리할 수 있도록 하는 웹서버페이지 작성방법을 제공하며, 클라이언트측에서는 서버측의 정보(HTML 정보+ VoiceXML 정보, 음성정보+그래픽정보)를 동시에 브라우징하는 GVUI(Graphic & Voice User Interface) 방식의 웹브라우저 장치를 제공한다.

본 발명에 따른 방법과 장치로 웹 클라이언트/서버 환경을 구축하게 되면 인터넷에 접근할 수 있는 모든 유·무선 정보단말기(PC, handheld PC, PDA, 유·무선 전화기 등)를 통해서 기존의 GUI 방식에 더해 음성 인터페이스를 이용하여 웹서버의 정보를 얻을 수 있게 됨으로써 ARS와 같은 기존의 VUI 방식보다 더 많은 정보를 제공받을 수 있으며 서버에서 대화 시나리오 구성을 보다 단순하게 할 수 있다는 장점을 가지게 된다.

Description

VoiceXML을 이용한 웹페이지 제작방법과 음성웹브라우저{Method of Implementing Web Page Using VoiceXML and Its Voice Web Browser}

웹 상의 광범위한 멀티미디어 정보들은 이제 PC는 물론이고 일반적인 유·무선 정보단말기를 통해 접근할 수 있다. 하지만 이러한 정보들을 기존의 키보드, 마우스 이외의 방법으로 접근할 수 있는 환경은 아직 보편화되어 있지 않다. 우리가 궁극적으로 원하는 정보환경은 멀티모덜 인터페이스(multimodal interface)(Voice, DTMF, 키보드, 마우스, 펜, 시각 인터페이스 등)를 가진 유·무선 정보단말기를 통해서 무궁한 웹 정보를 획득할 수 있는 환경이다. 이 중심에 VoiceXML이 있다. 이는 VoiceXML Forum에서 AT&T, IBM, Lucent Technology, Motorola 등 정보통신 분야의 4개 거대 기업체를 중심으로 표준화가 진행 중이며, 인터넷 컨텐츠와 정보를 음성과 전화기를 통해 접근할 수 있도록 설계된 새로운 컴퓨터 언어이다. 이는 음성인식·합성 기술과 결합됨으로써 기존의 GUI 방식의 인터페이스를 VUI 방식으로 대체하거나 병행하게 함으로써 우리가 원하는 궁극적인 정보통신 환경으로 다가가게 할 수 있다.

기존의 음성인식·합성 기술을 적용한 음성정보 시스템들에는 ARS, CTI 등이 대표적인 사례로 꼽을 수 있으나 대부분이 VoiceXML을 적용한 웹 방식이 아닌 기계·전자식 방식이다. 따라서 이들은 제공되는 정보가 고정되어 있거나 제한되어 있으며, 관련도구를 쉽게 구하기 힘들며, 전문가들이 직접 시스템을 구축하고 유지·보수해야 하기 때문에 비용이 많이 들고 시스템을 쉽게 확장하기 힘들었다. 이러한 문제점들을 극복하기 위해 제안된 웹 방식은 VoiceXML을 적용하지 않은 기존의 방식과 이를 적용한 방식으로 나눌 수 있다. 하지만 전자의 경우는 단순히 HTML의 텍스트정보를 단순히 음성으로 출력하거나 메뉴나 링크를 음성으로 작동하게 하는 일방적인 인터페이스를 제공하고 있다. 이에 반해 VoiceXML은 이 단점을 극복하는 유연하고 효율적인 인터페이스를 제공하며, 개발자들이 음성 대화 시나리오(Speech Dialog Scenario)에 집중할 수 있도록 도와 준다. 이를 이용한 기존의 제품들에는 세계적으로 IBM사의 WebSphere 서버의 Voice Toolkit, MS 사의 VoiceXML의 성격을 반영하는 XML을 이용한 Speech API가 대표적이며, 음성인식 관련업체인 뉘앙스(Nuance)의 음성인식 엔진과 Voice Web Server, 스피치웍스(SpeechWorks)의 OpenSpeech Server 등이 있다. 하지만 이들은 주로 VoiceXML 관련 엔진 및 개발도구 들이여 대부분의 처리를 주로 서버측에서 담당하고 있으며, 클라이언트에서는 음성 인터페이스만을 제공하거나 음성정보를 시뮬레이션하는 정도에 불과하고 있다. 이러한 제품들은 클라이언트에서 웹서버의 정보를 얻기 위해 음성 인터페이스(VUI)만을 제공하고 있기 때문에, 비록 음성 정보를 제공하고는 있지만 기존의 웹브라우저에 비하면 매우 불편한 인터페이스를 제공할 뿐 더러 제한된 정보를 제공하고 있다. 따라서 결국 클라이언트의 정보검색 장치는 VUI 방식과 GUI 방식을 동시에 수용해야만 기존의 HTML을 정보를 원활하게 사용자에게 제공할 수 있다. 즉 현재 VoiceXML을 적용한 VUI 방식은 GUI 방식에서 VGUI 방식으로 정착하는 과도기적인 인터페이스 방식에 해당된다. 한편 서버측에서는 VoiceXML 문서의 처리에 중점을 두고 있기 때문에 기존의 HTML 정보를 제공하고 있지 않다. 이로 인해 대화형 서비스를 제공하기 위해 작성하는 VoiceXML 문서의 대화 시나리오가 매우 복잡해질 수 밖에 없는 단점을 가지고 있다.

위의 여러 가지 문제점들을 극복하기 위해 본 발명에서는 서버측과 클라이언트측의 양쪽에서 방법과 장치를 제안한다. 서버측에서는 기존의 HTML 문서를 수용하는 VoiceXML 문서를 작성하는 방법을 제시하며, 클라이언트측에서는 서버측에서 제공하는 문서를 처리할 수 있는 GVUI 인터페이스를 가지는 음성웹브라우저 장치를 고안한다.

도 1은 클라이언트에서 HTML 정보와 음성 정보를 동시에 얻을 수 있도록 하기 위한 웹서버의 문서 구성 방법

도 2는 클라이언트의 음성웹브라우저와 서버와의 전체적인 구성도

도 3은 서버에서 제공하는 문서를 브라우징하는 클라이언트의 음성웹브라우저에서 VoiceXML 문서로 제공되는 음성정보를 처리하는 VoiceXML 처리기의 내부 구성도

도 4는 VoiceXML 문서를 처리하는 VoiceXML 처리기의 동작 흐름도

도 5는 HTML정보와 음성 정보를 동시에 처리하는 클라이언트의 음성웹브라우저 장치의 화면 구성도

<도면의 주요 부분에 대한 부호의 설명>

50: URL 입력창

51: HTML 문서 표시 화면

52: VoiceXML 문서 표시 화면

53: 텍스트 출력창

54: 텍스트 입력창

본 발명에 대해 설명하기 위해 크게 서버측과 클라이언트측으로 나누어 기술한다.

우선 서버측에서는 도 1에 나타난 것처럼 기존의 HTML 문서를 수용하기 위해서 서버에서 제공하는 문서의 구조를, 전체적으로 HTML 문서의 구조를 갖추면서 그 내부에 VoiceXML 문서를 포함하는 형식을 취하도록 그 방법을 제안한다. 이 방법은 HTML 내에 삽입된 데이터를 HTML의 각종 스크립트로 제어하여 HTML이 좀 더 풍부한 응용을 할 수 있도록 도와준다. 클라이언트의 브라우저는 웹 서버로부터 (스크립트와 DB에 의해 구성된) HTML 문서를 전달받아 HTML 내부에 존재하는 VoiceXML 문서를 추출하여 이를 음성인식·합성기를 통해 처리한다. 나머지 HTML 부분은 기존의 방법과 동일하게 브라우징되도록 함으로써 기존 방식을 그대로 수용하도록 한다. 이러한 방법은 VoiceXML 문서에서 얻을 수 있는 음성 정보뿐만 아니라 기존의 웹 정보를 그대로 얻을 수 있는 장점을 준다.

클라이언트측에서 보면, 그 제안하는 브라우저의 내부 구조는 도 2와 같다. HTML 부분을 처리하는 GUI 모듈과 VoiceXML 부분을 처리하는 VoiceXML 처리기로 나뉘어 있다. 이렇게 함으로써 현재의 환경에 최대한 수정 없이 사용되어질 수 있어 사용자의 접근을 용이하게 하며 또한 개발자들에게도 간단한 VoiceXML을 익힘으로써 다양한 방법으로 웹페이지를 개발할 수 있는 토대를 마련할 수 있다. 도 3의 VoiceXML 처리기 내에서 XML 파서는 해당 문서의 유효성 검사를 수행한 이후 VoiceXML 해석기가 DOM(Document Object Model)을 이용하여 문서의 순차적인 기능을 수행한다. 이때 변수 관리기는 VoiceXML에서 사용되는 변수들과 ECMAScript에 의해 처리되는 추가적인 명령들의 정보를 관리하여 VoiceXML 해석기와 상호보완적으로 작업을 수행한다. VoiceXML 처리기의 전체적인 작동과정은 도 4와 같다. 우선 파싱할 VoiceXML 문서의 유효성 검증을 수행한 후 로드된 문서의 변수 정보를 초기화 및 저장한다. 그 이후 그 문서가 사용자와의 대화가 필요한 지의 여부에 따라서 "폼 해석 알고리즘"을 수행하거나 또 다른 문서로의 전이를 수행한다. 도 5는 실제 구현된 음성웹브라우저의 동작 화면을 보여 주고 있다. 우선 URL 입력창(50)에 원하는 주소를 입력함으로써 기존의 웹브라우저와 동일한 방식으로 검색을 시작하도록 하고 있다. 이는 사용자에게 친숙한 정보환경을 제공해 주고 있다. 이 외에 HTML 문서를 나타내는 부분(51), VoiceXML 문서를 나타내는 부분(52), 사용자와의 음성 인터페이스를 시각적으로 보여주는 텍스트 출력창(53), 음성 입력과 같이 사용할 수 있는 텍스트 입력창(54)으로 구성되어 있다. 여기서 텍스트 입력창(54)과 출력창(53)은 음성입력 및 출력의 보조수단으로 작동한다.

VoiceXML을 적용한 기존 응용제품들의 문제점들을 해결하기 위해 본 발명은 서버에서는 기존의 HTML 문서를 수용하기 위한 방법을 제시하며, 클라이언트에서는 HTML 문서를 수용하는 VoiceXML 문서를 처리하는 범용적인 GVUI를 제공하는 음성웹브라우저 장치를 제공하고 있다.

이 방식의 효과는 다음과 같다. 첫째 VoiceXML을 적용하는 주 대상인 ARS 시스템에서 제공한 VUI의 한계점을 극복할 수 있는 GUI를 제공함으로써 사용자에게 보다 편리하고 친숙한 인터페이스를 제공한다. 둘째 이 방식은 처리기가 클라이언트에 존재하기 때문에 서버의 부담을 줄일 수 있다. 셋째 처리기가 서버에 있는 시스템의 경우 데이터 전송 포맷이 음성인데 비해 이는 텍스트 문서(VoiceXML 문서)이기 때문에 네트워크의 트래픽 양을 줄일 수 있다. . 다섯째 경유하는 네트워크가 인터넷이기 때문에 기존의 인터넷망 및 프로토콜을 그대로 사용할 수 있다. 여섯째 HTML을 지원하기 때문에 얻을 수 있는 정보량이 무한정하다. 일곱째 GUI를 VUI와 함께 제공하기 때문에 대화 시나리오의 구성을 단순하게 할 수 있다. 이는 개발자의 부담을 덜어준다. 만약 음성 인터페이스(VUI)로만 정보를 제공한다면 대화형 정보를 제공하기 위해 복잡한 문서의 구조를 가져야 한다.

결국 본 발명은 웹 접근이 가능한 모든 유·무선 정보단말기에 임베디드(embedded) 시스템으로 구축될 수 있는 토대를 마련함으로써 우리가 궁극적으로 원하는 정보획득 환경을 구축하는 데 일조함으로써 사용자들에게 쉽게 정보를 획득할 수 있는 환경을 제공할 것이다. 아울러 일반인뿐만 아니라 장애인에게도 정보를 획득할 수 있는 기회를 넓혀 줌으로써 정보화 사회 구현에 일조할 수 있을 것이다.

Claims

도 1에 제시한 바와 같이 음성웹브라우저에서 VoiceXML 문서뿐만 아니라 HTML 문서의 정보를 브라우징할 수 있도록, 서버의 HTML 문서 내부에 VoiceXML 문서를 포함시키는 방법에 있어서,

HTML 문서내에 VoiceXML 문서를 고유 ID를 주어서 삽입하는 방식.
도 2~4에서 설명한 바와 같이 VoiceXML 문서가 포함된 HTML 문서를 브라우징하는 음성 웹브라우저에서,

기존의 HTML 문서는 GUI 모듈에서 처리하고, HTML 문서에서 추출된 VoiceXML 문서는 VoiceXML 처리기가 음성인식·합성모듈과 상호작용을 통해서 처리함으로써 전자는 GUI방식으로 후자는 VUI방식으로 사용자와 서버간의 인터페이스를 제공하는 방법과

VoiceXML 처리기에서는 우선 XML 파서가 VoiceXML 문서의 유효성을 검사하고 이를 통과한 문서에 대해서, 폼해석 알고리즘에 따라서 VoiceXML 해석기가 변수 관리기와 함께 해당 구문을 수행 처리하게 하며, 음성의 입력과 출력은 음성인식 엔진과 음성합성 엔진이 담당하도록 하는 처리방법.
클라이언트에 존재하는 음성웹브라우저 화면구성에 있어서,

기존의 http 프로토콜을 이용한 URL 입력창, HTML 문서를 표시하는 창, VoiceXML 문서를 표시하는 창, 사용자와 서버간의 음성 대화를 텍스트로 표시하는 출력창, 음성입력의 보조 수단으로 사용할 수 있는 텍스트 입력창의 5가지 구성화면으로 이루어진 음성웹브라우저의 화면 구성 방법.