KR20010076789A - A method and device for multi-modal internet browsing - Google Patents

A method and device for multi-modal internet browsing Download PDF

Info

Publication number
KR20010076789A
KR20010076789A KR1020000004144A KR20000004144A KR20010076789A KR 20010076789 A KR20010076789 A KR 20010076789A KR 1020000004144 A KR1020000004144 A KR 1020000004144A KR 20000004144 A KR20000004144 A KR 20000004144A KR 20010076789 A KR20010076789 A KR 20010076789A
Authority
KR
South Korea
Prior art keywords
mxml
internet
voice
interface
modal
Prior art date
Application number
KR1020000004144A
Other languages
Korean (ko)
Inventor
황규웅
박준
김회린
Original Assignee
오길록
한국전자통신연구원
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 오길록, 한국전자통신연구원 filed Critical 오길록
Priority to KR1020000004144A priority Critical patent/KR20010076789A/en
Publication of KR20010076789A publication Critical patent/KR20010076789A/en

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING; COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F17/00Digital computing or data processing equipment or methods, specially adapted for specific functions
    • G06F17/20Handling natural language data
    • G06F17/21Text processing
    • G06F17/24Editing, e.g. insert/delete
    • GPHYSICS
    • G06COMPUTING; CALCULATING; COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/16Sound input; Sound output
    • G06F3/167Audio in a user interface, e.g. using voice commands for navigating, audio feedback
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING; COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer

Abstract

PURPOSE: A multi-modal Internet interface device and a method thereof are provided to dialogue to a computer by a voice and to perform a web browsing by appending a voice interface function in a currently used web browser. CONSTITUTION: An MXML editor(312) makes a user prepare an MXML document using a template library by operations(311). A multi-modal Internet server(310) stores a prepared MXML document and includes an MXML document server providing the MXML document in accordance with the user. An MXML browser(321) is connected to the multi-modal Internet server(310) through the Internet, and interprets the MXML document and showing the contents of the MXML document on a screen and outputs a voice compounding message and prepares a voice recognition engine. A voice/compounding engine(322) performs voice recognition or a voice compounding. A TAPI(telephony application programming interface)(325)/MTAPI(multimedia telephony application programming interface)(326) provides an interface in an access to a multi-modal Internet client using a telephone(330). An I/O(input/output) device(324) comprises a keyboard, a mouse, a monitor, a mike, and a speaker. An I/O interface(323) provides an interface among the TAPI(325), the MTAPI(326), and the MXML browser(321).

Description

멀티모달 인터넷 인터페이스 장치 및 방법 {A method and device for multi-modal internet browsing} Multimodal Internet interface apparatus and method {A method and device for multi-modal internet browsing}

본 발명은 컴퓨터를 사용하여 인터넷을 사용할 때 기존의 마우스, 키보드, 모니터 등을 이용하는 방식에 음성을 추가하여 인터넷을 이용할 수 있게 하는 방법 및 장치에 대한 것이다. The present invention when using the Internet by using a computer to a method and an apparatus for adding a voice in the way of using the traditional mouse, keyboard, monitor, etc. made available on the Internet.

인간과 컴퓨터간의 인터페이스를 위해서 현재는 키보드, 마우스 등을 주로 사용하고 있지만 인간에게 보다 자연스러운 방법은 인간간에 이미 사용하고 있는 음성을 이용하는 방법이다. For the interface between humans and computers, but now mainly uses a keyboard, mouse, more natural way to men is how to use the voice you already use among humans.

이러한 방법은 이미 시도되고 있지만 컴퓨터의 경우 사람간의 대화와는 다르게 입력된 음성의 내용을 이해하는 것이 아니고 발성된 내용을 그대로 문자로 바꾸어 그 내용이 키보드로 입력된 것과 같이 반응하고 있는 상태로 음성 이해의 기술은 아직 활용되고 있지 않다. This method has already been tried, but speech understanding in a state not to understand the details of the case of the different input and dialogue between the voice's computer to change the volatile content in literally in the reaction, as the content is entered from the keyboard the technology has not yet been utilized. 그 이유는 음성이해 기술은 인공지능 기술과 마찬가지로 컴퓨터의 지능을 요구하며 현재 기술수준으로는 일반적인 분야에서는 불가능하고 여행계획 등과 같이 극히 제한된 분야에서만 가능하다. The reason is that it is only possible speech understanding technology is very limited areas, such as the requirements of your computer, like intelligence and artificial intelligence technology and impossible with current technology to the common areas and travel plans.

음성을 이용하여 컴퓨터와 대화하는 기술이 많이 사용되는 곳은 ARS 시스템이다. Where using your voice using a lot of technology to communicate with the computer is the ARS system. 현재는 주로 음성합성을 통해 컴퓨터가 사람에게 메시지를 주고 사람은 전화기의 숫자 판을 이용하여 원하는 의도를 전달하고 있다. Currently, mainly computers send messages to people via speech synthesis who has delivered the desired intent using the number plate of the phone. 최근에는 단어 수준 및 간단한 문장 형태의 음성인식 기술을 통합하여 사람도 숫자판 대신에 음성을 이용하여 의도를 전달하는 시스템들도 개발되어 어느 정도 음성을 이용한 대화의 형태를갖추고 있다. In recent years, the integration of people also use your voice instead of a numeric keypad word level and a simple sentence in the form of voice recognition technology is also developed systems that deliver the intended features in the form of a conversation with a certain voice.

그러나 ARS 시스템의 기본적인 문제는 원하는 정보나 서비스를 얻기 위해서는 복잡한 형태의 메뉴 트리를 따라 가야 한다는 것이다. However, the basic problem of the ARS system in order to obtain the desired information or service that they have to follow the complex shape of the menu tree. 관공서의 ARS 시스템이나 기차예약을 해 본 사람들은 알겠지만 원하는 정보나 서비스를 얻기 위해서 수 많은 버튼을 누르고 특히 기차역의 코드를 알지 못하는 경우에는 안내 메시지를 전부 들어야 선택을 할 수 있게 된다. If the people present to the Government of the ARS system or train reservations and know-click the number of buttons to get the desired information or service do not particularly know the code of the station there is possible to hear all the prompts can be selected. 음성인식을 이용하는 경우에는 기차역의 코드 등의 문제는 해결되지만 여전히 복잡한 메뉴 트리를 거쳐야 한다는 문제는 남는다. If you use speech recognition, a problem that still go through a complicated menu tree problems such as the station code issue, but remains.

ARS 시스템의 또 다른 문제는 유지 보수가 어렵고 호환성의 문제도 있다는 것이다. Another problem of the ARS system is that it is difficult to maintain compatibility problems FIG. 이러한 점을 해결하기 위해 ARS 기반 시스템과 ARS에 사용되는 대화 모델 즉 메뉴 트리를 분리하는 VXML(Voice eXtendable Markup Language)을 IBM, AT&T, Motorola, Lucent 등이 개발 중이다. The ARS-based systems and the VXML (Voice eXtendable Markup Language) that separates the conversation model that is used in the menu tree ARS IBM, AT & T, Motorola, Lucent, etc. being developed to address these points. VXML은 HTML과 유사한 형태의 마크업 언어를 이용하여 메뉴 트리를 작성하면 독립된 VXML 서버에서 VXML 문서를 서비스 하는 형태이다. VXML is the form used in the form of a markup language similar to HTML when creating a menu tree service VXML VXML document in a separate server. 마치 HTML 문서를 만들어 웹 호스팅 업체에 보내 놓으면 웹 서버 등의 서비스는 웹 호스팅 업체에서 수행하는 것과 같다. Like creating an HTML document release sent to web hosting companies services such as web server is the same as that performed in the web hosting company.

이와 관련된 또 다른 시도로 마이크로소프트사에서 제안한 발명이 있는데 그 내용은 ARS 시스템을 사용할 때 전화 만을 쓰는 것이 아니라 컴퓨터도 동시에 연결하여 ARS 메뉴 내용을 화면에 보여 주고 전화 숫자판 또는 컴퓨터의 마우스, 키보드 등을 사용하여 선택을 할 수 있게 하는 것이다. Related to another attempt there is proposed invention from Microsoft, the content of which shows the ARS menu contents to a computer connected at the same time not writing only the phone when using the ARS system to screen the mouse's phone number pad, or computer, keyboard, etc. to be able to use the option. 이 때 ARS 메뉴의 전달은 HTML과 유사한 방식을 사용한다. Delivery of the ARS menu when you use a similar way as HTML. 마이크로소프트사의 발명의 경우 기존 ARS 시스템의 단점을 해결하기 위해 컴퓨터 등의 화면에 메뉴 트리의 내용을 나타내어 메뉴 트리따라가기를 쉽게 하였다. In the case of Microsoft's invention represented by the contents of the menu tree it was easy to follow the tree menu on the screen, such as a computer to solve the disadvantages of the existing system ARS. 하지만, 이 발명 역시 사용자가 컴퓨터의 마우스, 키보드 등을 사용하여 선택하여야 하며 음성으로는 선택이 불가능하다. However, the invention also be selected by the user using a mouse, a keyboard, and the computer voice is not selectable.

상기한 종래 기술의 문제점을 해결하기 위한 본 발명은 기존의 웹 브라우징에서 음성인터페이스 기능을 추가하여 컴퓨터와 음성으로 대화하며 웹 브라우징을 수행할 수 있도록 하는 멀티모달 인터넷 인터페이스 장치 및 방법을 제공하는 데 그 목적이 있다. The present invention for solving the problems of the prior art is that to provide a multimodal Internet interface apparatus and method for adding the voice interface features from the existing web browsing dialogue with the computer and the voice, and to perform web browsing there is a purpose.

이를 위하여 본 발명에서는 기존의 HTML 문서에 대화 모델을 추가하는 방법과 그 서비스 방식 및 컴퓨터와의 대화에서 음성인식을 위한 언어 모델로 메타 문법을 사용하는 것을 특징으로 한다. To this end the invention is characterized in the use of meta-grammar in conversation and how to add the conversation model into an existing HTML document and its service approach and computers in the language model for speech recognition.

도 1은 본 발명의 멀티모달 인터넷 인터페이스의 사용예를 나타낸 도면 1 is a view showing an example of the use of a multimodal Internet interface of the present invention

도 2는 MXML의 개념도 2 is a conceptual diagram of MXML

도 3은 본 발명의 멀티모달 인터넷 인터페이스 시스템의 서비스 구성도 3 is a configuration of a multi-modal service Internet interface system of the present invention;

* 도면의 주요부분에 대한 부호의 설명 * * Description of the Related Art *

310 : 멀티모달 인터넷 서버 311 : 작업별 템플릿 라이브러리 310: Multimodal Internet server 311: Template Library by working

312 : MXML 문서 서버 320 : 멀티모달 인터넷 클라이언트 312: MXML document server 320: Multimodal Internet Client

321 : MXML 브라우저 322 : 음서인식/합성 엔진 321: MXML browser 322: eumseo recognition / synthesis engine

323 : I/O 인터페이스 324 : I/O 장치 323: I / O interface 324: I / O devices

325 : TAPI 326 : MTAPI 325: TAPI 326: MTAPI

330 : 전화 331 : 음성전용 전화 330: 331 Phone: voice-only phones

332 : 멀티미디어 전화 332: multimedia phone

이하, 첨부도면을 참조하여 본 발명을 상세하게 설명한다. With reference to the accompanying drawings the present invention will be described in detail.

먼저 기존의 웹 브라우징에서 음성을 추가로 사용할 수 있는 시스템에 대해 기술한다. The first describes a system that can be used to add a voice from the traditional web browsing. 시스템의 사용 예는 도 1에 나타내었다. Use of the system example shown in FIG.

이와 같이 음성을 사용할 수 있는 시스템을 구성하기 위해 기존의 HTML 문서에 음성 관련 부분을 추가한 멀티모달 XML(Multi-modal eXtendable Markup Language: 이하 MXML라 함) 문서를 제안한다. It proposes: (hereinafter referred to MXML Multi-modal eXtendable Markup Language) documents such as existing HTML documents multimodal XML add your voice to relevant parts to construct a system that you can use your voice.

MXML 문서는 하나의 문서에 HTML의 내용과 메타 태그(Meta tag)를 이용하여음성 XML의 내용을 함께 기술한 것이다. MXML document is a description with the contents of the speech using the XML information and meta tags (Meta tag) in the HTML into a single document. 음성을 처리할 수 있는 브라우저에서는 음성 XML의 내용을 바탕으로 음성 인터페이스를 지원하게 되고 그렇지 못한 경우에는 음성 관련 내용은 무시하게 된다. If the browser can handle voice and support for voice interfaces based on the contents of the Voice XML voice it did not have the relevant information is disregarded.

이를 도 2의 MXML 문서 개념도를 참조하여 좀 더 자세하게 설명한다. This also refer to the MXML document on the concept of the two will be explained in more detail.

도 2는 기존의 HTML과 음성 XML 및 대화관리가 어떻게 결합되어 MXML을 구성하는지 설명하고 있다. Figure 2 describes how to configure an existing HTML and XML, and voice is how the conversation management combined MXML. 기존의 HTML의 경우는 마우스와 키보드를 입력수단으로 사용하고 출력으로는 화면에 텍스트, 영상, 그리고 스피커를 통해 음성과 음향을 출력하고 있다. With a traditional HTML is using a mouse and a keyboard as input means and output as the output speech and sound using a text, image, and a speaker on the display. 이 경우 음성의 출력은 음성합성을 통한 것은 아니고 주로 녹음된 음성을 음향의 경우와 같은 방식으로 출력하게 된다. In this case, the output of the voice is not necessarily by voice synthesis, and outputs the recorded voice mainly in the same way as the case of the sound. 기존에 제안된 음성 XML은 전화를 이용하는 경우를 기본적으로 가정하며 전화를 통해 음성을 입력하고 이를 음성 인식하여 처리하게 된다. A voice XML proposed in existing assumes a case where a call by default, and is input speech over the telephone, and processing this speech recognition. 또 전화기의 키패드를 이용해 DTMF 신호도 입력하여 사용한다. In use the keypad on the phone that is used to also enter the DTMF signal. 출력으로는 합성 음성이 유일하다. The output is the synthesized speech is unique. 이 때 사용자는 전화를 통해 원하는 정보를 얻거나 예약 등의 작업을 하게 되므로 이를 처리하는 컴퓨터와의 대화관리가 필요하다. When the user is needed, so that operations such as to get the desired information over the phone or schedule a computer to process and manage this dialogue. 도 2에서 설명하는 MXML은 이러한 기존의 두 가지 방법을 통합하여 음성 입출력이 가능하고 선택적으로 마우스, 키보드, 화면이 제공되는 단말기에서, 제공되는 다양한 입출력 수단을 함께 사용하여 보다 사용하기 편하고 효율적인 인터페이스를 제공하고자 한다. Also on the device MXML is that such integration of existing in two ways to enable the audio input and output, and optionally a mouse, a keyboard, a screen is provided as described in the second, to use than using a combination of various input-output means which provides an easy efficient interface It intends to provide.

도 3은 본 발명에 따른 멀티모달 인터넷 인터페이스 시스템의 구성도 이다. 3 is a block diagram of a multi-modal interface system of the Internet in accordance with the present invention.

도면에서 보듯이, 작업별 템플릿 라이브러리(311), 상기 작업별 템플릿 라이브러리(311)를 이용하여 사용자가 MXML 문서를 작성할 수 있도록 하는 MXML 편집기(312), 및 작성된 MXML 문서를 저장하고 사용자의 요청에 따라 MXML 문서를 제공하는 MXML 문서 서버를 포함하는 멀티모달 인터넷 서버(310); As shown in the figure, the template library by operation 311, by using the operation-specific template library 311, the user saves the MXML document MXML editor 312, and written to enable to write MXML document, to a user request multimodal Internet server 310 including a MXML document server that provides a document in accordance MXML; 상기 멀티모달 인터넷 서버(310)와 인터넷으로 연결되며, MXML 문서를 해석하여 HTML 내용은 화면에 보여 주고 음성 XML내용을 해석하여 음성 합성할 메시지는 음성 합성 엔진을 이용하여 합성하여 스피커 또는 전화 인터페이스를 통해 들려 주고, 음성 인식을 위한 언어모델을 이용하여 음성인식 엔진을 준비하고 사용자가 발성한 음성의 내용을 인식하여 음성 XML에 지정된 동작을 수행하는 MXML 브라우저(321)와, 상기 MXML 브라우저(321)의 요구에 따라 음성인식 또는 음성합성을 수행하는 음성 인식/합성 엔진(322)과, 전화(330)를 이용하여 멀티모달 인터넷 클라이언트에 접근하는 경우에 인터페이스를 제공하는 TAPI(Telephony Application Programming Interface : 325)/MTAPI(Multimedia Telephony Application Programming Interface : 326)와, 키보드, 마우스, 모니터, 마이크, 스피커 등의 I/O(Input/O Is connected to the Internet and the multimodal Internet server 310 analyzes the MXML document HTML content is shown on the screen by analyzing the voice XML information message to speech synthesis is the speaker or the telephone interface synthesized by the speech synthesis engine and over to hear, using language models for speech recognition prepare a speech recognition engine and MXML browser 321 recognizes the contents of the speech that you uttered to perform the actions specified in the voice XML, the MXML browser (321) voice of performing a speech recognition or speech synthesis in accordance with the required recognition / synthesis engine 322, a telephone 330, the multimodal Internet TAPI (Telephony Application Programming interface for providing an interface in the case of access to the client using a 325 ) / MTAPI (Multimedia Telephony Application Programming Interface: 326), a keyboard, mouse, monitor, microphone, speaker, etc. I / O (Input / O utput) 장치(324) , 상기 TAPI(325) 및 MTAPI(326)과 상기 MXML 브라우저(321)와의 인터페이스를 제공하는 I/O 인터페이스(323)를 포함하는 멀티모달 인터넷 클라이언트(320)로 구성된다. Consists utput) device 324, the TAPI (325) and MTAPI (326) and multi-modal Internet Client 320 comprises an I / O interface 323 that provides an interface between the MXML browser 321.

멀티모달 인터넷 서버(310)는 기존의 웹 서버의 역할을 하는 것으로 MXML 문서를 요청에 따라 제공해 주는 역할을 한다. Multi-modal internet server 310 serves to provide upon request the MXML document that serves as a traditional web server. 멀티모달 인터넷 서버(310)에는 MXML 문서가 저장되는데 이는 MXML 편집기(312)와 작업별 템플릿 라이브러리(311)를 이용해 작성하게 된다. Multi-modal Internet server 310 stores there is an MXML document, which is created using an MXML editor (312) and task-specific templates libraries (311). MXML의 경우 일반 HTML과 달리 음성 인식을 위한 언어모델을작성해 주어야 하는데 이는 언어 처리에 대한 전문적인 지식을 요구하므로 일반 HTML 작성자가 작성하기 어렵다. If the MXML Unlike normal HTML need to create a language model for speech recognition because it requires expertise in language processing, it is difficult to create a plain HTML authors. 이러한 문제를 해결하기 위해 사용자가 발성할 문장 그 자체를 모두 기술하는 일반 문법이 아닌 한 단계 위의 메타 문법과 작업별 템플릿 라이브러리를 사용하게 되는데 이 문법에 관해서는 후술한다. There is the use of meta-grammar and template libraries by working one level above than the regular grammar that all the sentences itself to the user utterance technology to solve these problems will be described later in this grammar.

멀티모달 인터넷 클라이언트(320)는 기존의 PC/WS(Personal Computer/Work Station)와 같이 CPU를 갖춘 단말기이다. Multi-modal Internet client 320 is a device equipped with a CPU such as (Personal Computer / Work Station) existing PC / WS. MXML을 해석해서 화면에 보여 주는 MXML 브라우저(321)와 음성 인식/합성 엔진(322), I/O 장치(키보드, 마우스, 모니터, 마이크, 스피커등 : 324), TAPI 및 MTAP와 MXML 브라우저(321)와의 인터페이스 모듈, 즉 I/O 인터페이스(323)를 가지고 있다. By interpreting the MXML shown on the screen MXML browser (321) and speech recognition / synthesis engine (322), I / O devices (keyboard, mouse, monitor, microphone and speakers: 324), TAPI and MTAP and MXML browser (321 ) with has an interface module, i.e., I / O interface 323.

MXML 브라우저(321)은 요청된 MXML 문서를 인터넷을 통해 멀티모달 인터넷 서버(310)에서 제공받아, 이를 해석하여 HTML 내용은 기존의 웹 브라우저처럼 화면(PC/WS의 모니터 또는 스크린 폰/인터넷 접속 휴대폰의 화면)에 보여준다. MXML browser (321) is received in the requested MXML document in a multi-modal Internet server 310 via the Internet, by interpreting this HTML content screen like a conventional web browser (PC / WS monitor or screen phone / internet phones show on the screen). 그리고 음성 XML내용을 해석하여 음성 합성할 메시지는 음성 합성 엔진을 이용하여 합성을 해 스피커, TAPI(325) 또는 MTAPI(326)를 통해 들려 주고, 음성 인식을 위한 언어모델을 이용하여 음성인식 엔진을 준비하고 사용자가 발성한 음성의 내용을 인식하여 음성 XML에 지정된 동작을 수행한다. And the message to speech synthesis interprets voice XML content, giving it the synthesized using speech synthesis engine to listen through the speakers, TAPI (325) or MTAPI (326), using a language model for speech recognition, speech recognition engine prepare aware of the content of the speech uttered by the user to perform an action specified in the voice XML.

TAPI(325)과 MTAPI(326)는 제3의 장소에서 전화(330)와 멀티모달 인터넷 클라이언트(320)를 이용하여 인터넷 브라우징을 할 수도록 한다. TAPI (325) and MTAPI (326) is using the telephone 330 and the multimodal Internet client 320 in the third place to be able to browse the Internet.

전화(330)로는 사용되는 단말기로 음성만 사용할 수 있는 음성전용전화(331)와 스크린을 가지고 있어 화면 표시도 가능한 스크린 폰, 인터넷 접속 휴대폰 등의 멀티미디어전화(332)로 나눌 수 있다. Phone (330) includes a multimedia call can be divided into 332 of which the terminal to be used can only use speech voice-only telephone 331 and it has the screen display is also possible screen phone, internet phone and the like. 멀티미디어전화기(332)에 대해서는 음성뿐만 아니라 HTML의 내용도 같이 보내 준다. For multimedia phone (332) as well as it gives voice also to send such information in HTML.

I/O 장치(324)에서 키보드와 마우스, 모니터는 필수적인 것은 아니다. In the I / O device 324. Keyboard, mouse, monitor, are not required. 이동형 단말기인 경우나 시스템의 구성상 뺄 수도 있다. If the mobile terminal may subtract the configuration of the I system. 또 장애자의 경우에는 장애 종류와 정도에 따라 키보드, 마우스, 모니터 등을 사용하지 못할 수도 있다. Another may be the case of disability, depending on the type and degree of disability not be able to use the keyboard, mouse, and monitor. 이러한 경우에도 스피커와 마이크를 이용하여 원하는 작업을 어느 정도 수행할 수 있다. The use of such a speaker and microphone, even if it is possible to perform the desired action to some extent.

음성 XML의 내용에 대해 설명한다. It describes the contents of the voice XML.

음성 XML의 목적은 컴퓨터와 사용자가 인간에게 자유로운 음성을 이용하여 대화를 나누어 사용자가 원하는 동작을 컴퓨터로 하여금 수행하도록 하는 것이다. The purpose of XML is to have a computer voice and your users share the conversation using the free speech allows humans to perform the desired operation on the computer. 이를 위해서 음성 XML에는 사용자와 컴퓨터가 나눌 수 있는 대화의 내용을 기술하게 되는데 본 발명에서는 이를 메타 문법을 사용하여 기술하도록 한다. To this end, the Voice XML is the present invention there is described the contents of the conversation to share the user and the computer must be specified to use this meta-grammar. 음성 XML의 내용으로는 컴퓨터에서 사용자에게 제공하는 말과 사용자가 발성할 내용을 기술한 메타 문법, 그리고 메타 문법을 통해 사용자의 의도를 이해하고 이에 따른 동작의 지정이 있다. The contents of the Voice XML is a technology with the content to the end user to provide users with a computer stricken meta syntax, and grammar through a meta-understand user intent and specification of operation accordingly.

메타 문법이라 함은 기존의 언어모델의 문법보다 한 단계 상위의 문법이라는 의미이다. Hereinafter referred to as meta-grammar is a sense that one of the top step of the grammatical syntax than the existing language model. 메타 문법은 두 가지로 나뉘는데 작업 지향적인 작업 메타 문법과 대화의 목적 지향적인 자료 메타 문법이 있다. Meta-grammar is a purpose-oriented meta-data syntax of the task-oriented job meta grammar and conversation divided into two.

작업별 템플릿 라이브러리는 호텔예약, 기차표예매와 같이 그 자체로 하나의작업이 완료될 수 있는 형태이다. Template Library, each work is a form that is one of the tasks to be completed by itself, such as hotel reservation, train ticket reservation. 즉 일반적으로 많이 사용되는 작업에 대한 문법을 기술하여 놓은 것이다. That would put the technology to work on your grammar normally used a lot. MXML 작성자는 음성 XML의 내용에 해당되는 작업별 템플릿 라이브러리 파일의 위치를 지정하는 것만으로 컴퓨터가 사용자와 대화하여 사용자가 원하는 작업을 완료할 수 있도록 한다. MXML compilers allow you to interact with your computer by simply specifying the location of a specific job template library file that corresponds to the contents of the Voice XML user completes a desired action. 작업별 템플릿 라이브러리를 지정할 때 파라미터를 주어 철도 회사 명이나 호텔 명 등의 가변적인 정보를 바꿀 수 있다. Given a parameter to specify the task-specific templates libraries can change the variable information such as the railway company or a city name. 작업 지향적인 문법은 널리 여러 곳에서 공통적으로 사용되는 경우에 라이브러리의 형태로 문서 작성자가 아닌 제 삼자가 만들어 공급할 수 있을 것이다. Task-oriented syntax could supply well make a third party, not the document author in the form of a library if that is commonly used in many places.

이에 반하여 자료 메타 문법은 대화의 좀 더 작은 부분에 적용된다. In contrast, meta-data syntax is applied to a smaller part of the conversation. 그 예로는 사용자의 이름을 알아내는 대화나 신용카드 번호, 날짜 등을 알아내는 대화가 해당된다. For example, a dialog to find out the conversation, such as figuring out your name and credit card number, date, is applicable. 이 문법의 사용 예는 다음과 같다. Example of the syntax is as follows:

예) Yes)

get_data(costumer_name) get_data (costumer_name)

get_data(credit_card_number) get_data (credit_card_number)

기존의 문법에서는 사용자의 이름을 알아 내는 경우에 사용자가 이름만을 말하게 하도록 제한하거나 몇 개의 표현만을 지원하고 있지만 이 메타 문법의 경우에는 사용자와 해당되는 주제를 놓고 대화를 나누어 원하는 정보를 얻어 내도록 동작한다. In traditional grammar the user is restricted to tell only the name of the case to find out the person's name, or support only a few representations, but the case of the meta syntax has operated naedorok into a conversation, place the topics that the user obtained the information . 사용자가 해당되는 주제에 대해 발성할 수는 대표적인 대부분의 표현을 처리할 수 있도록 한다. To speech for the subject is the user is to handle the most typical expression.

상술한 바와 같은 본 발명은 기존의 인터넷 브라우징에서 키보드, 마우스, 모니터 등의 인터페이스 방식 이외에 사람에게 편리한 음성을 인터페이스로 추가함으로써 보다 편리하게 인터넷 브라우징을 할 수 있다. The present invention as described above may be more convenient for the Internet browsing by adding the existing Internet browsing convenient to the person in addition to the voice interface system, such as a keyboard, mouse, monitor interface. 이 때 대화의 방식은 기존의 고정된 표현만을 사용하는 방식이 아니라 메타 문법 기능을 통해 구현되는 일상생활에서 사용하는 자유로운 형태의 대화 방식을 채용하여 사용자에게 편의를 제공한다. This way when the conversation is by the way not only the traditional fixed representation of the adoption of a free-form conversations that used in everyday life implemented through a meta-grammar functionality provides the user with convenience.

이상에서 본 발명에 대한 기술사상을 첨부도면과 함께 서술하였지만 이는 본 발명의 바람직한 실시예를 예시적으로 설명한 것이지 본 발명을 한정하는 것은 아니다. While it is describing the technical idea of ​​the present invention at least in conjunction with the accompanying drawings which geotyiji described preferred embodiments of the invention by way of example and does not limit the present invention. 또한, 이 기술분야의 통상의 지식을 가진 자라면 누구나 본 발명의 기술사상의 범주를 이탈하지 않는 범위 내에서 다양한 변형 및 모방이 가능함은 명백한 사실이다. In addition, those skilled in the art that various modifications and imitation in all without departing from the scope of the technical idea of ​​the present invention are possible range is obvious.

Claims (3)

  1. 기존의 마우스, 키보드, 모니터 등을 이용하는 것 외에 음성을 통해서도 인터넷 서비스가 가능하도록 하는 멀티모달 인터넷 인터페이스 장치에 있어서, In the multi-modal interface device to the Internet through voice, etc. In addition to using a traditional mouse, keyboard and monitor to enable Internet service,
    작업별 템플릿 라이브러리와, 상기 작업별 템플릿 라이브러리를 이용하여 사용자가 MXML 문서를 작성할 수 있도록 하는 MXML 편집기와, 및 작성된 MXML 문서를 저장하고 사용자의 요청에 따라 MXML 문서를 제공하는 MXML 문서 서버를 포함하는 멀티모달 인터넷 서버; And template library-specific tasks, using a template library by the work the user saves the MXML document and MXML editors, and prepared to help you create an MXML document, including the MXML document server that provides an MXML document, depending on the user's request multi-modal Internet server;
    상기 멀티모달 인터넷 서버와 인터넷으로 연결되며, MXML 문서를 해석하여 HTML 내용은 화면에 보여 주고 음성 XML내용을 해석하여 음성 합성할 메시지는 음성 합성 엔진을 이용하여 합성하여 스피커 또는 전화 인터페이스를 통해 들려 주고, 음성 인식을 위한 언어모델을 이용하여 음성인식 엔진을 준비하고 사용자가 발성한 음성의 내용을 인식하여 음성 XML에 지정된 동작을 수행하는 MXML 브라우저와, 상기 MXML 브라우저의 요구에 따라 음성인식 또는 음성합성을 수행하는 음성 인식/합성 엔진과, 전화를 이용하여 멀티모달 인터넷 클라이언트에 접근하는 경우에 인터페이스를 제공하는 TAPI 및 MTAPI와, 마이크, 스피커 등을 포함하는 I/O 장치와, 상기 TAPI 및 MTAPI과 상기 MXML 브라우저와의 인터페이스를 제공하는 I/O 인터페이스를 포함하는 멀티모달 인터넷 클 Is connected to the the multi-modal Internet server and the Internet, to interpret the MXML document HTML content to show on-screen messages to speech synthesis interprets voice XML content is to hear through the speakers or phone interface synthesized by the speech synthesis engine using a language model for speech recognition prepare a speech recognition engine and voice recognition according to the MXML browser and requirements of the MXML browser that recognizes the content of the speech that you uttered to perform the actions specified in the voice XML or speech synthesis and speech recognition / synthesis engine that performs, as TAPI and MTAPI to use their phone to provide an interface in the case of access to a multimodal Internet client, a microphone, and an I / O device including a speaker or the like, and the TAPI and MTAPI multimodal Internet greater comprising an I / O interface, which provides an interface with the browser MXML 라이언트로 구성되는 것을 특징으로 하는 멀티모달 인터넷 이터페이스 장치. Multimodal Internet data interface devices being configured in the client.
  2. 기존의 마우스, 키보드, 모니터 등을 이용하는 것 외에 음성을 통해서도 인터넷 서비스가 가능하도록, In addition to audio through the use of such conventional mouse, keyboard and monitor to enable Internet service,
    HTML 문서에 음성 XML 부분을 추가하여 MXML 문서를 작성하고, Add your voice XML fragments into an HTML document and create an MXML document,
    음성 XML의 내용으로 컴퓨터에서 사용자에게 제공하는 말과 사용자가 발성할 내용을 기술한 메타 문법, 및 메타 문법을 통해 사용자의 의도를 이해하고 이에 따른 동작의 지정을 포함하여 음성 및 화면을 통해 인터넷 서비스가 가능하도록 하는 것을 특징으로 하는 멀티모달 인터넷 인터페이스 방법. Through the end to give the user from the computer to the contents of the Voice XML and that you describe what you uttered metadata syntax, and meta-grammar to understand the user's intent and the Internet through voice and screen, including the designation of operations in accordance with this Service the multi-modal way, characterized in that the Internet interface to enable.
  3. 제2항에 있어서, 3. The method of claim 2,
    음성 XML의 내용은 그 자체로 하나의 작업이 완료될 수 있는 형태인 경우 작업 지향적인 작업 메타 문법을 사용하여 기술하고, The contents of the speech itself and XML is described using the form if task-oriented job metadata grammar is one of the tasks to be completed,
    사용자와 해당되는 주제를 놓고 대화를 나누어 원하는 정보를 얻어낼 필요가 있는 부분은 사용자가 해당되는 주제에 대해 발성할 수 있는 대표적인 대부분의 표현을 처리할 수 있도록 목적 지향적인 자료 메타 문법을 이용하여 기술하는 것을 특징으로 하는 멀티모달 인터넷 인터페이스 방법. Users and put the topics that part that needs to be divided into the dialog takes the information the user is described using a purpose-oriented data meta-grammar to handle the typical most of representation that can be uttered on that topic multi-modal way Internet interface which comprises.
KR1020000004144A 2000-01-28 2000-01-28 A method and device for multi-modal internet browsing KR20010076789A (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020000004144A KR20010076789A (en) 2000-01-28 2000-01-28 A method and device for multi-modal internet browsing

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020000004144A KR20010076789A (en) 2000-01-28 2000-01-28 A method and device for multi-modal internet browsing

Publications (1)

Publication Number Publication Date
KR20010076789A true KR20010076789A (en) 2001-08-16

Family

ID=19642297

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020000004144A KR20010076789A (en) 2000-01-28 2000-01-28 A method and device for multi-modal internet browsing

Country Status (1)

Country Link
KR (1) KR20010076789A (en)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100768731B1 (en) * 2005-12-05 2007-10-19 한국전자통신연구원 A VoiceXML Dialogue apparatus based on Speech Act for Controlling Dialogue Flow and method of the same
US7694229B2 (en) 2000-04-06 2010-04-06 Microsoft Corporation System and theme file format for creating visual styles
US7721254B2 (en) 2003-10-24 2010-05-18 Microsoft Corporation Programming interface for a computer platform
US8458608B2 (en) 2000-04-06 2013-06-04 Microsoft Corporation Focus state themeing
US8700770B2 (en) * 2001-12-28 2014-04-15 Motorola Mobility Llc Multi-modal communication using a session specific proxy server
KR20190043201A (en) 2017-10-18 2019-04-26 주식회사 나눔기술 System of monitoring interface for digital companion based on extensible multimodal annotation markup language

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7694229B2 (en) 2000-04-06 2010-04-06 Microsoft Corporation System and theme file format for creating visual styles
US8458608B2 (en) 2000-04-06 2013-06-04 Microsoft Corporation Focus state themeing
US8799464B2 (en) 2001-12-28 2014-08-05 Motorola Mobility Llc Multi-modal communication using a session specific proxy server
US8700770B2 (en) * 2001-12-28 2014-04-15 Motorola Mobility Llc Multi-modal communication using a session specific proxy server
US8788675B2 (en) 2001-12-28 2014-07-22 Motorola Mobility Llc Multi-modal communication using a session specific proxy server
US9819744B1 (en) 2001-12-28 2017-11-14 Google Technology Holdings LLC Multi-modal communication
US7721254B2 (en) 2003-10-24 2010-05-18 Microsoft Corporation Programming interface for a computer platform
KR100768731B1 (en) * 2005-12-05 2007-10-19 한국전자통신연구원 A VoiceXML Dialogue apparatus based on Speech Act for Controlling Dialogue Flow and method of the same
KR20190043201A (en) 2017-10-18 2019-04-26 주식회사 나눔기술 System of monitoring interface for digital companion based on extensible multimodal annotation markup language

Similar Documents

Publication Publication Date Title
Schnelle Context Aware Voice User Interfaces for Workflow Support
CN1171200C (en) System and method of conversational computing via conversational virtual machine
US6965864B1 (en) Voice activated hypermedia systems using grammatical metadata
US5915001A (en) System and method for providing and using universally accessible voice and speech data files
US7640163B2 (en) Method and system for voice activating web pages
US7421390B2 (en) Method and system for voice control of software applications
US7379874B2 (en) Middleware layer between speech related applications and engines
US8150698B2 (en) Invoking tapered prompts in a multimodal application
US6513010B1 (en) Method and apparatus for separating processing for language-understanding from an application and its functionality
US7020841B2 (en) System and method for generating and presenting multi-modal applications from intent-based markup scripts
US6192339B1 (en) Mechanism for managing multiple speech applications
US6895257B2 (en) Personalized agent for portable devices and cellular phone
US6856960B1 (en) System and method for providing remote automatic speech recognition and text-to-speech services via a packet network
EP1485773B1 (en) Voice-controlled user interfaces
DE69829604T2 (en) System and method for distal automatic speech recognition via a packet-oriented data network
CA2618547C (en) Use of multiple speech recognition software instances
US8024194B2 (en) Dynamic switching between local and remote speech rendering
US6009398A (en) Calendar system with direct and telephony networked voice control interface
CN101203906B (en) Method, equipment and system of dialogue management using scripts
CN100397340C (en) Application abstraction aimed at dialogue
JP6087899B2 (en) Conversation dialog learning and conversation dialog correction
US20080065390A1 (en) Dynamically Generating a Vocal Help Prompt in a Multimodal Application
US8725513B2 (en) Providing expressive user interaction with a multimodal application
US8380516B2 (en) Retrieval and presentation of network service results for mobile device using a multimodal browser
US20110225227A1 (en) Network System Extensible By Users

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
E601 Decision to refuse application