KR20010075838A - 멀티모달 인터페이스 처리 장치 및 그 방법 - Google Patents

멀티모달 인터페이스 처리 장치 및 그 방법 Download PDF

Info

Publication number
KR20010075838A
KR20010075838A KR1020000002707A KR20000002707A KR20010075838A KR 20010075838 A KR20010075838 A KR 20010075838A KR 1020000002707 A KR1020000002707 A KR 1020000002707A KR 20000002707 A KR20000002707 A KR 20000002707A KR 20010075838 A KR20010075838 A KR 20010075838A
Authority
KR
South Korea
Prior art keywords
input
pen
data
voice
modal
Prior art date
Application number
KR1020000002707A
Other languages
English (en)
Other versions
KR100576553B1 (ko
Inventor
임성호
양정민
박지은
송경준
Original Assignee
오길록
한국전자통신연구원
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 오길록, 한국전자통신연구원 filed Critical 오길록
Priority to KR1020000002707A priority Critical patent/KR100576553B1/ko
Publication of KR20010075838A publication Critical patent/KR20010075838A/ko
Application granted granted Critical
Publication of KR100576553B1 publication Critical patent/KR100576553B1/ko

Links

Classifications

    • EFIXED CONSTRUCTIONS
    • E04BUILDING
    • E04HBUILDINGS OR LIKE STRUCTURES FOR PARTICULAR PURPOSES; SWIMMING OR SPLASH BATHS OR POOLS; MASTS; FENCING; TENTS OR CANOPIES, IN GENERAL
    • E04H13/00Monuments; Tombs; Burial vaults; Columbaria
    • E04H13/006Columbaria, mausoleum with frontal access to vaults

Abstract

본 발명은 멀티모달 인터페이스 처리 장치 및 그 방법에 관한 것으로, 펜과 음성입력 시간을 관리하고 입력 데이터를 각각 인식함으로써, 인식 결과와 입력 시간정보를 활용하여 복합적인 명령어 생성 및 오류 보정을 효과적으로 처리하기 위한 멀티모달 인터페이스 처리 장치 및 그 방법과 상기 방법을 실현시키기 위한 프로그램을 기록한 컴퓨터로 읽을 수 있는 기록매체를 제공하기 위하여, 멀티모달 인터페이스 처리 장치에 있어서, 멀티모달 데이터를 입력하고, 멀티모달 인식결과를 출력하기 위한 멀티모달 입출력 수단; 상기 멀티모달 입력 수단으로부터 전달된 펜 및 음성 입력 데이터의 입력 시점을 등록하여 타이머를 셋팅하고, 펜 및 음성 입력 데이터의 인식결과를 합성하여 멀티모달 인식결과를 실행하기 위한 멀티모달 스트림 관리수단; 및 상기 멀티모달 스트림 관리수단으로부터 전달된 상기 펜 및 음성 입력 데이터를 인식하고, 음성인식 결과를 명령어로 변환하며, 문자로 처리된 결과를 음성으로 합성하여 멀티모달 인터페이스를 처리하기 위한 멀티모달 처리수단을 포함하며, 멀티모달 인터페이스 시스템 등에 이용됨.

Description

멀티모달 인터페이스 처리 장치 및 그 방법{APPARATUS AND METHOD FOR PROCESSING MULTIMODAL INTERFACE}
본 발명은 멀티모달 인터페이스 처리 장치 및 그 방법과 상기 방법을 실현시키기 위한 프로그램을 기록한 컴퓨터로 읽을 수 있는 기록매체에 관한 것으로, 특히 펜 및 음성 입력 데이터에 대한 인식결과와 각각의 입력에 대한 시간 정보를 활용하여 복합적인 명령어 생성 및 오류 보정을 효과적으로 처리하고, 분산처리에 용이하게 하기 위한 멀티모달 인터페이스 처리 장치 및 그 방법과 상기 방법을 실현시키기 위한 프로그램을 기록한 컴퓨터로 읽을 수 있는 기록매체에 관한 것이다.
일반 사용자가 친숙한 펜이나 마이크를 입력 장치로 사용하는데 있어서, 인식율 향상 및 오인식율 저하 문제를 극복해야 하지만 이러한 인식율을 향상시키기 위해서는 장기간에 걸쳐 점진적으로 문제점을 해결해야 한다. 또한, 개별적인 입력 방법으로는 사용자의 요구사항 충족이 어려우므로 펜과 음성을 동시에 복합적으로 사용할 수 있는 멀티모달 처리기능을 제공해야 한다.
따라서, 키보드 및 마우스를 사용하기 어려운 환경이거나 휴대형 단말기나 컴퓨터에 익숙하지 않은 사용자는 휴대가 간단하고 사용에 익숙한 펜이나 마이크와 같은 입력장치를 사용하는 것이 매우 효과적이다.
그러나, 종래의 휴대형이나 이동 단말기에서는 키보드나 마우스를 사용하기가 불편할 뿐만 아니라 사용 환경이 적합하지 않은 경우가 많았다. 이러한 문제를 해결하기 위하여 종래에는 대부분 개별적인 인식기로 처리하였으며, 개별적인 인식율 향상에 치중하여 왔다. 그러나, 개별적인 인식기로 처리하기에는 인식율이 낮고 사용 방법이 어려울 뿐만 아니라 사용자의 정확한 의미를 전달하기 어려운 문제점이 있었다. 또한, 멀티모달 입력을 상호 비교하여 오류보정을 추구하였으나, 주로 비슷한 명령어를 입력하고, 입력결과를 상호 비교하여 오류를 보정하는 시도가 있어 왔다.
본 발명은, 상기한 바와 같은 문제점을 해결하기 위하여 안출된 것으로, 펜과 음성입력 시간을 관리하고 입력 데이터를 각각 인식함으로써, 인식 결과와 입력 시간정보를 활용하여 복합적인 명령어 생성 및 오류 보정을 효과적으로 처리하기 위한 멀티모달 인터페이스 처리 장치 및 그 방법과 상기 방법을 실현시키기 위한 프로그램을 기록한 컴퓨터로 읽을 수 있는 기록매체를 제공하는데 그 목적이 있다.
도 1 은 본 발명에 따른 멀티모달 인터페이스 처리 장치에 대한 일실시예 구성도.
도 2 는 본 발명에 따른 멀티모달 인터페이스 처리 방법중 펜 인식의 처리 과정에 대한 일실시예 흐름도.
도 3 은 본 발명에 따른 멀티모달 인터페이스 처리 방법중 음성 입력 데이터의 처리 과정에 대한 일실시예 흐름도.
도 4 는 본 발명에 따른 멀티모달 인터페이스 처리 방법중 명령어 합성 및 합성 명령 처리 과정에 대한 일실시예 흐름도.
*도면의 주요 부분에 대한 부호의 설명
121 : 펜 입력 데이터 처리기 122 : 음성 입력 데이터 처리기
123 : 타이머 124 : 멀티모달 인식 결과 합성기
125 : 멀티모달 인식 결과 실행기
상기 목적을 달성하기 위한 본 발명은, 멀티모달 인터페이스 처리 장치에 있어서, 멀티모달 데이터를 입력하고, 멀티모달 인식결과를 출력하기 위한 멀티모달 입출력 수단; 상기 멀티모달 입력 수단으로부터 전달된 펜 및 음성 입력 데이터의 입력 시점을 등록하여 타이머를 셋팅하고, 펜 및 음성 입력 데이터의 인식결과를 합성하여 멀티모달 인식결과를 실행하기 위한 멀티모달 스트림 관리수단; 및 상기 멀티모달 스트림 관리수단으로부터 전달된 상기 펜 및 음성 입력 데이터를 인식하고, 음성인식 결과를 명령어로 변환하며, 문자로 처리된 결과를 음성으로 합성하여 멀티모달 인터페이스를 처리하기 위한 멀티모달 처리수단을 포함하여 이루어진 것을 특징으로 한다.
또한, 본 발명은, 멀티모달 인터페이스 처리 장치에 적용되는 인터페이스 처리 방법에 있어서, 멀티모달 입력수단으로부터 펜 입력 데이터를 입력받아 펜 입력 시작 시점을 등록하고, 타이머를 셋팅하여 펜 입력 데이터에 대한 인식결과를 합성하도록 요구하는 제 1 단계; 상기 멀티모달 입력수단으로부터 음성 데이터를 입력받아 음성 입력 여부에 따라 타이머를 셋팅하고, 시간 정보를 추가하여 음성 입력 결과를 합성하도록 요구하는 제 2 단계; 및 상기 입력 결과에 대한 합성 요구에 따라 명령어를 합성하여 합성 명령어를 처리하는 제 3 단계를 포함하여 이루어진 것을 특징으로 한다.
또한, 본 발명은, 프로세서를 구비한 멀티모달 인터페이스 처리 장치에, 멀티모달 입력수단으로부터 펜 입력 데이터를 입력받아 펜 입력 시작 시점을 등록하고, 타이머를 셋팅하여 펜 입력 데이터에 대한 인식결과를 합성하도록 요구하는 제 1 기능; 상기 멀티모달 입력수단으로부터 음성 데이터를 입력받아 음성 입력 여부에 따라 타이머를 셋팅하고, 시간 정보를 추가하여 음성 입력 결과를 합성하도록 요구하는 제 2 기능; 및 상기 입력 결과에 대한 합성 요구에 따라 명령어를 합성하여 합성 명령어를 처리하는 제 3 기능을 실현시키기 위한 프로그램을 기록한 컴퓨터로 읽을 수 있는 기록매체를 제공한다.
상술한 목적, 특징들 및 장점은 첨부된 도면과 관련한 다음의 상세한 설명을통하여 보다 분명해 질 것이다. 이하, 첨부된 도면을 참조하여 본 발명에 따른 바람직한 일실시예를 상세히 설명한다.
도 1 은 본 발명에 따른 멀티모달 인터페이스 처리 장치에 대한 일실시예 구성도이다.
도 1에 도시된 바와 같이, 멀티모달 인터페이스 처리 장치는 멀티모달 입출력 장치(11), 멀티모달 스트림 관리기(12) 및 멀티모달 처리기(13)를 구비한다.
먼저, 멀티모달 입출력 장치(11)는 일반 사용자에게 친숙한 보통의 장치로서, 입력장치인 전자펜(111)과 마이크(112), 출력장치인 모니터/스피커(113)로 구성된다.
멀티모달 스트림 관리기(12)는 펜 입력 데이터 처리기(121)와, 음성 입력 데이터 처리기(122)와, 타이머(123)와, 멀티모달 인식 결과 합성기(124) 및 멀티모달 인식 결과 실행기(125)로 구성된다.
여기서, 펜 입력 데이터 처리기(121)는 전자 펜(111)으로부터 데이터를 입력받아 펜 입력 시작 시점을 등록하고, 타이머(123)를 셋팅한다.
이때, 세팅된 타이머(123)는 펜 입력 데이터 처리기(121)가 전자펜(111)으로부터 데이터를 입력받을 때마다 재세팅되며, 세팅된 타이머(123)가 타임 아웃되면 펜 입력 종료로 인식하여 펜 입력 시간 및 종료 시간을 추가하고, 펜 입력 데이터를 분석한 후 분석 결과에 따라 제스처 인식기(131)나 문자 인식기(132)로 전송한다.
음성 입력 데이터 처리기(122)는 마이크(112) 입력을 분석하여 임계치 이상의 입력이 일정시간 이상 들어오면 음성입력 시작으로 인식하여 입력 시작 시간을 등록하여 음성 데이터를 수집하고, 임계치 이하의 음성 입력이 일정시간 이상 들어오면 입력 종료로 판단하여 음성 입력 종료 시간을 추가한 후 수집된 음성 데이터와 함께 음성 인식기(133)에 인식을 요구한다. 여기서, 타이머(123)는 펜 및 음성의 입력의 시작이나 종료 시점을 인식하기 위하여 사용된다.
멀티모달 인식 결과 합성기(124)는 펜 및 음성 데이터의 인식 결과와 입력 시간정보를 활용하여 다수개로 이루어진 명령어를 합성함으로써, 복잡한 명령을 가능하도록 하며, 이전 명령나 다음 명령어의 유추 및 분석이 가능하게 하여 오인식을 보정한다. 여기서, 오인식을 보정하는 방법으로는 자주 일어나는 오류 패턴이 있으므로 오류 통계 정보를 활용하여 보정하도록 한다.
멀티모달 인식결과 실행기(125)는 멀티모달 인식결과 합성기(124)에서 만들어진 최종 처리결과에 따라 응용 프로그램에서 필요한 실질적인 동작을 처리하도록하며, 문장으로된 처리결과를 음성으로 들려줄 경우 음성합성기(135)를 통하여 문자를 음성 데이터로 변환한 후 스피커(113)로 출력한다.
이와 같이, 멀티모달 스트림 관리기(12)는 멀티모달 입출력 장치(11)와 멀티모달 처리기 (13)사이의 모든 데이터의 흐름을 통제하고, 각 모듈의 실행 결과나 요구 사항을 분석하여 각 단계에 따라 적절한 기능을 수행한다.
즉, 지도 어플리케이션에서 하기와 같은 입력과 결과를 얻었을 경우를 가정해보면 다음의 처리 과정과 같다.
펜 입력 : " V " " V "
음성 입력 : 여기서부터 여기까지의 거리가 얼마지
처리 결과 : 거리는 100 Km 입니다
상기와 같이, 펜 및 음성 입력은 좌측에서부터의 거리를 시간 함수로 가정한다. 즉, 펜으로 제스쳐 "V"를 입력하고, 음성으로 "여기서부터"를 입력하며(일정시간 지나서 음성 인식기에서 인식을 처리한 것으로 가정하고), 다시 "여기까지의 거리가 얼마지"라는 음성입력과 음성입력 도중 펜 입력으로 제스쳐 "V"를 입력하는 경우이다. 최종 처리결과 "거리는 100Km 입니다"이며, 음성으로 나타내고자 하는 경우이다. 제스처 "V"는 아래 꼭지점을 포인트로 나타내는 제스처로 가정한다.
펜 데이터 "V"가 들어오면 펜 입력 데이터 처리기(121)에서 입력 시간을 등록하고, 타이머를 세팅한다. 또한, 펜 입력 데이터를 수집하며, 펜 입력시 타이머를 재설정한다. 제스쳐 입력이 완료되어 일정 시간 이상 펜 입력이 들어오지 않으면, 타이머가 타임 아웃되어 펜 입력이 종료 되었음을 알리고, 종료시간(타임아웃 시간 제외)을 등록한다.
수집된 펜 입력 데이터 처리기(121)에서 수집된 데이터를 분석한 결과, 입력 스트로크가 1개로 판명되면, 수집된 데이터와 입력 시간정보(시작 및 종료 시간)와 함께 제스쳐 인식기(131)로 인식을 요구한다. 제스쳐 인식기(131)는 펜 입력 데이터 처리기(121)로부터 받은 시간정보와 제스쳐 명령 및 포인트 정보를 멀티모달 인식 결과 합성기(124)에 송신한다.
한편, 마이크(112)를 통해 전달되는 "여기에서부터"라는 음성입력이 일정 시간 임계치 이상이 되면 음성 입력으로 판단하여 입력 시간을 등록하고, 타이머(123)를 셋팅하며, 음성 데이터를 수집한다. 음성 데이터의 크기를 계속 체크하며, 일정 시간 이상 임계치 이하의 음성 데이터가 들어오면 타이머(123)가 타임아웃되어 음성 입력 종료로 인식하고, 입력 시작 및 종료 시간 정보와 수집된 음성 데이터를 음성 인식기로 인식을 요청한다.
음성 인식기(133)는 인식결과와 입력 시간정보를 멀티모달 인식 결과 합성기(124)에 송신한다. 다음의 펜 입력 "V"와 음성입력 "여기까지의 거리가 얼마지"는 같은 방법으로 처리된다.
멀티모달 인식결과 합성기(124)에서의 처리과정은, 먼저 첫번째 제스쳐 "V"에 대하여 분석한다. "V"는 단독으로 처리되지 않으므로 다음 명령을 기다린다. 멀티모달 인식 결과 합성기(124)에서는 음성 인식기(133)의 처리결과인 "여기에서부터"의 의미를 정확히 알기 어려우므로 자연어 처리기(134)에 송신하여 처리결과를정확한 명령어로 받아 분석하고, 펜 입력의 시간정보와 음성 입력시간이 임계치 내에 있으므로 하나의 명령으로 조합하며, 조합된 명령어는 아직 완전한 명령이 아니므로 다음 명령을 기다린다. 다음으로 제스쳐 "V"와 음성입력 "여기까지의 거리가 얼마지"라는 인식결과를 받으면 완전한 입력명령으로 판단하고, 조합된 명령어를 멀티모달 인식결과 실행기에서 바로 처리될 수 있도록 정확한 명령어로 합성하여 보낸다. 멀티모달 인식결과 합성기(124)는 명령어로 이루어지지만 의미상으로 나타내면, "(X1, Y1)에서부터, (X2, Y2)의 거리까지는 얼마지"라는 명령어로 합성되며,(X1, Y1)은 윈도우상의 좌표를 나타낸다. 멀티모달 인식결과 실행기(125)는 화면상의 포인트(X, Y) 정보를 지도 좌표로 변환하고, 지도상의 거리를 계산하여 처리한 결과로서 "거리는 100 Km 입니다"를 얻었으며, 이를 음성 합성기(135)로 합성한 후 합성된 데이터를 스피커(113)로 출력한다.
한편, 멀티모달 처리기(13)는 펜 입력 데이터에 대한 제스쳐를 인식하기 위한 제스쳐 인식기(131)와, 펜 데이터를 인식하기 위한 문자 인식기(132)와, 음성 입력 데이터를 인식하기 위한 음성 인식기(133)와, 음성 인식 결과를 명령어로 변환하기 위한 자연어 처리기(134) 및 문자로 처리된 결과를 음성으로 들려주기 위한 음성 합성기(135)로 구성된다.
도 2 는 본 발명에 따른 멀티모달 인터페이스 처리 방법중 펜 인식의 처리 과정에 대한 일실시예 흐름도이다.
도 2에 도시된 바와 같이, 먼저 펜 데이터를 입력하도록 요구하면(201), 펜 데이터에 대한 입력 시작 시간을 등록하고(202), 펜 데이터가 입력되었는지를 확인한다(203).
확인결과, 펜 데이터가 입력되었으면 데이터를 수집하고(204), 타이머를 설정한 후(205) 타임 아웃인지를 확인하고(206), 펜 데이터가 입력되지 않았으면 바로 타임 아웃인지를 확인한다(206).
확인결과, 타임 아웃이 아니면 펜 데이터가 입력되었는지를 확인하는 과정(203)부터 반복 수행하고, 타임 아웃이면 펜 입력 종료로 인식하고 펜 입력 데이터 분석 및 시간 정보를 추가하며 펜 입력 데이터를 분석하여(207) 입력 스트로크의 수가 1개 미만인지를 판단한다(208).
판단결과, 입력 스트로크 수가 1개 미만이면 제스쳐 인식기를 요구하여(209), 제스쳐 인식이 성공인지를 확인하고(210), 입력 스트로크 수가 1 개 이상이면 바로 문자 인식기로 인식을 요구한다(211).
여기서, 제스쳐 인식이 성공인지를 확인한 결과(210), 제스쳐 인식에 실패하였으면 문자인식기를 인식한 후(211), 문자 인식에 성공하였는지를 확인하고(212), 제스쳐 인식에 성공하였으면 펜 데이터에 대한 인식 결과를 합성하도록 요구한다(213).
이때, 문자 인식에 성공하였는지를 확인한 결과(212), 문자 인식에 성공하였으면 펜 데이터{처}에 대한 인식 결과를 합성하도록 요구하고(213), 문자 인식에 실패하였으면 시스템을 종료한다.
도 3 은 본 발명에 따른 멀티모달 인터페이스 처리 방법중 음성 입력 데이터의 처리 과정에 대한 일실시예 흐름도이다.
도 3에 도시된 바와 같이, 먼저 음성 입력을 분석하여 일정 시간동안 임계치 이상의 음성 입력이 들어오면 인식 요구로 인식하고(301), 음성 입력 시작 시간을 등록하며(302), 음성 입력이 들어오는지를 판단한다(303).
판단결과, 음성 입력이 들어오면 데이터를 수집하며(304) 타이머를 설정하고(305), 일정시간 음성 입력이 들어오지 않으면, 바로 타임 아웃 상태인지를 확인한다(306).
확인결과, 타임 아웃 상태이면 음성입력 종료로 인식하여 음성입력 시간정보를 추가하여(307) 수집된 데이터를 음성 인식기에 인식하도록 요구한다(308). 이어서, 음성인식 결과를 멀티모달 인식결과 합성기에서 받아 다시 자연어 처리기에 자연어 처리를 요구하여 해당 명령으로 변환한 후(309), 음성입력 처리 결과를 합성하도록 요구한다(310).
확인결과, 타임 아웃 상태가 아니면 음성 입력이 들어오는지를 확인하는 과정(303)부터 반복 수행한다.
도 4 는 본 발명에 따른 멀티모달 인터페이스 처리 방법중 명령어 합성 및 합성 명령 처리 과정에 대한 일실시예 흐름도이다.
도 4에 도시된 바와 같이, 먼저 음성, 제스쳐 및 문자 인식기나 자연어 처리기로부터 인식결과 합성 요구를 수신하면(401), 요구 데이터로부터 인식 결과를 분석한다(402).
이어서, 이전 수신 명령이 있으면 시간정보를 분석하며(403), 수신 명령의 입력 시작/종료 시간과 이전에 수신된 명령의 시작/종료 시간을 비교하여 수신 명령에서 허용하는 시간 범위내에 있으면 앞의 명령과 결합하여 한 개의 조합 명령어를 만들어 낸다(404).
조합 명령어가 완전한 명령어인지를 확인하여(405), 완전한 명령어이면 바로 명령어를 합성(408)하는 과정으로 넘어가고, 완전한 명령어가 아니면 명령어를 분석하여 인식의 오류를 보정한 후(406), 명령어를 종료할 것인지 판단한다(407).
판단결과, 명령어를 종료하면 멀티모달 인식결과 실행기에서 바로 사용될 수 있는 명령어를 합성하며(408), 멀티모달 인식결과 실행기에서 단계적으로 분석하여합성 명령어를 실행하고(409), 명령어를 종료하지 않으면 인식결과 합성 요구를 수신하는 과정(401)부터 반복 수행한다.
이상에서 설명한 본 발명은 전술한 실시예 및 첨부된 도면에 의해 한정되는 것이 아니고, 본 발명의 기술적 사상을 벗어나지 않는 범위 내에서 여러 가지 치환, 변형 및 변경이 가능하다는 것이 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자에게 있어 명백할 것이다.
상기한 바와 같은 본 발명은, 펜 및 음성 입력을 개별 인식기와 시간정보를 이용함으로써, 명령을 복합적으로 처리할 수 있고 복잡한 명령을 용이하게 처리할 수 있으며 인식기의 오류도 보완함으로써, 보다 정확한 인식 결과 및 편리한 사용자 인터페이스를 추구할 수 있는 효과가 있다.
또한, 본 발명은 멀티모달 처리기를 분리함으로써, 멀티모달 처리시 주요 기능을 서버 시스템에서 처리할 수 있고, 처리결과를 입력 시간정보를 이용하여 합성할 수 있으므로 분산 처리할 수 있는 효과가 있다.

Claims (9)

  1. 멀티모달 인터페이스 처리 장치에 있어서,
    멀티모달 데이터를 입력하고, 멀티모달 인식결과를 출력하기 위한 멀티모달 입출력 수단;
    상기 멀티모달 입력 수단으로부터 전달된 펜 및 음성 입력 데이터의 입력 시점을 등록하여 타이머를 셋팅하고, 펜 및 음성 입력 데이터의 인식결과를 합성하여 멀티모달 인식결과를 실행하기 위한 멀티모달 스트림 관리수단; 및
    상기 멀티모달 스트림 관리수단으로부터 전달된 상기 펜 및 음성 입력 데이터를 인식하고, 음성인식 결과를 명령어로 변환하며, 문자로 처리된 결과를 음성으로 합성하여 멀티모달 인터페이스를 처리하기 위한 멀티모달 처리수단
    을 포함하는 멀티모달 인터페이스 처리 장치.
  2. 제 1 항에 있어서,
    상기 멀티모달 스트림 관리수단은,
    상기 멀티모달 입력수단으로부터 펜 입력 데이터를 입력받아 펜 입력 시작 시점을 등록하여 데이터를 처리하기 위한 펜 입력 데이터 처리수단;
    상기 멀티모달 입력수단으로부터 음성 데이터를 입력받아 음성 입력 데이터를 처리하기 위한 음성 입력 데이터 처리수단;
    상기 펜 및 음성 입력 데이터를 입력받을 때마다 셋팅되며, 셋팅된 타이머가 타임 아웃될 때 펜 입력 종료로 인식하여 펜 입력 시간 및 종료 시간을 추가하고, 펜 입력 데이터를 분석한 후 분석 결과로 제스처 및 문자를 인식하는 타이밍수단;
    상기 타이밍수단으로부터의 인식 결과에 따라 입력 시간 정보를 이용하여 펜 및 음성의 인식 결과를 합성하기 위한 인식 결과 합성수단; 및
    상기 인식 결과 합성수단으로부터 전달된 최종 결과에 따라 문장으로 처리된 문자를 음성데이터로 변환하여 변환된 결과를 실행하기 위한 인식 결과 실행수단
    을 포함하는 멀티모달 인터페이스 처리 장치.
  3. 제 2 항에 있어서,
    상기 멀티모달 처리수단은,
    상기 펜 입력 데이터 처리수단으로부터의 펜 입력 데이터에 대한 제스쳐를 인식하기 위한 제스쳐 인식수단;
    상기 펜 입력 데이터 처리수단으로부터의 문자 데이터를 인식하기 위한 문자 인식수단;
    상기 음성 입력 데이터 처리수단으로부터의 음성 입력 데이터를 인식하기 위한 음성 인식수단;
    상기 음성 인식수단을 통해 전달된 음성 인식 결과를 자연어로 변환하기 위한 자연어 변환수단; 및
    상기 문자로 처리된 결과를 음성으로 합성하기 위한 음성 합성수단
    을 포함하는 멀티모달 인터페이스 처리 장치.
  4. 멀티모달 인터페이스 처리 장치에 적용되는 인터페이스 처리 방법에 있어서,
    멀티모달 입력수단으로부터 펜 입력 데이터를 입력받아 펜 입력 시작 시점을 등록하고, 타이머를 셋팅하여 펜 입력 데이터에 대한 인식결과를 합성하도록 요구하는 제 1 단계;
    상기 멀티모달 입력수단으로부터 음성 데이터를 입력받아 음성 입력 여부에 따라 타이머를 셋팅하고, 시간 정보를 추가하여 음성 입력 결과를 합성하도록 요구하는 제 2 단계; 및
    상기 입력 결과에 대한 합성 요구에 따라 명령어를 합성하여 합성 명령어를 처리하는 제 3 단계
    를 포함하는 멀티모달 인터페이스 처리 방법.
  5. 제 4 항에 있어서,
    상기 타이머는,
    상기 펜 입력 데이터를 입력받을 때마다 셋팅되며, 셋팅된 타이머가 타임 아웃될 때 펜 입력 종료로 인식하여 펜 입력 시간 및 종료 시간을 추가하고, 펜 입력데이터를 분석한 후, 분석 결과로 제스처 및 문자를 인식하는 것을 특징으로 하는 멀티모달 인터페이스 처리 방법.
  6. 제 4 항에 있어서,
    상기 제 1 단계는,
    멀티모달 입력수단으로부터 펜 데이터를 입력받아 펜 데이터에 대한 입력 시작 시간을 등록하고, 펜 데이터가 입력되었는지를 확인하는 제 4 단계;
    상기 데이터의 입력 여부에 따라, 데이터를 수집하여 타이머를 설정한 후 타임 아웃인지를 확인하는 제 5 단계;
    상기 제 5 단계의 확인결과, 타임 아웃이 아니면 상기 제 4 단계의 펜 데이터가 입력되었는지를 확인하는 과정으로 넘어가고, 타임 아웃이면 펜 입력 데이터 분석 및 시간 정보를 추가하여 펜 입력 데이터를 분석하는 제 6 단계;
    상기 분석한 결과에 따라 입력 스트로크의 수가 소정의 수 미만인지를 판단하는 제 7 단계;
    상기 제 7 단계의 판단결과, 입력 스트로크 수가 소정의 수 미만이면 제스쳐를 인식하도록 요구하여 제스쳐 인식이 성공인지를 확인하여 실패이면 바로 문자를 인식하여 펜 데이터에 대한 인식 결과 합성을 요구하고, 성공이면 바로 펜 데이터에 대한 인식 결과 합성을 요구하는 제 8 단계; 및
    상기 제 7 단계의 판단결과, 입력 소정 수 이상이면 문자를 인식하여 펜 데이터에 대한 인식 결과를 합성하도록 요구하는 제 9 단계
    를 포함하는 멀티모달 인터페이스 처리 방법.
  7. 제 4 항 내지 제 6 항중 어느 한 항에 있어서,
    상기 제 2 단계는,
    상기 멀티모달 입력수단으로부터 음성 데이터를 입력받아 음성 입력 시작 시간을 등록하여 음성 입력이 들어오는지를 판단하는 제 10 단계;
    상기 제 10 단계의 판단결과, 음성 입력이 들어오면 데이터를 수집하여 타이머를 설정하여 타임 아웃 상태인지를 확인하고, 일정시간 음성 입력이 들어오지 않으면 바로 타임 아웃 상태인지를 확인하는 제 11 단계; 및
    상기 제 11 단계의 확인결과, 타임 아웃이 아니면 상기 제 10 단계의 판단 과정으로 넘어가고, 타임 아웃 상태이면 음성입력 시간정보를 추가하여 수집된 음성 데이터를 인식하고, 음성인식 결과를 자연어 처리하여 합성하도록 요구하는 제 12 단계
    를 포함하는 멀티모달 인터페이스 처리 방법.
  8. 제 7 항에 있어서,
    상기 제 3 단계는,
    음성, 제스쳐 및 문자 인식기나 자연어 처리기로부터 인식결과 합성 요구를 수신하여 요구 데이터로부터 인식 결과를 분석하는 제 13 단계;
    이전 수신 명령에 따라 시간정보를 분석하며, 수신 명령의 입력 시작/종료 시간과 이전에 수신된 명령의 시작/종료 시간을 비교하여 수신 명령에서 허용하는 시간 범위내에 있으면 앞의 명령과 결합하여 한 개의 명령어를 조합하는 제 14 단계;
    상기 조합된 명령어가 완전한 명령어인지를 확인하는 제 15 단계;
    상기 제 15 단계의 확인결과, 완전한 명령어이면 명령어를 합성하여 합성된 명령어를 실행하고, 완전한 명령어가 아니면 오류를 보정한 후 명령어를 종료할지를 판단하는 제 16 단계; 및
    상기 제 16 단계의 판단결과, 명령어를 종료하지 않으면 상기 제 13 단계로 넘어가고, 명령어를 종료하면 멀티모달 인식결과 실행기에서 바로 사용될 수 있는 명령어를 합성하여 멀티모달 인식결과에 따라 단계적으로 분석하여 합성 명령어를 실행하는 제 17 단계
    를 포함하는 멀티모달 인터페이스 처리 방법.
  9. 프로세서를 구비한 멀티모달 인터페이스 처리 장치에,
    멀티모달 입력수단으로부터 펜 입력 데이터를 입력받아 펜 입력 시작 시점을 등록하고, 타이머를 셋팅하여 펜 입력 데이터에 대한 인식결과를 합성하도록 요구하는 제 1 기능;
    상기 멀티모달 입력수단으로부터 음성 데이터를 입력받아 음성 입력 여부에 따라 타이머를 셋팅하고, 시간 정보를 추가하여 음성 입력 결과를 합성하도록 요구하는 제 2 기능; 및
    상기 입력 결과에 대한 합성 요구에 따라 명령어를 합성하여 합성 명령어를 처리하는 제 3 기능
    을 실현시키기 위한 프로그램을 기록한 컴퓨터로 읽을 수 있는 기록매체.
KR1020000002707A 2000-01-20 2000-01-20 멀티모달 인터페이스 처리 장치 및 그 방법 KR100576553B1 (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020000002707A KR100576553B1 (ko) 2000-01-20 2000-01-20 멀티모달 인터페이스 처리 장치 및 그 방법

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020000002707A KR100576553B1 (ko) 2000-01-20 2000-01-20 멀티모달 인터페이스 처리 장치 및 그 방법

Publications (2)

Publication Number Publication Date
KR20010075838A true KR20010075838A (ko) 2001-08-11
KR100576553B1 KR100576553B1 (ko) 2006-05-03

Family

ID=19640099

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020000002707A KR100576553B1 (ko) 2000-01-20 2000-01-20 멀티모달 인터페이스 처리 장치 및 그 방법

Country Status (1)

Country Link
KR (1) KR100576553B1 (ko)

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2006070074A1 (en) * 2004-12-30 2006-07-06 Nokia Corporation Multimodal interaction
KR100611680B1 (ko) * 2005-06-28 2006-08-14 한국과학기술연구원 멀티모달 인터랙션 기반 원격미팅 시스템
KR100651729B1 (ko) * 2003-11-14 2006-12-06 한국전자통신연구원 홈네트워크 환경에서의 멀티-모달 상황 인식어플리케이션을 위한 시스템 및 방법
KR100777569B1 (ko) * 2006-09-20 2007-11-20 주식회사 케이티 멀티모달을 이용한 음성 인식 방법 및 그 장치
WO2008069519A1 (en) * 2006-12-04 2008-06-12 Electronics And Telecommunications Research Institute Gesture/speech integrated recognition system and method
WO2010147600A2 (en) * 2009-06-19 2010-12-23 Hewlett-Packard Development Company, L, P. Qualified command
KR101469286B1 (ko) * 2008-12-22 2014-12-04 주식회사 케이티 멀티모달 메시징 서비스 방법
US9443510B2 (en) 2012-07-09 2016-09-13 Lg Electronics Inc. Speech recognition apparatus and method
US10446154B2 (en) 2015-09-09 2019-10-15 Samsung Electronics Co., Ltd. Collaborative recognition apparatus and method

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3375449B2 (ja) * 1995-02-27 2003-02-10 シャープ株式会社 統合認識対話装置
JPH0981364A (ja) * 1995-09-08 1997-03-28 Nippon Telegr & Teleph Corp <Ntt> マルチモーダル情報入力方法及び装置
JPH09251368A (ja) * 1996-03-18 1997-09-22 Hitachi Ltd 知的エージェントの構築支援システム
JPH1091309A (ja) * 1996-09-12 1998-04-10 Toshiba Corp 情報入出力装置及び情報入出力方法
KR100355453B1 (ko) * 1999-08-20 2002-10-11 한국전자통신연구원 동시에 병렬적으로 문자인식 및 음성인식을 사용한 컴퓨터 사용자 인터페이스 방법

Cited By (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100651729B1 (ko) * 2003-11-14 2006-12-06 한국전자통신연구원 홈네트워크 환경에서의 멀티-모달 상황 인식어플리케이션을 위한 시스템 및 방법
WO2006070074A1 (en) * 2004-12-30 2006-07-06 Nokia Corporation Multimodal interaction
KR100611680B1 (ko) * 2005-06-28 2006-08-14 한국과학기술연구원 멀티모달 인터랙션 기반 원격미팅 시스템
KR100777569B1 (ko) * 2006-09-20 2007-11-20 주식회사 케이티 멀티모달을 이용한 음성 인식 방법 및 그 장치
WO2008069519A1 (en) * 2006-12-04 2008-06-12 Electronics And Telecommunications Research Institute Gesture/speech integrated recognition system and method
KR101469286B1 (ko) * 2008-12-22 2014-12-04 주식회사 케이티 멀티모달 메시징 서비스 방법
WO2010147600A2 (en) * 2009-06-19 2010-12-23 Hewlett-Packard Development Company, L, P. Qualified command
WO2010147600A3 (en) * 2009-06-19 2011-11-17 Hewlett-Packard Development Company, L, P. Qualified command
US9594431B2 (en) 2009-06-19 2017-03-14 Hewlett-Packard Development Company, L.P. Qualified command
US9443510B2 (en) 2012-07-09 2016-09-13 Lg Electronics Inc. Speech recognition apparatus and method
US10446154B2 (en) 2015-09-09 2019-10-15 Samsung Electronics Co., Ltd. Collaborative recognition apparatus and method

Also Published As

Publication number Publication date
KR100576553B1 (ko) 2006-05-03

Similar Documents

Publication Publication Date Title
JP6837298B2 (ja) 音響点数を計算する装置及び方法、音声を認識する装置及び方法並びに電子装置
US7299187B2 (en) Voice command processing system and computer therefor, and voice command processing method
US20060123358A1 (en) Method and system for generating input grammars for multi-modal dialog systems
US5884249A (en) Input device, inputting method, information processing system, and input information managing method
CN107657950B (zh) 基于云端和多命令词的汽车语音控制方法、系统及装置
CN109686361B (zh) 一种语音合成的方法、装置、计算设备及计算机存储介质
CN111402861B (zh) 一种语音识别方法、装置、设备及存储介质
WO2020228175A1 (zh) 多音字预测方法、装置、设备及计算机可读存储介质
JP2002116796A (ja) 音声処理装置、音声処理方法及び記憶媒体
CN108509416B (zh) 句意识别方法及装置、设备和存储介质
JP2015532447A (ja) テキストを修正するための方法、システム、およびコンピュータ・プログラム
CN102687197A (zh) 识别词典制作装置、声音识别装置及声音合成装置
Kumaran et al. Intelligent personal assistant-implementing voice commands enabling speech recognition
KR100576553B1 (ko) 멀티모달 인터페이스 처리 장치 및 그 방법
CN110992955A (zh) 一种智能设备的语音操作方法、装置、设备及存储介质
JPH07222248A (ja) 携帯型情報端末における音声情報の利用方式
JP6778811B2 (ja) 音声認識方法及び装置
CN104679733B (zh) 一种语音对话翻译方法、装置及系统
JP2008145769A (ja) 対話シナリオ生成システム,その方法およびプログラム
JP2002116797A (ja) 音声処理装置、音声処理方法及び記憶媒体
US20050288933A1 (en) Information input method and apparatus
JP2993872B2 (ja) マルチモーダル情報統合解析装置
CN116361316A (zh) 一种语义引擎适配方法、装置、设备及存储介质
JP4749437B2 (ja) 音声文字変換装置、音声文字変換方法及び音声文字変換プログラム
CN109036379B (zh) 语音识别方法、设备及存储介质

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant
FPAY Annual fee payment

Payment date: 20110411

Year of fee payment: 6

LAPS Lapse due to unpaid annual fee