KR20090000858A

KR20090000858A - 멀티모달 기반의 정보 검색 장치 및 방법

Info

Publication number: KR20090000858A
Application number: KR1020070064728A
Authority: KR
Inventors: 박성찬
Original assignee: 주식회사 케이티
Priority date: 2007-06-28
Filing date: 2007-06-28
Publication date: 2009-01-08
Also published as: KR100910302B1

Abstract

1. 청구범위에 기재된 발명이 속한 기술분야

본 발명은 멀티모달 기반의 정보 검색 장치 및 방법과, 상기 방법들을 실현시키기 위한 프로그램을 기록한 컴퓨터로 읽을 수 있는 기록매체에 관한 것임.

2. 발명이 해결하려고 하는 기술적 과제

본 발명은 명칭을 포함한 정보 검색 시, 한글의 첫 자음 또는 모음 요소, 영어 알파벳 등의 문자 또는 숫자와 음성 인식을 병행함으로써, 범주 군(群)의 어휘 목록을 줄이고 검색 속도를 높여 사용자가 검색하고자 하는 어휘를 보다 빠르고 정확하게 제공하기 위한, 멀티모달 기반의 정보 검색 장치 및 방법과, 상기 방법들을 실현시키기 위한 프로그램을 기록한 컴퓨터로 읽을 수 있는 기록매체를 제공하는데 그 목적이 있음.

3. 발명의 해결방법의 요지

본 발명은, 다단계 정보 검색 장치에 있어서, 검색될 수 있는 전체 어휘(이하, '인식 대상 어휘'라 함)에 대한 상태 모델(FSA 모델)을 저장하고 있는 모델 저장 수단; 사용자로부터 키 입력 값 및 음성 신호를 입력 받기 위한 입력 수단; 일 정보 검색 과정에서, 상기 입력 수단을 통해 입력된 적어도 하나의 키 입력 값을 복수의 문자를 대표하는 대표문자의 순열로 인식하고, 인식된 대표문자의 순열에 대응되는 어휘(이하, '가변 어휘'라 함)를 상기 상태 모델을 이용하여 검색하여 제공하기 위한 문자 처리 수단; 및 상기 일 정보 검색 결과를 바탕으로 한 타 정보 검색 과정에서, 상기 입력 수단을 통해 입력된 음성 신호를 인식하여 인식된 음성 신호에 대응되는 어휘를 상기 문자 처리 수단에 의해 검색된 어휘의 목록에서 검색하여 제공하기 위한 음성 인식 수단을 포함함.

4. 발명의 중요한 용도

본 발명은 다단계 정보 검색 등에 이용됨.

단말 입력, 멀티모달, 문자 인식, 음성 인식, FSA

Description

멀티모달 기반의 정보 검색 장치 및 방법{Apparatus and method for searching information based on multimodal}

도 1 은 본 발명에 이용되는 정보 입력 수단을 나타내는 일실시예 설명도,

도 2 는 본 발명에 따른 멀티모달 기반의 정보 검색 장치의 일실시예 구성도,

도 3 은 본 발명에 따른 멀티모달 기반의 정보 검색 방법에 대한 일실시예 흐름도,

도 4 는 본 발명에 따른 정보 검색에 대한 FSA 모델의 상태와 전이를 나타내는 일실시예 상태 다이어그램,

도 5 는 본 발명에 따른 정보 검색에 대한 FSA 모델의 상태와 전이를 나타내는 일실시예 표현식,

도 6 은 본 발명에 따른 정보 검색에 대한 FSA 모델의 상태와 전이를 나타내는 다른 일실시예 상태 다이어그램,

도 7 은 본 발명에 따른 정보 검색에 대한 FSA 모델의 상태와 전이를 나타내는 다른 일실시예 표현식,

도 8a 및 도 8b 는 본 발명에 따라 출력된 가변 어휘 목록과 대응하는 숫자 열을 나타내는 일예시도이다.

* 도면의 주요 부분에 대한 부호 설명

10: 정보 검색 장치 20: 정보 입력 수단

30: 마이크 11: 모델 저장부

12: 문자 처리부 13: 음성 인식부

본 발명은 멀티모달 기반의 정보 검색 장치 및 방법에 관한 것으로, 더욱 상세하게는 명칭을 포함한 정보 검색 시, 한글의 첫 자음 또는 모음 요소, 영어 알파벳 등의 문자 또는 숫자와 음성 인식을 병행함으로써, 범주 군(群)의 어휘 목록을 줄이고 검색 속도를 높여 사용자가 검색하고자 하는 어휘를 보다 빠르고 정확하게 제공할 수 있는, 멀티모달 기반의 정보 검색 장치 및 방법과, 상기 방법들을 실현시키기 위한 프로그램을 기록한 컴퓨터로 읽을 수 있는 기록매체에 관한 것이다.

멀티모달(Multimodal)은 보완 관계에 있는 두 가지(키패드, 음성) 이상의 입출력 방식을 사용하여 사용자와 기계 사이의 인터페이스를 지원하는 의미로서 특히, 소형 단말기와 같이 키보드가 작고 제약이 따르는 이동 환경에서는 매우 효과적이다.

키패드의 경우에는 정확한 명칭 입력은 가능하지만 한글 초, 중, 종성의 결합 입력이 수월하지 않고, 길이에 따라 키 입력 횟수가 크게 증가하는 문제점이 있다.

한편, 음성인식의 경우 소용량 어휘를 대상으로 할 시에는 인식률과 처리 속도가 우수하지만, 어휘 수가 증가하면서 인식률과 처리 속도가 현저히 악화 된다는 문제점이 있다.

상기 키패드 입력의 문제점을 해결하기 위한 종래 기술로는 "한글 인명의 초성자음을 검색어로 하는 한글 데이터베이스를 운용하는 시스템의 인명 데이터 제어방법(한국공개특허 2001-0004811호, 2001. 01. 15 공개)"이 있다.

하지만, 상기 키패드 입력의 문제점을 해결하기 위한 종래 기술은 중복되는 항목이 지나치게 증가하여 어휘 목록을 사용자가 선택할 수 있는 항목의 크기로 축소하는데 한계가 있는 문제점이 있다.

그리고, 상기 음성인식의 문제점을 해결하기 위한 종래 기술로는 "단어의 첫 자음 발성을 이용한 음성인식 방법 및 이를 저장한 기록 매체(한국공개특허 2005-051317호, 2005. 03. 10 공개)"가 있다.

하지만, 상기 음성인식의 문제점을 해결하기 위한 종래 기술은 첫 자음이 음성으로 인식되기 때문에 정확도가 떨어질 수 있는 문제점이 있다.

본 발명은 상기 문제점을 해결하기 위하여 제안된 것으로, 명칭을 포함한 정 보 검색 시, 한글의 첫 자음 또는 모음 요소, 영어 알파벳 등의 문자 또는 숫자와 음성 인식을 병행함으로써, 범주 군(群)의 어휘 목록을 줄이고 검색 속도를 높여 사용자가 검색하고자 하는 어휘를 보다 빠르고 정확하게 제공하기 위한, 멀티모달 기반의 정보 검색 장치 및 방법과, 상기 방법들을 실현시키기 위한 프로그램을 기록한 컴퓨터로 읽을 수 있는 기록매체를 제공하는데 그 목적이 있다.

본 발명의 다른 목적 및 장점들은 하기의 설명에 의해서 이해될 수 있으며, 본 발명의 실시예에 의해 보다 분명하게 알게 될 것이다. 또한, 본 발명의 목적 및 장점들은 특허청구범위에 나타낸 수단 및 그 조합에 의해 실현될 수 있음을 쉽게 알 수 있을 것이다.

상기 목적을 달성하기 위한 본 발명은, 다단계 정보 검색 장치에 있어서, 검색될 수 있는 전체 어휘(이하, '인식 대상 어휘'라 함)에 대한 상태 모델(FSA 모델)을 저장하고 있는 모델 저장 수단; 사용자로부터 키 입력 값 및 음성 신호를 입력 받기 위한 입력 수단; 일 정보 검색 과정에서, 상기 입력 수단을 통해 입력된 적어도 하나의 키 입력 값을 복수의 문자를 대표하는 대표문자의 순열로 인식하고, 인식된 대표문자의 순열에 대응되는 어휘(이하, '가변 어휘'라 함)를 상기 상태 모델을 이용하여 검색하여 제공하기 위한 문자 처리 수단; 및 상기 일 정보 검색 결과를 바탕으로 한 타 정보 검색 과정에서, 상기 입력 수단을 통해 입력된 음성 신호를 인식하여 인식된 음성 신호에 대응되는 어휘를 상기 문자 처리 수단에 의해 검색된 어휘의 목록에서 검색하여 제공하기 위한 음성 인식 수단을 포함한다.

한편, 본 발명은, 다단계 정보 검색 방법에 있어서, 일 정보 검색 과정에서, 사용자로부터 키 입력 값을 입력 받는 제1 입력 단계; 상기 제1 입력 단계에서 입력된 적어도 하나의 키 입력 값을 복수의 문자를 대표하는 대표문자의 순열로 인식하는 대표문자 인식 단계; 상기 인식된 대표문자의 순열에 대응되는 어휘(이하, '가변 어휘'라 함)를 미리 저장된 '사용자에 의해 검색될 수 있는 전체 어휘(이하, '인식 대상 어휘'라 함)에 대한 상태 모델(FSA 모델)'을 이용하여 검색하여 제공하는 문자 처리 단계; 상기 일 정보 검색 결과를 바탕으로 한 타 정보 검색 과정에서, 사용자로부터 음성 신호를 입력 받는 제2 입력 단계; 및 상기 제2 입력 단계에서 입력된 음성 신호를 인식하여 상기 인식된 음성 신호에 대응되는 어휘를 상기 문자 처리 단계에서 검색된 어휘의 목록에서 검색하여 제공하는 음성 인식 단계를 포함한다.

한편, 본 발명은, 정보를 검색하기 위한, 프로세서를 구비한 다단계 정보 검색 장치에 있어서, 검색될 수 있는 전체 어휘(이하, '인식 대상 어휘'라 함)에 대한 상태 모델(FSA 모델)을 저장하는 기능; 사용자로부터 키 입력 값 및 음성 신호를 입력 받는 기능; 일 정보 검색 과정에서, 상기 입력된 적어도 하나의 키 입력 값을 복수의 문자를 대표하는 대표문자의 순열로 인식하고, 상기 인식된 대표문자의 순열에 대응되는 어휘(이하, '가변 어휘'라 함)를 상기 저장된 상태 모델을 이용하여 검색하여 제공하는 기능; 및 상기 일 정보 검색 결과를 바탕으로 한 타 정보 검색 과정에서, 상기 입력된 음성 신호를 인식하여 인식된 음성 신호에 대응되 는 어휘를 상기 검색된 어휘의 목록에서 검색하여 제공하는 기능을 실현시키기 위한 프로그램을 기록한 컴퓨터로 읽을 수 있는 기록매체를 제공한다.

상술한 목적, 특징 및 장점은 첨부된 도면과 관련한 다음의 상세한 설명을 통하여 보다 분명해 질 것이며, 그에 따라 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자가 본 발명의 기술적 사상을 용이하게 실시할 수 있을 것이다. 또한, 본 발명을 설명함에 있어서 본 발명과 관련된 공지 기술에 대한 구체적인 설명이 본 발명의 요지를 불필요하게 흐릴 수 있다고 판단되는 경우에 그 상세한 설명을 생략하기로 한다. 이하, 첨부된 도면을 참조하여 본 발명에 따른 바람직한 일실시예를 상세히 설명하기로 한다.

도 1 은 본 발명에 이용되는 정보 입력 수단을 나타내는 일실시예 설명도로서, 현재 널리 사용되고 있는 천지인(天地人) 자판(Keypad)을 나타낸다.

도 1에 도시된 바와 같이, 본 발명에 이용되는 정보 입력 수단(이하, '천지인 자판'이라 함)은, 위 또는 아래 방향으로의 이동을 위한 업(Up), 다운(Down) 키(101)와, 사용자로부터 입력된 키 값을 바로 이전 단계로 전이하기 위한 취소버튼(102)과, 사용자의 키 입력을 초기화하기 위한 리셋 버튼(103)을 포함한다.

여기서, 각 한글 첫 자음과 모음 요소 및 영어 알파벳은 대표 숫자와 대응 관계에 놓여있다.

이에 대해 보다 상세하게 살펴보면, 하기의 [표 1]과 같이 한글의 첫 자음과 숫자와의 관계는 {(ㄱ, 4), (ㅋ, 4), (ㄲ, 4), (ㄴ, 5), (ㄹ, 5), (ㄷ, 6), (ㅌ, 6), (ㄸ, 6), (ㅂ, 7), (ㅍ, 7), (ㅃ, 7), (ㅅ, 8), (ㅎ, 8), (ㅆ, 8), (ㅈ, 9), (ㅊ, 9), (ㅉ, 9), (ㅇ 0), (ㅁ, 0)}와 같은 집합으로 대표될 수 있고, 한글의 모음 요소와 숫자와의 관계는 {(ㅣ, 1), (ㆍ, 2), (ㅡ, 3)}와 같은 집합으로 대표될 수 있으며, 영어 알파벳과 숫자와의 관계는 {(q, 1), (z, 1), (a, 2), (b, 2), (c, 2), (d, 3), (e, 3), (f, 3), (g, 4), (i, 4), (j, 5), (k, 5), (l, 5), (m, 6), (n, 6), (o, 6), (p, 7), (r, 7), (s, 7), (t, 8), (u, 8), (v, 8), (w, 9), (x, 9), (y, 9)}와 같은 집합으로 대표될 수 있다.

즉, 숫자 0에 대응되는 키 값(즉, 한글 음소)은 'ㅇ', 'ㅁ'이고, 숫자 1에 대응되는 키 값(즉, 한글 음소 및 영어 알파벳)은 'ㅣ', 'q', 'z'이며, 숫자 2에 대응되는 키 값(즉, 한글 음소 및 영어 알파벳)은 'ㆍ', 'a', 'b', 'c'이다.

또한, 숫자 3에 대응되는 키 값(즉, 한글 음소 및 영어 알파벳)은 'ㅡ', 'd', 'e', 'f'이고, 숫자 4에 대응되는 키 값(즉, 한글 음소 및 영어 알파벳)은 'ㄱ', 'ㅋ', 'ㄲ', 'g', 'h', 'i'이며, 숫자 5에 대응되는 키 값(즉, 한글 음소 및 영어 알파벳)은 'ㄴ', 'ㄹ', 'j', 'k', 'l'이다.

또한, 숫자 6에 대응되는 키 값(즉, 한글 음소 및 영어 알파벳)은 'ㄷ', 'ㅌ', 'ㄸ', 'm', 'n', 'o'이고, 숫자 7에 대응되는 키 값(즉, 한글 음소 및 영어 알파벳)은 'ㅂ', 'ㅍ', 'ㅃ', 'p', 'r', 's'이다.

또한, 숫자 8에 대응되는 키 값(즉, 한글 음소 및 영어 알파벳)은 'ㅅ', 'ㅎ', 'ㅆ', 't', 'u', 'v'이고, 숫자 9에 대응되는 키 값(즉, 한글 음소 및 영어 알파벳)은 'ㅈ', 'ㅊ', 'ㅉ', 'w', 'x', 'y'이다.

이러한 천지인 자판을 이용하는 정보 검색 장치는 상기 [표 1]과 같이 대응된 대표 숫자로 사용자의 입력 값(입력된 키 값)을 인식한다.

여기서, 사용자로부터 천지인 자판을 통해 숫자 88이 입력되었다면, 정보 검색 장치는 상기 입력된 숫자 88에 해당하는 어휘 목록을 하기의 [표 2]와 같이 출력한다.

하기의 [표 2]는 상기 [표 1]에 대응된 숫자 88에 해당하는 어휘군의 일예를 나타낸 것이다. 이때, 전체 인식 대상 어휘를 약 1,700개의 코스닥에 상장된 기업명(이하, '코스닥 기업명'이라 함)으로 가정하며, 상기 코스닥 기업명은 모두 한글로 이루어졌다고 가정한다.

여기서, 상기 [표 1]에 대응된 숫자 88에 대응되는 초성(자음)은 'ㅅㅅ', 'ㅅㅎ', 'ㅅㅆ', 'ㅎㅅ', 'ㅎㅎ', 'ㅎㅆ', 'ㅆㅅ', 'ㅆㅎ', 'ㅆㅆ'이기 때문에, 정보 검색 장치는 상기 88에 대응되는 초성(자음)으로 시작하는 코스닥 기업명 즉, '삼호', '새한', '서산', '서한', '세신', '세화', '신한', '신흥', '한샘', '한섬', '한스', '한화', '화성', '화신', '효성'을 출력한다.

상기와 같이, 천지인 자판으로 코스닥 기업명 목록에 대하여 키 입력 횟수를 조사해 본 결과, 초성만 입력하여 코스닥 기업명을 입력할 경우는 평균 4.45회로 초성, 중성, 종성을 모두 입력하여 코스닥 기업을 입력한 경우(평균 18.34회)보다 약 4.12배의 키 입력 횟수가 더 요구되었다. 상기 통계에 의하면 초성만을 입력했을 때 중복되는 항목은 최대 15개이나, 대부분 6 내지 7개 이하로 나타났다.

여기서, 상기 어휘 목록이 중복 항목 초과로 인해 한 화면에 모두 표시되지 않는 경우, 사용자는 정보 검색 장치에 모음을 추가로 입력하거나 또는, 음성을 입력하여 보다 정확한 엔베스트(n-best) 후보 목록을 획득할 수 있다. 이에 대한 설명은 도 4 및 도 6에서 보다 상세하게 살펴보기로 한다.

도 2 는 본 발명에 따른 멀티모달 기반의 정보 검색 장치의 일실시예 구성도이다.

도 2에 도시된 바와 같이, 본 발명에 따른 멀티모달 기반의 정보 검색 장치(10)(이하, '정보 검색 장치'라 함)는, 모델 저장부(11), 문자 처리부(12) 및 음성 인식부(13)를 포함한다.

여기서, 모델 데이터베이스 기능을 수행하는 모델 저장부(11)는 사용자에 의해 검색될 수 있는 전체 어휘(이하, '인식 대상 어휘'라 함)를 저장하고 있으며 또한, 인식 대상 어휘의 목록에 대한 결정적 FSA(Finite State Acceptor) 모델을 적재하고 있다. 이때, 상기 결정적 FSA 모델은 모델 저장부(11) 대신 메모리(도면에 도시되지 않음)에 적재될 수도 있다.

여기서, 상기 결정적 FSA는 상태(States)와 전이(Transition) 네트워크이다. 이때, 상기 결정적 FSA 모델의 각 상태는 고유의 이름(Title)을 가지는데, 이러한 FSA 모델의 각 상태의 이름은 해시 테이블의 키 값으로 작용하여 가변 어휘 목록을 참조하거나 불러오는 역할을 한다. 또한, 모든 상태는 가변 어휘 목록을 참조하고 있으며, 각 상태에 따라 분할된 가변 어휘의 총합은 전체 인식 대상 어휘의 개수와 같다.

여기서, 가변 어휘 목록은 사용자로부터 입력되는 한글의 첫 자음 또는 모음 요소, 영어 알파벳 등의 문자 또는 숫자 등에 따라 인식 대상 어휘 목록에서 검색되어, 디스플레이부(도면에 도시되지 않음) 등을 통해 출력되는 어휘의 목록을 의미한다. 이는 사용자의 입력 값에 따라 변한다.

또한, 상기 결정적 FSA 모델의 상태를 변화시키는 것을 전이라고 하는데, 이러한 전이는 소정의 이벤트(Event)로 인해 발생된다. 이때, 소정의 이벤트는 사용자로부터 입력되는 한글의 첫 자음 또는 모음 요소, 영어 알파벳 등의 문자 또는 숫자 등이 될 수 있다.

이에 대한 자세한 설명은 하기의 도 4 및 도 6에서 보다 상세하게 살펴보기로 한다.

그리고, 문자 처리부(12)는 정보 입력 수단(20)을 통해 입력된 사용자의 키 입력 값(예를 들면, 한글의 첫 자음 또는 모음 요소, 영어 알파벳 등의 문자 또는 숫자 등)을 인식한다. 이때, 상기 정보 입력 수단(20)이 천지인 자판이라면 문자 처리부(12)는 상기 [표 1]에 대응된 대표 숫자로 사용자의 키 입력 값을 인식할 수 있다.

또한, 문자 처리부(12)는 인식된 키 입력 값(상기 대응된 대표 숫자)에 따라 모델 저장부(11) 또는 메모리(도면에 도시되지 않음)에 적재되어 있는 인식 대상 어휘 목록에 대한 FSA 모델의 상태를 다음 상태로 전이한다.

여기서, 문자 처리부(12)는 해시 테이블의 키 값으로 작용하는 FSA 모델의 상태 이름을 이용하여 각 상태에 따른 가변 어휘 목록을 불러올 수 있다.

또한, 문자 처리부(12)는 정보 입력 수단(20)을 통해 문자 또는 숫자 등이 입력될 때마다 가변 어휘 목록을 갱신하고, 갱신된 가변 어휘 목록을 디스플레이부(도면에 도시되지 않음) 등을 통해 출력한다.

그리고, 음성 인식부(13)는 내장 또는 외장 마이크(30)로부터 입력되는 음성 신호를 인식하고, 인식된 음성 신호에 대응되는 어휘를 검색하여 이(음성 인식 결과)를 디스플레이부(도면에 도시되지 않음) 등을 통해 출력한다.

이때, 음성 인식부(13)는 모델 저장부(11)에 저장된 인식 대상 어휘에 대한 HMM(Hidden Markov Model) 모델과 발음 사전을 기반으로 통계적 디코딩 방법을 통해 인식된 음성 신호에 대응되는 어휘 정보를 획득할 수 있다.

이때, 음성 인식부(13)는 자음열 또는 모음 요소 결합에 따라 영역이 구분되는 HMM 모델을 저장하고 있으며, 통상의 음성 인식 방법에 따라 음성을 인식할 수 있다. 그리고, 상기 음성 인식부(13)는 음성인식의 전 과정을 수행하지 않고 특정 과정만을 수행하는 분산 음성인식(DSR: Distributed Speech Recognition)을 지원한다.

여기서, 음성 인식부(13)에 대한 HMM 모델 생성 방법, 발음사전 생성 방법, 패턴매칭 방법 등의 음성 인식에 필요한 구체적인 방법은 이미 공지된 기술이므로, 이에 대한 설명은 생략하기로 한다.

이와 같이, 도 2에서는 문자 처리부(12) 및 음성 인식부(13)가 디스플레이부(도면에 도시되지 않음) 등을 통해 가변 어휘 목록을 각각 출력하는 것으로 살펴보았지만, 음성 인식부(13)는 음성 인식 결과를 문자 처리부(12)로 전송하여 문자 처리부(12)가 이를 기반으로 가변 어휘 목록을 갱신 및 출력할 수도 있다.

도 3 은 본 발명에 따른 멀티모달 기반의 정보 검색 방법에 대한 일실시예 흐름도이다.

먼저, 정보 검색 장치(10)는 정보 입력 수단(20)을 통해 사용자로부터 한글의 자음 또는 모음 요소, 영어 알파벳 등의 문자 또는 숫자 등이 입력되면, 입력된 값을 인식한다(301).

이때, 상기 정보 입력 수단(20)이 천지인 자판이라면 정보 검색 장치(10)는 상기 [표 1]에 대응된 대표 숫자로 사용자의 키 입력 값을 인식할 수 있다.

이후, 상기 인식된 입력 값에 따라 인식 대상 어휘 목록에 대한 FSA 모델의 상태를 다음 상태로 전이한다(302).

그리고, 정보 검색 장치(10)는 상기 전이된 FSA 모델의 상태 이름을 해시 테이블의 키 값으로 이용하여 각 FSA 상태에 해당하는 어휘 목록(가변 어휘 목록)을 출력한다(303). 이를 상기 [표 1] 및 상기 [표 2]를 이용하여 살펴보면, FSA 모델의 상태 이름(즉, 88)을 해시 테이블의 키 값으로 이용하여 FSA 모델의 상태 이름(즉, 88)에 대응되는 초성(자음)('ㅅㅅ', 'ㅅㅎ', 'ㅅㅆ', 'ㅎㅅ', 'ㅎㅎ', 'ㅎㅆ', 'ㅆㅅ', 'ㅆㅎ', 'ㅆㅆ')으로 시작하는 코스닥 기업명('삼호', '새한', '서산', '서한', '세신', '세화', '신한', '신흥', '한샘', '한섬', '한스', '한화', '화성', '화신', '효성')을 출력한다.

이때, 정보 검색 장치(10)는 사용자로부터 입력된 문자 또는 숫자 값 등과 정확히 일치하는 어휘를 우선 순위로 두고, 나머지 유사한 어휘를 후 순위로 두어 목록을 출력한다. 예를 들어, 정보 검색 장치(10)는 사용자로부터 입력된 값이 88과 대응하는 초성(자음)으로 시작되는 어휘를 우선 순위로 두고, 나머지 88과 유사한 '880', '881' 등의 '88*'과 대응하는 초성(자음)으로 시작되는 어휘는 후 순위로 두어 목록을 출력한다.

그리고, 정보 검색 장치(10)는 사용자로부터 음성 인식이 요청되는지를 확인한다(304).

이때, 정보 검색 장치(10)는 소정의 음성 인식 요청 키의 입력 여부에 따라 음성 인식이 요청되는지를 확인할 수 있다.

상기 확인 결과(304), 사용자로부터 음성 인식이 요청되지 않으면 정보 검색 장치(10)는 "301" 과정으로 진행하여, 추가로 입력된 값(사용자로부터 입력된 문자 또는 숫자 등)을 인식하여 상기 가변 어휘 목록을 갱신한다.

한편, 상기 확인 결과(304), 사용자로부터 음성 인식이 요청되면 정보 검색 장치(10)는 상기 출력된 가변 어휘 목록에 대한 발음 사전 등을 로딩(Loading)하여(305), 사용자로부터 입력되는 음성 신호를 인식한다(306).

이후, 정보 검색 장치(10)는 HMM 모델(그래마(Grammar)) 등을 참조하여 상기 출력된 가변 어휘 목록에서 상기 인식된 음성 신호에 대응되는 어휘들을 출력한다(307).

이때, 상기 인식된 음성 신호에 대응되는 어휘들은 엔베스트(n-best) 후보 목록으로 표시된다. 여기서, 통상 n의 값은 스크롤 바를 움직이지 않고 육안으로 확인할 수 있는 소정의 수로 고정될 수 있다.

그리고, 정보 검색 장치(10)는 상기 출력된 어휘들 중 사용자에 의해 최종적으로 선택된 어휘가 있는지를 확인한다(308).

상기 확인 결과(308), 상기 출력된 어휘들 중 사용자에 의해 최종적으로 선택된 어휘가 있으면 정보 검색 장치(10)는 상기 선택된 어휘에 따른 정보를 검색하여 출력한다(309).

여기서, 상기 선택된 어휘에 따른 정보 검색은 정보 검색 장치(10)의 종류에 따라 달라질 수 있다. 예를 들면, 정보 검색 장치(10)가 웹 서버인 경우 상기 선택된 어휘에 따른 정보 검색은 웹 검색이 될 수 있고, 정보 검색 장치(10)가 전자 전화번호 단말인 경우 상기 선택된 어휘에 따른 정보 검색은 인명에 대한 전화번호, 주소, 생일 등의 정보 검색이 될 수 있으며, 정보 검색 장치(10)가 내비게이션과 같은 위치 정보 단말인 경우 상기 선택된 어휘에 따른 정보 검색은 지역명, 상호명 등을 향한 경로 검색이 될 수 있다.

한편, 상기 확인 결과(308), 상기 출력된 어휘들 중 사용자에 의해 최종적으로 선택된 어휘가 없으면(즉, 사용자에 의해 취소 키가 입력되거나 또는, 리셋 키가 입력되거나 또는, 다른 문자와 숫자 또는 음성이 입력되는 경우), 이전 과정으로 진행하여 문자 또는 음성을 재입력 받거나(취소 키가 입력되는 경우) 또는, 정보 검색에 대한 과정을 초기화하거나(리셋 키가 입력되는 경우) 또는, "304" 과정으로 진행하여 음성 또는 추가로 입력된 값(입력된 문자와 숫자 또는 음성 등)을 인식하여 상기 가변 어휘 목록을 갱신한다(다른 문자와 숫자 또는 음성이 입력되는 경우).

도 4 는 본 발명에 따른 정보 검색에 대한 FSA 모델의 상태와 전이를 나타내는 일실시예 상태 다이어그램으로, 한글 자음과 음성의 결합을 기반으로 정보를 검색하는 과정을 나타낸다.

여기서, 약 1,700개의 코스닥 기업명을 인식 대상 어휘로 가정하였고, 상기 코스닥 기업명은 모두 한글로 이루어졌다고 가정한다. 그리고, 정보 검색 장치(10)는 일예로 상기 도 1의 천지인 자판을 통해 한글 자음을 입력 받는 것으로 한다.

먼저, 사용자로부터 6이 입력되면 정보 검색 장치(10)는 FSA 모델의 상태를 6으로 전이하고(401), 상기 [표 1]에서 숫자 6에 대응되는 {'ㄷ', 'ㅌ', 'ㄸ'}로 시작되는 어휘들(코스닥 기업명들)을 화면에 출력한다(402).

이후, 정보 검색 장치(10)는 사용자로부터 추가로 8이 입력되면 FSA 모델의 상태를 68로 전이하고(403), 상기 [표 1]에서 숫자 68에 대응되는 {'ㄷㅅ', 'ㄷㅎ', 'ㄷㅆ', 'ㅌㅅ', 'ㅌㅎ', 'ㅌㅆ', 'ㄸㅅ', 'ㄸㅎ', 'ㄸㅆ'}에 해당하는 어휘들(코스닥 기업명들)을 화면에 출력한다(404).

이때, 정보 검색 장치(10)는 입력되는 숫자의 개수로 인식 대상 어휘의 개수를 추정할 수 있다. 즉, 상기 "404" 과정에서 68에 대응되는 자음의 수는 2개이므로, 화면을 통해 출력되는 각 어휘들(코스닥 기업명들)의 음절의 수는 2개 이상이다.

여기서, 정보 검색 장치(10)는 사용자로부터 상기 숫자 8 대신, 음성 인식을 요청 받아 음성 신호에 대응되는 어휘들(코스닥 기업명들)을 화면에 출력할 수 있다.

이후, 정보 검색 장치(10)는 사용자로부터 추가로 0이 입력되면 FSA 모델의 상태를 680으로 전이하고(405), 상기 [표 1]에서 숫자 680에 대응되는 {'ㄷㅅㅇ', 'ㄷㅎㅇ', 'ㄷㅆㅇ', 'ㄷㅅㅁ', 'ㄷㅎㅁ', 'ㄷㅆㅁ', 'ㅌㅅㅇ', 'ㅌㅎㅇ', 'ㅌㅆㅇ', 'ㅌㅅㅁ', 'ㅌㅎㅁ', 'ㅌㅆㅁ', 'ㄸㅅㅇ', 'ㄸㅎㅇ', 'ㄸㅆㅇ', 'ㄸㅅㅁ', 'ㄸㅎㅁ', 'ㄸㅆㅁ'}에 해당하는 어휘들(코스닥 기업명들)을 화면에 출력한다(406).

이때, 출력되는 각 어휘들(코스닥 기업명들)의 음절의 수는 3개 이상이다.

여기서, 정보 검색 장치(10)는 사용자로부터 상기 숫자 0 대신, 음성 인식을 요청 받아 음성 신호에 대응되는 어휘들(코스닥 기업명들)을 화면에 출력할 수 있다.

그리고, 정보 검색 장치(10)는 사용자로부터 음성 인식이 요청되면(407) FSA 모델의 상태를 음성 인식 상태로 전이하고(408), 사용자의 음성 신호(일예로, '동수원전화국')를 인식하여 인식된 음성 신호(즉, '동수원전화국')에 대응되는 어휘(코스닥 기업명)를 상기 "406" 과정에서 출력된 어휘 목록(코스닥 기업명 목록)에서 검색하여 화면에 출력한다(409).

여기서, 정보 검색 장치(10)는 상기 인식된 음성 신호(즉, '동수원전화국')에 대응되는 어휘('동수원전화국')뿐만 아니라, 상기 "406" 과정에서 출력된 어휘 목록에서 '동수원전화국'과 유사한 발음을 가진 어휘들(코스닥 기업명들)을 더 출력할 수 있다(도면에 도시되지 않음).

이후, 정보 검색 장치(10)는 상기 출력된 어휘(즉, '동수원전화국')가 사용자에 의해 선택되면 이를 이용하여 다음 검색을 수행한다(410).

이때, 다음 검색은 정보 검색 장치(10)의 종류에 따라 달라질 수 있다. 예를 들면, 정보 검색 장치(10)가 웹 서버인 경우 정보 검색 장치(10)는 사용자에 의해 선택된 어휘에 대한 웹 검색을 수행할 수 있고, 정보 검색 장치(10)가 전자 전화번호 단말인 경우 정보 검색 장치(10)는 사용자에 의해 선택된 어휘에 해당하는 정보(즉, 전화번호, 주소, 메모 등)를 검색할 수 있으며, 정보 검색 장치(10)가 내비게이션과 같은 위치 정보 단말인 경우 정보 검색 장치(10)는 사용자에 의해 선택된 어휘에 대한 경로를 검색할 수 있다.

이와 같이, 도 4를 통해 약 1,700개의 어휘들(코스닥 기업명들) 중 정보 검색 장치(10)가 출력하는 어휘들(코스닥 기업명들)이 "402" 과정에서는 374개, "404" 과정에서는 85개, "406" 과정에서는 14개, "409" 과정에서는 1개로 비약적으로 줄어드는 것을 알 수 있다.

이때, 상기에서는 한글 자음과 음성 신호를 기반으로 사용자가 검색하고자 하는 어휘를 제공하는 것으로 살펴보았지만, 본 발명은 이에 한정되지 않고 한글 자음 및 모음 요소를 결합하여 제공하는 어휘들의 범위를 보다 축소시킬 수 있을 것이다. 이에 대해서는 하기의 도 6에서 보다 상세하게 살펴보기로 한다.

도 5 는 본 발명에 따른 정보 검색에 대한 FSA 모델의 상태와 전이를 나타내는 일실시예 표현식으로, 도 4의 상태 다이어그램을 나타내는 장치 표현식이다.

본 발명에 따른 정보 검색에 대한 FSA 모델의 상태와 전이를 나타내는 표현식은, 도 5에 도시된 바와 같다. 즉, 본 발명은 정보 검색에 대한 FSA 모델의 상태와 전이를 '(원 상태(source-state) (다음 상태(destination-state), '이벤트(event)'))'와 같은 형식으로 표현한다.

여기서, 모든 FSA 모델의 상태 이름은 고유의 키 값으로 유일무이하고, 현재의 위치는 모든 상태 중 단 하나에 속한다. 이때, 모든 FSA 모델의 상태가 자신으로 전이하거나 소정의 이벤트 없이 전이하는 경우는 없기 때문에, 입력 숫자열의 길이는 유한(Finite)하다. 또한, 사용자가 '취소(cancel)' 또는 '리셋(reset)' 버튼을 누르면 경로의 사이클(cycle)이 형성될 수 있지만, 이 동작은 입력 숫자와는 무관하다. 따라서, 입력 숫자열의 경로도 유일무이하게 결정되므로 본 발명의 FSA 모델은 결정적(deterministic) 방식으로 동작한다.

먼저, 상기 도 4의 시작 부분을 살펴보면, 원 상태(시작)에서 '6' 이벤트가 발생하는 경우는 '(시작 (6 '6'))'로 표현된다(501). 이는 원 상태(시작)에서 '6' 이벤트가 발생하면 다음 상태가 6 상태가 됨을 나타낸다. 그리고, 원 상태(시작)에서 '리셋' 이벤트가 발생하는 경우는 '(시작 (시작, '리셋'))'로 표현된다(502). 이는 원 상태(시작)에서 '리셋' 이벤트가 발생하면 정보 검색 과정이 초기화되므로 다음 상태가 시작 상태가 됨을 나타낸다. 또한, 원 상태(시작)에서 '음성 인식' 이벤트가 발생하는 경우는 '(시작 (_, '음성 인식'))'로 표현된다(503). 이는 원 상태(시작)에서 '음성 인식' 이벤트가 발생하면 다음 상태가 음성 인식 상태가 됨을 나타낸다. 여기서, 음성 인식 상태는 '_'로 표현되는 것으로 한다.

그리고, 도 4의 "401" 과정을 살펴보면, 원 상태(6)에서 '8' 이벤트가 발생하는 경우는 '(6 (68 '8'))'로 표현된다(504). 이는 원 상태(6)에서 '8' 이벤트가 발생하면 다음 상태가 68 상태가 됨을 나타낸다. 또한, 원 상태(6)에서 '리셋' 또는 '취소' 이벤트가 발생하는 경우는 '(6 (시작, '리셋' 또는 '취소'))'로 표현된다(505). 이는 원 상태(6)에서 '리셋' 또는 '취소' 이벤트가 발생하면 정보 검색 과정이 초기화되거나('리셋' 이벤트가 발생할 경우), 이전 과정(시작 상태)으로 진행됨('취소' 이벤트가 발생할 경우)을 나타낸다. 그리고, 원 상태(6)에서 '음성 인식' 이벤트가 발생하는 경우는 '(6 (_, '음성 인식'))'로 표현된다(506). 이는 원 상태(6)에서 '음성 인식' 이벤트가 발생하면 다음 상태가 음성 인식 상태가 됨을 나타낸다. 여기서, 음성 인식 상태는 '_'로 표현되는 것으로 한다.

그리고, 도 4의 "403" 과정을 살펴보면, 원 상태(68)에서 '0' 이벤트가 발생하는 경우는 '(68 (680 '0'))'로 표현된다(507). 이는 원 상태(68)에서 '0' 이벤트가 발생하면 다음 상태가 680 상태가 됨을 나타낸다. 또한, 원 상태(68)에서 '리셋' 이벤트가 발생하는 경우는 '(68 (시작, '리셋'))'로 표현된다(508). 이는 원 상태(68)에서 '리셋' 이벤트가 발생하면 정보 검색 과정이 초기화되므로 다음 상태가 시작 상태가 됨을 나타낸다. 그리고, 원 상태(68)에서 '취소' 이벤트가 발생하는 경우는 '(68 (6, '취소'))'로 표현된다(509). 이는 원 상태(68)에서 '취소' 이벤트가 발생하면 이전 과정(6 상태)으로 진행됨을 나타낸다. 또한, 원 상태(68)에서 '음성 인식' 이벤트가 발생하는 경우는 '(68 (_, '음성 인식'))'로 표현된다(510). 이는 원 상태(68)에서 '음성 인식' 이벤트가 발생하면 다음 상태가 음성 인식 상태가 됨을 나타낸다. 여기서, 음성 인식 상태는 '_'로 표현되는 것으로 한다.

그리고, 도 4의 "405" 과정을 살펴보면, 원 상태(680)에서 '리셋' 이벤트가 발생하는 경우는 '(680 (시작, '리셋'))'로 표현된다(511). 이는 원 상태(680)에서 '리셋' 이벤트가 발생하면 정보 검색 과정이 초기화되므로 다음 상태가 시작 상태가 됨을 나타낸다. 또한, 원 상태(680)에서 '취소' 이벤트가 발생하는 경우는 '(680 (68, '취소'))'로 표현된다(512). 이는 원 상태(680)에서 '취소' 이벤트가 발생하면 이전 과정(68 상태)으로 진행됨을 나타낸다. 그리고, 원 상태(680)에서 '음성 인식' 이벤트가 발생하는 경우는 '(680 (_, '음성 인식'))'로 표현된다(513). 이는 원 상태(680)에서 '음성 인식' 이벤트가 발생하면 다음 상태가 음성 인식 상태가 됨을 나타낸다.

그리고, 도 4의 "408" 과정을 살펴보면, 원 상태(음성 인식 상태(_))에서 '리셋' 이벤트가 발생하는 경우는 '(_ (시작, '리셋'))'로 표현된다(514). 이는 원 상태(음성 인식 상태(_))에서 '리셋' 이벤트가 발생하면 정보 검색 과정이 초기화되므로 다음 상태가 시작 상태가 됨을 나타낸다. 또한, 원 상태(음성 인식 상태(_))에서 '취소' 이벤트가 발생하는 경우는 '(_ (680, '취소'))'로 표현된다(515). 이는 원 상태(음성 인식 상태(_))에서 '취소' 이벤트가 발생하면 이전 과정(680 상태)으로 진행됨을 나타낸다.

본 발명에서는 상기와 같은 장치 표현식으로 FSA 모델의 상태와 전이를 나타내었지만 이에 한정되지 않는다.

도 6 은 본 발명에 따른 정보 검색에 대한 FSA 모델의 상태와 전이를 나타내는 다른 일실시예 상태 다이어그램으로, 한글 자음 및 모음 요소와 음성의 결합을 기반으로 정보를 검색하는 과정을 나타낸다.

도 6에서는 종성 자음의 경우 현재 문자열의 받침인지 다음 문자열의 첫 자음인지에 대한 판단이 불확실하고, 초성(한글 자음), 중성(모음 요소)만으로도 충분히 검색 반경 이내의 어휘 목록이 산출되기 때문에 살펴보지 않기로 한다.

여기서, 약 1,700개의 코스닥 기업명을 인식 대상 어휘로 가정하였고, 상기 코스닥 기업명은 모두 한글로 이루어졌다고 가정한다. 그리고, 정보 검색 장치(10)는 일예로 상기 도 1의 천지인 자판을 통해 한글 자음과 모음 요소를 입력 받는 것으로 한다.

먼저, 사용자로부터 8이 입력되면 정보 검색 장치(10)는 FSA 모델의 상태를 8로 전이하고(601), 상기 [표 1]에서 숫자 8에 대응되는 {'ㅅ', 'ㅎ', 'ㅆ'}로 시작되는 어휘들(코스닥 기업명들)을 화면에 출력한다(602).

그리고, 정보 검색 장치(10)는 사용자로부터 추가로 0이 입력되면 FSA 모델의 상태를 80로 전이하고(603), 상기 [표 1]에서 숫자 80에 대응되는 {'ㅅㅇ', 'ㅅㅁ', 'ㅎㅇ', 'ㅎㅁ', 'ㅆㅇ', 'ㅆㅁ'}에 해당하는 어휘들(코스닥 기업명들)을 화면에 출력한다(604).

이때, 화면을 통해 출력되는 각 어휘들(코스닥 기업명들)의 음절의 수는 2개 이상이다.

이후, 정보 검색 장치(10)는 사용자로부터 모음 요소 2가 입력되면 FSA 모델의 상태를 802로 전이하고(605), 상기 [표 1]에서 숫자 802에 대응되는 한글 자음{'ㅅㅇ', 'ㅅㅁ', 'ㅎㅇ', 'ㅎㅁ', 'ㅆㅇ', 'ㅆㅁ'}과 모음 요소{'ㆍ'}의 결합에 해당하는 어휘들(코스닥 기업명들)을 화면에 출력한다(606).

이때, 상기 모음 요소{'ㆍ'}의 결합에 해당하는 어휘들(코스닥 기업명들)은 두 번째 음절의 중성(모음 요소)가 {'ㅓ', 'ㅔ', 'ㅕ', 'ㅖ', 'ㅗ', 'ㅘ', 'ㅚ', 'ㅙ', 'ㅛ'}인 어휘들이므로 상기 802 다음으로 입력될 수 있는 모음 요소는 1(즉, 모음 요소{'ㅣ'}와, 2(즉, 모음 요소{'ㆍ'})와 3(즉, 모음 요소{'ㅡ'})이다.

여기서, 사용자로부터 모음 요소가 입력되었기 때문에 출력되는 각 어휘들(코스닥 기업명들)의 음절의 수는 2개로 고정된다.

만약, "605" 과정에서 사용자로부터 모음 요소 1 또는 3이 입력되면 정보 검색 장치(10)는 FSA 모델의 상태를 801 또는, 803으로 전이하고(도면에 도시되지 않음), 상기 [표 1]에서 숫자 801에 대응되는 한글 자음{'ㅅㅇ', 'ㅅㅁ', 'ㅎㅇ', 'ㅎㅁ', 'ㅆㅇ', 'ㅆㅁ'}과 모음 요소{'ㅣ'}의 결합 또는, 상기 [표 1]에서 숫자 803에 대응되는 한글 자음{'ㅅㅇ', 'ㅅㅁ', 'ㅎㅇ', 'ㅎㅁ', 'ㅆㅇ', 'ㅆㅁ'}과 모음 요소{'ㅡ'}의 결합에 해당하는 어휘들(코스닥 기업명들)을 화면에 출력한다.

이때, 상기 모음 요소{'ㅣ'}의 결합에 해당하는 어휘들(코스닥 기업명들)은 두 번째 음절의 중성(모음 요소)이 {'ㅏ', 'ㅐ', 'ㅑ', 'ㅒ', 'ㅣ'}인 어휘들이므로 상기 801 다음으로 입력될 수 있는 모음 요소는 2(즉, 모음 요소{'ㆍ'})이고, 상기 모음 요소 {'ㅡ'}의 결합에 해당하는 어휘들(코스닥 기업명들)은 두 번째 음절의 중성(모음 요소)가 {'ㅜ', 'ㅝ', 'ㅟ', 'ㅞ', 'ㅠ', 'ㅡ', 'ㅢ'}인 어휘들이므로 상기 803 다음으로 입력될 수 있는 모음 요소는 2(즉, 모음 요소{'ㆍ'})와, 3(즉, 모음 요소{'ㅡ'})이다.

이후, 정보 검색 장치(10)는 사용자로부터 2가 입력되면 FSA 모델의 상태를 8022로 전이하고(607), 상기 [표 1]에서 숫자 8022에 대응되는 한글 자음{'ㅅㅇ', 'ㅅㅁ', 'ㅎㅇ', 'ㅎㅁ', 'ㅆㅇ', 'ㅆㅁ'}과 모음 요소{'ㆍ', 'ㆍ'}의 결합에 해당하는 어휘들(코스닥 기업명들)을 화면에 출력한다(608).

여기서, 상기 모음 요소{'ㆍ', 'ㆍ'}의 결합에 해당하는 어휘들(코스닥 기업명들)은 두 번째 음절의 중성(모음 요소)가 {'ㅕ', 'ㅖ', 'ㅛ'}인 어휘들이므로 8022 다음으로 입력될 수 있는 모음 요소는 1(즉, 모음 요소{'ㅣ'}이다.

이때, 정보 검색 장치(10)는 사용자로부터 상기 숫자 2 대신, 음성 인식을 요청 받아 음성 신호에 대응되는 어휘들(코스닥 기업명들)를 화면에 출력할 수 있다.

이후, 정보 검색 장치(10)는 사용자로부터 음성 인식이 요청되면(609) FSA 모델의 상태를 음성 인식 상태로 전이하고(610), 사용자의 음성 신호(일예로, '소예')를 인식하여 인식된 음성 신호(즉, '소예')에 대응되는 어휘(코스닥 기업명)를 상기 "608" 과정에서 출력된 어휘 목록(코스닥 기업명 목록)에서 검색하여 화면에 출력한다(611).

여기서, 정보 검색 장치(10)는 상기 인식된 음성 신호(즉, '소예')에 대응되는 어휘('소예')뿐만 아니라, 상기 "608" 과정에서 출력된 어휘 목록에서 '소예'와 유사한 발음을 가진 어휘들(코스닥 기업명들)을 더 출력할 수 있다.

이후, 정보 검색 장치(10)는 상기 음성 신호에 대응되는 어휘가 사용자에 의해 선택되면 이를 이용하여 다음 검색을 수행한다(612).

이와 같이, 정보 검색 장치(10)는 사용자로부터 추가로 입력된 모음 요소를 이용함으로써, 한글 자음과 음성 신호만으로 어휘를 검색할 경우보다 인식 대상 어휘의 범위를 보다 축소시킬 수 있으며, 입력된 모음 요소를 이용하여 인식 대상 어휘의 음절 수를 고정시킴으로써 인식 대상 어휘의 범위를 비약적으로 줄일 수 있다.

도 7 은 본 발명에 따른 정보 검색에 대한 FSA 모델의 상태와 전이를 나타내는 다른 일실시예 표현식으로, 도 6의 상태 다이어그램을 나타내는 장치 표현식이다.

본 발명에 따른 정보 검색에 대한 FSA 모델의 상태와 전이를 나타내는 표현식은, 도 7에 도시된 바와 같다. 즉, 본 발명은 정보 검색에 대한 FSA 모델의 상태와 전이를 '(원 상태(source-state) (다음 상태(destination-state), '이벤트(event)'))'와 같은 형식으로 표현한다.

먼저, 상기 도 6의 시작 부분을 살펴보면, 원 상태(시작)에서 '8' 이벤트가 발생하는 경우는 '(시작 (8 '8'))'로 표현된다(701). 이는 원 상태(시작)에서 '8' 이벤트가 발생하면 다음 상태가 8 상태가 됨을 나타낸다. 그리고, 원 상태(시작)에서 '리셋' 이벤트가 발생하는 경우는 '(시작 (시작, '리셋'))'로 표현된다(702). 이는 원 상태(시작)에서 '리셋' 이벤트가 발생하면 정보 검색 과정이 초기화되므로 다음 상태가 시작 상태가 됨을 나타낸다. 또한, 원 상태(시작)에서 '음성 인식' 이벤트가 발생하는 경우는 '(시작 (_, '음성 인식'))'로 표현된다(703). 이는 원 상태(시작)에서 '음성 인식' 이벤트가 발생하면 다음 상태가 음성 인식 상태가 됨을 나타낸다. 여기서, 음성 인식 상태는 '_'로 표현되는 것으로 한다.

그리고, 도 6의 "601" 과정을 살펴보면, 원 상태(8)에서 '0' 이벤트가 발생하는 경우는 '(8 (80 '0'))'로 표현된다(704). 이는 원 상태(8)에서 '0' 이벤트가 발생하면 다음 상태가 80 상태가 됨을 나타낸다. 또한, 원 상태(8)에서 '리셋' 또는 '취소' 이벤트가 발생하는 경우는 '(8 (시작, '리셋' 또는 '취소'))'로 표현된다(705). 이는 원 상태(8)에서 '리셋' 또는 '취소' 이벤트가 발생하면 정보 검색 과정이 초기화되거나('리셋' 이벤트가 발생할 경우), 이전 과정(시작 상태)으로 진행됨('취소' 이벤트가 발생할 경우)을 나타낸다. 그리고, 원 상태(8)에서 '음성 인식' 이벤트가 발생하는 경우는 '(8 (_, '음성 인식'))'로 표현된다(706). 이는 원 상태(8)에서 '음성 인식' 이벤트가 발생하면 다음 상태가 음성 인식 상태가 됨을 나타낸다. 여기서, 음성 인식 상태는 '_'로 표현되는 것으로 한다.

그리고, 도 6의 "603" 과정을 살펴보면, 원 상태(80)에서 '2' 이벤트가 발생하는 경우는 '(80 (802 '2'))'로 표현된다(707). 이는 원 상태(80)에서 '2' 이벤트가 발생하면 다음 상태가 802 상태가 됨을 나타낸다. 또한, 원 상태(80)에서 '리셋' 이벤트가 발생하는 경우는 '(80 (시작, '리셋'))'로 표현된다(708). 이는 원 상태(80)에서 '리셋' 이벤트가 발생하면 정보 검색 과정이 초기화되므로 다음 상태가 시작 상태가 됨을 나타낸다. 그리고, 원 상태(80)에서 '취소' 이벤트가 발생하는 경우는 '(80 (8, '취소'))'로 표현된다(709). 이는 원 상태(80)에서 '취소' 이벤트가 발생하면 이전 과정(8 상태)으로 진행됨을 나타낸다. 또한, 원 상태(80)에서 '음성 인식' 이벤트가 발생하는 경우는 '(80 (_, '음성 인식'))'로 표현된다(710). 이는 원 상태(80)에서 '음성 인식' 이벤트가 발생하면 다음 상태가 음성 인식 상태가 됨을 나타낸다. 여기서, 음성 인식 상태는 '_'로 표현되는 것으로 한다.

그리고, 도 6의 "605" 과정을 살펴보면, 원 상태(802)에서 '2' 이벤트가 발생하는 경우는 '(802 (8022 '2'))'로 표현된다(711). 이는 원 상태(802)에서 '2' 이벤트가 발생하면 다음 상태가 8022 상태가 됨을 나타낸다. 또한, 원 상태(802)에서 '리셋' 이벤트가 발생하는 경우는 '(802 (시작, '리셋'))'로 표현된다(712). 이는 원 상태(802)에서 '리셋' 이벤트가 발생하면 정보 검색 과정이 초기화되므로 다음 상태가 시작 상태가 됨을 나타낸다. 그리고, 원 상태(802)에서 '취소' 이벤트가 발생하는 경우는 '(802 (80, '취소'))'로 표현된다(713). 이는 원 상태(802)에서 '취소' 이벤트가 발생하면 이전 과정(80 상태)으로 진행됨을 나타낸다. 또한, 원 상태(802)에서 '음성 인식' 이벤트가 발생하는 경우는 '(802 (_, '음성 인식'))'로 표현된다(714). 이는 원 상태(802)에서 '음성 인식' 이벤트가 발생하면 다음 상태가 음성 인식 상태가 됨을 나타낸다. 여기서, 음성 인식 상태는 '_'로 표현되는 것으로 한다.

그리고, 도 6의 "607" 과정을 살펴보면, 원 상태(8022)에서 '리셋' 이벤트가 발생하는 경우는 '(8022 (시작, '리셋'))'로 표현된다(715). 이는 원 상태(8022)에서 '리셋' 이벤트가 발생하면 정보 검색 과정이 초기화되므로 다음 상태가 시작 상태가 됨을 나타낸다. 또한, 원 상태(8022)에서 '취소' 이벤트가 발생하는 경우는 '(8022 (802, '취소'))'로 표현된다(716). 이는 원 상태(8022)에서 '취소' 이벤트가 발생하면 이전 과정(802 상태)으로 진행됨을 나타낸다. 그리고, 원 상태(8022)에서 '음성 인식' 이벤트가 발생하는 경우는 '(8022 (_, '음성 인식'))'로 표현된다(717). 이는 원 상태(8022)에서 '음성 인식' 이벤트가 발생하면 다음 상태가 음성 인식 상태가 됨을 나타낸다. 여기서, 음성 인식 상태는 '_'로 표현되는 것으로 한다.

그리고, 도 6의 "610" 과정을 살펴보면, 원 상태(음성 인식 상태(_))에서 '리셋' 이벤트가 발생하는 경우는 '(_ (시작, '리셋'))'로 표현된다(718). 이는 원 상태(음성 인식 상태(_))에서 '리셋' 이벤트가 발생하면 정보 검색 과정이 초기화되므로 다음 상태가 시작 상태가 됨을 나타낸다. 또한, 원 상태(음성 인식 상태(_))에서 '취소' 이벤트가 발생하는 경우는 '(_ (8022, '취소'))'로 표현된다(719). 이는 원 상태(음성 인식 상태(_))에서 '취소' 이벤트가 발생하면 이전 과정(8022 상태)으로 진행됨을 나타낸다.

상기 도 4 내지 도 7에서 살펴본 바와 같이, 본 발명에 따른 정보 검색 장치(10)는 적어도 두 단계 이상의 정보(어휘) 검색 과정을 수행한다, 즉, 정보 검색 장치(10)는 문자 또는 숫자를 이용하여 정보(어휘)를 검색하는 첫 번째 단계와 음성 신호를 이용하여 정보(어휘)를 검색하는 두 번째 단계를 적어도 한번 수행한다.

일예로, 상기 도 4의 경우에는 정보 검색 장치(10)가 네 단계의 정보(어휘) 검색 과정을 수행한다. 즉, 정보 검색 장치(10)는 첫 번째, 두 번째 및 세 번째 단계(즉, 401, 403 및 405)에서 사용자로부터 입력된 문자(또는 숫자)를 이용하여 정보(어휘)를 검색한 후 네 번째 단계(즉, 408)에서 사용자로부터 입력된 음성 신호를 이용하여 정보(어휘)를 검색한다.

그리고, 상기 도 6의 경우에는 정보 검색 장치(10)가 다섯 단계의 정보(어휘) 검색 과정을 수행한다. 즉, 정보 검색 장치(10)는 첫 번째, 두 번째, 세 번째 및 네 번째 단계(601, 603, 605 및 607)에서 사용자로부터 입력된 문자(또는 숫자)를 이용하여 정보(어휘)를 검색한 후 다섯 번째 단계(즉, 610)에서 사용자로부터 입력된 음성 신호를 이용하여 정보(어휘)를 검색한다.

이때, 정보 검색 장치(10)는 사용자로부터 문자 또는 숫자를 입력 받은 후 상시적으로 음성 신호를 입력 받아 정보(어휘)를 검색할 수 있다.

일예로, 상기 도 4에서는 정보 검색 장치(10)가 네 번째 단계(408)에서 음성 신호를 입력 받아 정보(어휘)를 검색하는 것으로 살펴보았지만, 두 번째 단계(403) 또는 세 번째 단계(405)에서 음성 신호를 입력 받아 정보(어휘)를 검색할 수도 있다.

그리고, 상기 도 6에서는 정보 검색 장치(10)가 다섯 번째 단계(610)에서 음성 신호를 입력 받아 정보(어휘)를 검색하는 것으로 살펴보았지만, 두 번째 단계(603) 또는 세 번째 단계(605) 또는 네 번째 단계(607)에서 음성 신호를 입력 받아 정보(어휘)를 검색할 수도 있다.

도 8a 및 도 8b 는 본 발명에 따라 출력된 가변 어휘 목록과 대응하는 숫자열을 나타내는 일예시도이다.

본 발명에 따라 출력된 가변 어휘 목록과 대응하는 숫자열은, 도 8a 및 도 8b에 도시된 바와 같다.

도 8a 및 도 8b에 도시된 바와 같이, 본 발명에 따라 가변 어휘 목록의 어휘들이 상당 부분 일치한다. 일예로, '스카이라이프'는 상기 도 1의 천지인 자판에서 '840507'의 숫자열로 검색될 수 있는데, '스카이라이프'가 포함된 모든 어휘들도 '840507'의 숫자열을 포함하고 있기 때문에 사용자로부터 '840507'의 숫자열이 입력되면 숫자열 '840507'에 대응되는 '스카이라이프'가 포함된 모든 어휘들이 출력된다.

이때, 사용자가 음성 인식을 통해 어휘를 검색하게 되면 보다 효율적으로 어휘를 검색할 수 있을 것이다. 특히, 길이가 긴 어휘(즉, 음절의 수가 많은 어휘)일 경우 사용자가 해당 문자 또는 숫자를 많이 입력하지 않아도 됨으로써, 보다 효율적으로 검색할 수 있도록 한다.

여기서, 사용자가 "801"과 같은 '스카이라이프고객센타가입문의24시365일'을 검색하고자 할 경우, '840507448640002483650'을 모두 입력하지 않고 '840507'만 입력한 상태에서 '스카이라이프고객센타'라고 음성을 입력하면, 도 8b에 도시된 바와 같이 '스카이라이프고객센타'를 포함하는 어휘들 및 '스카이라이프고객센타'와 유사한 어휘들('스카이라이프고객센타', '스카이라이프고객센터', '스카이라이프고객센타가입문의24시365일', '스카이라이프고객센타가입상담')만이 나타나게 된다.

이와 같이, 정보 검색을 위한 가변 어휘 목록을 줄임으로써 사용자가 보다 용이하고 간편하게 검색하고자 하는 어휘를 찾을 수 있도록 한다.

또한, 한글, 숫자, 영문이 혼합되어 있는 문자열인 경우에도 언어 모드를 변경할 필요가 없으므로, 사용자가 보다 간편하게 어휘를 검색할 수 있도록 한다. 즉, 사용자가 상기 '스카이라이프고객센타가입문의24시365일'(801)에 포함되어있는 '24'를 입력할 경우, '스카이라이프고객센타가입문의'에 대응되는 숫자열 '84050744864000'을 입력한 이후에 숫자 입력 전환 키를 이용하여 '24'를 입력할 필요 없이 그대로 '24'를 입력하여 어휘를 검색할 수 있다.

상기에서는 본 발명에 따른 정보 검색 장치(10)를 천지인 자판을 이용하는 사용자 단말을 일예로 살펴보았지만 이에 한정되지 않고, 음성 인식 장치가 탑재된 휴대폰, PDA(Personal Digital Assistants), 내비게이션 단말기, UMPC(Ultra Mobile Personal Computer), MP3(Moving Picture Experts Group Audio Layer-3), 전자사전, 노트북, 데스크탑 컴퓨터 등과 같은 모든 단말 장치가 될 수 있을 뿐만 아니라, 웹 서버 등의 서버도 될 수 있다.

그리고, 상기에서는 본 발명에 따른 정보 검색 장치(10)의 정보 입력 수단(20)으로 천지인 자판을 일예로 살펴보았지만 이에 한정되지 않고, 정보 검색 장치(10)의 내부 또는 외부에 위치할 수 있는 문자 또는 숫자 등의 입력이 가능한 텍스트 기반의 비 음성 입력 수단 즉, 나랏글, 천지인 등 현존하는 형태의 모든 키 버튼, 펜 도구, 소프트 키보드, 디지타이저(Digitizer), 햅틱(Haptic) 등도 될 수 있다.

그리고, 본 발명에 따른 인식 대상 어휘 목록으로는 도시명, 회사명, 부서명, 학교명, 지역명, 인명, 국가명 등 어떤 기준하의 의미 범주에 속하는 모든 형태의 목록이 가능하며 이러한 명칭의 목록에만 한정되지 않고, 상기 정보 검색 장치(10)의 종류에 따라 달라질 수 있다. 예를 들면, 상기 정보 검색 장치(10)가 웹 서버인 경우에 인식 대상 어휘 목록은 웹 검색어 목록이 될 수 있을 것이고, 정보 검색 장치(10)가 전화번호를 저장하고 있는 휴대폰인 경우에 인식 대상 어휘 목록은 인명, 전화번호 등에 대한 목록이 될 수 있을 것이며, 정보 검색 장치(10)가 내비게이션과 같은 위치 정보 단말인 경우에 인식 대상 어휘 목록은 도시명, 지역명, 상호명 등이 될 수 있을 것이다.

상술한 바와 같은 본 발명의 방법은 프로그램으로 구현되어 컴퓨터로 읽을 수 있는 형태로 기록매체(씨디롬, 램, 롬, 플로피 디스크, 하드 디스크, 광자기 디스크 등)에 저장될 수 있다. 이러한 과정은 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자가 용이하게 실시할 수 있으므로 더 이상 상세히 설명하지 않기로 한다.

이상에서 설명한 본 발명은, 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자에게 있어 본 발명의 기술적 사상을 벗어나지 않는 범위 내에서 여러 가지 치환, 변형 및 변경이 가능하므로 전술한 실시예 및 첨부된 도면에 의해 한정되는 것이 아니다.

상기와 같은 본 발명은, 명칭을 포함한 정보 검색 시, 한글의 첫 자음 또는 모음 요소, 영어 알파벳 등의 문자 또는 숫자와 음성 인식을 병행함으로써, 범주 군(群)의 어휘 목록을 줄이고 검색 속도를 높여 사용자가 검색하고자 하는 어휘를 보다 빠르고 정확하게 제공할 수 있는 효과가 있다.

또한, 본 발명은, 명칭을 포함한 정보 검색 시, 한글의 첫 자음 또는 모음 요소, 영어 알파벳 등의 문자 또는 숫자와 음성 인식을 병행함으로써, 단말기와 같은 사용자 인터페이스에 제약이 따르는 상황에서도 빠르고 정확하게 검색하고자 하는 어휘를 제공할 수 있는 효과가 있다.

또한, 본 발명은, 한글의 첫 자음 또는 모음 요소, 영어 알파벳 등의 문자 또는 숫자와 음성 인식을 병행하여 인식 대상 어휘를 엔베스트(n-best) 후보 목록으로 출력함으로써, 사용자가 중복 항목 초과로 인해 발생된 스크롤 바를 조정할 필요 없이, 한 화면에서 검색하고자 하는 어휘를 보다 빠르고 간편하게 선택할 수 있도록 하는 효과가 있다.

또한, 본 발명은, FSA 모델의 상태별로 음성을 인식함으로써, 음성 인식의 성능을 극대화할 수 있는 효과가 있다.

또한, 본 발명은, 인식 대상 어휘가 한글 또는 숫자 또는 영문이 혼합되어 있는 문자열인 경우, 사용자가 숫자 또는 언어 모드를 변경할 필요가 없이 보다 편리하게 어휘를 검색할 수 있도록 하는 효과가 있다.

또한, 본 발명은, 인식 대상 어휘가 한글인 경우, 한글 자음과 결합된 모음 요소를 이용하여 인식 대상 어휘의 음절 수를 고정함으로써, 인식 대상 어휘에 대한 탐색 범위를 줄일 수 있는 효과가 있다.

Claims

다단계 정보 검색 장치에 있어서,

검색될 수 있는 전체 어휘(이하, '인식 대상 어휘'라 함)에 대한 상태 모델(FSA 모델)을 저장하고 있는 모델 저장 수단;

사용자로부터 키 입력 값 및 음성 신호를 입력 받기 위한 입력 수단;

일 정보 검색 과정에서, 상기 입력 수단을 통해 입력된 적어도 하나의 키 입력 값을 복수의 문자를 대표하는 대표문자의 순열로 인식하고, 인식된 대표문자의 순열에 대응되는 어휘(이하, '가변 어휘'라 함)를 상기 상태 모델을 이용하여 검색하여 제공하기 위한 문자 처리 수단; 및

상기 일 정보 검색 결과를 바탕으로 한 타 정보 검색 과정에서, 상기 입력 수단을 통해 입력된 음성 신호를 인식하여 인식된 음성 신호에 대응되는 어휘를 상기 문자 처리 수단에 의해 검색된 어휘의 목록에서 검색하여 제공하기 위한 음성 인식 수단

을 포함하는 멀티모달 기반의 정보 검색 장치.
제 1 항에 있어서,

상기 문자 처리 수단 및 상기 음성 인식 수단에 의해 검색된 어휘의 목록을 사용자에게 디스플레이하기 위한 디스플레이 수단

을 더 포함하는 멀티모달 기반의 정보 검색 장치.
제 1 항 또는 제 2 항에 있어서,

상기 문자 처리 수단은,

상기 입력 수단에 새로운 키 입력 값이 입력됨에 따라 새로운 대표문자의 순열로 인식하고, 상기 인식된 새로운 대표문자의 순열에 따라 상기 검색된 가변 어휘의 목록을 갱신하는 것을 특징으로 하는 멀티모달 기반의 정보 검색 장치.
제 3 항에 있어서,

상기 모델 저장 수단은,

상기 인식 대상 어휘의 상태를 각 상태의 이름별로 구분해 놓은 상기 상태 모델을 저장하고, 상기 인식 대상 어휘의 음성을 인식하기 위한 HMM(Hidden Markov Model) 모델과 발음열 사전을 저장하는 것을 특징으로 하는 멀티모달 기반의 정보 검색 장치.
제 4 항에 있어서,

상기 문자 처리 수단은,

상기 대표문자의 순열을 인식함에 따라 상기 상태 모델의 상태를 전이하여 상기 전이된 상태 모델의 상태에 대응되는 가변 어휘를 검색하는 것을 특징으로 하는 멀티모달 기반의 정보 검색 장치.
제 5 항에 있어서,

상기 문자 처리 수단은,

상기 입력 수단에 대표문자 이외의 추가적인 모음 요소의 키 값이 입력됨에 따라 현재까지 입력된 대표문자의 순열과 상기 입력된 모음 요소를 기반으로 상기 검색된 가변 어휘의 목록을 갱신하는 것을 특징으로 하는 멀티모달 기반의 정보 검색 장치.
제 6 항에 있어서,

상기 음성 인식 수단은,

상기 모델 저장 수단에 저장된 상기 HMM(Hidden Markov Model) 모델과 발음열 사전을 기반으로, 상기 입력 수단을 통해 입력된 음성 신호를 인식하고 상기 인식된 음성 신호에 대응되는 어휘를 상기 문자 처리 수단에서 검색된 가변 어휘의 목록에서 하나 이상 검색하는 것을 특징으로 하는 멀티모달 기반의 정보 검색 장치.
제 7 항에 있어서,

상기 문자 처리 수단은,

상기 상태 모델의 상태와 전이를 '(원 상태(source-state) (다음 상태(destination-state), '이벤트(event)'))'로 표현하는 것을 특징으로 하는 멀티모달 기반의 정보 검색 장치.
다단계 정보 검색 방법에 있어서,

일 정보 검색 과정에서, 사용자로부터 키 입력 값을 입력 받는 제1 입력 단계;

상기 제1 입력 단계에서 입력된 적어도 하나의 키 입력 값을 복수의 문자를 대표하는 대표문자의 순열로 인식하는 대표문자 인식 단계;

상기 인식된 대표문자의 순열에 대응되는 어휘(이하, '가변 어휘'라 함)를 미리 저장된 '사용자에 의해 검색될 수 있는 전체 어휘(이하, '인식 대상 어휘'라 함)에 대한 상태 모델(FSA 모델)'을 이용하여 검색하여 제공하는 문자 처리 단계;

상기 일 정보 검색 결과를 바탕으로 한 타 정보 검색 과정에서, 사용자로부터 음성 신호를 입력 받는 제2 입력 단계; 및

상기 제2 입력 단계에서 입력된 음성 신호를 인식하여 상기 인식된 음성 신호에 대응되는 어휘를 상기 문자 처리 단계에서 검색된 어휘의 목록에서 검색하여 제공하는 음성 인식 단계

를 포함하는 멀티모달 기반의 정보 검색 방법.
제 9 항에 있어서,

상기 문자 처리 단계 및 상기 음성 인식 단계에서 검색된 어휘의 목록을 사용자에게 디스플레이하는 디스플레이 단계

을 더 포함하는 멀티모달 기반의 정보 검색 방법.
제 9 항 또는 제 10 항에 있어서,

상기 문자 처리 단계는,

상기 제1 입력 단계에 새로운 키 입력 값이 입력됨에 따라 새로운 대표문자의 순열로 인식하고, 상기 인식된 새로운 대표문자의 순열에 따라 상기 검색된 가변 어휘의 목록을 갱신하는 것을 특징으로 하는 멀티모달 기반의 정보 검색 방법.
제 11 항에 있어서,

상기 문자 처리 단계는,

상기 대표문자의 순열을 인식함에 따라 상기 상태 모델의 상태를 전이하여 상기 전이된 상태 모델의 상태에 대응되는 가변 어휘를 검색하는 것을 특징으로 하는 멀티모달 기반의 정보 검색 방법.
제 12 항에 있어서,

상기 문자 처리 단계는,

상기 제1 입력 단계에 대표문자 이외의 추가적인 모음 요소의 키 값이 입력됨에 따라 현재까지 입력된 대표문자의 순열과 상기 입력된 모음 요소를 기반으로 상기 검색된 가변 어휘의 목록을 갱신하는 것을 특징으로 하는 멀티모달 기반의 정보 검색 방법.
제 13 항에 있어서,

상기 음성 인식 단계는,

상기 인식 대상 어휘의 음성을 인식하기 위한 HMM(Hidden Markov Model) 모델과 발음열 사전을 기반으로, 상기 제2 입력 단계에서 입력된 음성 신호를 인식하고 상기 인식된 음성 신호에 대응되는 어휘를 상기 문자 처리 단계에서 검색된 가변 어휘의 목록에서 하나 이상 검색하는 것을 특징으로 하는 멀티모달 기반의 정보 검색 방법.
제 14 항에 있어서,

상기 문자 처리 단계는,

상기 상태 모델의 상태와 전이를 '(원 상태(source-state) (다음 상태(destination-state), '이벤트(event)'))'로 표현하는 것을 특징으로 하는 멀티모달 기반의 정보 검색 장치.
정보를 검색하기 위한, 프로세서를 구비한 다단계 정보 검색 장치에 있어서,

검색될 수 있는 전체 어휘(이하, '인식 대상 어휘'라 함)에 대한 상태 모델(FSA 모델)을 저장하는 기능;

사용자로부터 키 입력 값 및 음성 신호를 입력 받는 기능;

일 정보 검색 과정에서, 상기 입력된 적어도 하나의 키 입력 값을 복수의 문자를 대표하는 대표문자의 순열로 인식하고, 상기 인식된 대표문자의 순열에 대응되는 어휘(이하, '가변 어휘'라 함)를 상기 저장된 상태 모델을 이용하여 검색하여 제공하는 기능; 및

상기 일 정보 검색 결과를 바탕으로 한 타 정보 검색 과정에서, 상기 입력된 음성 신호를 인식하여 인식된 음성 신호에 대응되는 어휘를 상기 검색된 어휘의 목록에서 검색하여 제공하는 기능

을 실현시키기 위한 프로그램을 기록한 컴퓨터로 읽을 수 있는 기록매체.