KR20000057795A

KR20000057795A - 음독이 미숙한 자용 및 표시기가 없는 장치용 음성 인식등록 방법 및 장치

Info

Publication number: KR20000057795A
Application number: KR1020000003160A
Authority: KR
Inventors: 루이스제임스알; 완휴팽; 버스커크론반; 오테가케리에이
Original assignee: 포만 제프리 엘; 인터내셔널 비지네스 머신즈 코포레이션
Priority date: 1999-02-10
Filing date: 2000-01-24
Publication date: 2000-09-25
Also published as: CN1128435C; TW503388B; ATE482447T1; US6560574B2; US6324507B1; US20020091519A1; KR100312060B1; CN1263333A; JP2000259170A; DE60044991D1; EP1028410B1; EP1028410A1

Abstract

본 발명은 음성 인식 시스템에서의 사용자 등록 방법으로서, 본 방법은 음독을 필요로 하지 않으며, 음성 출력 및 음성 입력을 구비한 음성 기반 사용자 인터페이스를 생성하는 단계와; 문구를 음성으로 재생하는 단계와; 재생된 문구를 사용자가 복창하도록 음성으로 안내하는 단계와; 사용자가 말하지 않도록 음성으로 안내하고, 복수 개의 후속 문구에 대해문구를 음성으로 재생하고 사용자가 복창하도록 음성으로 안내하는 단계를 반복하는 단계와; 음성으로 안내되고 후속으로 사용자가 복창한 문구에 기초하여 사용자 등록을 처리하는 단계를 포함한다. 또한, 음성으로 재생되는 문구와 음성 안내에 상응하는 문자를 표시하고; 사용자 조작을 위한 복수 개의 아이콘을 표시하고; 각각 다른 때에는 아이콘의 색상, 모양 및 애니메이션 중의 적어도 하나를 달리하여 아이콘을 선별하기 위하여 그래픽 기반 사용자 인터페이스(GUI)를 생성할 수 있다.

Description

음독이 미숙한 자용 및 표시기가 없는 장치용 음성 인식 등록 방법 및 장치{SPEECH RECOGNITION ENROLLMENT FOR NON-READERS AND DISPLAYLESS DEVICES}

본 발명은 일반적으로 음성 인식 시스템 분야에 관한 것이며, 특히 음독(音讀)이 미숙한 자(non-reader) 및 표시기가 없는 장치를 위한 음성 인식 등록에 관한 것이다.

최대한의 정확도로 음성 인식 시스템을 활용하기 위하여, 음성 인식 프로그램 사용자는 자신의 음성을 등록할 필요가 있는데, 이는 인식 시스템의 처리를 위한 샘플을 제공하게 된다. 사용자가 유창하고 크게 읽으면, 그러한 샘플을 쉽게 수집할 수 있다. 따라서, 사용자가 어떤 이유로 유창하게 읽을 수 없거나 음성 시스템이 표시기를 제공하지 않을 경우에는, 그러한 샘플을 수집하는 것이 매우 현실적이지 못했었다. 음성 인식 시스템은 전화 및 중앙 집중식 구술 시스템(centralized dictation system)과 관련하여 구현될 수 있는데, 그 장치의 일부로서 표시용 모니터를 구비할 필요가 없다.

최근에 음성 인식 소프트웨어의 현저한 개선이 있어 왔다. 음성 인식 소프트웨어는 음성 인식 엔진이라 부르는데, 이것은 구술의 목적이나 지령(command) 및 제어의 목적으로 사용자 음성의 음향 신호를 문자로 변환한다. 종래의 시스템은 때때로 화자 독립적 모델(speaker-independent model)을 사용하여 사용자가 시스템에게 말하도록 하여 사용자가 되도록 빨리 소프트웨어를 이용할 수 있게 한다. 그러나, 사용자가 시스템에 등록하면 인식 정확도가 최상이 된다.

일반적인 등록에 있어서, 시스템은 사용자에게 문자를 표시하고 사용자가 그 문자를 읽는 동안 사용자의 음성을 기록한다. 이 방법은 사용자가 유창하게 음독할 수 있을 때는 적합하다. 그러나, 사용자가 사용자 등록을 위한 언어에 유창하지 못하면 이 방법은 적절하지 못하다. 사용자가 유창하지 못한 이유는 많다. 그 예는 다음과 같다. 즉, 사용자가 막 읽기 시작한 어린이일 수 있고, 익숙치 않은 자료를 읽는 것을 어렵게 하는 한 가지 이상의 학습 장애(learning disability)가 있는 어린이 또는 성인이 사용자일 수 있고, 말하는 데는 유창하지만 읽는 데 유창하지 못한 경우일 수 있으며, 등록을 위해 안내되는 언어가 사용자에게 외국어인 경우도 있으며, 등록 시스템의 표시용 장치가 없어 읽을 것이 없는 경우일 수도 있다.

따라서, 오래 전부터, 음독이 미숙한 자와 표시기가 없는 음성 시스템을 위한 음성 인식 등록의 제공이 필요하다고 인식되어 왔다.

등록 시스템은 유창한 음독자 대상의 시스템의 특성 외에도 음독이 미숙한 사용자 및 표시기에 접근 하지 않는 사용자 돕기 위한 어떤 특성이 있어야 한다. 본 발명의 구성에 따르면, 가장 중요한 추가의 특성은 사용자가 문자를 음독할 것이라고 예상하기에 앞서 사용자에게 문자(text)를 읽어주는 기능이다. 이것은 음성 출력이 해당 문자에 대한 정확한 발음으로 충실하게 음성을 제공하도록 조정된 문자-음성 변환기(text-to-speech)(TTS)를 이용하거나, 또는 녹음된 음성을 이용하여 달성할 수 있다. 적절한 시스템 자원이 확보된다면, 녹음된 음성은 매우 자연스런 음향으로 양호하게 제공되지만, 클라이언트-서버 시스템의 휴대용 장치(handheld device)와 같은 제한된 자원의 시스템에서는 TTS를 채택하는 것이 더 좋을 수 있다.

따라서, 표준형 사용자 인터페이스를 조정하여 음성 채널을 통해 사용자에게 등록 문자를 제공하여 이해하기 쉬운 일련의 이벤트를 제공함으로써 장기간 인식되어온 종래 기술의 요망 사항이 충족된다.

도 1a, 도 1b, 도 1c는 하나의 흐름도를 분할한 것으로서, 이 흐름도는 음독이 미숙한 자가 음성 인식 응용 프로그램에 등록하는 과정과 임의의 사용자가 표시기가 없는 음성 인식 응용 프로그램에 등록하는 과정을 설명하는데 유용한 흐름도.

도 2 내지 도 8은 본 발명의 구성에 따른 그래픽 기반 사용자 인터페이스(graphical user interface)(GUI)에 의해 생성된 음독이 미숙한 자를 위한 등록 대화창의 표시 스크린의 연속적인 변화를 도시한 도면.

도 9는 도 2내지 도 8에 도시된 GUI의 표시 스크린을 생성하고 표시기가 없는 전화 시스템과 결합하여 동작하는, 도 1에 도시된 방법을 수행하기 위한 명령어 루틴의 세트로 프로그램 된 컴퓨터 장치의 블록도.

본 발명의 구성에 따르면, 음독을 요구하는 일이 없이 사용자를 음성 인식 시스템에 등록하는 방법은, 음성 출력 및 음성 입력을 구비한 음성 기반 사용자 인터페이스(audio user interface)(AUI)를 생성하는 단계와, 문구(text phrase)를 음성으로 재생하는 단계와, 재생된 문구를 복창하도록 음성으로 사용자를 안내하는 단계와, 복수 개의 후속 문구에 대해 음성으로 문구를 재생하고 사용자가 대답하도록 음성으로 안내하는 단계들을 반복하는 단계와, 음성으로 안내되고 이어서 사용자가 복창한 문구에 기초하여 사용자 등록을 처리하는 단계를 포함한다.

본 발명의 방법은 사용자가 복창한 문구가 수신되면 복수 개의 후속 문구 중의 하나를 추가로 음성으로 재생하는 단계를 더 포함할 수 있다.

본 발명의 방법은 사용자가 복창한 문구가 수신되지 않으면 음성으로 문구를 재생하고 사용자가 직전에 재생된 문구를 복창하도록 음성으로 안내하는 단계를 반복하는 단계를 더 포함할 수 있다.

본 발명의 방법은 음성으로 재생하는 단계 이전에, 문구가 재생될 때는 말하지 않도록 사용자를 음성으로 안내하는 단계를 더 포함할 수 있다.

본 발명의 방법은 등록 처리 중에 가청의 사용자용 진행 과정 통지문(audible user-progress notification)을 생성하는 단계를 더 포함할 수 있다.

본 발명의 방법은 제1 음성으로 사용자를 안내하고, 상기 문구를 제2 음성으로 재생하는 단계를 더 포함할 수 있다.

본 발명의 방법은 적어도 문구의 일부는 녹음된 것으로부터 음성으로 재생하는 단계 또는 적어도 문구의 일부는 문자-음성 엔진(text-to-speech engine)을 이용하여 음성으로 재생하는 단계를 포함하거나 두 단계를 모두 포함할 수 있다. 이와 유사하게, 사용자는 녹음된 음성으로 안내 받거나 또는 문자-음성 엔진에 의하여 음성으로 안내 받을 수 있으며 양자 모두로부터 안내 받을 수 있다.

본 발명의 방법은 음성 기반 사용자 인터페이스의 생성 단계에 맞춰 그래픽 기반 사용자 인터페이스를 생성하는 단계와, 문구 및 음성 안내문에 상응하는 문자를 표시하는 단계를 더 포함할 수 있다.

본 발명의 방법은 사용자 조작을 위하여 복수 개의 아이콘을 표시하는 단계와, 각각 다른 때에는 아이콘의 색상, 모양 및 애니메이션 중의 적어도 하나에 의하여 복수 개의 아이콘 중의 하나를 선별하는 단계를 더 포함할 수 있다.

본 발명의 구성에 따라 음독을 요구하는 일이 없이 음성 인식 시스템에 사용자를 등록 하기 위한, 고정된 매체에 저장된 명령어 세트로 프로그램 된 컴퓨터 장치는 음성 출력 및 음성 입력을 구비한 음성 기반 사용자 인터페이스를 생성하는 수단과, 문구를 음성으로 재생하는 수단과, 재생된 문구를 사용자가 복창하도록 음성으로 안내하는 수단을 포함한다.

본 발명의 장치는 등록 처리 도중에 가청의 사용자용 진행 과정 통지문을 생성하는 수단을 더 포함할 수 있다.

문구를 음성으로 재생하는 수단은 녹음된 음성을 다시 재생하는 수단 또는 문자-음성 엔진을 포함하거나 양자를 모두 포함할 수 있다.

본 발명의 장치는 음성 기반 사용자 인터페이스에 맞춰 그래픽 기반 사용자 인터페이스를 생성하는 수단과, 문구 및 음성 안내문에 대응하는 문자를 표시하는 수단을 더 포함할 수 있다.

본 발명의 장치는 사용자 조작을 위한 복수 개의 아이콘 표시 수단과, 색상, 모양 및 애니메이션 중의 적어도 하나에 의하여 상이한 시간에 복수 개의 아이콘 중에서 상이한 것들을 선별하는 수단을 더 포함할 수 있다.

모든 등록 처리의 예비 단계는 사용될 등록용 대본(enroll script)을 준비하는 것이다. 일반적으로, 등록용 대본은 완전한 음성 표본과 음성 조합체를 포함하여야 한다. 표시기로부터의 등록용 대본을 음독하는 중에 사용자를 안내하기 위하여, 단어를 말할 때 연속적으로 강조하는 단어 등과 같은 다양한 설계가 사용될 수 있다. 음독이 미숙한 자 및 표시기에 접근하지 않는 사용자를 위해서는 다른 사항이 고려되어야만 한다. 등록용 대본을 위한 문구는 음성 인식 엔진의 초기 훈련에 도움이 되는 다양한 소리로 선정되거나 구성되어야 한다. 등록용 대본의 각 문장(sentence)은 반드시 구성 문구(constituent or component phrase)로 분할되어야 한다. 각 문구는 언어학적으로 완전한 단위(unit)이어야 하므로, 사용자가 쉽게 각 문구를 기억하게 될 것이다. 사용자의 단기간의 기억 한계를 초과하는 것을 피하기 위하여 각 문구는 하나 또는 두 단위 이상을 포함해서는 안된다. 단위는 전치 구(prepositional phrase)와 같은 언어학적 요소이다.

음독이 미숙한 자 및 표시기에 접근하지 않는 사용자를 위한 등록 처리(10)는 도 1a, 도 1b 및 도 1c에서 세 가지 부분으로 도시되어 있다. 전체 흐름도가 한 장의 도면에 들어가지 않아서 편의상 도 1a 및 도 1b 사이에서 흐름도를 분할하였다. 도 1c에 도시된 루틴(routine)은 선택 사항으로서 본 발명의 구성에 직접 관련된 것은 아니다. 처리(10)의 각 단계는 등록 처리에 걸쳐서 음독이 미숙한 자 및 표시기에 접근하지 않는 사용자를 안내하는 이상적인 시스템을 나타낸다. 설명의 목적상, 지시어(instruction), 문구 및 지령어(command)가 사용자에게 제공될 때마다 지시어, 문구 및 지령어가 사용자에게 적어도 음성으로 재생되는 것으로 가정한다. 음성 지시어, 음성 문구 및 음성 지령어는 녹음된 음성을 재생하여 생성하거나 문자-음성(TTS) 엔진에 의하여 생성할 수 있다. 두 방법을 함께 이용할 수도 있다.

도 1a에 도시된 바와 같이, 등록 처리(10)는 단계(12)에서 시작한다. 단계(14)에서 음성 기반 사용자 인터페이스(voice user interface)(VUI)가 개시된다. 표시 장치가 사용 가능하면, GUI의 생성도 개시된다. 흐름도의 각 단계로 표현되는 방법은 GUI 없이 구현될 수 있으나, 설명의 목적상, 표시 장치가 사용 가능한 것으로 가정한다. 따라서, 도 3 내지 도 9를 참조하면 더 충실히 설명되듯이, 지시어, 문구 및 지령어는 GUI의 윈도우 내에서 문자로도 나타난다.

등록 처리를 어떻게 완료할 것인가에 대한 일반적 지시 사항(general instruction)은 단계(16)에서 재생된다. 일반적 지시 사항은 좋기로는 음성 출력과 결합하여 표시될 수도 있다. 먼저, VUI만의 사용을 생각해본다. 이 경우, 음독이 미숙한 자뿐만 아니라 모든 사용자가 등록을 완료하기 위해 음성 지원을 필요로 한다. 단계(18)에는, 사용자로 하여금 문구가 재생될 때는 조용히 하고 각 문구가 재생된 후에 각 문구를 복창하도록, 사용자를 지시할 수 있거나 이미 단계(16)에서 지시되었다면 이를 상기시킬 수 있다.

단계(20)에서는, 등록용 대본의 최종 블록이 재생되었는지를 결정한다. 최종 블록이 아니면, 경로(21)를 따라 단계(22)로 진행하고, 이에 따라 다음 블록이 제공된다. 이 시점에서, 도 1a의 점프 단계(23)에서 도 1b의 점프 단계(23)로 이동한다. 단계(24)에서는, 현재 블록(current block)의 다음 문구(next phrase)가 현재 문구(current phrase)가 되고, 현재 문구가 단계(26)에서 재생된다. 현재 문구는 제2 음성으로 재생된다.

판단 단계(28)에 의해 음성 인식 엔진은 사용자가 어떠한 단어라도 말했는지를 결정한다. 사용자가 어떠한 단어라도 말했으면, 경로(29)를 따라 판단 단계(34)로 진행한다. 사용자가 말하지 않았다면, 경로(31)를 따라 단계(32)로 분기하여 사용자가 재생된 문구를 복창하도록 지시한다. 지시어는 제1 음성으로 재생되고, 그 다음 다시 단계(28)로 복귀한다.

사용자가 어떤 단어를 말하면, 판단 단계(34)에서는 사용자가 지령어 '고우-백(Go Back)'을 말했는지를 결정한다. 고우-백 명령어는 사용자가 이전 문구를 다시 구술할 수 있도록 한다. 사용자가 고우-백 명령어를 말했으면, 경로(37)를 따라 단계(38)로 진행하여 현재 문구가 이전 문구가 된다. 그 후, 다시 단계(26)로 복귀한다. 고우-백 명령어를 말하지 않았으면, 경로(356)를 따라 판단 단계(40)로 진행한다.

판단 단계(40)에서는 사용자가 지령어 '반복(Repeat)'을 말했는지를 결정한다. 이 지령어는 사용자가 현재 문구를 다시 구술할 수 있도록 한다. 사용자가 반복 지령어를 말했으면, 경로(43)를 따라 단계(26)로 분기한다. 반복 지령어를 말하지 않았으면, 경로(41)를 따라 판단 단계(44)로 진행한다.

판단 단계(44)에서는, 문구를 말한 상태가 수용 가능한지(OK)를 결정한다. 올바르게 디코드되고 재생된 문구와 상응한다면, 그 문구는 수용 가능한 것이다. 틀린 단어를 말했거나, 맞는 단어를 말했지만 충분히 디코드할 수 없거나, 문구가 수신되지 않은 경우에는 문구가 수용 가능하지 않은 것이다. 문구가 수신되지 않을 수 있다. 예를 들면, 사용자가 문구를 말하지 못했거나 소음이나 기타 간섭이 너무 크거나 음성 인터페이스의 입력이 고장난 경우이다. 구술된 문구가 수용 가능한 것이 아니면, 경로(47)를 따라 단계(56)로 분기하여 사용자에게 재시도를 지시하고, 단계(26)로 복귀한다. 한 가지 대안에 있어서, 예를 들어 사용자는 지시어에 의해 안내되거나 문구가 다시 재생됨이 없이, 문구를 다시 복창할 기회를 요청할 수 있다. 일반적인 지침으로서, 사용자가 사용에 적합한 발음을 하면 본 방법은 정규의 방식으로 문구들을 따라 진행한다. 하나 이상의 단어가 부적절하게 발음되면 문제 있는 단어나 단어들을 반복하여 제시한다.

수용 가능한 문구가 말해지면, 경로(45)를 따라 판단 단계(46)로 진행하여 현재 블록의 최종 문구가 재생되거나 복창되었는지를 결정한다. 그렇지 않았으면, 경로(49)를 따라 단계(24)로 복귀한다. 현재 블록의 최종 문구가 재생되거나 복창되었으면, 경로(47)를 따라 진행한다. 이 시점에서, 도 1b의 점프 단계(53)에서 도 1a의 점프 단계(53)로 이동한다. 도 1a에서, 점프 단계(53)는 단계(54)로 이어지고, 단계(54)에 따라 가청 등록 처리 진행 통지문이 생성된다.

통지 후에 판단 단계(20)로 복귀한다. 문구의 최종 블록이 재생되지 않았으면, 경로(21)를 따라 단계(22)로 진행하여, 위에 설명한 것과 같이 문구의 다음 블록이 재생된다. 문구의 최종 블록이 제시되면, 경로(21)를 따라 단계(58)로 분기하여 문구의 제시가 종료된다.

문구의 제시가 종료되면, 사용자에게 지금 등록하거나 등록을 연기할 수 있는 선택권이 부여된다. 등록 루틴(60)은 도 1c에 도시되어 있는데, 도 1a 및 도 1c의 관련된 점프 단계(59)를 통해 연결될 수 있다. 단계(62)에서는, 사용자는 지금 등록할 것인지 또는 나중에 등록할 것인지에 대한 선택을 제시받는다. 사용자가 지금 등록할 것을 선택하면, 경로(61)를 따라 단계(64)로 진행하여 구술된 문구에 기초하여 등록이 처리된다. 그 후, 단계(68)에서 종료한다. 등록이 연기되면, 경로(63)를 따라 단계(66)로 진행하여 등록용 대본의 문장의 블록의 구술된 문구가 이후의 등록 처리를 위해 저장된다. 그 후, 단계(68)에서 종료한다.

본 방법은 등록용 대본의 문구를 재생하는 음성과 지시어 및 피드백의 음성을 달리하여 유리하게 구현될 수 있다. 다른 음성을 사용하면 표 1에 설명된 아래의 예시된 대화문을 통해 잘 알 수 있다.

음성	음향 및 음성 메시지
제1 음성	등록 중에 당신은 77개의 단문을 듣게 될 것인데, 나래이터를 따라 각 문장을 복창하십시오.이것은 로버트 루이스 스티븐슨(Robert Louis Stevenson)이 1882년에 저술한 보물섬에서 발췌한 것입니다. 이것은 본 소설의 특별판으로서 모든 권리는 IBM에 귀속되어 있습니다. 문장을 복창할 때에는 자연스럽고 되도록 분명하게 말하십시오. 문장을 다시 듣고 복창하고 싶으면 "고우-백"이라고 말하십시오. 좋습니다. 시작합니다. 나래이터가 읽은 다음에 각 문장을 큰소리로 복창해주십시오.
제2 음성	나를 따라 복창해 주세요, 늙은 해적, 이 이야기는...(약 18개 이상의 문구가 계속됨)
제1 음성	등록을 위한 당신의 구술은 25% 진행되었습니다.
제2 음성	그의 머리카락은 어깨까지 내려와 더러운 남색 코트 위에서 치렁거렸다.(약 18개 이상의 문구가 계속됨)
제1 음성	등록을 위한 당신의 구술은 50% 진행되었습니다.
제2 음성	그는 절벽을 응시한 채 우리의 신호를 보았다.(약 18개 이상의 문구가 계속됨)
제1 음성	등록을 위한 당신의 구술은 75% 진행되었습니다.
제2 음성	오우! 당신이 뭘 원하는 지 알겠어요. 그는 서너 개의 금조각을 내려놓았다.(약 18개 이상의 문구가 계속됨)
제1 음성	축하합니다. 등록을 위한 구술을 완료하셨습니다.
군중 소리	환호하는 이어콘^*.

* 이어콘(earcon)은 들을 수 있는 것으로서, 아이콘(icon)에 대응하는 것이다.

GUI를 채택하여 본 처리(10) 방법을 이용하는 예가 연속적인 표시 스크린(100) 형태로 도 2 내지 도 8에 도시되어 있다. 이들 표시 스크린은 음독이 미숙한 자 및 표시 장치에 접근하지 않는 사용자의 등록을 지원하는 데 요하는 추가적인 특징을 갖추기 위해 기존의 비아보이스 골드(ViaVoice Gold) 등록 대화창을 변화시키고 확장시킨 것이다. ViaVoice Gold는 IBM으로부터 구득이 용이한 음성 인식 응용 프로그램이다. 종래의 도면에서는 등록용 대본의 각 부분과 기타 아이콘 및 버튼의 각 부분을 음독이 미숙한 자가 구별할 수 있게 도시하는 것은 어려운 일이므로, 이런 구별을 위해 색상을 이용하여 구별할 수 있게 하는 것이 바람직하다. 표시 장치가 이용 가능하면, 음성 지시어에 의한 색상 참조는 쉽게 이루어질 수 있다. 문자에 적용할 수 있는 기타의 방법으로는 문구에 대한 박스 처리, 밑줄 긋기, 볼드체 및 이탤릭체로의 글씨체 변형, 문자 배경 강조(background highlighting) 등의 방법이 있다. 색상을 쓰지 않는 방법은 흑백 표시 장치가 사용되거나 음독자 및 음독이 미숙한 자가 색맹인 경우 유용하다. TTS 엔진은, 예를 들어 다음의 지시어를 생성할 수 있다. "모래시계 아이콘(hourglass icon)이 노란 색에서 녹색으로 변하면 녹색 단어를 읽으십시오." 물론, 녹색 단어를, 예를 들어 볼드체나 이탤릭체 단어, 밑줄 친 단어 등으로 대체할 수 있다. 도 2 내지 도 8에서, 각각의 색상은 각각 다르게 빗금 쳐진 원으로써 구별되고, 문자의 일부를 구별하는 경우라면 점선 박스로 감싸는 방식으로 구별된다. 각 경우에, 등록용 대본의 처음 블록은 다음과 같다. "등록을 하려면 이들 문장을 소리내어 읽고, 쉼표 자연스럽고 되도록 명확하게 말하고, 쉼표 다음 문장을 기다려 주십시오(To enroll you need to read these sentences aloud, COMMA speaking naturally and as clearly as possible, COMMA then wait for the next sentence to appear)." 이 문장의 문구 또는 일부는 TTS 엔진에 의하여 또는 녹음된 것 또는 그 두 가지의 조합체로부터 재생되고, 그 후 사용자는 이 문구를 복창한다. 표시 장치가 이용될 경우, GUI는 사용자가 문구를 읽지 않더라도, 최소한 문구를 볼 수 있게 한다.

도 2는 등록용 대본의 블록(104)이 나타나는 윈도우(102)를 갖추고 있는 표시 스크린(100)을 도시한 도면이다. ViaVoice Gold 등록 스크린과 유사한 방식으로, 표시 스크린(100)은 등록용 대본 블록 계수기(106), 음향 레벨 계측 아이콘(audio level meter icon)(108), 시작 버튼 아이콘(Start button icon)(110), 옵션 버튼 아이콘(Option button icon)(112), 문구 재청취 버튼 아이콘(Replay phrase button icon)(114), 멈춤 버튼 아이콘(Suspend button icon)(116) 및 도움말 버튼 아이콘(Help button icon)(118)을 포함한다. ViaVoice Gold 등록 스크린에서는, 버튼 아이콘(114)은 샘플 재생(Play sample) 아이콘이다. 나머지 버튼 아이콘은 회색으로 처리되며 본 발명의 구성의 이해에 불필요한 것이다.

지시용 아이콘(120)은 모래시계 형태로서 시스템이 등록용 대본의 블록의 처음 문구의 재생을 준비하고 있다는 것을 나타낸다. 바람직한 본 실시예에 따르면, 모래시계는 현재 문구의 첫 단어를 가리키는 노란 화살표(122)를 가진다. 도 2 내지 도 8의 각 도면에서, 문자가 쓰여진 버튼 아이콘은 음독이 미숙한 자에게는 적절하지 못하다. 버튼 아이콘은 다른 색상을 가질 수 있어서, 시스템은 예를 들어 사용자에게 "이제 녹색 버튼을 클릭하세요."라는 식으로 지시할 수 있다.

도 3에 있어서, 시스템은 현재 문구를 음성으로 재생하기 시작한다. 화살표(122)는 여전히 노란 색이며, 첫단어 '등록을'은 박스(130) 내에서 녹색으로 나타난다. 이 표현 방식에서, 각 단어는 재생되는 것에 맞춰 흑색에서 녹색으로 변한다. 이 부가적 특징은 음독이 미숙한 자가 각 단어와 이에 대한 올바른 음성을 연관시킬 수 있도록 도움을 주며, 음독자에게는 읽기 쉽게 집중점을 제공한다.

도 4에 있어서, 등록 대화창의 처음 블록의 현재 문구 전체가 녹색이 되어 박스(132)에 감싸져 있는데, 시스템이 현재 문구의 마지막 단어까지 음성으로 재생했음을 나타낸다. 모래시계(120)의 화살표(122)는 아직 노란 색이다.

도 5에 있어서, 시스템은 사용자에게 마이크로폰 아이콘(124)을 사용하여 이제 사용자가 시스템에 의해 직전에 재생된 문구를 복창할 때라는 것을 나타내며, 화살표(122)는 녹색이 된다. 선택 사항으로서, 사용자는 문구 재청취 버튼을 클릭하여 그 문구를 다시 들을 수 있다. 사용자가 이 옵션을 선택하면, 시스템은 도 2에 도시된 상태로 복귀한다.

도 6에 도시된 대한에 있어서, 사용자가 문구를 복창하면 그 단어가 올바르게 발음되었음을 나타내기 위하여 시스템은 각 단어를 청색으로 변환한다. 최소한, 이 경우의 발음은 시스템이 사용자에 대한 음성 모델을 구축하는 데 이 음성을 사용하기에 충분한 정도로 정확한 것이다. 이 과정을 양호하게 수행하려면, 사용자 발음을 수용하는 시스템 기준은 되도록 완화되어야 한다. 따라서, 화살표(122)는 녹색이고, 첫단어 '등록을'은 청색으로 박스(134) 내에 위치하고, 현재 문구의 나머지 단어는 녹색으로 박스(136) 내에 위치한다.

도 7은 사용자가 문구 복창을 완료하고 시스템이 모든 발음을 수용한 상태를 도시한 것이다. 따라서, 현재 문구의 전체가 청색으로 박스(138) 내에 위치한다. 얼마 후에, 예컨대 250 ms 내지 500 ms 후에, 시스템은 블록의 다음 문구, 예컨대 '소리내어 읽고, 쉼표'에 대해서 도 2 내지 도 7에 도시된 단계를 반복한다.

도 8은 사용자의 발음이 그 단어를 사용자의 음성 모델 계산에 사용할 수 없을 정도로 기준에서 벗어날 때, 해당 단어의 색상을 다른 색, 예컨대 적색으로 어떻게 변경하는 지를 도시한 도면이다. 화살표(122)는 녹색이다. 문구의 일부인 '등록을 하려면'은 청색으로 박스(140) 내에 위치한다. 문구의 일부인 '문장을'도 청색으로 박스(144) 내에 위치한다. 기준에서 벗어난 단어 '이들'은 적색으로 박스(142)에 위치한다.

단어가 이따금씩만 적색으로 나타날 경우, 사용자에게 '다음' 버튼을 클릭하여(이 버튼이 회색으로 되지 않은 경우임) 계속 진행하도록 지시할 수 있다. 어떤 단어라도 적색으로 변경되면(단어 또는 단어들이 사용 기준에서 벗어남을 나타냄), 사용자에게 적색 단어를 클릭하고 '시작' 버튼을 이용하여 그 단어나 문구 전체를 다시 녹음하도록 지시할 수 있다. 이 대안에 있어서, 음성 지시 예컨대, "'이들'을 말하세요"와 함께 지시용 문구를 표시 스크린의 하단의 버튼들 사이에 위치한 윈도우(150)에 표시할 수 있다. 적색 단어를 녹취하는 절차는 시스템이 적색 단어의 발음을 이끌어 내는 것을 제외하고는 문구의 다른 부분을 녹취하는 절차와 동일하다. 음성에 대한 문맥(acoustic context)이 필요하면, 시스템은 적색 단어와 이 단어의 선행 단어 및 뒤이은 단어에 대한 발음을 유도할 것이다.

달리 말하면, 시스템은 표적 단어의 세트를 모래시계/노란 색 화살표 아이콘으로 지시하며 이 단어를 재생할 것이다. 그 다음, 아이콘이 마이크로폰/녹색 화살표 아이콘으로 바뀌고 사용자는 문구를 복창한다. 프로그램 된 어떤 횟수, 예컨대 3회 만큼 시도한 후에도 녹취된 발음이 계속 사용하기에 부적절하면, 시스템은 자동적으로 다음 적색 단어 또는 다음 문구로 적절하게 이동한다.

본 발명의 구성은 음독이 미숙한 자, 즉 잘 읽지 못하는 자나 기타 언어가 모국어인 자가 음성 인식 시스템의 등록을 완료할 수 있도록 지원하는 데 적합한 새로운 등록 절차를 제공한다. 표시기가 없는 장치의 경우에는 음독 능력에 무관하게 등록이 가능하다. 일상적인 구술 시에 저장된 음성을 가지고 추가적인 음성 분석을 수행하는, 감독하지 않는 등록에 관한 기술이 미래에는 더욱 실현 가능성이 있을 것으로 예상되나, 사용자는 최소한 어떤 초기 단계의 등록으로부터 항상 혜택을 받을 것이며, 음독이 미숙한 자 또는 잘 읽지 못하는 자도 본 발명의 구성에 따른 시스템에 의해 혜택을 받을 것이다.

본 발명의 구성에 대한 방법은 도 9에 도시된, 고정 매체에 저장된 명령어 루틴 세트가 갖추어진 컴퓨터 장치(60)에 의해 구현될 수 있다. 컴퓨터(60)는 처리기(62)를 구비한다. 처리기(62)는 RAM(64), 하드 드라이브(66), 그래픽 어댑터(68) 및 하나 이상의 사운드 카드(76)를 구비한다. RAM(64)은 도 1에 도시된 처리(10)의 단계를 수행하도록 프로그램 되었으며 도 2 내지 도 8에 도시된 표시 스크린을 생성하는 것으로 도시하였다. 모니터(70)는 그래픽 어댑터(68)로 구동되고 지령은 키보드(72) 및 마우스(74)에 의해 생성된다. 음성 기반 사용자 인터페이스(78)는 사운드 카드(76)로부터 연결부(80)를 통해 신호를 수신하는 스피커(84)와 연결부(82)를 통해 사운드 카드(76)로 신호를 공급하는 마이크로폰(86)을 포함한다. 마이크로폰 및 스피커는 점선 박스(88)로 표시된 바와 같은 헤드셋(headset)에 결합될 수 있다.

컴퓨터 장치는 인터페이스(90)를 통해 전화 시스템(92)에 연결될 수 있다. 사용자는 전화로 음성 인식 응용 프로그램을 접속하여 표시 장치 없이 응용 프로그램에 등록할 수 있다.

본 발명의 구성은 여러가지의 중요한 특징에 의존하는데, 그 특징은 근본적으로 단일 구로 형성된 짧은 문장이 아닌 한, 등록용 원고를 쉽게 복창할 수 있는 부문장구(副文章句)(sub-sentence phrases)로 분해하는 것과, 사용자가 음성 인식 시스템의 등록 대화창 내의 문구를 말하기 전에 TTS 또는 저장된 음성을 이용하여 문구에 대한 정확한 발음을 제공하는 것을 포함한다. 표시기가 구비된 시스템에 대한 부가적인 특징은, 시스템이 문구에 대한 음성을 제공할 때 그 음성이 어떤 단어에 대한 것인지를 사용자가 볼 수 있도록 지원하는 시각적 피드백의 이용과, 언제 읽기 시작해야 할 지를 사용자에게 알려주는 것과, 어떤 단어가 수용 가능하게 발음되고 어떤 단어가 수용 불가능하게 발음되었는지에 대한 피드백을 제공하는 것을 포함한다.

본 발명을 통하여 문장을 적절하게 읽지 못하는 사용자들도 효과적으로 음성 인식 시스템에 자신의 음성을 등록할 수 있으며, 더욱이 표시 장치가 구비된 경우에는 적절한 GUI를 제공함으로써 사용자에게 시각적 피드백을 제공하여 등록 절차를 용이하게 완료할 수 있다.

Claims

음독을 요구하는 일이 없이 사용자를 음성 인식 시스템에 등록하는 방법에 있어서,

a) 음성 출력 및 음성 입력이 구비된 음성 기반 사용자 인터페이스(AUI)를

생성하는 단계와,

b) 문구를 음성으로 재생하는 단계와,

c) 재생된 문구를 복창하도록 음성으로 사용자를 안내하는 단계와,

d) 복수 개의 추가 문구에 대해 음성으로 문구를 재생하고 사용자가 복창하

도록 음성으로 안내하는 상기 단계를 반복하는 단계와,

e) 상기 음성으로 안내되고 사용자가 말한 후속 문구에 기초하여 사용자

등록을 처리하는 단계

를 포함하는 음독이 미숙한 자용 및 표시기가 없는 장치용 음성 인식 등록 방법.
제1항에 있어서, 사용자가 말한 문구가 수신되면 복수 개의 후속 문구 중의 하나를 추가로 음성으로 재생하는 단계를 더 포함하는 방법.
제1항에 있어서, 사용자가 말한 문구가 수신되지 않으면, 문구를 음성으로 재생하고 직전에 재생된 문구를 사용자가 복창하도록 음성으로 안내하는 단계를 반복하는 단계를 더 포함하는 방법.
제3항에 있어서, 음성으로 재생하는 단계 이전에, 문구가 재생되는 동안에는 말하지 말도록 사용자를 음성으로 안내하는 단계를 더 포함하는 방법.
제1항에 있어서, 등록 처리 도중에 가청의 사용자용 진행 과정 통지문을 생성하는 단계를 더 포함하는 방법.
제1항에 있어서, 제1 음성으로 사용자를 안내하고 상기 문구를 제2 음성으로 재생하는 단계를 더 포함하는 방법.
제1항에 있어서, 적어도 문구의 일부는 녹음된 것으로부터 음성으로 재생하는 단계를 포함하는 방법.
제1항에 있어서, 적어도 문구의 일부는 문자-음성 엔진을 이용하여 음성으로 재생하는 단계를 포함하는 방법.
제1항에 있어서, 녹음된 것으로부터 음성으로 사용자를 안내하는 단계를 포함하는 방법.
제1항에 있어서, 문자-음성 엔진을 이용하여 음성으로 사용자를 안내하는 단계를 포함하는 방법.
제1항에 있어서, 상기 음성 기반 사용자 인터페이스(AUI)의 생성 단계에 맞춰 그래픽 기반 사용자 인터페이스(GUI)를 생성하는 단계와, 상기 문구 및 상기 음성 안내에 상응하는 문자를 표시하는 단계를 더 포함하는 방법.
제1항에 있어서, 사용자 조작을 위하여 복수 개의 아이콘을 표시하는 단계와, 색상, 모양, 애니메이션 중의 적어도 하나에 의하여 상이한 시간에 상기 복수 개의 아이콘 중에서 상이한 것들을 선별하는 단계를 더 포함하는 방법.
제1항에 있어서, 음성 기반 사용자 인터페이스(AUI)의 생성 단계에 맞춰 그래픽 기반 사용자 인터페이스(GUI)를 생성하는 단계와, 문구 및 상기 음성 안내에 상응하는 문자를 표시하는 단계와, 조작을 위하여 복수 개의 아이콘을 표시하는 단계와, 색상, 모양, 애니메이션 중의 적어도 하나에 의하여 상이한 시간에 상기 복수 개의 아이콘 중에서 상이한 것들을 선별하는 단계를 더 포함하는 방법.
음독을 요구함이 없이 음성 인식 시스템에 사용자 등록을 하기 위한, 고정된 매체에 저장된 명령어 세트로 프로그램 된 컴퓨터 장치에 있어서,

a) 음성 출력 및 음성 입력을 구비한 음성 기반 사용자 인터페이스를 생성하

는 수단과,

b) 문구를 음성으로 재생하는 수단과,

c) 재생된 문구를 사용자가 복창하도록 음성으로 안내하는 수단

을 포함하는 컴퓨터 장치.
제14항에 있어서, 등록 과정 중에 가청의 사용자용 진행 과정 통지문을 생성하는 수단을 더 포함하는 장치.
제14항에 있어서, 상기 문구를 음성으로 재생하는 수단은 미리 녹음된 음성을 재생하는 수단을 포함하는 것인 장치.
제14항에 있어서, 상기 문구를 음성으로 재생하는 수단은 문자-음성 엔진을 포함하는 것인 장치.
제14항에 있어서, 음성 기반 사용자 인터페이스에 맞춰 그래픽 기반 사용자 인터페이스를 생성하는 수단과, 상기 문구 및 상기 음성 안내에 상응하는 문자를 표시하는 수단을 더 포함하는 장치.
제14항에 있어서, 사용자 조작을 위하여 복수 개의 아이콘을 표시하는 수단과, 색상, 모양, 애니메이션 중의 적어도 하나에 의하여 상이한 시간에 상기 복수 개의 아이콘 중에서 상이한 것들을 선별하는 수단을 더 포함하는 장치.
제14항에 있어서, 상기 음성 기반 사용자 인터페이스(AUI)의 생성 단계에 맞춰 그래픽 기반 사용자 인터페이스(GUI)를 생성하는 수단과, 상기 문구 및 상기 음성 안내에 상응하는 문자를 표시하는 수단과, 사용자 조작을 위하여 복수 개의 아이콘을 표시하는 수단과, 색상, 모양, 애니메이션 중의 적어도 하나에 의하여 복수 개의 아이콘 중의 하나를 상이한 시간에 선별하는 수단을 더 포함하는 장치.