KR20040106458A

KR20040106458A - 휴대용 디바이스용 음성 명령 및 음성 인식

Info

Publication number: KR20040106458A
Application number: KR10-2004-7017708A
Authority: KR
Inventors: 지안레이 자이
Original assignee: 톰슨 라이센싱 소시에떼 아노님
Priority date: 2002-05-15
Filing date: 2003-05-13
Publication date: 2004-12-17
Also published as: JP2005525603A; WO2003098599A1; MXPA04011266A; EP1504442A4; EP1504442A1; US20030216915A1; CN1653516A; AU2003230388A1

Abstract

Ebook(200)이 제공된다. Ebook(200)은 메모리 디바이스(230), 명령 인식 모듈(210), 및 프로세서(240)를 포함한다. 메모리 디바이스는 파일을 저장한다. 파일은 텍스트를 포함한다. 명령 인식 모듈은 음성 명령을 인식한다. 프로세서는 음성 명령을 실행한다.

Description

휴대용 디바이스용 음성 명령 및 음성 인식{VOICE COMMAND AND VOICE RECOGNITION FOR HAND-HELD DEVICES}

전자북(또한 "Ebook"으로 지칭됨)은 종래의 인쇄된 책(또는, 예컨대 잡지, 신문 등과 같은 다른 인쇄 매체)의 전자 버전으로서 개인용 컴퓨터를 사용하거나 Ebook 판독기를 사용하여 판독될 수 있다. PC나 휴대용 컴퓨터와는 달리, Ebook 판독기는 메모(note taking), 고속 탐색, 및 키워드 검색을 위한 강력한 전자적 특성을 추가하면서도 종래의 종이 책에 필적하는 판독 경험을 제공한다. 그러나, 이러한 동작은, 이들이 PC, 휴대용 컴퓨터, 또는 Ebook 판독기 상에서 실행되는지에 상관없이 일반적으로 사용자가 버튼을 작동하거나 원격 제어기를 사용해야 하는 것을요구한다. 그에 따라, Ebook의 사용은 일반적으로 사용자가 자신의 한손 또는 양손을 사용해야 하는 것을 요구한다. 게다가, 임의의 휴대용 디바이스의 사용은 사용자가 자신의 한손 또는 양손을 사용해야 하는 것을 요구한다.

그에 따라, 예컨대 핸즈-프리 작동을 허용하는 Ebook과 같은 휴대용 디바이스를 갖는 것이 바람직하며 매우 유리하다.

본 출원은 각각 "Talking Ebook", "Text-To-Speech(TTS) for Hand-Held Devices", 및 "Mixing Music and Text-to-Speech(TSS) for Hand-Held Devices"라는 제목의 대리인 관리번호(IU000025, IU010084, 및 IU010086)인 출원에 관한 것이며, 이들 출원은 공동 양도되고, 동시에 출원되었으며, 그 개시물은 본 명세서에 참조로서 병합되어 있다.

본 발명은 일반적으로 휴대용 디바이스에 관한 것이며, 좀더 상세하게는 휴대용 디바이스용의 음성 명령 및 음성 인식에 관한 것이다.

도 1은 본 발명의 예시적인 실시예에 따라, 본 발명이 적용될 수 있는 컴퓨터 시스템(100)을 예시한 블록도.

도 2는 본 발명의 예시적인 실시예에 따라, Ebook(200)을 예시한 블록도.

도 3은 본 발명의 예시적인 실시예에 따라, 명령 인식 기능 및 음성 인식 기능을 갖는 Ebook을 제어하기 위한 방법을 예시한 흐름도.

전술된 문제점 및 종래기술의 다른 관련 문제점은, 명령 인식 및 음성 인식 기능을 갖는 휴대용 디바이스, 및 명령 인식 및 음성 인식 기능을 사용하여 휴대용 디바이스를 제어하기 위한 방법인 본 발명에 의해 해결된다. 음성 명령은 사용자가 버튼이나 원격 제어기를 사용하기 보다는 오디오 입력 디바이스를 통해 간단히 명령을 말함으로써 휴대용 디바이스를 제어하게 한다. 음성 인식 기능은 개별 사용자 동작의 추적을 허용하며, 사용자 ID를 기반으로 해서 휴대용 디바이스 자원 및 특성의 관리 및 할당을 허용한다. 그에 따라, 명령 인식 기능 및 음성 인식 기능의 사용은 유리하게 사용자에게 휴대용 디바이스 작동의 핸즈-프리 제어를 제공한다.

본 발명의 일양상에 따라, Ebook이 제공된다. Ebook은 메모리 디바이스, 명령 인식 모듈, 및 프로세서를 포함한다. 메모리 디바이스는 파일을 저장한다. 파일은 텍스트를 포함한다. 명령 인식 모듈은 음성 명령을 인식한다. 프로세서는 음성 명령을 실행한다.

본 발명의 또 다른 양상에 따라, Ebook을 제어하기 위한 방법이 제공된다. 음성 명령은 Ebook의 하나 이상의 사용자로부터 수신된다. 음성 명령은 인식된다.Ebook은 음성 명령을 기반으로 해서 제어된다.

본 발명의 이들 및 다른 양상, 특성 및 장점은, 첨부된 도면과 연계하여 읽혀질 바람직한 실시예에 대한 다음의 상세한 설명을 통해 분명하게 될 것이다.

본 발명은 명령 인식 기능 및 음성 인식 기능을 갖는 휴대용 디바이스 및, 명령 인식 기능 및 음성 인식 기능을 사용하여 휴대용 디바이스를 제어하기 위한 방법에 관한 것이다. 본 발명이 전자북(Ebooks), 개인 휴대 단말기(PDA) 등을 포함하며 이들로 제한되지는 않는 임의의 휴대용 디바이스 유형에 관한 것임을 이해해야 한다. 그러나, 본 발명을 기술하기 위해, 다음의 설명은 Ebook에 관해서 제공될 것이다.

음성 명령은 버튼이나 원격 제어기를 사용하기 보다는 오디오 입력 디바이스를 거쳐서 명령을 말함으로써 Ebook을 제어하게 하여, 이를 통해 Ebook 작동의 핸즈-프리 제어 기능을 사용자에게 제공한다. 나아가, 명령 및 음성 인식 기능 외에, 텍스트-음성(TTS:Text-To-Speech) 합성 기능의 구현은 사용자가 디스플레이를 보는것이 바람직하지 않은 경우(예컨대, 운전하는 동안)에 Ebook 애플리케이션에 매우 유용한 툴을 제공한다.

본 발명이 하드웨어, 소프트웨어, 펌웨어, 특수용도 프로세서, 또는 이들의 조합의 여러 형태로 구현될 수 있음을 이해해야 한다. 바람직하게, 본 발명은 하드웨어 및 소프트웨어의 조합으로서 구현된다. 게다가, 소프트웨어는 바람직하게는 프로그램 저장 디바이스 상에 명백히 구현되는 애플리케이션 프로그램으로서 구현된다. 애플리케이션 프로그램은 임의의 적절한 아키택쳐를 포함하는 머신에 업로드되고 이러한 머신에 의해 실행될 수 있다. 바람직하게, 이러한 머신은 하나 이상의 중앙처리장치(CPU), 랜덤액세스 메모리(RAM), 및 입력/출력(I/O) 인터페이스(들)와 같은 하드웨어를 갖는 컴퓨터 플랫폼 상에서 구현된다. 컴퓨터 플랫폼은 또한 운영체계와 마이크로명령 코드를 포함한다. 본 명세서에서 기술된 여러 프로세스 및 기능은 마이크로명령 코드의 일부분이거나, 운영체계를 통해 실행되는 애플리케이션 프로그램의 일부분일 수 있다(또는 이들의 조합일 수 있다). 게다가, 추가적인 데이터 저장 디바이스와 인쇄 디바이스와 같은 여러 다른 주변 디바이스가 컴퓨터 플랫폼에 연결될 수 있다.

첨부 도면에 도시된 구성하는 시스템 구성요소 및 방법 단계 중 몇몇이 바람직하게는 소프트웨어로 구현되기 때문에, 시스템 구성요소(또는, 프로세스 단계) 사이의 실제 연결은 본 발명이 프로그램된 방식에 따라 다를 수 있음을 더 이해해야 한다. 본 명세서의 교훈이 주어진다면, 당업자는 본 발명의 이들 및 유사한 구현이나 구성을 기대할 수 있을 것이다.

도 1은 본 발명의 예시적인 실시예에 따라 본 발명이 적용될 수 있는 컴퓨터 시스템(100)을 예시한 블록도이다. 컴퓨터 처리 시스템(100)은 다른 구성요소들에 시스템 버스(104)를 통해 동작 가능하게 연결된 적어도 하나의 프로세서(CPU)(102)를 포함한다. 판독전용메모리(ROM)(106), 랜덤액세스메모리(RAM)(108), 디스플레이 어댑터(110), I/O 어댑터(112), 및 사용자 인터페이스 어댑터(114)가 동작 가능하게 시스템 버스(104)에 연결된다.

디스플레이 디바이스(116)는 동작 가능하게 디스플레이 어댑터(110)에 의해 시스템 버스(104)에 연결된다. 디스크 저장 디바이스(예컨대, 자기 또는 광 디스크 저장 디바이스)(118)는 I/O 어댑터(112)에 의해 시스템 버스(104)에 동작 가능하게 연결된다.

마우스(120)와 키보드(122)는 사용자 인터페이스 어댑터(114)에 의해 시스템 버스(104)에 동작 가능하게 연결된다. 마우스(120) 및 키보드(122)는 정보를 시스템(100) 내외로 입출력하는데 사용된다.

컴퓨터 시스템(100)은 또한 음성 명령 인식 모듈(192), 음성 인식 모듈(193), 텍스트-음성(TTS) 모듈(194), 마이크(195), 및 스피커(196)를 포함한다.

도 2는 본 발명의 예시적인 실시예에 따른 Ebook(200)을 예시하는 블록도이다. Ebook(200)은 버스(201)에 의해 상호 연결된 다음의 요소들을 포함한다: 명령 인식 모듈(210), 음성 인식 모듈(220), 적어도 하나의 메모리 디바이스(이후 "메모리 디바이스")(230), 적어도 하나의 프로세서(이후 "프로세서")(240), 부가적인 비-음성 사용자 입력 디바이스(250)(예컨대, 키보드, 키패드, 및/또는 원격 제어기),디스플레이(260), 텍스트-음성(TTS) 모듈(270), 마이크(280), 및 스피커(290)를 포함한다. 본 명세서에서 제공된 본 발명의 교훈이 주어진다면, 당업자는 본 발명의 사상과 범주를 유지하면서 도 1 및 도 2에 각각 도시된 컴퓨터 시스템(100) 및 Ebook(200)의 이들 구성 및 여러 다른 구성을 생각해낼 것이다. 본 명세서에서 사용된, 용어 "Ebook"은 독립형 Ebook 디바이스{예컨대, Ebook(200)}나 컴퓨터 시스템{예컨대, 컴퓨터 시스템(100)}에 포함된 Ebook을 지칭함을 이해해야 한다.

도 3은 본 발명의 예시적인 실시예에 따른 명령 인식 및 음성 인식 기능을 갖는 Ebook을 제어하기 위한 방법을 예시하는 흐름도이다.

하나 이상의 파일이 Ebook에 저장된다{단계(301)}. 하나 이상의 파일은 적어도 텍스트를 포함하며, 그래픽을 또한 포함할 수 있다.

음성 명령이 Ebook의 하나 이상의 사용자(이후 "사용자")로부터 수신된다{단계(302)}. 음성 명령이 인식된다{단계(304)}. 부가적으로, 사용자의 ID가 음성 및/또는 별도의 ID 청구를 통해 음성에 의해 식별될 수 있다{단계(306)}.

단계(310)에서, 보안 동작이 명령 인식 기능 및/또는 음성 인식 기능을 사용하여 Ebook 상에서 구현될 수 있다. 예컨대, 단계(310)는 사용자 ID를 기반으로 해서 특정한 자료(예컨대, 특정한 파일) 및/또는 Ebook 특성에 대한 액세스를 제한/허용하는 단계{단계(310a)}를 포함한다.

단계(320)에서, 모니터링 동작은 명령 인식 기능 및/또는 음성 인식 기능을 사용하여 Ebook 상에 구현될 수 있다. 예컨대, 단계(320)는 모든 음성 명령의 기록을 보관하는 단계{단계(320a)}를 포함할 수 있다. 게다가, 단계(320)는 이 기록 내의 음성 명령 각각을 그 음성에 의해 식별되어진 Ebook의 하나 이상의 사용자와 관련시키는 단계{단계(320b)}를 포함할 수 있다. 기록된 명령은 특히 강한 액센트로 말해진 명령을 디코딩하기 위해 후속한 인식 세션에서 사용될 수 있다.

단계(330)에서, 제어 동작은 명령 인식 기능 및/또는 음성 인식 기능을 사용하여 Ebook 상에서 실행될 수 있다. 예컨대, 단계(330)는 검색, 스킵, 볼륨 조정 등과 같은 Ebook 판독 동작을 제어하는 단계{단계(330a)}를 포함할 수 있다. 선행하는 동작 리스트는 단지 예시적인 것이며, 따라서, 다른 동작이 또한 제어될 수 있다. 예컨대, 다른 동작은 주어진 판독 자료(예컨대, 책, 잡지, 신문 등) 내의 탐색, 판독 자료의 적어도 일부분의 판독 또는 이 일부분에 대응하는 음성 합성, 판독 자료에 주석을 다는 것 등을 포함할 수 있다. 따라서, 사용자는 "이 장을 스킵한다(skip a chapter)"와 같은 간단한 명령을 Ebook에 제공할 수 있고, Ebook 동작을 제어하기 위한 간단한 예/아니오 질문에 대답할 수 있다. 또한, 좀더 복잡한 명령 및/또는 질문은, 본 명세서에서 제공된 본 발명의 교훈이 주어진다면 본 발명의 사상과 범주를 유지하면서 당업자에 의해 쉽게 구현될 수 있다. Ebook을 제어하는 데 있어서 본 명세서에서 사용된 용어, "제어"는 단계(310 내지 330) 중 어느 하나를 포함할 수 있음이 이해되어야 한다.

본 발명의 한 예시적인 실시예에 따라, 단계(330)(또는 이 실시예에 대한 임의의 다른 단계)는 음성 메뉴를 사용하여 구현될 수 있음을 또한 이해해야 한다. 즉, 원격 제어기 동작과 유사하게, 본 발명은 사용자가 말할 수 있는 명령의 "메뉴"를 제공하도록 구성될 수 있다. 기본적으로, 음성 명령을 사용하기 위해, 본 발명에 따른 Ebook은 원격 제어 또는 하나 이상의 상태에 대응하는 음성 메뉴(들)를 주어진 Ebook 애플리케이션 내에서 제공한다. 사용자가 말할 수 있는 음성 명령 리스트가 각 음성 메뉴 내에 포함될 수 있다. 사용자가 주어진 명령을 말할 때, 애플리케이션은 어떤 명령이 말해졌음을 통보받는다. 예컨대, "이 장을 스킵하라", 볼륨을 더 높게 조정하라", 및 "더 빨리 판독하라"는 TTP가 설치된 최신 Ebook에 사용될 수 있는 전형적인 음성 명령이다. 각 음성 명령은 이 음성 명령 외에 설명 문자열과 명령 ID와 같은 정보를 포함할 수 있다.

단계(310 내지 330)는 핸즈-프리 Ebook 동작을 제공하기 위해 임의의 순서로 및 임의의 조합으로 실행될 수 있음이 이해되어야 한다. 이러한 핸즈-프리 Ebook 동작은 예컨대 요리(cooking)(예컨대, 메뉴 판독), 운전 등을 하면서, 메디컬 프로시저, 머신 샵 명세 검색(machine shop specification search)하는 동안과 같은 특정한 환경 아래에서 예컨대 텍스트 파일에 액세스하기 위해 제공될 수 있다. 게다가, 이러한 핸즈-프리 Ebook 동작은 특히 교육 애플리케이션 동안에 메모하기 위해 제공될 수 있다{단계(330b)}. 나아가, 이러한 핸즈-프리 Ebook 동작은 TTS를 갖는 Ebook에 (북마크와 유사한) 마크를 생성하기 위해 제공되어, 이 마크는 Ebook의 후속한 판독을 재개하는 지점으로서 동작하게 된다{단계(330c)}.

비록 예시적인 실시예가 첨부한 도면을 참조하여 본 명세서에서 기술되었지만, 본 발명은 이들 세밀한 실시예로 제한되지 않으며, 본 발명의 사상과 범주에서 벗어나지 않고 여러 다른 변화 및 변경이 당업자에 의해 실현될 수 있음을 이해해야 한다. 모든 이러한 변화 및 변경은 첨부된 청구항에 의해 한정된 본 발명의 범주 내에 포함되게 된다.

상술한 바와 같이, 본 발명은 전자북에 이용된다.

Claims

텍스트를 포함하는 파일을 저장하기 위한 메모리 디바이스와;

음성 명령을 인식하기 위한 명령 인식 모듈과;

상기 음성 명령을 실행하기 위한 프로세서를,

포함하는, 전자북.
제 1항에 있어서, 음성을 인식하고, 상기 음성으로부터 사용자 ID를 구별하기 위한 음성 인식 모듈을 더 포함하는, 전자북.
제 2항에 있어서, 상기 음성 인식 모듈은 사용자 ID를 기반으로 해서 상기 파일에 대한 액세스를 제한하는, 전자북.
제 2항에 있어서, 상기 메모리 디바이스는 상기 명령 인식 모듈에 의해 인식된 상기 음성 명령 중 적어도 일부를 상기 음성 명령 중 적어도 일부의 하나 이상의 화자와 관련하여, 로그인시키는, 전자북.
제 4항에 있어서, 상기 메모리 디바이스에 의해 로그인된 상기 음성 명령 중 적어도 일부는 후속한 음성 인식 세션 내의 상기 음성 인식 모듈에 의해 사용되는, 전자북.
제 1항에 있어서, 상기 명령 인식 모듈은 상기 파일에 대응하는 음성 메모를 더 인식하며, 상기 메모리 디바이스는 상기 음성 메모를 저장하는, 전자북.
제 1항에 있어서, 음성을 합성하기 위해 텍스트-음성(TTS: Text-to-Speech) 모듈을 더 포함하며, 상기 음성은 전자북 동작의 제어에 대응하는 질문을 포함하고, 상기 명령 인식 모듈은 상기 질문에 대한 음성 응답을 더 인식하는, 전자북.
제 1항에 있어서, 상기 명령 인식 모듈은 상기 음성 명령 중 하나 이상을 포함하는 하나 이상의 음성 메뉴를 사용하는, 전자북.
제 8항에 있어서, 상기 하나 이상의 음성 메뉴에 포함된 상기 하나 이상의 음성 명령 각각은 대응하는 설명 문자열과 대응하는 명령 ID와 관련되는, 전자북.
제 1항에 있어서, 음성을 수신하기 위한 마이크를 더 포함하며, 상기 음성은 상기 음성 명령을 포함하는, 전자북.
제 1항에 있어서, 텍스트를 디스플레이하기 위한 디스플레이를 더 포함하는, 전자북.
전자북의 하나 이상의 사용자로부터 음성 명령을 수신하는 단계와;

상기 음성 명령을 인식하는 단계와;

상기 음성 명령을 기반으로 해서 상기 전자북을 제어하는 단계를,

포함하는, 전자북 제어 방법.
제 12항에 있어서, 상기 하나 이상의 사용자의 음성을 인식하는 단계와, 상기 하나 이상의 사용자의 사용자 ID를 상기 음성과 구별하는 단계를 더 포함하는, 전자북 제어 방법.
제 13항에 있어서, 사용자 ID를 기반으로 해서 상기 적어도 하나의 파일에 대한 액세스를 제한하는 단계를 더 포함하는, 전자북 제어 방법.
제 13항에 있어서, 상기 음성 명령 중 적어도 일부를 상기 음성 명령 중 적어도 일부와 관련하여, 로그인시키는 단계를 더 포함하는, 전자북 제어 방법.
제 13항에 있어서, 후속하는 음성 인식 세션에서 로그인된 상기 음성 명령 중 적어도 몇몇을 사용하는 단계를 더 포함하는, 전자북 제어 방법.
제 12항에 있어서, 상기 전자북에서 텍스트를 포함하는 적어도 하나의 파일을 저장하는 단계와;

상기 적어도 하나의 파일에 대응하는 음성 메모를 인식하는 단계와;

상기 음성 메모를 저장하는 단계를 더 포함하는, 전자북 제어 방법.
제 12항에 있어서, 상기 전자북은 음성을 합성하기 위한 텍스트-음성(TTS) 모듈을 포함하며, 상기 방법은,

전자북 동작의 제어에 대응하는 질문을 합성하는 단계와;

상기 질문에 대한 음성 응답을 인식하는 단계와;

상기 음성 응답 따라 동작하는 단계를 더 포함하는, 전자북 제어 방법.
제 12항에 있어서, 상기 음성 명령 중 하나 이상을 포함하는 하나 이상의 음성 메뉴를 생성하는 단계를 더 포함하는, 전자북 제어 방법.
제 12항에 있어서, 상기 하나 이상의 음성 메뉴에 포함된 상기 하나 이상의 음성 명령 각각을 대응하는 설명 문자열 및 대응하는 명령 ID와 관련시키는 단계를 더 포함하는, 전자북 제어 방법.
텍스트를 포함하는 파일을 저장하기 위한 메모리 디바이스와;

음성 명령을 인식하기 위한 명령 인식 모듈과;

상기 음성 명령을 실행하기 위한 프로세서를,

포함하는, 휴대용 디바이스.
제 21항에 있어서, 음성을 인식하고, 사용자 ID를 상기 음성과 구별하기 위한 음성 인식 모듈을 더 포함하는, 휴대용 디바이스.
제 22항에 있어서, 상기 음성 인식 모듈은 사용자 ID를 기반으로 해서 상기 파일에 대한 액세스를 제한하는, 휴대용 디바이스.
제 22항에 있어서, 상기 메모리 디바이스는 상기 명령 인식 모듈에 의해 인식된 상기 음성 명령 중 적어도 일부를 상기 음성 명령 중 적어도 일부의 하나 이상의 화자와 관련하여 로그인시키는, 휴대용 디바이스.
제 24항에 있어서, 상기 메모리 디바이스에 의해 로그인된 상기 음성 명령 중 적어도 몇몇은 후속한 음성 인식 세션 내의 상기 음성 인식 모듈에 의해 사용되는, 휴대용 디바이스.
제 21항에 있어서, 음성을 합성하기 위한 텍스트-음성(TTS) 모듈을 더 포함하며, 상기 음성은 전자북 동작의 제어에 대응하는 질문을 포함하며, 상기 명령 인식 모듈은 상기 질문에 대한 음성 응답을 더 인식하는, 휴대용 디바이스.