KR100297076B1

KR100297076B1 - 향상된통신시스템및통신방법

Info

Publication number: KR100297076B1
Application number: KR1019970708903A
Authority: KR
Inventors: 트로이 리 클라인; 스코트 하랜 아이센시; 릭키 리 포스톤; 존 하랠드 워너
Original assignee: 포만 제프리 엘; 인터내셔널 비지네스 머신즈 코포레이션
Priority date: 1995-06-30
Filing date: 1996-06-27
Publication date: 2001-08-07
Also published as: WO1997002526A1; TW366483B; HUP9801839A2; CN1095563C; EP0836720A1; DE69606042T2; KR19990022423A; CZ287316B6; CN1189900A; CA2220861C; EP0836720B1; CA2220861A1; PL324025A1; DE69606042D1; HUP9801839A3; CZ395397A3; JPH10507559A; JP3335178B2; PL182225B1; US5704009A

Abstract

본 발명의 장치 및 방법은 사용자가 착용한 무선 전송 장치(wireless transmitting device)로부터 분석된 음성 샘플(voice samples)을, 음성 인식 시스템(speech recognition system)을 구비한 원격 음성 활성 데이타 처리 시스템(remote voice activated data processing system)에 전송한다. 본 발명의 방법은 사용자의 음성 특성을 무선 전송 장치상의 메모리(예를 들어, RAM 칩)에 저장하는 제 1 단계를 포함한다. 본 발명의 제 2 단계는 전송 장치 및 음성 인식 시스템을 음성 활성화시키는 단계를 포함한다. 전송 장치 및 음성 인식 시스템이 활성화된 이후, 제 3 단계는 메모리로부터의 음성 특성을 음성 인식 시스템에 전송하여 사용자가 음성 활성화 데이타 처리 시스템과 직접 구두로 통신할 수 있도록 하는 단계를 포함한다.

Description

향상된 통신 시스템 및 통신 방법{METHOD AND APPARATUS FOR TRANSMITTING A VOICE SAMPLE TO A VOICE ACTIVATED DATA PROCESSING SYSTEM}

언어는 인간 사이의 통신과, 인간과 기계간의 통신과, 기계와 인간간의 통신에 중요한 역할을 담당한다. 예를 들어, 현대적 음성 메일 시스템, 헬프 시스템, 비디오 화상 회의 시스템에서는 인간의 음성을 구현(incorporate)하고 있다. 또한, 기술이 계속 발전함에 따라, 인간의 음성은 기계/인간 통신에 보다 많은 역할을 담당할 것이다. 특히, 무선 ATM 머신 (또는 가스 펌프(gas pump), 이동 정보 키오스크(travel information kiosk), 판매 단말 지점(point of sale terminal)과 같은 유형의 소정의 무선 머신)은 음성 인식 시스템을 구현하는 추세에 있으며, 이렇게 되면 나중에 사용자가 ATM과 대화할 수 있게 될 것이다. 본 발명은 카드 또는 소정의 다른 형태의 장치를 머신내에 탑재하지 않고서도 사용자가 구두로(verbally) 머신과 용이하게 효율적으로 통신할 수 있도록 한다. 하지만, 몇가지 부가적인 예비 정보를 우선 기술할 것이다.

전형적으로, 음성 인식 시스템은 인간의 음성을 청취하고 이해한다. 하지만, 전형적인 음성 인식 시스템에서는 음성 인식이 만족할 만한 정확도를 갖도록 하기 위해 사용자의 저장된 음성 샘플을 이용하고 있다. 사용자는 충분한 음성 특성을 확보하는 약 30개로 면밀하게 구성된 문장을 읽음으로써 음성 샘플을 생성한다. 음성 특성은 운율(cadence), 고저(pitch), 억양(inflection) 및 속도(speed)를 포함하는 사용자의 음성 운율계(prosody)를 포함한다. 전형적인 음성 분석기는 음성 샘플을 처리하여 각각의 다이폰 세그먼트(diphone segment)에 대한 음성 샘플을 분리시키고 특성 운율계 곡선(prosody curves)을 결정한다. 음성 분석기는 은폐된 마르코프(Markov) 모델과 같은 공지의 디지탈 신호 처리 기술을 이용하여 다이폰 세그먼트 및 운율계 곡선을 생성한다. 따라서, 전형적인 음성 인식 시스템은 저장된 음성 샘플을 이용할 경우 약 90%의 정확도를 갖는다. 하지만, 사용자가 무선 머신과 구두로 통신을 원할 때마다 이들 30개의 문장을 반복해야 한다면 대단히 불편할 것이다.

이와 같은 예비 정보가 주어졌다고 할 때, 다수의 사용자가 음성으로 무선 대화형 머신과 효율적으로 원격 통신을 할 수 있다면 매우 바람직하고 유용할 것이다. 그렇지만, 분석된 사용자의 음성 샘플을 머신에 전송한 다음 사용자가 높은 정확도로 머신과 구두로 통신하는 기술 또는 장치를 개발하는 것이 필요하다.

본 발명은 음성 인식 시스템의 통신 향상에 관한 것으로서, 보다 구체적으로는 (여기에 한정되는 것은 아니지만) 음성 샘플을 데이타 처리 시스템내의 화자 의존적(speaker dependent) 음성 인식 시스템에 전송하기 위한 방법 및 장치에 관한 것이다.

도 1은 본 발명을 구현하기 위한 대표적인 하드웨어 환경의 블럭도,

도 2는 본 발명에 따른 향상된 음성 전송 시스템의 블럭도,

도 3은 사용자가 무선 전송 장치를 착용하여 원격 데이타 처리 시스템과 통신하는 것을 도시한 도면

도 4는 무선 전송 장치로부터의 음성 특성을 원격 데이타 처리 시스템에 전송하기 위한 흐름도.

본 발명의 제 1 특징에 따르면, 본 발명은 음성 인식 시스템을 구비한 적어도 하나의 원격 음성 활성화 데이타 처리 시스템과 향상된 음성 통신을 수행하기 위한 방법을 제공하는 것으로서,

(a) 사용자의 음성 특성을 무선 전송 장치의 메모리에 저장하는 단계(a)와,

(b) 음성 활성화 커맨드(voice activation command)에 응답하여 상기 무선 전송 장치 및 원격 음성 인식 시스템을 음성 활성화시키는 단계와,

(c) 상기 무선 전송 장치 및 상기 음성 인식 시스템의 활성화에 응답하여 상기 메모리로부터의 상기 음성 특성을 상기 음성 인식 시스템에 전송하여, 사용자가 상기 음성 활성화 데이타 처리 시스템과 직접 구두로 통신할 수 있도록 하는 단계를 포함한다.

본 발명의 제 2 특징에 따르면, 본 발명은 원격 데이타 처리 시스템에 상주하는 원격 음성 인식 시스템과 음성 통신을 수행하기 위한 음성 전송 시스템을 제공하는 것으로서,

사용자의 음성 특성을 저장하는 메모리를 구비한 무선 전송 장치를 포함하며,

상기 무선 전송 장치 및 상기 음성 인식 시스템은 상기 무선 전송 장치에 의해 수신된 음성 활성화 커맨드에 응답하여 활성화되며,

상기 무선 전송 장치는 상기 음성 인식 시스템 및 상기 무선 전송 장치의 활성화에 응답하여 상기 메모리로부터 상기 음성 특성을 상기 음성 인식 시스템에 전송함으로써 상기 사용자가 상기 음성 인식 시스템과 직접 구두로 통신할 수 있도록 한다.

본 발명의 바람직한 실시예에 있어서, 본 발명의 장치 및 컴퓨터에 의해 구현되는 방법은 사용자가 착용한 무선 전송 장치로부터 분석된 음성 샘플을, 음성 인식 시스템을 구비한 원격 데이타 처리 시스템에 전송한다. 본 발명의 방법은 사용자의 음성 특성의 세트를 무선 전송 장치상의 메모리(예를 들어, RAM 칩)에 저장하는 제 1 단계를 포함한다. 제 2 단계는 음성 커맨드에 응답하여 전송 장치 및 원격 음성 인식 시스템을 음성으로 활성화시키는 단계를 포함한다. 전송 장치 및 음성 인식 시스템이 활성화된 이후, 제 3 단계는 메모리로부터의 음성 특성을 음성 인식 시스템에 원격으로 자동 전송하여 사용자가 음성 활성화 데이타 처리 시스템과 직접 구두로 통신할 수 있도록 하는 단계를 포함한다.

본 발명은 사전정의된 음성 커맨드에 응답하여 사용자의 음성 특성을 무선 데이타 처리 시스템에 자동으로 전송하는 향상된 음성 전송 시스템을 제공한다.

또한, 본 발명은 사용자의 음성 특성을 데이타 처리 시스템에 저장 및 전송하는 장치(예를 들어, 전송 장치)와, 데이타 처리 시스템을 활성화하여 음성 특성을 대기 및 수신하는 장치를 제공한다.

이하, 본 발명은 본 발명의 실시예와 함께 첨부된 도면을 참조하여 더욱 상세히 기술될 것이다.

본 발명의 바람직한 실시예는 사용자의 음성 특성을 포함하는 음성 샘플을 음성 인식 시스템에 원격으로 자동 전송하는 방법 및 장치를 포함한다.

본 발명의 바람직한 실시예는 랩탑 컴퓨터에서 실행되거나 혹은 도 1에 도시된 워크스테이션에서 실행된다. 워크스테이션(100)은 IBM^TM의 PowerPC^TM601 또는 Intel^TM의 486 마이크로프로세서와 같이 캐쉬(15), RAM(14), ROM(16) 및 비휘발성 RAM(NVRAM)(32)을 프로세싱하는 중앙처리장치(CPU)(10)를 포함한다. I/O 어댑터(18)에 의해 제어되는 하나 이상의 디스크(20)는 장기 저장매체(long term storage)를 제공한다. 테이프, CD-ROM, WORM 장치를 포함하는 다른 여러 저장 매체가 사용될 수도 있다. 데이타 또는 컴퓨터 처리 인스트럭션을 저장하기 위해 제거가능한 저장 매체가 또한 제공될 수도 있다.

Sun Solaris^TM, Microsoft Windows NT^TM, IBM OS/2^TM또는 Apple MAC OS^TM와 같은 소정의 적절한 운영체제의 데스크탑으로부터의 인스트럭션 및 데이타는 RAM(14)으로부터 CPU(10)를 제어한다. 그렇지만, 본 기술 분야에 통상의 지식을 가진 자라면, 본 발명을 구현하는데 다른 하드웨어 플랫폼(hardware platforms) 및 운영체제가 사용될 수도 있음을 용이하게 이해할 것이다.

사용자는 사용자 인터페이스 어댑터(22)에 의해 제어되는 I/O 장치(즉, 사용자 제어 장치)를 통해 워크스테이션(100)과 통신한다. 사용자가 키보드(24), 포인트 장치(26), 전송 장치(30) 및 스피커(28)를 이용하여 컴퓨터 시스템에 지시하는 동안, 디스플레이(38)에 의해 정보가 사용자에게 디스플레이된다. 또한, 조이스틱, 터치 스크린(touch screen) 또는 가상 현실 헤드셋(virtual reality headset)(도시되지 않음)과 같이 다른 유형의 사용자 제어 장치가 사용될 수도 있다. 통신 어댑터(34)는 이 컴퓨터 시스템과 네트워크 어댑터(40)에 의해 네트워크에 접속된 다른 처리 장치간의 통신을 제어한다. 디스플레이 어댑터(36)는 이 컴퓨터 시스템과 디스플레이(38)간의 통신을 제어한다.

도 2는 바람직한 실시예에 따른 완전한 음성 전송 시스템(200)의 블럭도이다. 음성 전송 시스템(200)은 음성 특성 추출기(210)와, 전송 장치(220)와, 음성 인식 시스템(230)을 포함한다. 음성 특성 추출기(210)는 워크스테이션(100)(도 1을 참조)과 같은 소정의 적절한 워크스테이션내에 상주하고, A/D 서브시스템(204)과, 음성 분석기(206)와, 음성 압축 회로(207)를 포함한다.

도 4는 무선 전송 장치로부터의 음성 특성을 원격 데이타 처리 시스템에 전송하기 위한 흐름도이다. 도 2 및 도 4를 참조하면, 바람직한 실시예에 있어서 사용자는 화자의 음성 특성을 충분히 포함하는 음성 샘플(예를 들어, 약 30개의 문장)을 마이크로폰(202)에게 제공한다(단계 410). 음성 특성은 운율, 고저, 억양 및 속도와 같은 음성 운율계를 포함한다. 이러한 유형의 문장은 음성 합성(speech synthesis) 기술 분야의 통상을 지식을 가진 자에게 잘 알려져 있다. 예를 들어, 하나의 문장은 "The quick fox jumped over the lazy brown dog"와 같은 것일 수 있다. A/D 서브시스템(204)(및 222)은 음성 샘플을 샘플링하여 디지탈화하는 것으로서(단계 412), IBM MACPA(즉, 멀티미디어 오디오 캡처 및 재생 어댑터), 크리에이티브 랩(Creative Laps)의 사운드 블래스터(Sound Blaster) 오디오 카드 또는 단일 칩 솔루션(single chip solution)과 같은 소정의 적절한 아날로그-디지탈(A/D) 시스템을 포함한다.

이어서, 소정의 적절한 전형적인 음성 분석기(206)는 디지탈화된 음성 샘플을 프로세싱하여 각각의 다이폰 세그먼트에 대한 오디오 샘플을 분리시키고 특성 운율계 곡선을 판정한다(단계 414). 음성 분석기(206)는 은폐된 마르코프 모델과 같이 공지의 디지탈 신호 처리 기술을 사용하여 다이폰 세그먼트 및 운율계 곡선을 발생시킨다. 미국 특허 제 4,961,229 호 및 3,816,722 호에는 적절한 음석 분석기가 개시되어 있다.

음성 코딩 회로(207)는 전형적인 디지탈 코딩 기술을 이용하여 다이폰 세그먼트 및 운율계 곡선을 압축함으로써, 전송 대역폭 및 저장 요건을 감소시킨다(단계 416). 음성 코딩 회로(207)는 결과로서 얻어지는 압축된 운율계 곡선 및 다이폰 세그먼트를 전송 장치(220)의 RAM(226)(예를 들어, 메모리)에 저장한다. 본 기술 분야에 통상의 지식을 가진 자라면, 파이프라인 버스트 메모리(pipeline burst memory), 플래쉬 메모리 또는 소형 DASD와 같은 소정의 적절한 유형의 메모리 장치가 RAM(226)을 대체하여 사용될 수도 있음을 이해할 것이다. 전송 장치(220)는 또한 음성 활성화 커맨드를 수신하는 음성 활성화 마이크로폰(221)과, A/D 서브시스템(222)과, 음성 인식 회로(224)와, 전원(도시되지 않음)과, 프로세서(228)와, 전송 유닛(229)을 포함한다.

도 3은 무선 전송 장치(220)를 착용한 사용자가 원격 데이타 처리 시스템(310)과 통신하는 것을 도시한 도면이다. 도 2, 도 3 및 도 4를 참조하면, 바람직한 실시예에 있어서 사용자는 브로치(brooch)를 착용하는 것과 유사하게 전송 장치(220)를 착용한다. 이와 달리, 사용자가 전송 장치(220)를 자신의 입안에 휴대할 수 있다. 사용자가 원격 데이타 처리 시스템(예를 들어, ATM 머신)(310)상에 상주하는 음성 인식 시스템(230)과 통신하고자 하면, (전송 장치(220)를 착용하고 있는) 사용자는 원격 데이타 처리 시스템(310)에 접근하여 음성 활성화 커맨드(예들 들어, "COMPUTER"; "LOGON COMPUTER")를 전송 장치(220)의 음성 활성화 마이크로폰(221)에게 말한다(단계 418). "무선"이란 데이타 처리 시스템(310)이 전송 장치(220)에 대해 무선 접속되어 있음을 나타내는 것임에 유의하여야 한다. 음성 활성화 마이크로폰(221)은 음성 활성화 커맨드를 검출하고, A/D 서브시스템(222)은 이 음성 활성화 커맨드를 샘플링하여 디지탈화한다. A/D 서브시스템(221)은 디지탈화된 음성 활성화 커맨드를 음성 인식 회로(224)에 전송한다.

음성 인식 회로(224)(및 234)는 IBM Voicetype Dictation^TM제품 또는 드래곤 음성 인식 시스템(Dragon Voice Recognition System)의 음성 인식 회로와 같은 소정의 적절한 음성 인식 회로를 포함한다. 음성 인식 회로(224)가 음성 활성화 커맨드를 인식하면, 음성 인식 회로(224)는 이를 나타내는 신호를 프로세서(228)에 전송한다. 그러면, 프로세서(228)는 신호를 전송 유닛(229)에 전송하여, 음성 활성화 커맨드가 음성 인식 시스템(230)의 수신 유닛(232)에 전송되도록 한다(단계 420). 전송 유닛(229)은 소정의 적절한 유형의 무선 전송 유닛(예를 들어, 레이저, 적외선 발광 다이오드)일 수 있지만, 바람직한 실시예에 있어서 전송 유닛(229)은 RF 전송기이다. 프로세서(228)는 숏 타임아웃 신호(short timeout signal)를 RAM(226)에 전송하여 음성 인식 시스템(230)이 기동되도록 한다(단계 422).

음성 인식 시스템(230)은 수신 유닛(232)과, 음성 압축해제 회로(233)와, 음성 인식 회로(234)를 포함하고, 워크스테이션(100)과 같은 소정의 적절한 워크스테이션에 상주한다. 수신 유닛(232)은 수신된 음성 활성화 커맨드를 음성 압축해제 회로(233)에 전송하며, 여기에서 음성 활성화 커맨드가 압축해제된다. 이어서, 음성 압축해제 회로(233)는 음성 활성화 커맨드를 음성 인식 회로(234)에 전송한다. 음성 인식 회로(234)가 음성 활성화 커맨드를 인식하면, 음성 인식 회로(234)가 활성화되고 전송 장치(220)로부터 운율계 곡선 및 다이폰 세그먼트를수신하기 위해 대기한다. 따라서, 단일 음성 활성화 커맨드는 전송 장치(220) 및 음성 인식 시스템(230)을 활성화시킨다. 따라서, 숏 타임아웃 이후에, 프로세서(228)는 RAM(226)에게 운율계 곡선 및 다이폰 세그먼트를 전송 유닛(229) 및 수신 유닛(232)을 거쳐 음성 인식 회로(234)에 전송하도록 지시한다(단계 424 및 단계 426). 음성 인식 회로(234)는 이들 운율계 곡선 및 다이폰 세그먼트를 사용하여 사용자의 음성을 인식한다. 그러면, 사용자는 음성 인식 시스템(230)에 직접 말할 수 있다.

따라서, 본 발명의 바람직한 실시예는 사용자가 음성 활성화 커맨드를 말하는 것에 의해서만 사용자의 음성 특성을 무선 원격 머신에 전송할 수 있다. 카드를 삽입할 필요도 없다. 따라서, 종래에는 카드를 삽입하지 않고는 불가능하였지만 2개 이상의 무선 원격 데이타 처리 시스템을 동시에 활성화시킬 수 있다.

본 발명은 특정한 실시예를 참조하여 도시되고 기술되었지만, 본 기술 분야에 통상의 지식을 가진 자라면 본 발명이 본 발명의 영역을 벗어나지 않는 범위내에서 형태 및 세부 사항에 있어서 여러가지 변경이 이루어질 수 있음을 이해하여야 한다.

Claims

프로세서 및 메모리를 포함하는 무선 전송 장치를 이용한, 사용자와 다수의 다양한 음성 인식 데이터 처리 시스템들 중 적어도 하나의 시스템 간의 향상된 통신 방법에 있어서,

① 상기 무선 전송 장치의 상기 메모리 내에 상기 사용자의 음성 특성을 저장하는 단계―상기 음성 특성은 운율계 곡선(prosody curve)을 포함함―와,

② 상기 사용자로부터의 입력에 응답하여, 상기 무선 전송 장치와, 다수의 다양한 음성 인식 데이터 처리 시스템들 중 상기 적어도 하나의 시스템 내의 음성 인식 시스템을 활성화시키는 단계와,

③ 상기 활성화 단계에 응답하여, 상기 메모리로부터 상기 음성 인식 시스템으로 상기 음성 특성을 전송하는 단계와,

④ 상기 사용자의 발성(spoken utterance) 및 상기 음성 특성을 이용하는 상기 음성 인식 시스템을 통해 상기 사용자와 다수의 다양한 음성 인식 데이터 처리 시스템들 중 상기 적어도 하나의 시스템 간의 통신을 용이하게 하는 단계를 포함하는

향상된 통신 방법.
제 1 항에 있어서,

상기 저장 단계는,

상기 사용자의 음성 샘플을 포착(capture)하는 단계와,

상기 포착된 음성 샘플을 디지탈화하는 단계와,

음성 분석기(speech analyzer)를 이용하여 상기 음성 샘플로부터 상기 음성 특성을 추출하는 단계와,

상기 음성 특성을 상기 메모리에 저장하는 단계를 포함하는

향상된 통신 방법.
제 1 항에 있어서,

상기 활성화 단계는,

상기 무선 전송 장치에 의해, 상기 사용자로부터 상기 음성 활성화 커맨드를 수신하여 상기 무선 전송 장치를 할성화하는 단계와,

상기 무선 전송 장치로부터 상기 음성 인식 시스템으로 상기 음성 활성화 커맨드를 전송하여 상기 음성 인식 시스템을 활성화하는 단계를 포함하는

향상된 통신 방법.
제 3 항에 있어서,

상기 활성화 단계는,

상기 프로세서로부터 상기 무선 전송 장치 내의 상기 메모리로 신호를 전송함으로써, 상기 음성 특성을 전송하기 전에 상기 음성 인식 시스템이 활성 상태가 되도록 하는 단계를 더 포함하는 향상된 통신 방법.
제 1 항에 있어서,

상기 전송 단계는,

상기 프로세서로부터 상기 무선 전송 장치 내의 상기 메모리로 신호를 전송함으로써, 상기 음성 특성을 상기 음성 인식 시스템으로 전송하는 단계를 포함하는 향상된 통신 방법.
사용자와 다수의 다양한 음성 인식 데이터 처리 시스템들 중 적어도 하나의 시스템 간의 향상된 통신 시스템에 있어서,

① 상기 무선 전송 장치 내에 상기 사용자의 음성 특성을 저장하는 수단―상기 음성 특성은 운율계 곡선을 포함함―과,

② 상기 사용자로부터의 입력에 응답하여, 상기 무선 전송 장치와, 다수의 다양한 음성 인식 데이터 처리 시스템들 중 상기 적어도 하나의 시스템 내의 음성 인식 시스템을 활성화시키는 수단과,

③ 상기 활성화 수단에 응답하여, 상기 무선 전송 장치로부터 상기 음성 인식 시스템으로 상기 음성 특성을 전송하는 수단과,

④ 상기 사용자로부터의 발성 및 상기 음성 특성을 이용하는 상기 음성 인식 시스템을 통해 상기 사용자와 다수의 다양한 음성 인식 데이터 처리 시스템들 중 상기 적어도 하나의 시스템 간의 통신을 용이하게 하는 수단을 포함하는

향상된 통신 시스템.
제 6 항에 있어서,

상기 사용자의 음성 샘플로부터 상기 음성 특성을 생성하는 수단을 더 포함하는 향상된 통신 시스템.
제 6 항에 있어서,

상기 무선 전송 장치는 상기 음성 활성화 커맨드를 수신하는 마이크로폰(microphone)과, 상기 음성 활성화 커맨드를 인식하는 음성 인식 회로와, 상기 음성 활성화 커맨드 및 상기 음성 특성을 상기 음성 인식 시스템으로 전송하는 전송 유닛을 포함하는 향상된 통신 시스템.
제 8 항에 있어서,

상기 전송 유닛은 RF 전송기를 포함하는 향상된 통신 시스템.
제 8 항에 있어서,

상기 무선 전송 장치는 상기 메모리 및 상기 전송 유닛을 제어하는 프로세서를 더 포함하는 향상된 통신 시스템.
제 1 항에 있어서,

상기 활성화 단계는,

음성 활성 커맨드에 응답하여, 상기 무선 전송 장치와, 다수의 다양한 음성 인식 데이터 처리 시스템들 중 상기 적어도 하나의 시스템 내의 음성 인식 시스템을 활성화시키는 단계를 포함하는 향상된 통신 방법.