KR100297076B1 - 향상된통신시스템및통신방법 - Google Patents

향상된통신시스템및통신방법 Download PDF

Info

Publication number
KR100297076B1
KR100297076B1 KR1019970708903A KR19970708903A KR100297076B1 KR 100297076 B1 KR100297076 B1 KR 100297076B1 KR 1019970708903 A KR1019970708903 A KR 1019970708903A KR 19970708903 A KR19970708903 A KR 19970708903A KR 100297076 B1 KR100297076 B1 KR 100297076B1
Authority
KR
South Korea
Prior art keywords
voice
speech
user
transmission device
transmitting
Prior art date
Application number
KR1019970708903A
Other languages
English (en)
Other versions
KR19990022423A (ko
Inventor
트로이 리 클라인
스코트 하랜 아이센시
릭키 리 포스톤
존 하랠드 워너
Original Assignee
포만 제프리 엘
인터내셔널 비지네스 머신즈 코포레이션
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 포만 제프리 엘, 인터내셔널 비지네스 머신즈 코포레이션 filed Critical 포만 제프리 엘
Publication of KR19990022423A publication Critical patent/KR19990022423A/ko
Application granted granted Critical
Publication of KR100297076B1 publication Critical patent/KR100297076B1/ko

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/065Adaptation
    • G10L15/07Adaptation to the speaker
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/16Sound input; Sound output
    • GPHYSICS
    • G07CHECKING-DEVICES
    • G07CTIME OR ATTENDANCE REGISTERS; REGISTERING OR INDICATING THE WORKING OF MACHINES; GENERATING RANDOM NUMBERS; VOTING OR LOTTERY APPARATUS; ARRANGEMENTS, SYSTEMS OR APPARATUS FOR CHECKING NOT PROVIDED FOR ELSEWHERE
    • G07C9/00Individual registration on entry or exit
    • G07C9/20Individual registration on entry or exit involving the use of a pass
    • G07C9/22Individual registration on entry or exit involving the use of a pass in combination with an identity check of the pass holder
    • G07C9/25Individual registration on entry or exit involving the use of a pass in combination with an identity check of the pass holder using biometric data, e.g. fingerprints, iris scans or voice recognition
    • G07C9/257Individual registration on entry or exit involving the use of a pass in combination with an identity check of the pass holder using biometric data, e.g. fingerprints, iris scans or voice recognition electronically
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Acoustics & Sound (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Telephonic Communication Services (AREA)
  • Selective Calling Equipment (AREA)
  • Arrangements For Transmission Of Measured Signals (AREA)
  • Machine Translation (AREA)

Abstract

본 발명의 장치 및 방법은 사용자가 착용한 무선 전송 장치(wireless transmitting device)로부터 분석된 음성 샘플(voice samples)을, 음성 인식 시스템(speech recognition system)을 구비한 원격 음성 활성 데이타 처리 시스템(remote voice activated data processing system)에 전송한다. 본 발명의 방법은 사용자의 음성 특성을 무선 전송 장치상의 메모리(예를 들어, RAM 칩)에 저장하는 제 1 단계를 포함한다. 본 발명의 제 2 단계는 전송 장치 및 음성 인식 시스템을 음성 활성화시키는 단계를 포함한다. 전송 장치 및 음성 인식 시스템이 활성화된 이후, 제 3 단계는 메모리로부터의 음성 특성을 음성 인식 시스템에 전송하여 사용자가 음성 활성화 데이타 처리 시스템과 직접 구두로 통신할 수 있도록 하는 단계를 포함한다.

Description

향상된 통신 시스템 및 통신 방법{METHOD AND APPARATUS FOR TRANSMITTING A VOICE SAMPLE TO A VOICE ACTIVATED DATA PROCESSING SYSTEM}
언어는 인간 사이의 통신과, 인간과 기계간의 통신과, 기계와 인간간의 통신에 중요한 역할을 담당한다. 예를 들어, 현대적 음성 메일 시스템, 헬프 시스템, 비디오 화상 회의 시스템에서는 인간의 음성을 구현(incorporate)하고 있다. 또한, 기술이 계속 발전함에 따라, 인간의 음성은 기계/인간 통신에 보다 많은 역할을 담당할 것이다. 특히, 무선 ATM 머신 (또는 가스 펌프(gas pump), 이동 정보 키오스크(travel information kiosk), 판매 단말 지점(point of sale terminal)과 같은 유형의 소정의 무선 머신)은 음성 인식 시스템을 구현하는 추세에 있으며, 이렇게 되면 나중에 사용자가 ATM과 대화할 수 있게 될 것이다. 본 발명은 카드 또는 소정의 다른 형태의 장치를 머신내에 탑재하지 않고서도 사용자가 구두로(verbally) 머신과 용이하게 효율적으로 통신할 수 있도록 한다. 하지만, 몇가지 부가적인 예비 정보를 우선 기술할 것이다.
전형적으로, 음성 인식 시스템은 인간의 음성을 청취하고 이해한다. 하지만, 전형적인 음성 인식 시스템에서는 음성 인식이 만족할 만한 정확도를 갖도록 하기 위해 사용자의 저장된 음성 샘플을 이용하고 있다. 사용자는 충분한 음성 특성을 확보하는 약 30개로 면밀하게 구성된 문장을 읽음으로써 음성 샘플을 생성한다. 음성 특성은 운율(cadence), 고저(pitch), 억양(inflection) 및 속도(speed)를 포함하는 사용자의 음성 운율계(prosody)를 포함한다. 전형적인 음성 분석기는 음성 샘플을 처리하여 각각의 다이폰 세그먼트(diphone segment)에 대한 음성 샘플을 분리시키고 특성 운율계 곡선(prosody curves)을 결정한다. 음성 분석기는 은폐된 마르코프(Markov) 모델과 같은 공지의 디지탈 신호 처리 기술을 이용하여 다이폰 세그먼트 및 운율계 곡선을 생성한다. 따라서, 전형적인 음성 인식 시스템은 저장된 음성 샘플을 이용할 경우 약 90%의 정확도를 갖는다. 하지만, 사용자가 무선 머신과 구두로 통신을 원할 때마다 이들 30개의 문장을 반복해야 한다면 대단히 불편할 것이다.
이와 같은 예비 정보가 주어졌다고 할 때, 다수의 사용자가 음성으로 무선 대화형 머신과 효율적으로 원격 통신을 할 수 있다면 매우 바람직하고 유용할 것이다. 그렇지만, 분석된 사용자의 음성 샘플을 머신에 전송한 다음 사용자가 높은 정확도로 머신과 구두로 통신하는 기술 또는 장치를 개발하는 것이 필요하다.
본 발명은 음성 인식 시스템의 통신 향상에 관한 것으로서, 보다 구체적으로는 (여기에 한정되는 것은 아니지만) 음성 샘플을 데이타 처리 시스템내의 화자 의존적(speaker dependent) 음성 인식 시스템에 전송하기 위한 방법 및 장치에 관한 것이다.
도 1은 본 발명을 구현하기 위한 대표적인 하드웨어 환경의 블럭도,
도 2는 본 발명에 따른 향상된 음성 전송 시스템의 블럭도,
도 3은 사용자가 무선 전송 장치를 착용하여 원격 데이타 처리 시스템과 통신하는 것을 도시한 도면
도 4는 무선 전송 장치로부터의 음성 특성을 원격 데이타 처리 시스템에 전송하기 위한 흐름도.
본 발명의 제 1 특징에 따르면, 본 발명은 음성 인식 시스템을 구비한 적어도 하나의 원격 음성 활성화 데이타 처리 시스템과 향상된 음성 통신을 수행하기 위한 방법을 제공하는 것으로서,
(a) 사용자의 음성 특성을 무선 전송 장치의 메모리에 저장하는 단계(a)와,
(b) 음성 활성화 커맨드(voice activation command)에 응답하여 상기 무선 전송 장치 및 원격 음성 인식 시스템을 음성 활성화시키는 단계와,
(c) 상기 무선 전송 장치 및 상기 음성 인식 시스템의 활성화에 응답하여 상기 메모리로부터의 상기 음성 특성을 상기 음성 인식 시스템에 전송하여, 사용자가 상기 음성 활성화 데이타 처리 시스템과 직접 구두로 통신할 수 있도록 하는 단계를 포함한다.
본 발명의 제 2 특징에 따르면, 본 발명은 원격 데이타 처리 시스템에 상주하는 원격 음성 인식 시스템과 음성 통신을 수행하기 위한 음성 전송 시스템을 제공하는 것으로서,
사용자의 음성 특성을 저장하는 메모리를 구비한 무선 전송 장치를 포함하며,
상기 무선 전송 장치 및 상기 음성 인식 시스템은 상기 무선 전송 장치에 의해 수신된 음성 활성화 커맨드에 응답하여 활성화되며,
상기 무선 전송 장치는 상기 음성 인식 시스템 및 상기 무선 전송 장치의 활성화에 응답하여 상기 메모리로부터 상기 음성 특성을 상기 음성 인식 시스템에 전송함으로써 상기 사용자가 상기 음성 인식 시스템과 직접 구두로 통신할 수 있도록 한다.
본 발명의 바람직한 실시예에 있어서, 본 발명의 장치 및 컴퓨터에 의해 구현되는 방법은 사용자가 착용한 무선 전송 장치로부터 분석된 음성 샘플을, 음성 인식 시스템을 구비한 원격 데이타 처리 시스템에 전송한다. 본 발명의 방법은 사용자의 음성 특성의 세트를 무선 전송 장치상의 메모리(예를 들어, RAM 칩)에 저장하는 제 1 단계를 포함한다. 제 2 단계는 음성 커맨드에 응답하여 전송 장치 및 원격 음성 인식 시스템을 음성으로 활성화시키는 단계를 포함한다. 전송 장치 및 음성 인식 시스템이 활성화된 이후, 제 3 단계는 메모리로부터의 음성 특성을 음성 인식 시스템에 원격으로 자동 전송하여 사용자가 음성 활성화 데이타 처리 시스템과 직접 구두로 통신할 수 있도록 하는 단계를 포함한다.
본 발명은 사전정의된 음성 커맨드에 응답하여 사용자의 음성 특성을 무선 데이타 처리 시스템에 자동으로 전송하는 향상된 음성 전송 시스템을 제공한다.
또한, 본 발명은 사용자의 음성 특성을 데이타 처리 시스템에 저장 및 전송하는 장치(예를 들어, 전송 장치)와, 데이타 처리 시스템을 활성화하여 음성 특성을 대기 및 수신하는 장치를 제공한다.
이하, 본 발명은 본 발명의 실시예와 함께 첨부된 도면을 참조하여 더욱 상세히 기술될 것이다.
본 발명의 바람직한 실시예는 사용자의 음성 특성을 포함하는 음성 샘플을 음성 인식 시스템에 원격으로 자동 전송하는 방법 및 장치를 포함한다.
본 발명의 바람직한 실시예는 랩탑 컴퓨터에서 실행되거나 혹은 도 1에 도시된 워크스테이션에서 실행된다. 워크스테이션(100)은 IBMTM의 PowerPCTM601 또는 IntelTM의 486 마이크로프로세서와 같이 캐쉬(15), RAM(14), ROM(16) 및 비휘발성 RAM(NVRAM)(32)을 프로세싱하는 중앙처리장치(CPU)(10)를 포함한다. I/O 어댑터(18)에 의해 제어되는 하나 이상의 디스크(20)는 장기 저장매체(long term storage)를 제공한다. 테이프, CD-ROM, WORM 장치를 포함하는 다른 여러 저장 매체가 사용될 수도 있다. 데이타 또는 컴퓨터 처리 인스트럭션을 저장하기 위해 제거가능한 저장 매체가 또한 제공될 수도 있다.
Sun SolarisTM, Microsoft Windows NTTM, IBM OS/2TM또는 Apple MAC OSTM와 같은 소정의 적절한 운영체제의 데스크탑으로부터의 인스트럭션 및 데이타는 RAM(14)으로부터 CPU(10)를 제어한다. 그렇지만, 본 기술 분야에 통상의 지식을 가진 자라면, 본 발명을 구현하는데 다른 하드웨어 플랫폼(hardware platforms) 및 운영체제가 사용될 수도 있음을 용이하게 이해할 것이다.
사용자는 사용자 인터페이스 어댑터(22)에 의해 제어되는 I/O 장치(즉, 사용자 제어 장치)를 통해 워크스테이션(100)과 통신한다. 사용자가 키보드(24), 포인트 장치(26), 전송 장치(30) 및 스피커(28)를 이용하여 컴퓨터 시스템에 지시하는 동안, 디스플레이(38)에 의해 정보가 사용자에게 디스플레이된다. 또한, 조이스틱, 터치 스크린(touch screen) 또는 가상 현실 헤드셋(virtual reality headset)(도시되지 않음)과 같이 다른 유형의 사용자 제어 장치가 사용될 수도 있다. 통신 어댑터(34)는 이 컴퓨터 시스템과 네트워크 어댑터(40)에 의해 네트워크에 접속된 다른 처리 장치간의 통신을 제어한다. 디스플레이 어댑터(36)는 이 컴퓨터 시스템과 디스플레이(38)간의 통신을 제어한다.
도 2는 바람직한 실시예에 따른 완전한 음성 전송 시스템(200)의 블럭도이다. 음성 전송 시스템(200)은 음성 특성 추출기(210)와, 전송 장치(220)와, 음성 인식 시스템(230)을 포함한다. 음성 특성 추출기(210)는 워크스테이션(100)(도 1을 참조)과 같은 소정의 적절한 워크스테이션내에 상주하고, A/D 서브시스템(204)과, 음성 분석기(206)와, 음성 압축 회로(207)를 포함한다.
도 4는 무선 전송 장치로부터의 음성 특성을 원격 데이타 처리 시스템에 전송하기 위한 흐름도이다. 도 2 및 도 4를 참조하면, 바람직한 실시예에 있어서 사용자는 화자의 음성 특성을 충분히 포함하는 음성 샘플(예를 들어, 약 30개의 문장)을 마이크로폰(202)에게 제공한다(단계 410). 음성 특성은 운율, 고저, 억양 및 속도와 같은 음성 운율계를 포함한다. 이러한 유형의 문장은 음성 합성(speech synthesis) 기술 분야의 통상을 지식을 가진 자에게 잘 알려져 있다. 예를 들어, 하나의 문장은 "The quick fox jumped over the lazy brown dog"와 같은 것일 수 있다. A/D 서브시스템(204)(및 222)은 음성 샘플을 샘플링하여 디지탈화하는 것으로서(단계 412), IBM MACPA(즉, 멀티미디어 오디오 캡처 및 재생 어댑터), 크리에이티브 랩(Creative Laps)의 사운드 블래스터(Sound Blaster) 오디오 카드 또는 단일 칩 솔루션(single chip solution)과 같은 소정의 적절한 아날로그-디지탈(A/D) 시스템을 포함한다.
이어서, 소정의 적절한 전형적인 음성 분석기(206)는 디지탈화된 음성 샘플을 프로세싱하여 각각의 다이폰 세그먼트에 대한 오디오 샘플을 분리시키고 특성 운율계 곡선을 판정한다(단계 414). 음성 분석기(206)는 은폐된 마르코프 모델과 같이 공지의 디지탈 신호 처리 기술을 사용하여 다이폰 세그먼트 및 운율계 곡선을 발생시킨다. 미국 특허 제 4,961,229 호 및 3,816,722 호에는 적절한 음석 분석기가 개시되어 있다.
음성 코딩 회로(207)는 전형적인 디지탈 코딩 기술을 이용하여 다이폰 세그먼트 및 운율계 곡선을 압축함으로써, 전송 대역폭 및 저장 요건을 감소시킨다(단계 416). 음성 코딩 회로(207)는 결과로서 얻어지는 압축된 운율계 곡선 및 다이폰 세그먼트를 전송 장치(220)의 RAM(226)(예를 들어, 메모리)에 저장한다. 본 기술 분야에 통상의 지식을 가진 자라면, 파이프라인 버스트 메모리(pipeline burst memory), 플래쉬 메모리 또는 소형 DASD와 같은 소정의 적절한 유형의 메모리 장치가 RAM(226)을 대체하여 사용될 수도 있음을 이해할 것이다. 전송 장치(220)는 또한 음성 활성화 커맨드를 수신하는 음성 활성화 마이크로폰(221)과, A/D 서브시스템(222)과, 음성 인식 회로(224)와, 전원(도시되지 않음)과, 프로세서(228)와, 전송 유닛(229)을 포함한다.
도 3은 무선 전송 장치(220)를 착용한 사용자가 원격 데이타 처리 시스템(310)과 통신하는 것을 도시한 도면이다. 도 2, 도 3 및 도 4를 참조하면, 바람직한 실시예에 있어서 사용자는 브로치(brooch)를 착용하는 것과 유사하게 전송 장치(220)를 착용한다. 이와 달리, 사용자가 전송 장치(220)를 자신의 입안에 휴대할 수 있다. 사용자가 원격 데이타 처리 시스템(예를 들어, ATM 머신)(310)상에 상주하는 음성 인식 시스템(230)과 통신하고자 하면, (전송 장치(220)를 착용하고 있는) 사용자는 원격 데이타 처리 시스템(310)에 접근하여 음성 활성화 커맨드(예들 들어, "COMPUTER"; "LOGON COMPUTER")를 전송 장치(220)의 음성 활성화 마이크로폰(221)에게 말한다(단계 418). "무선"이란 데이타 처리 시스템(310)이 전송 장치(220)에 대해 무선 접속되어 있음을 나타내는 것임에 유의하여야 한다. 음성 활성화 마이크로폰(221)은 음성 활성화 커맨드를 검출하고, A/D 서브시스템(222)은 이 음성 활성화 커맨드를 샘플링하여 디지탈화한다. A/D 서브시스템(221)은 디지탈화된 음성 활성화 커맨드를 음성 인식 회로(224)에 전송한다.
음성 인식 회로(224)(및 234)는 IBM Voicetype DictationTM제품 또는 드래곤 음성 인식 시스템(Dragon Voice Recognition System)의 음성 인식 회로와 같은 소정의 적절한 음성 인식 회로를 포함한다. 음성 인식 회로(224)가 음성 활성화 커맨드를 인식하면, 음성 인식 회로(224)는 이를 나타내는 신호를 프로세서(228)에 전송한다. 그러면, 프로세서(228)는 신호를 전송 유닛(229)에 전송하여, 음성 활성화 커맨드가 음성 인식 시스템(230)의 수신 유닛(232)에 전송되도록 한다(단계 420). 전송 유닛(229)은 소정의 적절한 유형의 무선 전송 유닛(예를 들어, 레이저, 적외선 발광 다이오드)일 수 있지만, 바람직한 실시예에 있어서 전송 유닛(229)은 RF 전송기이다. 프로세서(228)는 숏 타임아웃 신호(short timeout signal)를 RAM(226)에 전송하여 음성 인식 시스템(230)이 기동되도록 한다(단계 422).
음성 인식 시스템(230)은 수신 유닛(232)과, 음성 압축해제 회로(233)와, 음성 인식 회로(234)를 포함하고, 워크스테이션(100)과 같은 소정의 적절한 워크스테이션에 상주한다. 수신 유닛(232)은 수신된 음성 활성화 커맨드를 음성 압축해제 회로(233)에 전송하며, 여기에서 음성 활성화 커맨드가 압축해제된다. 이어서, 음성 압축해제 회로(233)는 음성 활성화 커맨드를 음성 인식 회로(234)에 전송한다. 음성 인식 회로(234)가 음성 활성화 커맨드를 인식하면, 음성 인식 회로(234)가 활성화되고 전송 장치(220)로부터 운율계 곡선 및 다이폰 세그먼트를수신하기 위해 대기한다. 따라서, 단일 음성 활성화 커맨드는 전송 장치(220) 및 음성 인식 시스템(230)을 활성화시킨다. 따라서, 숏 타임아웃 이후에, 프로세서(228)는 RAM(226)에게 운율계 곡선 및 다이폰 세그먼트를 전송 유닛(229) 및 수신 유닛(232)을 거쳐 음성 인식 회로(234)에 전송하도록 지시한다(단계 424 및 단계 426). 음성 인식 회로(234)는 이들 운율계 곡선 및 다이폰 세그먼트를 사용하여 사용자의 음성을 인식한다. 그러면, 사용자는 음성 인식 시스템(230)에 직접 말할 수 있다.
따라서, 본 발명의 바람직한 실시예는 사용자가 음성 활성화 커맨드를 말하는 것에 의해서만 사용자의 음성 특성을 무선 원격 머신에 전송할 수 있다. 카드를 삽입할 필요도 없다. 따라서, 종래에는 카드를 삽입하지 않고는 불가능하였지만 2개 이상의 무선 원격 데이타 처리 시스템을 동시에 활성화시킬 수 있다.
본 발명은 특정한 실시예를 참조하여 도시되고 기술되었지만, 본 기술 분야에 통상의 지식을 가진 자라면 본 발명이 본 발명의 영역을 벗어나지 않는 범위내에서 형태 및 세부 사항에 있어서 여러가지 변경이 이루어질 수 있음을 이해하여야 한다.

Claims (11)

  1. 프로세서 및 메모리를 포함하는 무선 전송 장치를 이용한, 사용자와 다수의 다양한 음성 인식 데이터 처리 시스템들 중 적어도 하나의 시스템 간의 향상된 통신 방법에 있어서,
    ① 상기 무선 전송 장치의 상기 메모리 내에 상기 사용자의 음성 특성을 저장하는 단계―상기 음성 특성은 운율계 곡선(prosody curve)을 포함함―와,
    ② 상기 사용자로부터의 입력에 응답하여, 상기 무선 전송 장치와, 다수의 다양한 음성 인식 데이터 처리 시스템들 중 상기 적어도 하나의 시스템 내의 음성 인식 시스템을 활성화시키는 단계와,
    ③ 상기 활성화 단계에 응답하여, 상기 메모리로부터 상기 음성 인식 시스템으로 상기 음성 특성을 전송하는 단계와,
    ④ 상기 사용자의 발성(spoken utterance) 및 상기 음성 특성을 이용하는 상기 음성 인식 시스템을 통해 상기 사용자와 다수의 다양한 음성 인식 데이터 처리 시스템들 중 상기 적어도 하나의 시스템 간의 통신을 용이하게 하는 단계를 포함하는
    향상된 통신 방법.
  2. 제 1 항에 있어서,
    상기 저장 단계는,
    상기 사용자의 음성 샘플을 포착(capture)하는 단계와,
    상기 포착된 음성 샘플을 디지탈화하는 단계와,
    음성 분석기(speech analyzer)를 이용하여 상기 음성 샘플로부터 상기 음성 특성을 추출하는 단계와,
    상기 음성 특성을 상기 메모리에 저장하는 단계를 포함하는
    향상된 통신 방법.
  3. 제 1 항에 있어서,
    상기 활성화 단계는,
    상기 무선 전송 장치에 의해, 상기 사용자로부터 상기 음성 활성화 커맨드를 수신하여 상기 무선 전송 장치를 할성화하는 단계와,
    상기 무선 전송 장치로부터 상기 음성 인식 시스템으로 상기 음성 활성화 커맨드를 전송하여 상기 음성 인식 시스템을 활성화하는 단계를 포함하는
    향상된 통신 방법.
  4. 제 3 항에 있어서,
    상기 활성화 단계는,
    상기 프로세서로부터 상기 무선 전송 장치 내의 상기 메모리로 신호를 전송함으로써, 상기 음성 특성을 전송하기 전에 상기 음성 인식 시스템이 활성 상태가 되도록 하는 단계를 더 포함하는 향상된 통신 방법.
  5. 제 1 항에 있어서,
    상기 전송 단계는,
    상기 프로세서로부터 상기 무선 전송 장치 내의 상기 메모리로 신호를 전송함으로써, 상기 음성 특성을 상기 음성 인식 시스템으로 전송하는 단계를 포함하는 향상된 통신 방법.
  6. 사용자와 다수의 다양한 음성 인식 데이터 처리 시스템들 중 적어도 하나의 시스템 간의 향상된 통신 시스템에 있어서,
    ① 상기 무선 전송 장치 내에 상기 사용자의 음성 특성을 저장하는 수단―상기 음성 특성은 운율계 곡선을 포함함―과,
    ② 상기 사용자로부터의 입력에 응답하여, 상기 무선 전송 장치와, 다수의 다양한 음성 인식 데이터 처리 시스템들 중 상기 적어도 하나의 시스템 내의 음성 인식 시스템을 활성화시키는 수단과,
    ③ 상기 활성화 수단에 응답하여, 상기 무선 전송 장치로부터 상기 음성 인식 시스템으로 상기 음성 특성을 전송하는 수단과,
    ④ 상기 사용자로부터의 발성 및 상기 음성 특성을 이용하는 상기 음성 인식 시스템을 통해 상기 사용자와 다수의 다양한 음성 인식 데이터 처리 시스템들 중 상기 적어도 하나의 시스템 간의 통신을 용이하게 하는 수단을 포함하는
    향상된 통신 시스템.
  7. 제 6 항에 있어서,
    상기 사용자의 음성 샘플로부터 상기 음성 특성을 생성하는 수단을 더 포함하는 향상된 통신 시스템.
  8. 제 6 항에 있어서,
    상기 무선 전송 장치는 상기 음성 활성화 커맨드를 수신하는 마이크로폰(microphone)과, 상기 음성 활성화 커맨드를 인식하는 음성 인식 회로와, 상기 음성 활성화 커맨드 및 상기 음성 특성을 상기 음성 인식 시스템으로 전송하는 전송 유닛을 포함하는 향상된 통신 시스템.
  9. 제 8 항에 있어서,
    상기 전송 유닛은 RF 전송기를 포함하는 향상된 통신 시스템.
  10. 제 8 항에 있어서,
    상기 무선 전송 장치는 상기 메모리 및 상기 전송 유닛을 제어하는 프로세서를 더 포함하는 향상된 통신 시스템.
  11. 제 1 항에 있어서,
    상기 활성화 단계는,
    음성 활성 커맨드에 응답하여, 상기 무선 전송 장치와, 다수의 다양한 음성 인식 데이터 처리 시스템들 중 상기 적어도 하나의 시스템 내의 음성 인식 시스템을 활성화시키는 단계를 포함하는 향상된 통신 방법.
KR1019970708903A 1995-06-30 1996-06-27 향상된통신시스템및통신방법 KR100297076B1 (ko)

Applications Claiming Priority (4)

Application Number Priority Date Filing Date Title
US08/497,302 US5704009A (en) 1995-06-30 1995-06-30 Method and apparatus for transmitting a voice sample to a voice activated data processing system
US8/497,302 1995-06-30
US08/497,302 1995-06-30
PCT/GB1996/001544 WO1997002526A1 (en) 1995-06-30 1996-06-27 Method and apparatus for transmitting a voice sample to a voice activated data processing system

Publications (2)

Publication Number Publication Date
KR19990022423A KR19990022423A (ko) 1999-03-25
KR100297076B1 true KR100297076B1 (ko) 2001-08-07

Family

ID=23976298

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1019970708903A KR100297076B1 (ko) 1995-06-30 1996-06-27 향상된통신시스템및통신방법

Country Status (12)

Country Link
US (1) US5704009A (ko)
EP (1) EP0836720B1 (ko)
JP (1) JP3335178B2 (ko)
KR (1) KR100297076B1 (ko)
CN (1) CN1095563C (ko)
CA (1) CA2220861C (ko)
CZ (1) CZ287316B6 (ko)
DE (1) DE69606042T2 (ko)
HU (1) HUP9801839A3 (ko)
PL (1) PL182225B1 (ko)
TW (1) TW366483B (ko)
WO (1) WO1997002526A1 (ko)

Families Citing this family (36)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3697748B2 (ja) * 1995-08-21 2005-09-21 セイコーエプソン株式会社 端末、音声認識装置
JP3674990B2 (ja) * 1995-08-21 2005-07-27 セイコーエプソン株式会社 音声認識対話装置および音声認識対話処理方法
US5940476A (en) 1996-06-28 1999-08-17 Distributed Software Development, Inc. System and method for identifying an unidentified caller
US7006605B1 (en) * 1996-06-28 2006-02-28 Ochopee Big Cypress Llc Authenticating a caller before providing the caller with access to one or more secured resources
US5901203A (en) 1996-06-28 1999-05-04 Distributed Software Development, Inc. Computer-based system and method for identifying an unidentified caller
US6205204B1 (en) 1996-06-28 2001-03-20 Distributed Software Development, Inc. System and method for identifying an unidentified person using an ambiguity-resolution criterion
US6529881B2 (en) * 1996-06-28 2003-03-04 Distributed Software Development, Inc. System and method for identifying an unidentified customer at the point of sale
JPH10178490A (ja) * 1996-10-15 1998-06-30 Casio Comput Co Ltd 音声記憶システム
JPH10260692A (ja) * 1997-03-18 1998-09-29 Toshiba Corp 音声の認識合成符号化/復号化方法及び音声符号化/復号化システム
US7383200B1 (en) 1997-05-05 2008-06-03 Walker Digital, Llc Method and apparatus for collecting and categorizing data at a terminal
US6567787B1 (en) * 1998-08-17 2003-05-20 Walker Digital, Llc Method and apparatus for determining whether a verbal message was spoken during a transaction at a point-of-sale terminal
US5987405A (en) * 1997-06-24 1999-11-16 International Business Machines Corporation Speech compression by speech recognition
US6003004A (en) * 1998-01-08 1999-12-14 Advanced Recognition Technologies, Inc. Speech recognition method and system using compressed speech data
GB9824762D0 (en) * 1998-11-11 1999-01-06 Ncr Int Inc Self-service terminal
US6260016B1 (en) 1998-11-25 2001-07-10 Matsushita Electric Industrial Co., Ltd. Speech synthesis employing prosody templates
US6195636B1 (en) 1999-02-19 2001-02-27 Texas Instruments Incorporated Speech recognition over packet networks
US6185533B1 (en) 1999-03-15 2001-02-06 Matsushita Electric Industrial Co., Ltd. Generation and synthesis of prosody templates
NL1012860C2 (nl) * 1999-08-19 2001-02-20 Nedap Nv Boerderijautomatiseringssysteem.
EP1120752A1 (de) * 2000-01-24 2001-08-01 Franke & Co. Verwaltungs KG System zur Kontrolle von Zugangs- bzw. Zugriffsberechtigungen
DE10003617A1 (de) * 2000-01-28 2001-08-02 Volkswagen Ag Verfahren und Vorrichtung zur Spracheingabe bei Autoradios
EP1542120A4 (en) * 2002-08-22 2006-03-01 Matsushita Electric Ind Co Ltd CONTROL SYSTEM, METHOD AND PROGRAM WITH A RHYTHM PATTERN
US20060173681A1 (en) * 2005-02-01 2006-08-03 Bae Systems Information And Electronic Systems Integration Inc Semi-covert emergency transmitter
US20070083367A1 (en) * 2005-10-11 2007-04-12 Motorola, Inc. Method and system for bandwidth efficient and enhanced concatenative synthesis based communication
US10257191B2 (en) 2008-11-28 2019-04-09 Nottingham Trent University Biometric identity verification
WO2010075623A1 (en) * 2008-12-31 2010-07-08 Bce Inc. System and method for unlocking a device
US8346562B2 (en) * 2010-01-06 2013-01-01 Csr Technology Inc. Method and apparatus for voice controlled operation of a media player
EP2555536A1 (en) 2011-08-05 2013-02-06 Samsung Electronics Co., Ltd. Method for controlling electronic apparatus based on voice recognition and motion recognition, and electronic apparatus applying the same
KR101262700B1 (ko) * 2011-08-05 2013-05-08 삼성전자주식회사 음성 인식 및 모션 인식을 이용하는 전자 장치의 제어 방법 및 이를 적용한 전자 장치
CN102436813A (zh) * 2011-12-21 2012-05-02 成都众询科技有限公司 一种可控语音控制系统
KR20130133629A (ko) * 2012-05-29 2013-12-09 삼성전자주식회사 전자장치에서 음성명령을 실행시키기 위한 장치 및 방법
US9135915B1 (en) * 2012-07-26 2015-09-15 Google Inc. Augmenting speech segmentation and recognition using head-mounted vibration and/or motion sensors
CN106296867B (zh) * 2015-06-11 2019-09-06 杭州萤石网络有限公司 影像记录设备及其影像标记方法
CN107256707B (zh) * 2017-05-24 2021-04-30 深圳市冠旭电子股份有限公司 一种语音识别方法、系统及终端设备
US10283117B2 (en) * 2017-06-19 2019-05-07 Lenovo (Singapore) Pte. Ltd. Systems and methods for identification of response cue at peripheral device
JP7044633B2 (ja) * 2017-12-28 2022-03-30 シャープ株式会社 操作支援装置、操作支援システム、及び操作支援方法
CN109065058B (zh) * 2018-09-30 2024-03-15 合肥鑫晟光电科技有限公司 语音通信方法、装置及系统

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP0633520A1 (en) * 1993-07-01 1995-01-11 Koninklijke Philips Electronics N.V. Remote control having voice input

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5657425A (en) * 1993-11-15 1997-08-12 International Business Machines Corporation Location dependent verbal command execution in a computer based control system
AU1298995A (en) * 1993-12-01 1995-06-19 Nhc Corporation Wireless remote switching system
US5444673A (en) * 1994-07-12 1995-08-22 Mathurin; Trevor S. Audio controlled and activated wristwatch memory aid device

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP0633520A1 (en) * 1993-07-01 1995-01-11 Koninklijke Philips Electronics N.V. Remote control having voice input

Also Published As

Publication number Publication date
WO1997002526A1 (en) 1997-01-23
TW366483B (en) 1999-08-11
HUP9801839A2 (hu) 1998-11-30
CN1095563C (zh) 2002-12-04
EP0836720A1 (en) 1998-04-22
DE69606042T2 (de) 2000-10-26
KR19990022423A (ko) 1999-03-25
CZ287316B6 (en) 2000-10-11
CN1189900A (zh) 1998-08-05
CA2220861C (en) 2002-11-05
EP0836720B1 (en) 2000-01-05
CA2220861A1 (en) 1997-01-23
PL324025A1 (en) 1998-05-11
DE69606042D1 (de) 2000-02-10
HUP9801839A3 (en) 2002-09-30
CZ395397A3 (cs) 1999-01-13
JPH10507559A (ja) 1998-07-21
JP3335178B2 (ja) 2002-10-15
PL182225B1 (pl) 2001-11-30
US5704009A (en) 1997-12-30

Similar Documents

Publication Publication Date Title
KR100297076B1 (ko) 향상된통신시스템및통신방법
CN110049270B (zh) 多人会议语音转写方法、装置、系统、设备及存储介质
US10504511B2 (en) Customizable wake-up voice commands
US10614803B2 (en) Wake-on-voice method, terminal and storage medium
US5615296A (en) Continuous speech recognition and voice response system and method to enable conversational dialogues with microprocessors
US6226615B1 (en) Spoken text display method and apparatus, for use in generating television signals
CN110959159A (zh) 话语分类器
US20070274297A1 (en) Streaming audio from a full-duplex network through a half-duplex device
US20070118373A1 (en) System and method for generating closed captions
US20140316762A1 (en) Mobile Speech-to-Speech Interpretation System
US20030182113A1 (en) Distributed speech recognition for mobile communication devices
EP2017828A1 (en) Techniques for disambiguating speech input using multimodal interfaces
KR102628211B1 (ko) 전자 장치 및 그 제어 방법
CN110853615B (zh) 一种数据处理方法、装置及存储介质
JP7279494B2 (ja) 会議支援装置、および会議支援システム
CN112489691A (zh) 电子装置及其操作方法
WO2020250016A1 (en) Apparatus for processing an audio signal for the generation of a multimedia file with speech transcription
CN113160821A (zh) 一种基于语音识别的控制方法及装置
WO2023210149A1 (ja) 情報処理装置及び情報処理方法、並びにコンピュータプログラム
EP3482278B1 (en) Gesture-activated remote control
KR950014504B1 (ko) 전자문서를 음성 처리하는 휴대용 컴퓨터 디바이스
CN113160782A (zh) 音频处理的方法、装置、电子设备及可读存储介质
US20210082427A1 (en) Information processing apparatus and information processing method
JP2000276188A (ja) 音声認識装置、音声認識方法、音声認識用制御プログラムを記録した記録媒体、通信端末装置、通信方法、音声認識通信の制御用プログラムを記録した記録媒体、サーバ装置、音声認識用データの送受信方法及び音声認識用データの送受信制御プログラムを記録した記録媒体
WO2001039177A2 (en) Distributed speech recognition for mobile communication devices

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant
FPAY Annual fee payment

Payment date: 20050324

Year of fee payment: 5

LAPS Lapse due to unpaid annual fee