KR100297076B1 - 향상된통신시스템및통신방법 - Google Patents
향상된통신시스템및통신방법 Download PDFInfo
- Publication number
- KR100297076B1 KR100297076B1 KR1019970708903A KR19970708903A KR100297076B1 KR 100297076 B1 KR100297076 B1 KR 100297076B1 KR 1019970708903 A KR1019970708903 A KR 1019970708903A KR 19970708903 A KR19970708903 A KR 19970708903A KR 100297076 B1 KR100297076 B1 KR 100297076B1
- Authority
- KR
- South Korea
- Prior art keywords
- voice
- speech
- user
- transmission device
- transmitting
- Prior art date
Links
- 238000000034 method Methods 0.000 title claims abstract description 28
- 230000005540 biological transmission Effects 0.000 claims abstract description 46
- 230000004913 activation Effects 0.000 claims abstract description 34
- 230000003213 activating effect Effects 0.000 claims abstract description 9
- 238000004891 communication Methods 0.000 claims description 17
- 230000004044 response Effects 0.000 claims description 11
- 239000000523 sample Substances 0.000 abstract 1
- MQJKPEGWNLWLTK-UHFFFAOYSA-N Dapsone Chemical compound C1=CC(N)=CC=C1S(=O)(=O)C1=CC=C(N)C=C1 MQJKPEGWNLWLTK-UHFFFAOYSA-N 0.000 description 9
- 230000006837 decompression Effects 0.000 description 3
- 238000010586 diagram Methods 0.000 description 3
- 241000282412 Homo Species 0.000 description 2
- 230000015572 biosynthetic process Effects 0.000 description 1
- 230000006835 compression Effects 0.000 description 1
- 238000007906 compression Methods 0.000 description 1
- 230000001419 dependent effect Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000002452 interceptive effect Effects 0.000 description 1
- 230000007774 longterm Effects 0.000 description 1
- 238000003786 synthesis reaction Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/06—Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
- G10L15/065—Adaptation
- G10L15/07—Adaptation to the speaker
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F3/00—Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
- G06F3/16—Sound input; Sound output
-
- G—PHYSICS
- G07—CHECKING-DEVICES
- G07C—TIME OR ATTENDANCE REGISTERS; REGISTERING OR INDICATING THE WORKING OF MACHINES; GENERATING RANDOM NUMBERS; VOTING OR LOTTERY APPARATUS; ARRANGEMENTS, SYSTEMS OR APPARATUS FOR CHECKING NOT PROVIDED FOR ELSEWHERE
- G07C9/00—Individual registration on entry or exit
- G07C9/20—Individual registration on entry or exit involving the use of a pass
- G07C9/22—Individual registration on entry or exit involving the use of a pass in combination with an identity check of the pass holder
- G07C9/25—Individual registration on entry or exit involving the use of a pass in combination with an identity check of the pass holder using biometric data, e.g. fingerprints, iris scans or voice recognition
- G07C9/257—Individual registration on entry or exit involving the use of a pass in combination with an identity check of the pass holder using biometric data, e.g. fingerprints, iris scans or voice recognition electronically
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/26—Speech to text systems
Landscapes
- Engineering & Computer Science (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Theoretical Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Multimedia (AREA)
- Acoustics & Sound (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- General Engineering & Computer Science (AREA)
- Artificial Intelligence (AREA)
- Telephonic Communication Services (AREA)
- Selective Calling Equipment (AREA)
- Arrangements For Transmission Of Measured Signals (AREA)
- Machine Translation (AREA)
Abstract
본 발명의 장치 및 방법은 사용자가 착용한 무선 전송 장치(wireless transmitting device)로부터 분석된 음성 샘플(voice samples)을, 음성 인식 시스템(speech recognition system)을 구비한 원격 음성 활성 데이타 처리 시스템(remote voice activated data processing system)에 전송한다. 본 발명의 방법은 사용자의 음성 특성을 무선 전송 장치상의 메모리(예를 들어, RAM 칩)에 저장하는 제 1 단계를 포함한다. 본 발명의 제 2 단계는 전송 장치 및 음성 인식 시스템을 음성 활성화시키는 단계를 포함한다. 전송 장치 및 음성 인식 시스템이 활성화된 이후, 제 3 단계는 메모리로부터의 음성 특성을 음성 인식 시스템에 전송하여 사용자가 음성 활성화 데이타 처리 시스템과 직접 구두로 통신할 수 있도록 하는 단계를 포함한다.
Description
언어는 인간 사이의 통신과, 인간과 기계간의 통신과, 기계와 인간간의 통신에 중요한 역할을 담당한다. 예를 들어, 현대적 음성 메일 시스템, 헬프 시스템, 비디오 화상 회의 시스템에서는 인간의 음성을 구현(incorporate)하고 있다. 또한, 기술이 계속 발전함에 따라, 인간의 음성은 기계/인간 통신에 보다 많은 역할을 담당할 것이다. 특히, 무선 ATM 머신 (또는 가스 펌프(gas pump), 이동 정보 키오스크(travel information kiosk), 판매 단말 지점(point of sale terminal)과 같은 유형의 소정의 무선 머신)은 음성 인식 시스템을 구현하는 추세에 있으며, 이렇게 되면 나중에 사용자가 ATM과 대화할 수 있게 될 것이다. 본 발명은 카드 또는 소정의 다른 형태의 장치를 머신내에 탑재하지 않고서도 사용자가 구두로(verbally) 머신과 용이하게 효율적으로 통신할 수 있도록 한다. 하지만, 몇가지 부가적인 예비 정보를 우선 기술할 것이다.
전형적으로, 음성 인식 시스템은 인간의 음성을 청취하고 이해한다. 하지만, 전형적인 음성 인식 시스템에서는 음성 인식이 만족할 만한 정확도를 갖도록 하기 위해 사용자의 저장된 음성 샘플을 이용하고 있다. 사용자는 충분한 음성 특성을 확보하는 약 30개로 면밀하게 구성된 문장을 읽음으로써 음성 샘플을 생성한다. 음성 특성은 운율(cadence), 고저(pitch), 억양(inflection) 및 속도(speed)를 포함하는 사용자의 음성 운율계(prosody)를 포함한다. 전형적인 음성 분석기는 음성 샘플을 처리하여 각각의 다이폰 세그먼트(diphone segment)에 대한 음성 샘플을 분리시키고 특성 운율계 곡선(prosody curves)을 결정한다. 음성 분석기는 은폐된 마르코프(Markov) 모델과 같은 공지의 디지탈 신호 처리 기술을 이용하여 다이폰 세그먼트 및 운율계 곡선을 생성한다. 따라서, 전형적인 음성 인식 시스템은 저장된 음성 샘플을 이용할 경우 약 90%의 정확도를 갖는다. 하지만, 사용자가 무선 머신과 구두로 통신을 원할 때마다 이들 30개의 문장을 반복해야 한다면 대단히 불편할 것이다.
이와 같은 예비 정보가 주어졌다고 할 때, 다수의 사용자가 음성으로 무선 대화형 머신과 효율적으로 원격 통신을 할 수 있다면 매우 바람직하고 유용할 것이다. 그렇지만, 분석된 사용자의 음성 샘플을 머신에 전송한 다음 사용자가 높은 정확도로 머신과 구두로 통신하는 기술 또는 장치를 개발하는 것이 필요하다.
본 발명은 음성 인식 시스템의 통신 향상에 관한 것으로서, 보다 구체적으로는 (여기에 한정되는 것은 아니지만) 음성 샘플을 데이타 처리 시스템내의 화자 의존적(speaker dependent) 음성 인식 시스템에 전송하기 위한 방법 및 장치에 관한 것이다.
도 1은 본 발명을 구현하기 위한 대표적인 하드웨어 환경의 블럭도,
도 2는 본 발명에 따른 향상된 음성 전송 시스템의 블럭도,
도 3은 사용자가 무선 전송 장치를 착용하여 원격 데이타 처리 시스템과 통신하는 것을 도시한 도면
도 4는 무선 전송 장치로부터의 음성 특성을 원격 데이타 처리 시스템에 전송하기 위한 흐름도.
본 발명의 제 1 특징에 따르면, 본 발명은 음성 인식 시스템을 구비한 적어도 하나의 원격 음성 활성화 데이타 처리 시스템과 향상된 음성 통신을 수행하기 위한 방법을 제공하는 것으로서,
(a) 사용자의 음성 특성을 무선 전송 장치의 메모리에 저장하는 단계(a)와,
(b) 음성 활성화 커맨드(voice activation command)에 응답하여 상기 무선 전송 장치 및 원격 음성 인식 시스템을 음성 활성화시키는 단계와,
(c) 상기 무선 전송 장치 및 상기 음성 인식 시스템의 활성화에 응답하여 상기 메모리로부터의 상기 음성 특성을 상기 음성 인식 시스템에 전송하여, 사용자가 상기 음성 활성화 데이타 처리 시스템과 직접 구두로 통신할 수 있도록 하는 단계를 포함한다.
본 발명의 제 2 특징에 따르면, 본 발명은 원격 데이타 처리 시스템에 상주하는 원격 음성 인식 시스템과 음성 통신을 수행하기 위한 음성 전송 시스템을 제공하는 것으로서,
사용자의 음성 특성을 저장하는 메모리를 구비한 무선 전송 장치를 포함하며,
상기 무선 전송 장치 및 상기 음성 인식 시스템은 상기 무선 전송 장치에 의해 수신된 음성 활성화 커맨드에 응답하여 활성화되며,
상기 무선 전송 장치는 상기 음성 인식 시스템 및 상기 무선 전송 장치의 활성화에 응답하여 상기 메모리로부터 상기 음성 특성을 상기 음성 인식 시스템에 전송함으로써 상기 사용자가 상기 음성 인식 시스템과 직접 구두로 통신할 수 있도록 한다.
본 발명의 바람직한 실시예에 있어서, 본 발명의 장치 및 컴퓨터에 의해 구현되는 방법은 사용자가 착용한 무선 전송 장치로부터 분석된 음성 샘플을, 음성 인식 시스템을 구비한 원격 데이타 처리 시스템에 전송한다. 본 발명의 방법은 사용자의 음성 특성의 세트를 무선 전송 장치상의 메모리(예를 들어, RAM 칩)에 저장하는 제 1 단계를 포함한다. 제 2 단계는 음성 커맨드에 응답하여 전송 장치 및 원격 음성 인식 시스템을 음성으로 활성화시키는 단계를 포함한다. 전송 장치 및 음성 인식 시스템이 활성화된 이후, 제 3 단계는 메모리로부터의 음성 특성을 음성 인식 시스템에 원격으로 자동 전송하여 사용자가 음성 활성화 데이타 처리 시스템과 직접 구두로 통신할 수 있도록 하는 단계를 포함한다.
본 발명은 사전정의된 음성 커맨드에 응답하여 사용자의 음성 특성을 무선 데이타 처리 시스템에 자동으로 전송하는 향상된 음성 전송 시스템을 제공한다.
또한, 본 발명은 사용자의 음성 특성을 데이타 처리 시스템에 저장 및 전송하는 장치(예를 들어, 전송 장치)와, 데이타 처리 시스템을 활성화하여 음성 특성을 대기 및 수신하는 장치를 제공한다.
이하, 본 발명은 본 발명의 실시예와 함께 첨부된 도면을 참조하여 더욱 상세히 기술될 것이다.
본 발명의 바람직한 실시예는 사용자의 음성 특성을 포함하는 음성 샘플을 음성 인식 시스템에 원격으로 자동 전송하는 방법 및 장치를 포함한다.
본 발명의 바람직한 실시예는 랩탑 컴퓨터에서 실행되거나 혹은 도 1에 도시된 워크스테이션에서 실행된다. 워크스테이션(100)은 IBMTM의 PowerPCTM601 또는 IntelTM의 486 마이크로프로세서와 같이 캐쉬(15), RAM(14), ROM(16) 및 비휘발성 RAM(NVRAM)(32)을 프로세싱하는 중앙처리장치(CPU)(10)를 포함한다. I/O 어댑터(18)에 의해 제어되는 하나 이상의 디스크(20)는 장기 저장매체(long term storage)를 제공한다. 테이프, CD-ROM, WORM 장치를 포함하는 다른 여러 저장 매체가 사용될 수도 있다. 데이타 또는 컴퓨터 처리 인스트럭션을 저장하기 위해 제거가능한 저장 매체가 또한 제공될 수도 있다.
Sun SolarisTM, Microsoft Windows NTTM, IBM OS/2TM또는 Apple MAC OSTM와 같은 소정의 적절한 운영체제의 데스크탑으로부터의 인스트럭션 및 데이타는 RAM(14)으로부터 CPU(10)를 제어한다. 그렇지만, 본 기술 분야에 통상의 지식을 가진 자라면, 본 발명을 구현하는데 다른 하드웨어 플랫폼(hardware platforms) 및 운영체제가 사용될 수도 있음을 용이하게 이해할 것이다.
사용자는 사용자 인터페이스 어댑터(22)에 의해 제어되는 I/O 장치(즉, 사용자 제어 장치)를 통해 워크스테이션(100)과 통신한다. 사용자가 키보드(24), 포인트 장치(26), 전송 장치(30) 및 스피커(28)를 이용하여 컴퓨터 시스템에 지시하는 동안, 디스플레이(38)에 의해 정보가 사용자에게 디스플레이된다. 또한, 조이스틱, 터치 스크린(touch screen) 또는 가상 현실 헤드셋(virtual reality headset)(도시되지 않음)과 같이 다른 유형의 사용자 제어 장치가 사용될 수도 있다. 통신 어댑터(34)는 이 컴퓨터 시스템과 네트워크 어댑터(40)에 의해 네트워크에 접속된 다른 처리 장치간의 통신을 제어한다. 디스플레이 어댑터(36)는 이 컴퓨터 시스템과 디스플레이(38)간의 통신을 제어한다.
도 2는 바람직한 실시예에 따른 완전한 음성 전송 시스템(200)의 블럭도이다. 음성 전송 시스템(200)은 음성 특성 추출기(210)와, 전송 장치(220)와, 음성 인식 시스템(230)을 포함한다. 음성 특성 추출기(210)는 워크스테이션(100)(도 1을 참조)과 같은 소정의 적절한 워크스테이션내에 상주하고, A/D 서브시스템(204)과, 음성 분석기(206)와, 음성 압축 회로(207)를 포함한다.
도 4는 무선 전송 장치로부터의 음성 특성을 원격 데이타 처리 시스템에 전송하기 위한 흐름도이다. 도 2 및 도 4를 참조하면, 바람직한 실시예에 있어서 사용자는 화자의 음성 특성을 충분히 포함하는 음성 샘플(예를 들어, 약 30개의 문장)을 마이크로폰(202)에게 제공한다(단계 410). 음성 특성은 운율, 고저, 억양 및 속도와 같은 음성 운율계를 포함한다. 이러한 유형의 문장은 음성 합성(speech synthesis) 기술 분야의 통상을 지식을 가진 자에게 잘 알려져 있다. 예를 들어, 하나의 문장은 "The quick fox jumped over the lazy brown dog"와 같은 것일 수 있다. A/D 서브시스템(204)(및 222)은 음성 샘플을 샘플링하여 디지탈화하는 것으로서(단계 412), IBM MACPA(즉, 멀티미디어 오디오 캡처 및 재생 어댑터), 크리에이티브 랩(Creative Laps)의 사운드 블래스터(Sound Blaster) 오디오 카드 또는 단일 칩 솔루션(single chip solution)과 같은 소정의 적절한 아날로그-디지탈(A/D) 시스템을 포함한다.
이어서, 소정의 적절한 전형적인 음성 분석기(206)는 디지탈화된 음성 샘플을 프로세싱하여 각각의 다이폰 세그먼트에 대한 오디오 샘플을 분리시키고 특성 운율계 곡선을 판정한다(단계 414). 음성 분석기(206)는 은폐된 마르코프 모델과 같이 공지의 디지탈 신호 처리 기술을 사용하여 다이폰 세그먼트 및 운율계 곡선을 발생시킨다. 미국 특허 제 4,961,229 호 및 3,816,722 호에는 적절한 음석 분석기가 개시되어 있다.
음성 코딩 회로(207)는 전형적인 디지탈 코딩 기술을 이용하여 다이폰 세그먼트 및 운율계 곡선을 압축함으로써, 전송 대역폭 및 저장 요건을 감소시킨다(단계 416). 음성 코딩 회로(207)는 결과로서 얻어지는 압축된 운율계 곡선 및 다이폰 세그먼트를 전송 장치(220)의 RAM(226)(예를 들어, 메모리)에 저장한다. 본 기술 분야에 통상의 지식을 가진 자라면, 파이프라인 버스트 메모리(pipeline burst memory), 플래쉬 메모리 또는 소형 DASD와 같은 소정의 적절한 유형의 메모리 장치가 RAM(226)을 대체하여 사용될 수도 있음을 이해할 것이다. 전송 장치(220)는 또한 음성 활성화 커맨드를 수신하는 음성 활성화 마이크로폰(221)과, A/D 서브시스템(222)과, 음성 인식 회로(224)와, 전원(도시되지 않음)과, 프로세서(228)와, 전송 유닛(229)을 포함한다.
도 3은 무선 전송 장치(220)를 착용한 사용자가 원격 데이타 처리 시스템(310)과 통신하는 것을 도시한 도면이다. 도 2, 도 3 및 도 4를 참조하면, 바람직한 실시예에 있어서 사용자는 브로치(brooch)를 착용하는 것과 유사하게 전송 장치(220)를 착용한다. 이와 달리, 사용자가 전송 장치(220)를 자신의 입안에 휴대할 수 있다. 사용자가 원격 데이타 처리 시스템(예를 들어, ATM 머신)(310)상에 상주하는 음성 인식 시스템(230)과 통신하고자 하면, (전송 장치(220)를 착용하고 있는) 사용자는 원격 데이타 처리 시스템(310)에 접근하여 음성 활성화 커맨드(예들 들어, "COMPUTER"; "LOGON COMPUTER")를 전송 장치(220)의 음성 활성화 마이크로폰(221)에게 말한다(단계 418). "무선"이란 데이타 처리 시스템(310)이 전송 장치(220)에 대해 무선 접속되어 있음을 나타내는 것임에 유의하여야 한다. 음성 활성화 마이크로폰(221)은 음성 활성화 커맨드를 검출하고, A/D 서브시스템(222)은 이 음성 활성화 커맨드를 샘플링하여 디지탈화한다. A/D 서브시스템(221)은 디지탈화된 음성 활성화 커맨드를 음성 인식 회로(224)에 전송한다.
음성 인식 회로(224)(및 234)는 IBM Voicetype DictationTM제품 또는 드래곤 음성 인식 시스템(Dragon Voice Recognition System)의 음성 인식 회로와 같은 소정의 적절한 음성 인식 회로를 포함한다. 음성 인식 회로(224)가 음성 활성화 커맨드를 인식하면, 음성 인식 회로(224)는 이를 나타내는 신호를 프로세서(228)에 전송한다. 그러면, 프로세서(228)는 신호를 전송 유닛(229)에 전송하여, 음성 활성화 커맨드가 음성 인식 시스템(230)의 수신 유닛(232)에 전송되도록 한다(단계 420). 전송 유닛(229)은 소정의 적절한 유형의 무선 전송 유닛(예를 들어, 레이저, 적외선 발광 다이오드)일 수 있지만, 바람직한 실시예에 있어서 전송 유닛(229)은 RF 전송기이다. 프로세서(228)는 숏 타임아웃 신호(short timeout signal)를 RAM(226)에 전송하여 음성 인식 시스템(230)이 기동되도록 한다(단계 422).
음성 인식 시스템(230)은 수신 유닛(232)과, 음성 압축해제 회로(233)와, 음성 인식 회로(234)를 포함하고, 워크스테이션(100)과 같은 소정의 적절한 워크스테이션에 상주한다. 수신 유닛(232)은 수신된 음성 활성화 커맨드를 음성 압축해제 회로(233)에 전송하며, 여기에서 음성 활성화 커맨드가 압축해제된다. 이어서, 음성 압축해제 회로(233)는 음성 활성화 커맨드를 음성 인식 회로(234)에 전송한다. 음성 인식 회로(234)가 음성 활성화 커맨드를 인식하면, 음성 인식 회로(234)가 활성화되고 전송 장치(220)로부터 운율계 곡선 및 다이폰 세그먼트를수신하기 위해 대기한다. 따라서, 단일 음성 활성화 커맨드는 전송 장치(220) 및 음성 인식 시스템(230)을 활성화시킨다. 따라서, 숏 타임아웃 이후에, 프로세서(228)는 RAM(226)에게 운율계 곡선 및 다이폰 세그먼트를 전송 유닛(229) 및 수신 유닛(232)을 거쳐 음성 인식 회로(234)에 전송하도록 지시한다(단계 424 및 단계 426). 음성 인식 회로(234)는 이들 운율계 곡선 및 다이폰 세그먼트를 사용하여 사용자의 음성을 인식한다. 그러면, 사용자는 음성 인식 시스템(230)에 직접 말할 수 있다.
따라서, 본 발명의 바람직한 실시예는 사용자가 음성 활성화 커맨드를 말하는 것에 의해서만 사용자의 음성 특성을 무선 원격 머신에 전송할 수 있다. 카드를 삽입할 필요도 없다. 따라서, 종래에는 카드를 삽입하지 않고는 불가능하였지만 2개 이상의 무선 원격 데이타 처리 시스템을 동시에 활성화시킬 수 있다.
본 발명은 특정한 실시예를 참조하여 도시되고 기술되었지만, 본 기술 분야에 통상의 지식을 가진 자라면 본 발명이 본 발명의 영역을 벗어나지 않는 범위내에서 형태 및 세부 사항에 있어서 여러가지 변경이 이루어질 수 있음을 이해하여야 한다.
Claims (11)
- 프로세서 및 메모리를 포함하는 무선 전송 장치를 이용한, 사용자와 다수의 다양한 음성 인식 데이터 처리 시스템들 중 적어도 하나의 시스템 간의 향상된 통신 방법에 있어서,① 상기 무선 전송 장치의 상기 메모리 내에 상기 사용자의 음성 특성을 저장하는 단계―상기 음성 특성은 운율계 곡선(prosody curve)을 포함함―와,② 상기 사용자로부터의 입력에 응답하여, 상기 무선 전송 장치와, 다수의 다양한 음성 인식 데이터 처리 시스템들 중 상기 적어도 하나의 시스템 내의 음성 인식 시스템을 활성화시키는 단계와,③ 상기 활성화 단계에 응답하여, 상기 메모리로부터 상기 음성 인식 시스템으로 상기 음성 특성을 전송하는 단계와,④ 상기 사용자의 발성(spoken utterance) 및 상기 음성 특성을 이용하는 상기 음성 인식 시스템을 통해 상기 사용자와 다수의 다양한 음성 인식 데이터 처리 시스템들 중 상기 적어도 하나의 시스템 간의 통신을 용이하게 하는 단계를 포함하는향상된 통신 방법.
- 제 1 항에 있어서,상기 저장 단계는,상기 사용자의 음성 샘플을 포착(capture)하는 단계와,상기 포착된 음성 샘플을 디지탈화하는 단계와,음성 분석기(speech analyzer)를 이용하여 상기 음성 샘플로부터 상기 음성 특성을 추출하는 단계와,상기 음성 특성을 상기 메모리에 저장하는 단계를 포함하는향상된 통신 방법.
- 제 1 항에 있어서,상기 활성화 단계는,상기 무선 전송 장치에 의해, 상기 사용자로부터 상기 음성 활성화 커맨드를 수신하여 상기 무선 전송 장치를 할성화하는 단계와,상기 무선 전송 장치로부터 상기 음성 인식 시스템으로 상기 음성 활성화 커맨드를 전송하여 상기 음성 인식 시스템을 활성화하는 단계를 포함하는향상된 통신 방법.
- 제 3 항에 있어서,상기 활성화 단계는,상기 프로세서로부터 상기 무선 전송 장치 내의 상기 메모리로 신호를 전송함으로써, 상기 음성 특성을 전송하기 전에 상기 음성 인식 시스템이 활성 상태가 되도록 하는 단계를 더 포함하는 향상된 통신 방법.
- 제 1 항에 있어서,상기 전송 단계는,상기 프로세서로부터 상기 무선 전송 장치 내의 상기 메모리로 신호를 전송함으로써, 상기 음성 특성을 상기 음성 인식 시스템으로 전송하는 단계를 포함하는 향상된 통신 방법.
- 사용자와 다수의 다양한 음성 인식 데이터 처리 시스템들 중 적어도 하나의 시스템 간의 향상된 통신 시스템에 있어서,① 상기 무선 전송 장치 내에 상기 사용자의 음성 특성을 저장하는 수단―상기 음성 특성은 운율계 곡선을 포함함―과,② 상기 사용자로부터의 입력에 응답하여, 상기 무선 전송 장치와, 다수의 다양한 음성 인식 데이터 처리 시스템들 중 상기 적어도 하나의 시스템 내의 음성 인식 시스템을 활성화시키는 수단과,③ 상기 활성화 수단에 응답하여, 상기 무선 전송 장치로부터 상기 음성 인식 시스템으로 상기 음성 특성을 전송하는 수단과,④ 상기 사용자로부터의 발성 및 상기 음성 특성을 이용하는 상기 음성 인식 시스템을 통해 상기 사용자와 다수의 다양한 음성 인식 데이터 처리 시스템들 중 상기 적어도 하나의 시스템 간의 통신을 용이하게 하는 수단을 포함하는향상된 통신 시스템.
- 제 6 항에 있어서,상기 사용자의 음성 샘플로부터 상기 음성 특성을 생성하는 수단을 더 포함하는 향상된 통신 시스템.
- 제 6 항에 있어서,상기 무선 전송 장치는 상기 음성 활성화 커맨드를 수신하는 마이크로폰(microphone)과, 상기 음성 활성화 커맨드를 인식하는 음성 인식 회로와, 상기 음성 활성화 커맨드 및 상기 음성 특성을 상기 음성 인식 시스템으로 전송하는 전송 유닛을 포함하는 향상된 통신 시스템.
- 제 8 항에 있어서,상기 전송 유닛은 RF 전송기를 포함하는 향상된 통신 시스템.
- 제 8 항에 있어서,상기 무선 전송 장치는 상기 메모리 및 상기 전송 유닛을 제어하는 프로세서를 더 포함하는 향상된 통신 시스템.
- 제 1 항에 있어서,상기 활성화 단계는,음성 활성 커맨드에 응답하여, 상기 무선 전송 장치와, 다수의 다양한 음성 인식 데이터 처리 시스템들 중 상기 적어도 하나의 시스템 내의 음성 인식 시스템을 활성화시키는 단계를 포함하는 향상된 통신 방법.
Applications Claiming Priority (4)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US08/497,302 US5704009A (en) | 1995-06-30 | 1995-06-30 | Method and apparatus for transmitting a voice sample to a voice activated data processing system |
US8/497,302 | 1995-06-30 | ||
US08/497,302 | 1995-06-30 | ||
PCT/GB1996/001544 WO1997002526A1 (en) | 1995-06-30 | 1996-06-27 | Method and apparatus for transmitting a voice sample to a voice activated data processing system |
Publications (2)
Publication Number | Publication Date |
---|---|
KR19990022423A KR19990022423A (ko) | 1999-03-25 |
KR100297076B1 true KR100297076B1 (ko) | 2001-08-07 |
Family
ID=23976298
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
KR1019970708903A KR100297076B1 (ko) | 1995-06-30 | 1996-06-27 | 향상된통신시스템및통신방법 |
Country Status (12)
Country | Link |
---|---|
US (1) | US5704009A (ko) |
EP (1) | EP0836720B1 (ko) |
JP (1) | JP3335178B2 (ko) |
KR (1) | KR100297076B1 (ko) |
CN (1) | CN1095563C (ko) |
CA (1) | CA2220861C (ko) |
CZ (1) | CZ287316B6 (ko) |
DE (1) | DE69606042T2 (ko) |
HU (1) | HUP9801839A3 (ko) |
PL (1) | PL182225B1 (ko) |
TW (1) | TW366483B (ko) |
WO (1) | WO1997002526A1 (ko) |
Families Citing this family (36)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP3697748B2 (ja) * | 1995-08-21 | 2005-09-21 | セイコーエプソン株式会社 | 端末、音声認識装置 |
JP3674990B2 (ja) * | 1995-08-21 | 2005-07-27 | セイコーエプソン株式会社 | 音声認識対話装置および音声認識対話処理方法 |
US5940476A (en) | 1996-06-28 | 1999-08-17 | Distributed Software Development, Inc. | System and method for identifying an unidentified caller |
US7006605B1 (en) * | 1996-06-28 | 2006-02-28 | Ochopee Big Cypress Llc | Authenticating a caller before providing the caller with access to one or more secured resources |
US5901203A (en) | 1996-06-28 | 1999-05-04 | Distributed Software Development, Inc. | Computer-based system and method for identifying an unidentified caller |
US6205204B1 (en) | 1996-06-28 | 2001-03-20 | Distributed Software Development, Inc. | System and method for identifying an unidentified person using an ambiguity-resolution criterion |
US6529881B2 (en) * | 1996-06-28 | 2003-03-04 | Distributed Software Development, Inc. | System and method for identifying an unidentified customer at the point of sale |
JPH10178490A (ja) * | 1996-10-15 | 1998-06-30 | Casio Comput Co Ltd | 音声記憶システム |
JPH10260692A (ja) * | 1997-03-18 | 1998-09-29 | Toshiba Corp | 音声の認識合成符号化/復号化方法及び音声符号化/復号化システム |
US7383200B1 (en) | 1997-05-05 | 2008-06-03 | Walker Digital, Llc | Method and apparatus for collecting and categorizing data at a terminal |
US6567787B1 (en) * | 1998-08-17 | 2003-05-20 | Walker Digital, Llc | Method and apparatus for determining whether a verbal message was spoken during a transaction at a point-of-sale terminal |
US5987405A (en) * | 1997-06-24 | 1999-11-16 | International Business Machines Corporation | Speech compression by speech recognition |
US6003004A (en) * | 1998-01-08 | 1999-12-14 | Advanced Recognition Technologies, Inc. | Speech recognition method and system using compressed speech data |
GB9824762D0 (en) * | 1998-11-11 | 1999-01-06 | Ncr Int Inc | Self-service terminal |
US6260016B1 (en) | 1998-11-25 | 2001-07-10 | Matsushita Electric Industrial Co., Ltd. | Speech synthesis employing prosody templates |
US6195636B1 (en) | 1999-02-19 | 2001-02-27 | Texas Instruments Incorporated | Speech recognition over packet networks |
US6185533B1 (en) | 1999-03-15 | 2001-02-06 | Matsushita Electric Industrial Co., Ltd. | Generation and synthesis of prosody templates |
NL1012860C2 (nl) * | 1999-08-19 | 2001-02-20 | Nedap Nv | Boerderijautomatiseringssysteem. |
EP1120752A1 (de) * | 2000-01-24 | 2001-08-01 | Franke & Co. Verwaltungs KG | System zur Kontrolle von Zugangs- bzw. Zugriffsberechtigungen |
DE10003617A1 (de) * | 2000-01-28 | 2001-08-02 | Volkswagen Ag | Verfahren und Vorrichtung zur Spracheingabe bei Autoradios |
EP1542120A4 (en) * | 2002-08-22 | 2006-03-01 | Matsushita Electric Ind Co Ltd | CONTROL SYSTEM, METHOD AND PROGRAM WITH A RHYTHM PATTERN |
US20060173681A1 (en) * | 2005-02-01 | 2006-08-03 | Bae Systems Information And Electronic Systems Integration Inc | Semi-covert emergency transmitter |
US20070083367A1 (en) * | 2005-10-11 | 2007-04-12 | Motorola, Inc. | Method and system for bandwidth efficient and enhanced concatenative synthesis based communication |
US10257191B2 (en) | 2008-11-28 | 2019-04-09 | Nottingham Trent University | Biometric identity verification |
WO2010075623A1 (en) * | 2008-12-31 | 2010-07-08 | Bce Inc. | System and method for unlocking a device |
US8346562B2 (en) * | 2010-01-06 | 2013-01-01 | Csr Technology Inc. | Method and apparatus for voice controlled operation of a media player |
EP2555536A1 (en) | 2011-08-05 | 2013-02-06 | Samsung Electronics Co., Ltd. | Method for controlling electronic apparatus based on voice recognition and motion recognition, and electronic apparatus applying the same |
KR101262700B1 (ko) * | 2011-08-05 | 2013-05-08 | 삼성전자주식회사 | 음성 인식 및 모션 인식을 이용하는 전자 장치의 제어 방법 및 이를 적용한 전자 장치 |
CN102436813A (zh) * | 2011-12-21 | 2012-05-02 | 成都众询科技有限公司 | 一种可控语音控制系统 |
KR20130133629A (ko) * | 2012-05-29 | 2013-12-09 | 삼성전자주식회사 | 전자장치에서 음성명령을 실행시키기 위한 장치 및 방법 |
US9135915B1 (en) * | 2012-07-26 | 2015-09-15 | Google Inc. | Augmenting speech segmentation and recognition using head-mounted vibration and/or motion sensors |
CN106296867B (zh) * | 2015-06-11 | 2019-09-06 | 杭州萤石网络有限公司 | 影像记录设备及其影像标记方法 |
CN107256707B (zh) * | 2017-05-24 | 2021-04-30 | 深圳市冠旭电子股份有限公司 | 一种语音识别方法、系统及终端设备 |
US10283117B2 (en) * | 2017-06-19 | 2019-05-07 | Lenovo (Singapore) Pte. Ltd. | Systems and methods for identification of response cue at peripheral device |
JP7044633B2 (ja) * | 2017-12-28 | 2022-03-30 | シャープ株式会社 | 操作支援装置、操作支援システム、及び操作支援方法 |
CN109065058B (zh) * | 2018-09-30 | 2024-03-15 | 合肥鑫晟光电科技有限公司 | 语音通信方法、装置及系统 |
Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP0633520A1 (en) * | 1993-07-01 | 1995-01-11 | Koninklijke Philips Electronics N.V. | Remote control having voice input |
Family Cites Families (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5657425A (en) * | 1993-11-15 | 1997-08-12 | International Business Machines Corporation | Location dependent verbal command execution in a computer based control system |
AU1298995A (en) * | 1993-12-01 | 1995-06-19 | Nhc Corporation | Wireless remote switching system |
US5444673A (en) * | 1994-07-12 | 1995-08-22 | Mathurin; Trevor S. | Audio controlled and activated wristwatch memory aid device |
-
1995
- 1995-06-30 US US08/497,302 patent/US5704009A/en not_active Expired - Lifetime
-
1996
- 1996-05-15 TW TW085105742A patent/TW366483B/zh active
- 1996-06-27 WO PCT/GB1996/001544 patent/WO1997002526A1/en active IP Right Grant
- 1996-06-27 HU HU9801839A patent/HUP9801839A3/hu unknown
- 1996-06-27 DE DE69606042T patent/DE69606042T2/de not_active Expired - Lifetime
- 1996-06-27 CA CA002220861A patent/CA2220861C/en not_active Expired - Fee Related
- 1996-06-27 EP EP96920991A patent/EP0836720B1/en not_active Expired - Lifetime
- 1996-06-27 KR KR1019970708903A patent/KR100297076B1/ko not_active IP Right Cessation
- 1996-06-27 CN CN96195188A patent/CN1095563C/zh not_active Expired - Lifetime
- 1996-06-27 JP JP50490997A patent/JP3335178B2/ja not_active Expired - Fee Related
- 1996-06-27 CZ CZ19973953A patent/CZ287316B6/cs not_active IP Right Cessation
- 1996-06-27 PL PL96324025A patent/PL182225B1/pl unknown
Patent Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP0633520A1 (en) * | 1993-07-01 | 1995-01-11 | Koninklijke Philips Electronics N.V. | Remote control having voice input |
Also Published As
Publication number | Publication date |
---|---|
WO1997002526A1 (en) | 1997-01-23 |
TW366483B (en) | 1999-08-11 |
HUP9801839A2 (hu) | 1998-11-30 |
CN1095563C (zh) | 2002-12-04 |
EP0836720A1 (en) | 1998-04-22 |
DE69606042T2 (de) | 2000-10-26 |
KR19990022423A (ko) | 1999-03-25 |
CZ287316B6 (en) | 2000-10-11 |
CN1189900A (zh) | 1998-08-05 |
CA2220861C (en) | 2002-11-05 |
EP0836720B1 (en) | 2000-01-05 |
CA2220861A1 (en) | 1997-01-23 |
PL324025A1 (en) | 1998-05-11 |
DE69606042D1 (de) | 2000-02-10 |
HUP9801839A3 (en) | 2002-09-30 |
CZ395397A3 (cs) | 1999-01-13 |
JPH10507559A (ja) | 1998-07-21 |
JP3335178B2 (ja) | 2002-10-15 |
PL182225B1 (pl) | 2001-11-30 |
US5704009A (en) | 1997-12-30 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
KR100297076B1 (ko) | 향상된통신시스템및통신방법 | |
CN110049270B (zh) | 多人会议语音转写方法、装置、系统、设备及存储介质 | |
US10504511B2 (en) | Customizable wake-up voice commands | |
US10614803B2 (en) | Wake-on-voice method, terminal and storage medium | |
US5615296A (en) | Continuous speech recognition and voice response system and method to enable conversational dialogues with microprocessors | |
US6226615B1 (en) | Spoken text display method and apparatus, for use in generating television signals | |
CN110959159A (zh) | 话语分类器 | |
US20070274297A1 (en) | Streaming audio from a full-duplex network through a half-duplex device | |
US20070118373A1 (en) | System and method for generating closed captions | |
US20140316762A1 (en) | Mobile Speech-to-Speech Interpretation System | |
US20030182113A1 (en) | Distributed speech recognition for mobile communication devices | |
EP2017828A1 (en) | Techniques for disambiguating speech input using multimodal interfaces | |
KR102628211B1 (ko) | 전자 장치 및 그 제어 방법 | |
CN110853615B (zh) | 一种数据处理方法、装置及存储介质 | |
JP7279494B2 (ja) | 会議支援装置、および会議支援システム | |
CN112489691A (zh) | 电子装置及其操作方法 | |
WO2020250016A1 (en) | Apparatus for processing an audio signal for the generation of a multimedia file with speech transcription | |
CN113160821A (zh) | 一种基于语音识别的控制方法及装置 | |
WO2023210149A1 (ja) | 情報処理装置及び情報処理方法、並びにコンピュータプログラム | |
EP3482278B1 (en) | Gesture-activated remote control | |
KR950014504B1 (ko) | 전자문서를 음성 처리하는 휴대용 컴퓨터 디바이스 | |
CN113160782A (zh) | 音频处理的方法、装置、电子设备及可读存储介质 | |
US20210082427A1 (en) | Information processing apparatus and information processing method | |
JP2000276188A (ja) | 音声認識装置、音声認識方法、音声認識用制御プログラムを記録した記録媒体、通信端末装置、通信方法、音声認識通信の制御用プログラムを記録した記録媒体、サーバ装置、音声認識用データの送受信方法及び音声認識用データの送受信制御プログラムを記録した記録媒体 | |
WO2001039177A2 (en) | Distributed speech recognition for mobile communication devices |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A201 | Request for examination | ||
E902 | Notification of reason for refusal | ||
E701 | Decision to grant or registration of patent right | ||
GRNT | Written decision to grant | ||
FPAY | Annual fee payment |
Payment date: 20050324 Year of fee payment: 5 |
|
LAPS | Lapse due to unpaid annual fee |