PL182225B1 - Sposób i system komunikacji glosowej z oddalonym,uruchamianym glosowo systemem przetwarzania danych PL PL PL - Google Patents

Sposób i system komunikacji glosowej z oddalonym,uruchamianym glosowo systemem przetwarzania danych PL PL PL

Info

Publication number
PL182225B1
PL182225B1 PL96324025A PL32402596A PL182225B1 PL 182225 B1 PL182225 B1 PL 182225B1 PL 96324025 A PL96324025 A PL 96324025A PL 32402596 A PL32402596 A PL 32402596A PL 182225 B1 PL182225 B1 PL 182225B1
Authority
PL
Poland
Prior art keywords
voice
speech recognition
transmission device
recognition system
wireless transmission
Prior art date
Application number
PL96324025A
Other languages
English (en)
Other versions
PL324025A1 (en
Inventor
Troy L Cline
Scott H Isensee
Ricky L Poston
Jon H Werner
Original Assignee
Ibm
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ibm filed Critical Ibm
Publication of PL324025A1 publication Critical patent/PL324025A1/xx
Publication of PL182225B1 publication Critical patent/PL182225B1/pl

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/065Adaptation
    • G10L15/07Adaptation to the speaker
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/16Sound input; Sound output
    • GPHYSICS
    • G07CHECKING-DEVICES
    • G07CTIME OR ATTENDANCE REGISTERS; REGISTERING OR INDICATING THE WORKING OF MACHINES; GENERATING RANDOM NUMBERS; VOTING OR LOTTERY APPARATUS; ARRANGEMENTS, SYSTEMS OR APPARATUS FOR CHECKING NOT PROVIDED FOR ELSEWHERE
    • G07C9/00Individual registration on entry or exit
    • G07C9/20Individual registration on entry or exit involving the use of a pass
    • G07C9/22Individual registration on entry or exit involving the use of a pass in combination with an identity check of the pass holder
    • G07C9/25Individual registration on entry or exit involving the use of a pass in combination with an identity check of the pass holder using biometric data, e.g. fingerprints, iris scans or voice recognition
    • G07C9/257Individual registration on entry or exit involving the use of a pass in combination with an identity check of the pass holder using biometric data, e.g. fingerprints, iris scans or voice recognition electronically
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Acoustics & Sound (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Telephonic Communication Services (AREA)
  • Selective Calling Equipment (AREA)
  • Arrangements For Transmission Of Measured Signals (AREA)
  • Machine Translation (AREA)

Abstract

. 1. Sposób komunikacji glosowej z od- dalonym, uruchamianym glosowo syste- mem przetwarzania danych, który zawiera system rozpoznawania mowy, znamienny tym, ze zapamietuje sie charakterystyki glosu uzytkownika w pamieci (226) bez- przewodowego urzadzenia transmisyjnego (220) oraz uruchamia sie glosem bezprze- wodowe urzadzenie transmisyjne (220) i oddalony system rozpoznawania mowy (230) w odpowiedzi na rozkaz aktywacji glosowej, po czym transmituje sie charakte- rystyki glosu z pamieci (226) do systemu rozpoznawania mowy (230) w odpowiedzi na uruchomienie bezprzewodowego urza- dzenia transmisyjnego (220) i systemu roz- poznawania mowy (230). FIG. 1 PL PL PL

Description

Przedmiotem wynalazku jest sposób i system komunikacji głosowej z oddalonym, uruchamianym głosowo systemem przetwarzania danych.
Słowo mówione odgrywa ważną rolę w komunikacji międzyludzkiej oraz w komunikacji człowiek-maszyna i maszyna-człowiek. Na przykład, nowoczesne systemy poczty głosowej, systemy pomocy i wizyjne systemy konferencyjne wykorzystują mowę ludzką. Ponadto, przy stale rozwijającej się technice, mowa ludzka będzie odgrywała nawet większą rolę w komunikacji maszyna/człowiek. Szczególnie rozwój bezprzewodowych maszyn ATM (automatów bankowych sterowanych kartami identyfikacyjnymi), albo dowolnych typów bezprzewodowych urządzeń takich jak pompa gazowa, kiosk informacyjny o podróżach, punkt sprzedaży) spowodował wykorzystanie systemów rozpoznawania mowy, za pomocą których użytkownik tylko mówi do maszyny ATM.
Znane systemy rozpoznawania mowy „słuchają” i rozumieją mowę ludzką. Jednakże, w celu uzyskania akceptowalnej dokładności rozpoznawania głosu, znane systemy rozpoznawania mowy wykorzystują zapamiętane próbki głosu użytkownika. Użytkownik generuje próbki głosu przez wypowiedzenie około 30 dokładnie określonych zdań, które obejmują wystarczające charakterystyki głosu. Charakterystyki głosu zawierają prozodia głosu użytkownika zawierające rytm, tonację, modulację i szybkość. Znane analizatory mowy przetwarzają próbki głosu na odseparowane próbki dźwięku dla każdego segmentu dyfonicznego i w celu określenia krzywych charakterystyk prozodii. Analizatory mowy wykorzystują znane techniki przetwarzania sygnałów cyfrowych, takie jak ukryte modele Markova, dla generowania segmentów dyfonicznych i krzywych prozodii. Zatem, przy wykorzystaniu zapamiętanych próbek głosu, znane systemy rozpoznawania mowy mają współczynnik dokładności około 90%. Jednakże byłoby niezmiernie niekorzystne powtarzać te 30 zdań w każdym czasie, gdy użytkownik życzy sobie nawiązać komunikację głosową z bezprzewodową maszyną
Znany jest z europejskiego opisu patentowego nr 0633520 system transmisji głosu dla umożliwienia łączności głosowej z systemem rozpoznawania mowy w systemie przetwarzania danych, odległym od bezprzewodowego urządzenia transmisyjnego.
Znane rozwiązania nie zapewniają uzyskanie dla dużej liczby użytkowników wydajniejszej, efektywniejszej i oddalonej komunikacji przez mowę z bezprzewodową maszyną interakcyjną Ponadto zastosowane urządzenia muszą być rozbudowane, żeby transmitować analizowane próbki głosu użytkownika do maszyny przed tym, jak użytkownik może komunikować się głosowo z maszyną z wysokim współczynnikiem dokładności.
Istotą sposobu komunikacji głosowej z oddalonym, uruchamianym głosowo systemem przetwarzania danych, według wynalazku, który zawiera system rozpoznawania mowy, jest to, że zapamiętuje się charakterystyki głosu użytkownika w pamięci bezprzewodowego urządzenia transmisyjnego oraz uruchamia się głosem bezprzewodowe urządzenie transmisyjne i oddalony system rozpoznawania mowy w odpowiedzi na rozkaz aktywacji głosowej, po czym transmituje się charakterystyki głosu z pamięci do systemu rozpoznawania mowy w odpowiedzi na uruchomienie bezprzewodowego urządzenia transmisyjnego i systemu rozpoznawania mowy.
Korzystnie w trakcie zapamiętywania charakterystyk głosu użytkownika zapisuje się próbki głosu użytkownika, poddaje się dyskretyzacji zapisane próbki głosu i tworzy się głos zdyskretyzowany, po czym wydziela się charakterystyki głosu z głosu zdyskretyzowanego wykorzystując analizator mowy i zapamiętuje się charakterystyki głosu w pamięci.
Korzystnie w trakcie uruchamiania głosem bezprzewodowego urządzenia transmisyjnego i oddalonego systemu rozpoznawania mowy, odbiera się przez bezprzewodowe urządzenie transmisyjne rozkaz aktywacji głosowej od użytkownika i ustawia się w stan czuwania bez
182 225 przewodowe urządzenie transmisyjne, po czym transmituje się rozkaz aktywacji głosowej z bezprzewodowego urządzenia transmisyjnego do systemu rozpoznawania mowy dla ustawienia jego w stan czuwania.
Korzystnie następnie wysyła się sygnał z procesora w bezprzewodowym urządzeniu transmisyjnym do pamięci.
Korzystnie w trakcie transmitowania charakterystyk głosu wysyła się sygnał z procesora do pamięci.
Istotą systemu komunikacji głosowej z oddalonym, uruchamianym głosowo systemem przetwarzania danych według wynalazku zawierającym system rozpoznawania mowy, jest to, że zawiera bezprzewodowe urządzenie transmisyjne z pamięcią do zapamiętywania charakterystyk głosu użytkownika połączone zdalnie z systemem rozpoznawania mowy aktywowanym w odpowiedzi na odebrany rozkaz aktywacji głosowej z bezprzewodowego urządzenia transmisyjnego, po czym bezprzewodowe urządzenie transmisyjne jest dostosowane do transmitowania charakterystyk głosu z pamięci do systemu rozpoznawania mowy, w odpowiedzi na uruchomienie systemu rozpoznawania mowy i bezprzewodowego urządzenia transmisyjnego, dla słownej komunikacji użytkownika bezpośrednio z systemem rozpoznawania mowy.
Korzystnie zawiera układ wydzielania symboli głosowych dla generowania charakterystyk głosu z próbki głosu użytkownika.
Korzystnie bezprzewodowe urządzenie transmisyjne zawiera mikrofon odbierania rozkazu aktywacji głosowej dołączony do układu rozpoznawania mowy dla rozpoznawania rozkazu aktywacji głosowej, który jest dołączany do jednostki transmisyjnej przełączającej odebrany rozkaz aktywacji głosowej do systemu rozpoznawania mowy.
Korzystnie jednostka transmisyjna zawiera nadajnik częstotliwości radiowej.
Korzystnie bezprzewodowe urządzenie transmisyjne zawiera następnie procesor sterujący pamięcią i jednostką transmisyjną.
Zaletą rozwiązania według wynalazkujest to, że bezpośrednio transmituje się charakterystyki głosu użytkownika do bezprzewodowego systemu przetwarzania danych w odpowiedzi na wstępnie zdefiniowany rozkaz głosowy. Zapewnia to użytkownikowi łatwiejszą i efektywniejszą słowną komunikację, na przykład, z automatami bankowymi bez konieczności wkładania kart lub innego typu urządzeń do maszyny. Ponadto użytkownik może uruchamiać więcej niż jeden bezprzewodowy, oddalony system przetwarzania danych, który nie mógłby być osiągany przez wkładanie karty.
Przedmiot wynalazku w przykładzie wykonania jest przedstawiony na rysunku, na którym fig. 1 przedstawia schemat blokowy stacji roboczej dla zastosowania wynalazku, fig. 2 schemat blokowy systemu komunikacji głosowej, fig. 3 - użytkownika z bezprzewodowym urządzeniem transmisyjnym do komunikowania się z oddalonym systemem przetwarzania danych, zaś fig. 4 - sieć działań dla transmisji charakterystyk głosu z bezprzewodowego urządzenia transmisyjnego do oddalonego systemu przetwarzania danych.
Rozwiązanie według wynalazku jest realizowane w komputerze podręcznym albo, alternatywnie, w stacji roboczej przedstawionej na fig. 1. Stacja robocza 100 zawiera jednostkę centralną (CPU) 10, dla przetwarzania danych z pamięci podręcznej (CACHE) 15, pamięci o dostępie bezpośrednim (RAM) 14, pamięci stałej (ROM) 16 i nieulotnej pamięci RAM (NVRAM) 32. Jeden lub więcej dysków 20, sterowanych przez adapter wejścia/wyjścia I/O 18, zapewniają pamięć długookresową. Mogą być tu użyte różne inne nośniki pamięciowe, włączając taśmy, CD-ROM-y i napędy dysku optycznego WORM. Wymienne nośniki danych mogą być także wykorzystane do zapamiętywania danych lub instrukcji przetwarzania komputerowego. Instrukcje i dane z komputera sterują jednostką CPU 10 z pamięcią RAM 14.
Użytkownicy łączą się ze stacją roboczą 100 poprzez urządzenia wejścia/wyjścia, to jest sterowniki użytkownika, sterowane przez adapter 22 interfejsu użytkownika. Monitor ekranowy 38 wyświetla informacje dla użytkownika, natomiast klawiatura 24, urządzenie wskazujące 26, przyrząd transmisyjny 30 i głośnik 28 pozwalają użytkownikowi zarządzać systemem komputerowym. Mogąbyć tu wykorzystane alternatywnie dodatkowe rodzaje sterowników, takie jak joysticki, ekrany dotykowe lub słuchawki nagłowne wirtualnej rzeczywistości.
182 225
Adapter komunikacyjny 34 steruje łącznością pomiędzy tym systemem komputerowym i innymi jednostkami przetwarzającymi dołączonymi do sieci przez adapter sieciowy. Adapter monitorowy 36 steruje łącznością pomiędzy tym systemem komputerowym i monitorem ekranowym 38. ... . .
Figura 2 przedstawia schemat blokowy systemu komunikacji głosowej 200 zgodnie z wynalazkiem. System komunikacji 200 zawiera układ wydzielania symboli głosowych 210, urządzenie transmisyjne 220 i system rozpoznawania mowy 230. Układ wydzielania symboli głosowych 210 jest umieszczony we właściwej stacji roboczej, takiej jak stacja robocza 100 z fig. 1, i zawiera podsystem analogowo-cyfrowy A/D 204, analizator mowy 206 i układ kodowania mowy 207.
Figura 4 przedstawia sieć działań dla transmisji charakterystyk głosu z bezprzewodowego urządzenia transmisyjnego do oddalonego systemu przetwarzania danych. Odnosząc się do fig. 2 i 4, użytkownik generuje próbkę głosu (na przykład, około 30 zdań) zawierającą wystarczające charakterystyki głosu osoby mówiącej do mikrofonu 202 (etap 410 w sieci działań). Charakterystyki głosu zawierają prozodia głosu, takie jak rytm, tonację, modulację i szybkość. Zdania tego typu są dobrze znane fachowcom z zakresu syntezy mowy. Na przykład, jednym ze zdań może być dla języka angielskiego: „The quick fox jumped over the lazy brown dog” („Szybki lis przeskoczył leniwego brązowego psa”). Podsystem A/D 204 próbkuje i przetwarza na wartość cyfrową próbki głosu oraz zawiera system przetwarzania analogowo-cyfrowego, taki jak multimedialny dźwiękowy adapter zapisywania i odtwarzania, kartę dźwiękową lub rozwiązanie na pojedynczym mikroukładzie (etap 412).
Na odwrót, dowolny typowy analizator mowy 206 przetwarza cyfrowe próbki głosu w celu odseparowania próbek dźwiękowych dla każdego segmentu dyfonicznego i określenia krzywych charakterystyk prozodii (etap 416). Analizator mowy 206 wykorzystuje znaną technikę przetwarzania sygnałów cyfrowych, taką jak ukryte modele Marko va, dla generowania segmentów dyfonicznych i krzywych prozodii.
Układ kodowania mowy 207 wykorzystuje znaną technikę kodowania cyfrowego do kompresji segmentów dyfonicznych i krzywych prozodii dla zmniejszenia szerokości pasma transmisji i zapamiętania wymagań (etap 416). Układ kodowania mowy 207 zapamiętuje wynik skompresowanych krzywych prozodii i segmentów dyfonicznych w pamięci RAM 226 urządzenia transmisyjnego 220. Urządzenie transmisyjne 220 także zawiera uruchamiany głosem mikrofon 221 dla odbierania rozkazów uruchamiania głosem, następny podsystem A/D 222, układ rozpoznawania mowy 224, zasilacz (nie pokazany na rysunku), procesor 228 i jednostkę transmisyjną 229.
Figura 3 przedstawia użytkownika z bezprzewodowym urządzeniem transmisyjnym 220 do komunikowania się z oddalonym systemem przetwarzania danych 310. Powołując się na fig.2, 3 i 4, użytkownik nosi urządzenie transmisyjne 220, podobnie jak nosi broszę. Alternatywnie, użytkownik mógłby trzymać urządzenie transmisyjne 220 w swoich ustach. Kiedy użytkownik, który nosi urządzenie transmisyjne 220, ma życzenie połączyć się z systemem rozpoznawania mowy 230 umieszczonym w oddalonym systemie przetwarzania danych 310, na przykład automacie bankowym sterowanym kartami identyfikacyjnymi, zbliża się do oddalonego systemu przetwarzania danych 310 i wymawia rozkaz aktywacji głosowej (np. „KOMPUTER”, „ZAREJESTROWANIE W KOMPUTERZE”) do uruchamianego głosem mikrofonu 221 urządzenia transmisyjnego 220 (etap 418). Należy zaznaczyć, że „bezprzewodowy” oznacza, że system przetwarzania danych 310 jest bezprzewodowy w odniesieniu do urządzenia transmisyjnego 220. Uruchamiany głosem mikrofon 221 wykrywa rozkaz aktywacji głosowej zaś podsystem A/D 222 próbkuje i poddaje dyskretyzacji rozkaz aktywacji głosowej. Podsystem A/D 222 wysyła cyfrowy rozkaz aktywacji głosowej do układu rozpoznawania mowy 224.
Układ rozpoznawania mowy 224 może być w zasadzie dowolnego typu. Jeśli układ rozpoznawania mowy 224 rozpoznaje rozkaz aktywacji głosowej to wysyła sygnał wskazujący do procesora 228. W odpowiedzi, procesor 228 wysyła sygnał do jednostki transmisyjnej 229 w celu transmisji rozkazu aktywacji głosowej do jednostki odbiorczej 232 systemu rozpoznawania mowy 230 (etap 420). Jednostka transmisyjna 229 może być dowolnego typu
182 225 bezprzewodową jednostką transmisyjną, na przykład laserem, dioda, elektroluminescencyjną na podczerwień, jednakże korzystnie jednostka transmisyjna 229 jest nadajnikiem częstotliwości radiowej (RF). Procesor 228 wysyła sygnał krótkiej przerwy czasowej do pamięci RAM 226 by system rozpoznawania mowy 230 był w stanie gotowości.
System rozpoznawania mowy 230 zawiera jednostkę odbiorczą 232, układ dekompresji mowy 233 i następny układ rozpoznawania mowy 234 oraz jest umieszczony w dowolnej stacji roboczej, takiej jak stacja robocza 100. Jednostka odbiorcza 232 wysyła odebrany rozkaz aktywacji głosowej do układu dekompresji mowy 233, gdzie jest poddany dekompresji. Układ dekompresji mowy 233 wysyła rozkaz aktywacji głosowej do układu rozpoznawania mowy 234. Jeśli układ rozpoznawania mowy 234 rozpoznaje rozkaz aktywacji głosowej, jest on uaktywniony i oczekuje na odbiór krzywych prozodii i segmentów dyfonicznych z urządzenia transmisyjnego 220. Zatem, pojedynczy rozkaz aktywacji głosowej uruchamia urządzenie transmisyjne 220 i system rozpoznawania mowy 230. Dlatego, po krótkiej przerwie czasowej, procesor 228 steruje pamięcią RAM 226 w celu wysłania poprzez jednostkę transmisyjną 229 i jednostkę odbiorczą 232 krzywych prozodii i segmentów dyfonicznych do układu rozpoznawania mowy 234 (etap 424 i 426). Układ rozpoznawania mowy 234 wykorzystuje te krzywe prozodii i segmenty dyfoniczne do rozpoznawania głosu użytkownika. Użytkownik może teraz mówić bezpośrednio do systemu rozpoznawania mowy 230.
182 225
200
FIG. 2
FIG. 3
182 225
FIG. 4
182 225
SIEC
Departament Wydawnictw UP RP. Nakład 60 egz. Cena 2,00 zł.

Claims (10)

  1. Zastrzeżenia patentowe
    1. Sposób komunikacji głosowej z oddalonym, uruchamianym głosowo systemem przetwarzania danych, który zawiera system rozpoznawania mowy, znamienny tym, że zapamiętuje się charakterystyki głosu użytkownika w pamięci (226) bezprzewodowego urządzenia transmisyjnego (220) oraz uruchamia się głosem bezprzewodowe urządzenie transmisyjne (220) i oddalony system rozpoznawania mowy (230) w odpowiedzi na rozkaz aktywacji głosowej, po czym transmituje się charakterystyki głosu z pamięci (226) do systemu rozpoznawania mowy (230) w odpowiedzi na uruchomienie bezprzewodowego urządzenia transmisyjnego (220) i systemu rozpoznawania mowy (230).
  2. 2. Sposób według zastrz. 1, znamienny tym, że w trakcie zapamiętywania charakterystyk głosu użytkownika zapisuje się próbki głosu użytkownika, poddaje się dyskretyzacji zapisane próbki głosu i tworzy się głos zdyskretyzowany, po czym wydziela się charakterystyki głosu z głosu zdyskretyzowanego wykorzystując analizator mowy i zapamiętuje się charakterystyki głosu w pamięci (226).
  3. 3. Sposób według zastrz. 1, znamienny tym, że w trakcie uruchamiania głosem bezprzewodowego urządzenia transmisyjnego (220) i oddalonego systemu rozpoznawania mowy (230), odbiera się przez bezprzewodowe urządzenie transmisyjne (220) rozkaz aktywacji głosowej od użytkownika i ustawia się w stan czuwania bezprzewodowe urządzenie transmisyjne (220), po czym transmituje się rozkaz aktywacji głosowej z bezprzewodowego urządzenia transmisyjnego (220) do systemu rozpoznawania mowy (230) dla ustawienia jego w stan czuwania.
  4. 4. Sposób według zastrz. 3, znamienny tym, że następnie wysyła się sygnał z procesora (228) w bezprzewodowym urządzeniu transmisyjnym (220) do pamięci (226).
  5. 5. Sposób według zastrz. 1, znamienny tym, że w trakcie transmitowania charakterystyk głosu wysyła się sygnał z procesora (228) do pamięci (226).
  6. 6. System komunikacji głosowej z oddalonym, uruchamianym głosowo systemem przetwarzania danych zawierającym system rozpoznawania mowy, znamienny tym, że zawiera bezprzewodowe urządzenie transmisyjne (220) z pamięcią (226) do zapamiętywania charakterystyk głosu użytkownika połączone zdalnie z systemem rozpoznawania mowy (230) aktywowanym w odpowiedzi na odebrany rozkaz aktywacji głosowej z bezprzewodowego urządzenia transmisyjnego (220), po czym bezprzewodowe urządzenie transmisyjne (220) jest dostosowane do transmitowania charakterystyk głosu z pamięci (226) do systemu rozpoznawania mowy (230), w odpowiedzi na uruchomienie systemu rozpoznawania mowy (230) i bezprzewodowego urządzenia transmisyjnego (220), dla słownej komunikacji użytkownika bezpośrednio z systemem rozpoznawania mowy (230).
  7. 7. System według zastrz. 6, znamienny tym, że zawiera układ wydzielania symboli głosowych dla generowania charakterystyk głosu z próbki głosu użytkownika.
  8. 8. System według zastrz. 6, znamienny tym, że bezprzewodowe urządzenie transmisyjne (220) zawiera mikrofon (221) odbierania rozkazu aktywacji głosowej dołączony do układu rozpoznawania mowy (224) dla rozpoznawania rozkazu aktywacji głosowej, który jest dołączany do jednostki transmisyjnej (229) przełączającej odebrany rozkaz aktywacji głosowej do systemu rozpoznawania mowy (230).
  9. 9. System według zastrz. 8, znamienny tym, że jednostka transmisyjna (229) zawiera nadajnik częstotliwości radiowej.
    182 225
  10. 10. System według zastrz. 8, znamienny tym, że bezprzewodowe urządzenie transmisyjne (220) zawiera następnie procesor (228) sterujący pamięcią (226) i jednostką transmisyjną (229).
    ♦ ♦ ♦
PL96324025A 1995-06-30 1996-06-27 Sposób i system komunikacji glosowej z oddalonym,uruchamianym glosowo systemem przetwarzania danych PL PL PL PL182225B1 (pl)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US08/497,302 US5704009A (en) 1995-06-30 1995-06-30 Method and apparatus for transmitting a voice sample to a voice activated data processing system
PCT/GB1996/001544 WO1997002526A1 (en) 1995-06-30 1996-06-27 Method and apparatus for transmitting a voice sample to a voice activated data processing system

Publications (2)

Publication Number Publication Date
PL324025A1 PL324025A1 (en) 1998-05-11
PL182225B1 true PL182225B1 (pl) 2001-11-30

Family

ID=23976298

Family Applications (1)

Application Number Title Priority Date Filing Date
PL96324025A PL182225B1 (pl) 1995-06-30 1996-06-27 Sposób i system komunikacji glosowej z oddalonym,uruchamianym glosowo systemem przetwarzania danych PL PL PL

Country Status (12)

Country Link
US (1) US5704009A (pl)
EP (1) EP0836720B1 (pl)
JP (1) JP3335178B2 (pl)
KR (1) KR100297076B1 (pl)
CN (1) CN1095563C (pl)
CA (1) CA2220861C (pl)
CZ (1) CZ287316B6 (pl)
DE (1) DE69606042T2 (pl)
HU (1) HUP9801839A3 (pl)
PL (1) PL182225B1 (pl)
TW (1) TW366483B (pl)
WO (1) WO1997002526A1 (pl)

Families Citing this family (36)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3697748B2 (ja) * 1995-08-21 2005-09-21 セイコーエプソン株式会社 端末、音声認識装置
JP3674990B2 (ja) * 1995-08-21 2005-07-27 セイコーエプソン株式会社 音声認識対話装置および音声認識対話処理方法
US5940476A (en) 1996-06-28 1999-08-17 Distributed Software Development, Inc. System and method for identifying an unidentified caller
US7006605B1 (en) * 1996-06-28 2006-02-28 Ochopee Big Cypress Llc Authenticating a caller before providing the caller with access to one or more secured resources
US5901203A (en) 1996-06-28 1999-05-04 Distributed Software Development, Inc. Computer-based system and method for identifying an unidentified caller
US6205204B1 (en) 1996-06-28 2001-03-20 Distributed Software Development, Inc. System and method for identifying an unidentified person using an ambiguity-resolution criterion
US6529881B2 (en) * 1996-06-28 2003-03-04 Distributed Software Development, Inc. System and method for identifying an unidentified customer at the point of sale
JPH10178490A (ja) * 1996-10-15 1998-06-30 Casio Comput Co Ltd 音声記憶システム
JPH10260692A (ja) * 1997-03-18 1998-09-29 Toshiba Corp 音声の認識合成符号化/復号化方法及び音声符号化/復号化システム
US7383200B1 (en) 1997-05-05 2008-06-03 Walker Digital, Llc Method and apparatus for collecting and categorizing data at a terminal
US6567787B1 (en) * 1998-08-17 2003-05-20 Walker Digital, Llc Method and apparatus for determining whether a verbal message was spoken during a transaction at a point-of-sale terminal
US5987405A (en) * 1997-06-24 1999-11-16 International Business Machines Corporation Speech compression by speech recognition
US6003004A (en) * 1998-01-08 1999-12-14 Advanced Recognition Technologies, Inc. Speech recognition method and system using compressed speech data
GB9824762D0 (en) * 1998-11-11 1999-01-06 Ncr Int Inc Self-service terminal
US6260016B1 (en) 1998-11-25 2001-07-10 Matsushita Electric Industrial Co., Ltd. Speech synthesis employing prosody templates
US6195636B1 (en) 1999-02-19 2001-02-27 Texas Instruments Incorporated Speech recognition over packet networks
US6185533B1 (en) 1999-03-15 2001-02-06 Matsushita Electric Industrial Co., Ltd. Generation and synthesis of prosody templates
NL1012860C2 (nl) * 1999-08-19 2001-02-20 Nedap Nv Boerderijautomatiseringssysteem.
EP1120752A1 (de) * 2000-01-24 2001-08-01 Franke & Co. Verwaltungs KG System zur Kontrolle von Zugangs- bzw. Zugriffsberechtigungen
DE10003617A1 (de) * 2000-01-28 2001-08-02 Volkswagen Ag Verfahren und Vorrichtung zur Spracheingabe bei Autoradios
EP1542120A4 (en) * 2002-08-22 2006-03-01 Matsushita Electric Ind Co Ltd CONTROL SYSTEM, METHOD AND PROGRAM WITH A RHYTHM PATTERN
US20060173681A1 (en) * 2005-02-01 2006-08-03 Bae Systems Information And Electronic Systems Integration Inc Semi-covert emergency transmitter
US20070083367A1 (en) * 2005-10-11 2007-04-12 Motorola, Inc. Method and system for bandwidth efficient and enhanced concatenative synthesis based communication
US10257191B2 (en) 2008-11-28 2019-04-09 Nottingham Trent University Biometric identity verification
WO2010075623A1 (en) * 2008-12-31 2010-07-08 Bce Inc. System and method for unlocking a device
US8346562B2 (en) * 2010-01-06 2013-01-01 Csr Technology Inc. Method and apparatus for voice controlled operation of a media player
EP2555536A1 (en) 2011-08-05 2013-02-06 Samsung Electronics Co., Ltd. Method for controlling electronic apparatus based on voice recognition and motion recognition, and electronic apparatus applying the same
KR101262700B1 (ko) * 2011-08-05 2013-05-08 삼성전자주식회사 음성 인식 및 모션 인식을 이용하는 전자 장치의 제어 방법 및 이를 적용한 전자 장치
CN102436813A (zh) * 2011-12-21 2012-05-02 成都众询科技有限公司 一种可控语音控制系统
KR20130133629A (ko) * 2012-05-29 2013-12-09 삼성전자주식회사 전자장치에서 음성명령을 실행시키기 위한 장치 및 방법
US9135915B1 (en) * 2012-07-26 2015-09-15 Google Inc. Augmenting speech segmentation and recognition using head-mounted vibration and/or motion sensors
CN106296867B (zh) * 2015-06-11 2019-09-06 杭州萤石网络有限公司 影像记录设备及其影像标记方法
CN107256707B (zh) * 2017-05-24 2021-04-30 深圳市冠旭电子股份有限公司 一种语音识别方法、系统及终端设备
US10283117B2 (en) * 2017-06-19 2019-05-07 Lenovo (Singapore) Pte. Ltd. Systems and methods for identification of response cue at peripheral device
JP7044633B2 (ja) * 2017-12-28 2022-03-30 シャープ株式会社 操作支援装置、操作支援システム、及び操作支援方法
CN109065058B (zh) * 2018-09-30 2024-03-15 合肥鑫晟光电科技有限公司 语音通信方法、装置及系统

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP0633520B1 (en) * 1993-07-01 2000-09-20 Koninklijke Philips Electronics N.V. Remote control having voice input
US5657425A (en) * 1993-11-15 1997-08-12 International Business Machines Corporation Location dependent verbal command execution in a computer based control system
AU1298995A (en) * 1993-12-01 1995-06-19 Nhc Corporation Wireless remote switching system
US5444673A (en) * 1994-07-12 1995-08-22 Mathurin; Trevor S. Audio controlled and activated wristwatch memory aid device

Also Published As

Publication number Publication date
WO1997002526A1 (en) 1997-01-23
TW366483B (en) 1999-08-11
HUP9801839A2 (hu) 1998-11-30
CN1095563C (zh) 2002-12-04
EP0836720A1 (en) 1998-04-22
DE69606042T2 (de) 2000-10-26
KR19990022423A (ko) 1999-03-25
CZ287316B6 (en) 2000-10-11
CN1189900A (zh) 1998-08-05
CA2220861C (en) 2002-11-05
EP0836720B1 (en) 2000-01-05
CA2220861A1 (en) 1997-01-23
PL324025A1 (en) 1998-05-11
DE69606042D1 (de) 2000-02-10
HUP9801839A3 (en) 2002-09-30
CZ395397A3 (cs) 1999-01-13
JPH10507559A (ja) 1998-07-21
JP3335178B2 (ja) 2002-10-15
KR100297076B1 (ko) 2001-08-07
US5704009A (en) 1997-12-30

Similar Documents

Publication Publication Date Title
PL182225B1 (pl) Sposób i system komunikacji glosowej z oddalonym,uruchamianym glosowo systemem przetwarzania danych PL PL PL
US5977951A (en) System and method for substituting an animated character when a remote control physical character is unavailable
US7490039B1 (en) Text to speech system and method having interactive spelling capabilities
US5818800A (en) Voice recording device having portable and local modes of operation
US9100742B2 (en) USB dictation device
EP1028410B1 (en) Speech recognition enrolment system
EP0694904B1 (en) Text to speech system
US5943648A (en) Speech signal distribution system providing supplemental parameter associated data
US20050114132A1 (en) Voice interactive method and system
CA1211217A (en) Electronic memory devices for the blind
KR20190068133A (ko) 오디오 데이터에 포함된 음소 정보를 이용하여 어플리케이션을 실행하기 위한 전자 장치 및 그의 동작 방법
US5113481A (en) Augmentive communications system and method
EP0472193A2 (en) Translation device based on voice recognition and voice synthesis
KR950014504B1 (ko) 전자문서를 음성 처리하는 휴대용 컴퓨터 디바이스
Roy et al. Wearable audio computing: A survey of interaction techniques
JP2007221574A (ja) 音声処理装置、音声処理方法及びプログラム
KR20220140301A (ko) 인공지능을 통해 학습자 식별이 가능한 화상 학습 시스템 및 그 방법
CN110289010B (zh) 一种声音采集的方法、装置、设备和计算机存储介质
JP2000231558A (ja) 通信装置、通信方法及び通信制御プログラムを記録した記録媒体
CN116243804A (zh) 一种语音控制键盘
JP2002259373A (ja) 辞書装置
JP2003140677A (ja) 読み上げシステム
Flanagan et al. Integrated information modalities for human/machine communication: HuMaNet, an experimental system for conferencing
JPS59123870A (ja) 発声困難患者用代用音声発生装置
CN113393831A (zh) 基于至少双音素的语音输入操作方法及电脑程序产品