PL182225B1 - Sposób i system komunikacji glosowej z oddalonym,uruchamianym glosowo systemem przetwarzania danych PL PL PL - Google Patents
Sposób i system komunikacji glosowej z oddalonym,uruchamianym glosowo systemem przetwarzania danych PL PL PLInfo
- Publication number
- PL182225B1 PL182225B1 PL96324025A PL32402596A PL182225B1 PL 182225 B1 PL182225 B1 PL 182225B1 PL 96324025 A PL96324025 A PL 96324025A PL 32402596 A PL32402596 A PL 32402596A PL 182225 B1 PL182225 B1 PL 182225B1
- Authority
- PL
- Poland
- Prior art keywords
- voice
- speech recognition
- transmission device
- recognition system
- wireless transmission
- Prior art date
Links
- 238000000034 method Methods 0.000 title claims abstract description 24
- 230000015654 memory Effects 0.000 claims abstract description 19
- 230000003213 activating effect Effects 0.000 claims abstract description 5
- 230000005540 biological transmission Effects 0.000 claims description 55
- 230000004913 activation Effects 0.000 claims description 23
- 238000004891 communication Methods 0.000 claims description 20
- 230000004044 response Effects 0.000 claims description 9
- 230000001755 vocal effect Effects 0.000 claims description 3
- 230000006837 decompression Effects 0.000 description 4
- 238000010586 diagram Methods 0.000 description 3
- 230000033764 rhythmic process Effects 0.000 description 2
- 230000015572 biosynthetic process Effects 0.000 description 1
- 239000000969 carrier Substances 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000002452 interceptive effect Effects 0.000 description 1
- 230000007787 long-term memory Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000003786 synthesis reaction Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/06—Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
- G10L15/065—Adaptation
- G10L15/07—Adaptation to the speaker
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F3/00—Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
- G06F3/16—Sound input; Sound output
-
- G—PHYSICS
- G07—CHECKING-DEVICES
- G07C—TIME OR ATTENDANCE REGISTERS; REGISTERING OR INDICATING THE WORKING OF MACHINES; GENERATING RANDOM NUMBERS; VOTING OR LOTTERY APPARATUS; ARRANGEMENTS, SYSTEMS OR APPARATUS FOR CHECKING NOT PROVIDED FOR ELSEWHERE
- G07C9/00—Individual registration on entry or exit
- G07C9/20—Individual registration on entry or exit involving the use of a pass
- G07C9/22—Individual registration on entry or exit involving the use of a pass in combination with an identity check of the pass holder
- G07C9/25—Individual registration on entry or exit involving the use of a pass in combination with an identity check of the pass holder using biometric data, e.g. fingerprints, iris scans or voice recognition
- G07C9/257—Individual registration on entry or exit involving the use of a pass in combination with an identity check of the pass holder using biometric data, e.g. fingerprints, iris scans or voice recognition electronically
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/26—Speech to text systems
Landscapes
- Engineering & Computer Science (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Theoretical Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Multimedia (AREA)
- Acoustics & Sound (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- General Engineering & Computer Science (AREA)
- Artificial Intelligence (AREA)
- Telephonic Communication Services (AREA)
- Selective Calling Equipment (AREA)
- Arrangements For Transmission Of Measured Signals (AREA)
- Machine Translation (AREA)
Abstract
. 1. Sposób komunikacji glosowej z od- dalonym, uruchamianym glosowo syste- mem przetwarzania danych, który zawiera system rozpoznawania mowy, znamienny tym, ze zapamietuje sie charakterystyki glosu uzytkownika w pamieci (226) bez- przewodowego urzadzenia transmisyjnego (220) oraz uruchamia sie glosem bezprze- wodowe urzadzenie transmisyjne (220) i oddalony system rozpoznawania mowy (230) w odpowiedzi na rozkaz aktywacji glosowej, po czym transmituje sie charakte- rystyki glosu z pamieci (226) do systemu rozpoznawania mowy (230) w odpowiedzi na uruchomienie bezprzewodowego urza- dzenia transmisyjnego (220) i systemu roz- poznawania mowy (230). FIG. 1 PL PL PL
Description
Przedmiotem wynalazku jest sposób i system komunikacji głosowej z oddalonym, uruchamianym głosowo systemem przetwarzania danych.
Słowo mówione odgrywa ważną rolę w komunikacji międzyludzkiej oraz w komunikacji człowiek-maszyna i maszyna-człowiek. Na przykład, nowoczesne systemy poczty głosowej, systemy pomocy i wizyjne systemy konferencyjne wykorzystują mowę ludzką. Ponadto, przy stale rozwijającej się technice, mowa ludzka będzie odgrywała nawet większą rolę w komunikacji maszyna/człowiek. Szczególnie rozwój bezprzewodowych maszyn ATM (automatów bankowych sterowanych kartami identyfikacyjnymi), albo dowolnych typów bezprzewodowych urządzeń takich jak pompa gazowa, kiosk informacyjny o podróżach, punkt sprzedaży) spowodował wykorzystanie systemów rozpoznawania mowy, za pomocą których użytkownik tylko mówi do maszyny ATM.
Znane systemy rozpoznawania mowy „słuchają” i rozumieją mowę ludzką. Jednakże, w celu uzyskania akceptowalnej dokładności rozpoznawania głosu, znane systemy rozpoznawania mowy wykorzystują zapamiętane próbki głosu użytkownika. Użytkownik generuje próbki głosu przez wypowiedzenie około 30 dokładnie określonych zdań, które obejmują wystarczające charakterystyki głosu. Charakterystyki głosu zawierają prozodia głosu użytkownika zawierające rytm, tonację, modulację i szybkość. Znane analizatory mowy przetwarzają próbki głosu na odseparowane próbki dźwięku dla każdego segmentu dyfonicznego i w celu określenia krzywych charakterystyk prozodii. Analizatory mowy wykorzystują znane techniki przetwarzania sygnałów cyfrowych, takie jak ukryte modele Markova, dla generowania segmentów dyfonicznych i krzywych prozodii. Zatem, przy wykorzystaniu zapamiętanych próbek głosu, znane systemy rozpoznawania mowy mają współczynnik dokładności około 90%. Jednakże byłoby niezmiernie niekorzystne powtarzać te 30 zdań w każdym czasie, gdy użytkownik życzy sobie nawiązać komunikację głosową z bezprzewodową maszyną
Znany jest z europejskiego opisu patentowego nr 0633520 system transmisji głosu dla umożliwienia łączności głosowej z systemem rozpoznawania mowy w systemie przetwarzania danych, odległym od bezprzewodowego urządzenia transmisyjnego.
Znane rozwiązania nie zapewniają uzyskanie dla dużej liczby użytkowników wydajniejszej, efektywniejszej i oddalonej komunikacji przez mowę z bezprzewodową maszyną interakcyjną Ponadto zastosowane urządzenia muszą być rozbudowane, żeby transmitować analizowane próbki głosu użytkownika do maszyny przed tym, jak użytkownik może komunikować się głosowo z maszyną z wysokim współczynnikiem dokładności.
Istotą sposobu komunikacji głosowej z oddalonym, uruchamianym głosowo systemem przetwarzania danych, według wynalazku, który zawiera system rozpoznawania mowy, jest to, że zapamiętuje się charakterystyki głosu użytkownika w pamięci bezprzewodowego urządzenia transmisyjnego oraz uruchamia się głosem bezprzewodowe urządzenie transmisyjne i oddalony system rozpoznawania mowy w odpowiedzi na rozkaz aktywacji głosowej, po czym transmituje się charakterystyki głosu z pamięci do systemu rozpoznawania mowy w odpowiedzi na uruchomienie bezprzewodowego urządzenia transmisyjnego i systemu rozpoznawania mowy.
Korzystnie w trakcie zapamiętywania charakterystyk głosu użytkownika zapisuje się próbki głosu użytkownika, poddaje się dyskretyzacji zapisane próbki głosu i tworzy się głos zdyskretyzowany, po czym wydziela się charakterystyki głosu z głosu zdyskretyzowanego wykorzystując analizator mowy i zapamiętuje się charakterystyki głosu w pamięci.
Korzystnie w trakcie uruchamiania głosem bezprzewodowego urządzenia transmisyjnego i oddalonego systemu rozpoznawania mowy, odbiera się przez bezprzewodowe urządzenie transmisyjne rozkaz aktywacji głosowej od użytkownika i ustawia się w stan czuwania bez
182 225 przewodowe urządzenie transmisyjne, po czym transmituje się rozkaz aktywacji głosowej z bezprzewodowego urządzenia transmisyjnego do systemu rozpoznawania mowy dla ustawienia jego w stan czuwania.
Korzystnie następnie wysyła się sygnał z procesora w bezprzewodowym urządzeniu transmisyjnym do pamięci.
Korzystnie w trakcie transmitowania charakterystyk głosu wysyła się sygnał z procesora do pamięci.
Istotą systemu komunikacji głosowej z oddalonym, uruchamianym głosowo systemem przetwarzania danych według wynalazku zawierającym system rozpoznawania mowy, jest to, że zawiera bezprzewodowe urządzenie transmisyjne z pamięcią do zapamiętywania charakterystyk głosu użytkownika połączone zdalnie z systemem rozpoznawania mowy aktywowanym w odpowiedzi na odebrany rozkaz aktywacji głosowej z bezprzewodowego urządzenia transmisyjnego, po czym bezprzewodowe urządzenie transmisyjne jest dostosowane do transmitowania charakterystyk głosu z pamięci do systemu rozpoznawania mowy, w odpowiedzi na uruchomienie systemu rozpoznawania mowy i bezprzewodowego urządzenia transmisyjnego, dla słownej komunikacji użytkownika bezpośrednio z systemem rozpoznawania mowy.
Korzystnie zawiera układ wydzielania symboli głosowych dla generowania charakterystyk głosu z próbki głosu użytkownika.
Korzystnie bezprzewodowe urządzenie transmisyjne zawiera mikrofon odbierania rozkazu aktywacji głosowej dołączony do układu rozpoznawania mowy dla rozpoznawania rozkazu aktywacji głosowej, który jest dołączany do jednostki transmisyjnej przełączającej odebrany rozkaz aktywacji głosowej do systemu rozpoznawania mowy.
Korzystnie jednostka transmisyjna zawiera nadajnik częstotliwości radiowej.
Korzystnie bezprzewodowe urządzenie transmisyjne zawiera następnie procesor sterujący pamięcią i jednostką transmisyjną.
Zaletą rozwiązania według wynalazkujest to, że bezpośrednio transmituje się charakterystyki głosu użytkownika do bezprzewodowego systemu przetwarzania danych w odpowiedzi na wstępnie zdefiniowany rozkaz głosowy. Zapewnia to użytkownikowi łatwiejszą i efektywniejszą słowną komunikację, na przykład, z automatami bankowymi bez konieczności wkładania kart lub innego typu urządzeń do maszyny. Ponadto użytkownik może uruchamiać więcej niż jeden bezprzewodowy, oddalony system przetwarzania danych, który nie mógłby być osiągany przez wkładanie karty.
Przedmiot wynalazku w przykładzie wykonania jest przedstawiony na rysunku, na którym fig. 1 przedstawia schemat blokowy stacji roboczej dla zastosowania wynalazku, fig. 2 schemat blokowy systemu komunikacji głosowej, fig. 3 - użytkownika z bezprzewodowym urządzeniem transmisyjnym do komunikowania się z oddalonym systemem przetwarzania danych, zaś fig. 4 - sieć działań dla transmisji charakterystyk głosu z bezprzewodowego urządzenia transmisyjnego do oddalonego systemu przetwarzania danych.
Rozwiązanie według wynalazku jest realizowane w komputerze podręcznym albo, alternatywnie, w stacji roboczej przedstawionej na fig. 1. Stacja robocza 100 zawiera jednostkę centralną (CPU) 10, dla przetwarzania danych z pamięci podręcznej (CACHE) 15, pamięci o dostępie bezpośrednim (RAM) 14, pamięci stałej (ROM) 16 i nieulotnej pamięci RAM (NVRAM) 32. Jeden lub więcej dysków 20, sterowanych przez adapter wejścia/wyjścia I/O 18, zapewniają pamięć długookresową. Mogą być tu użyte różne inne nośniki pamięciowe, włączając taśmy, CD-ROM-y i napędy dysku optycznego WORM. Wymienne nośniki danych mogą być także wykorzystane do zapamiętywania danych lub instrukcji przetwarzania komputerowego. Instrukcje i dane z komputera sterują jednostką CPU 10 z pamięcią RAM 14.
Użytkownicy łączą się ze stacją roboczą 100 poprzez urządzenia wejścia/wyjścia, to jest sterowniki użytkownika, sterowane przez adapter 22 interfejsu użytkownika. Monitor ekranowy 38 wyświetla informacje dla użytkownika, natomiast klawiatura 24, urządzenie wskazujące 26, przyrząd transmisyjny 30 i głośnik 28 pozwalają użytkownikowi zarządzać systemem komputerowym. Mogąbyć tu wykorzystane alternatywnie dodatkowe rodzaje sterowników, takie jak joysticki, ekrany dotykowe lub słuchawki nagłowne wirtualnej rzeczywistości.
182 225
Adapter komunikacyjny 34 steruje łącznością pomiędzy tym systemem komputerowym i innymi jednostkami przetwarzającymi dołączonymi do sieci przez adapter sieciowy. Adapter monitorowy 36 steruje łącznością pomiędzy tym systemem komputerowym i monitorem ekranowym 38. ... . .
Figura 2 przedstawia schemat blokowy systemu komunikacji głosowej 200 zgodnie z wynalazkiem. System komunikacji 200 zawiera układ wydzielania symboli głosowych 210, urządzenie transmisyjne 220 i system rozpoznawania mowy 230. Układ wydzielania symboli głosowych 210 jest umieszczony we właściwej stacji roboczej, takiej jak stacja robocza 100 z fig. 1, i zawiera podsystem analogowo-cyfrowy A/D 204, analizator mowy 206 i układ kodowania mowy 207.
Figura 4 przedstawia sieć działań dla transmisji charakterystyk głosu z bezprzewodowego urządzenia transmisyjnego do oddalonego systemu przetwarzania danych. Odnosząc się do fig. 2 i 4, użytkownik generuje próbkę głosu (na przykład, około 30 zdań) zawierającą wystarczające charakterystyki głosu osoby mówiącej do mikrofonu 202 (etap 410 w sieci działań). Charakterystyki głosu zawierają prozodia głosu, takie jak rytm, tonację, modulację i szybkość. Zdania tego typu są dobrze znane fachowcom z zakresu syntezy mowy. Na przykład, jednym ze zdań może być dla języka angielskiego: „The quick fox jumped over the lazy brown dog” („Szybki lis przeskoczył leniwego brązowego psa”). Podsystem A/D 204 próbkuje i przetwarza na wartość cyfrową próbki głosu oraz zawiera system przetwarzania analogowo-cyfrowego, taki jak multimedialny dźwiękowy adapter zapisywania i odtwarzania, kartę dźwiękową lub rozwiązanie na pojedynczym mikroukładzie (etap 412).
Na odwrót, dowolny typowy analizator mowy 206 przetwarza cyfrowe próbki głosu w celu odseparowania próbek dźwiękowych dla każdego segmentu dyfonicznego i określenia krzywych charakterystyk prozodii (etap 416). Analizator mowy 206 wykorzystuje znaną technikę przetwarzania sygnałów cyfrowych, taką jak ukryte modele Marko va, dla generowania segmentów dyfonicznych i krzywych prozodii.
Układ kodowania mowy 207 wykorzystuje znaną technikę kodowania cyfrowego do kompresji segmentów dyfonicznych i krzywych prozodii dla zmniejszenia szerokości pasma transmisji i zapamiętania wymagań (etap 416). Układ kodowania mowy 207 zapamiętuje wynik skompresowanych krzywych prozodii i segmentów dyfonicznych w pamięci RAM 226 urządzenia transmisyjnego 220. Urządzenie transmisyjne 220 także zawiera uruchamiany głosem mikrofon 221 dla odbierania rozkazów uruchamiania głosem, następny podsystem A/D 222, układ rozpoznawania mowy 224, zasilacz (nie pokazany na rysunku), procesor 228 i jednostkę transmisyjną 229.
Figura 3 przedstawia użytkownika z bezprzewodowym urządzeniem transmisyjnym 220 do komunikowania się z oddalonym systemem przetwarzania danych 310. Powołując się na fig.2, 3 i 4, użytkownik nosi urządzenie transmisyjne 220, podobnie jak nosi broszę. Alternatywnie, użytkownik mógłby trzymać urządzenie transmisyjne 220 w swoich ustach. Kiedy użytkownik, który nosi urządzenie transmisyjne 220, ma życzenie połączyć się z systemem rozpoznawania mowy 230 umieszczonym w oddalonym systemie przetwarzania danych 310, na przykład automacie bankowym sterowanym kartami identyfikacyjnymi, zbliża się do oddalonego systemu przetwarzania danych 310 i wymawia rozkaz aktywacji głosowej (np. „KOMPUTER”, „ZAREJESTROWANIE W KOMPUTERZE”) do uruchamianego głosem mikrofonu 221 urządzenia transmisyjnego 220 (etap 418). Należy zaznaczyć, że „bezprzewodowy” oznacza, że system przetwarzania danych 310 jest bezprzewodowy w odniesieniu do urządzenia transmisyjnego 220. Uruchamiany głosem mikrofon 221 wykrywa rozkaz aktywacji głosowej zaś podsystem A/D 222 próbkuje i poddaje dyskretyzacji rozkaz aktywacji głosowej. Podsystem A/D 222 wysyła cyfrowy rozkaz aktywacji głosowej do układu rozpoznawania mowy 224.
Układ rozpoznawania mowy 224 może być w zasadzie dowolnego typu. Jeśli układ rozpoznawania mowy 224 rozpoznaje rozkaz aktywacji głosowej to wysyła sygnał wskazujący do procesora 228. W odpowiedzi, procesor 228 wysyła sygnał do jednostki transmisyjnej 229 w celu transmisji rozkazu aktywacji głosowej do jednostki odbiorczej 232 systemu rozpoznawania mowy 230 (etap 420). Jednostka transmisyjna 229 może być dowolnego typu
182 225 bezprzewodową jednostką transmisyjną, na przykład laserem, dioda, elektroluminescencyjną na podczerwień, jednakże korzystnie jednostka transmisyjna 229 jest nadajnikiem częstotliwości radiowej (RF). Procesor 228 wysyła sygnał krótkiej przerwy czasowej do pamięci RAM 226 by system rozpoznawania mowy 230 był w stanie gotowości.
System rozpoznawania mowy 230 zawiera jednostkę odbiorczą 232, układ dekompresji mowy 233 i następny układ rozpoznawania mowy 234 oraz jest umieszczony w dowolnej stacji roboczej, takiej jak stacja robocza 100. Jednostka odbiorcza 232 wysyła odebrany rozkaz aktywacji głosowej do układu dekompresji mowy 233, gdzie jest poddany dekompresji. Układ dekompresji mowy 233 wysyła rozkaz aktywacji głosowej do układu rozpoznawania mowy 234. Jeśli układ rozpoznawania mowy 234 rozpoznaje rozkaz aktywacji głosowej, jest on uaktywniony i oczekuje na odbiór krzywych prozodii i segmentów dyfonicznych z urządzenia transmisyjnego 220. Zatem, pojedynczy rozkaz aktywacji głosowej uruchamia urządzenie transmisyjne 220 i system rozpoznawania mowy 230. Dlatego, po krótkiej przerwie czasowej, procesor 228 steruje pamięcią RAM 226 w celu wysłania poprzez jednostkę transmisyjną 229 i jednostkę odbiorczą 232 krzywych prozodii i segmentów dyfonicznych do układu rozpoznawania mowy 234 (etap 424 i 426). Układ rozpoznawania mowy 234 wykorzystuje te krzywe prozodii i segmenty dyfoniczne do rozpoznawania głosu użytkownika. Użytkownik może teraz mówić bezpośrednio do systemu rozpoznawania mowy 230.
182 225
200
FIG. 2
FIG. 3
182 225
FIG. 4
182 225
SIEC
Departament Wydawnictw UP RP. Nakład 60 egz. Cena 2,00 zł.
Claims (10)
- Zastrzeżenia patentowe1. Sposób komunikacji głosowej z oddalonym, uruchamianym głosowo systemem przetwarzania danych, który zawiera system rozpoznawania mowy, znamienny tym, że zapamiętuje się charakterystyki głosu użytkownika w pamięci (226) bezprzewodowego urządzenia transmisyjnego (220) oraz uruchamia się głosem bezprzewodowe urządzenie transmisyjne (220) i oddalony system rozpoznawania mowy (230) w odpowiedzi na rozkaz aktywacji głosowej, po czym transmituje się charakterystyki głosu z pamięci (226) do systemu rozpoznawania mowy (230) w odpowiedzi na uruchomienie bezprzewodowego urządzenia transmisyjnego (220) i systemu rozpoznawania mowy (230).
- 2. Sposób według zastrz. 1, znamienny tym, że w trakcie zapamiętywania charakterystyk głosu użytkownika zapisuje się próbki głosu użytkownika, poddaje się dyskretyzacji zapisane próbki głosu i tworzy się głos zdyskretyzowany, po czym wydziela się charakterystyki głosu z głosu zdyskretyzowanego wykorzystując analizator mowy i zapamiętuje się charakterystyki głosu w pamięci (226).
- 3. Sposób według zastrz. 1, znamienny tym, że w trakcie uruchamiania głosem bezprzewodowego urządzenia transmisyjnego (220) i oddalonego systemu rozpoznawania mowy (230), odbiera się przez bezprzewodowe urządzenie transmisyjne (220) rozkaz aktywacji głosowej od użytkownika i ustawia się w stan czuwania bezprzewodowe urządzenie transmisyjne (220), po czym transmituje się rozkaz aktywacji głosowej z bezprzewodowego urządzenia transmisyjnego (220) do systemu rozpoznawania mowy (230) dla ustawienia jego w stan czuwania.
- 4. Sposób według zastrz. 3, znamienny tym, że następnie wysyła się sygnał z procesora (228) w bezprzewodowym urządzeniu transmisyjnym (220) do pamięci (226).
- 5. Sposób według zastrz. 1, znamienny tym, że w trakcie transmitowania charakterystyk głosu wysyła się sygnał z procesora (228) do pamięci (226).
- 6. System komunikacji głosowej z oddalonym, uruchamianym głosowo systemem przetwarzania danych zawierającym system rozpoznawania mowy, znamienny tym, że zawiera bezprzewodowe urządzenie transmisyjne (220) z pamięcią (226) do zapamiętywania charakterystyk głosu użytkownika połączone zdalnie z systemem rozpoznawania mowy (230) aktywowanym w odpowiedzi na odebrany rozkaz aktywacji głosowej z bezprzewodowego urządzenia transmisyjnego (220), po czym bezprzewodowe urządzenie transmisyjne (220) jest dostosowane do transmitowania charakterystyk głosu z pamięci (226) do systemu rozpoznawania mowy (230), w odpowiedzi na uruchomienie systemu rozpoznawania mowy (230) i bezprzewodowego urządzenia transmisyjnego (220), dla słownej komunikacji użytkownika bezpośrednio z systemem rozpoznawania mowy (230).
- 7. System według zastrz. 6, znamienny tym, że zawiera układ wydzielania symboli głosowych dla generowania charakterystyk głosu z próbki głosu użytkownika.
- 8. System według zastrz. 6, znamienny tym, że bezprzewodowe urządzenie transmisyjne (220) zawiera mikrofon (221) odbierania rozkazu aktywacji głosowej dołączony do układu rozpoznawania mowy (224) dla rozpoznawania rozkazu aktywacji głosowej, który jest dołączany do jednostki transmisyjnej (229) przełączającej odebrany rozkaz aktywacji głosowej do systemu rozpoznawania mowy (230).
- 9. System według zastrz. 8, znamienny tym, że jednostka transmisyjna (229) zawiera nadajnik częstotliwości radiowej.182 225
- 10. System według zastrz. 8, znamienny tym, że bezprzewodowe urządzenie transmisyjne (220) zawiera następnie procesor (228) sterujący pamięcią (226) i jednostką transmisyjną (229).♦ ♦ ♦
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US08/497,302 US5704009A (en) | 1995-06-30 | 1995-06-30 | Method and apparatus for transmitting a voice sample to a voice activated data processing system |
PCT/GB1996/001544 WO1997002526A1 (en) | 1995-06-30 | 1996-06-27 | Method and apparatus for transmitting a voice sample to a voice activated data processing system |
Publications (2)
Publication Number | Publication Date |
---|---|
PL324025A1 PL324025A1 (en) | 1998-05-11 |
PL182225B1 true PL182225B1 (pl) | 2001-11-30 |
Family
ID=23976298
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
PL96324025A PL182225B1 (pl) | 1995-06-30 | 1996-06-27 | Sposób i system komunikacji glosowej z oddalonym,uruchamianym glosowo systemem przetwarzania danych PL PL PL |
Country Status (12)
Country | Link |
---|---|
US (1) | US5704009A (pl) |
EP (1) | EP0836720B1 (pl) |
JP (1) | JP3335178B2 (pl) |
KR (1) | KR100297076B1 (pl) |
CN (1) | CN1095563C (pl) |
CA (1) | CA2220861C (pl) |
CZ (1) | CZ287316B6 (pl) |
DE (1) | DE69606042T2 (pl) |
HU (1) | HUP9801839A3 (pl) |
PL (1) | PL182225B1 (pl) |
TW (1) | TW366483B (pl) |
WO (1) | WO1997002526A1 (pl) |
Families Citing this family (36)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP3697748B2 (ja) * | 1995-08-21 | 2005-09-21 | セイコーエプソン株式会社 | 端末、音声認識装置 |
JP3674990B2 (ja) * | 1995-08-21 | 2005-07-27 | セイコーエプソン株式会社 | 音声認識対話装置および音声認識対話処理方法 |
US5940476A (en) | 1996-06-28 | 1999-08-17 | Distributed Software Development, Inc. | System and method for identifying an unidentified caller |
US7006605B1 (en) * | 1996-06-28 | 2006-02-28 | Ochopee Big Cypress Llc | Authenticating a caller before providing the caller with access to one or more secured resources |
US5901203A (en) | 1996-06-28 | 1999-05-04 | Distributed Software Development, Inc. | Computer-based system and method for identifying an unidentified caller |
US6205204B1 (en) | 1996-06-28 | 2001-03-20 | Distributed Software Development, Inc. | System and method for identifying an unidentified person using an ambiguity-resolution criterion |
US6529881B2 (en) * | 1996-06-28 | 2003-03-04 | Distributed Software Development, Inc. | System and method for identifying an unidentified customer at the point of sale |
JPH10178490A (ja) * | 1996-10-15 | 1998-06-30 | Casio Comput Co Ltd | 音声記憶システム |
JPH10260692A (ja) * | 1997-03-18 | 1998-09-29 | Toshiba Corp | 音声の認識合成符号化/復号化方法及び音声符号化/復号化システム |
US7383200B1 (en) | 1997-05-05 | 2008-06-03 | Walker Digital, Llc | Method and apparatus for collecting and categorizing data at a terminal |
US6567787B1 (en) * | 1998-08-17 | 2003-05-20 | Walker Digital, Llc | Method and apparatus for determining whether a verbal message was spoken during a transaction at a point-of-sale terminal |
US5987405A (en) * | 1997-06-24 | 1999-11-16 | International Business Machines Corporation | Speech compression by speech recognition |
US6003004A (en) * | 1998-01-08 | 1999-12-14 | Advanced Recognition Technologies, Inc. | Speech recognition method and system using compressed speech data |
GB9824762D0 (en) * | 1998-11-11 | 1999-01-06 | Ncr Int Inc | Self-service terminal |
US6260016B1 (en) | 1998-11-25 | 2001-07-10 | Matsushita Electric Industrial Co., Ltd. | Speech synthesis employing prosody templates |
US6195636B1 (en) | 1999-02-19 | 2001-02-27 | Texas Instruments Incorporated | Speech recognition over packet networks |
US6185533B1 (en) | 1999-03-15 | 2001-02-06 | Matsushita Electric Industrial Co., Ltd. | Generation and synthesis of prosody templates |
NL1012860C2 (nl) * | 1999-08-19 | 2001-02-20 | Nedap Nv | Boerderijautomatiseringssysteem. |
EP1120752A1 (de) * | 2000-01-24 | 2001-08-01 | Franke & Co. Verwaltungs KG | System zur Kontrolle von Zugangs- bzw. Zugriffsberechtigungen |
DE10003617A1 (de) * | 2000-01-28 | 2001-08-02 | Volkswagen Ag | Verfahren und Vorrichtung zur Spracheingabe bei Autoradios |
EP1542120A4 (en) * | 2002-08-22 | 2006-03-01 | Matsushita Electric Ind Co Ltd | CONTROL SYSTEM, METHOD AND PROGRAM WITH A RHYTHM PATTERN |
US20060173681A1 (en) * | 2005-02-01 | 2006-08-03 | Bae Systems Information And Electronic Systems Integration Inc | Semi-covert emergency transmitter |
US20070083367A1 (en) * | 2005-10-11 | 2007-04-12 | Motorola, Inc. | Method and system for bandwidth efficient and enhanced concatenative synthesis based communication |
US10257191B2 (en) | 2008-11-28 | 2019-04-09 | Nottingham Trent University | Biometric identity verification |
WO2010075623A1 (en) * | 2008-12-31 | 2010-07-08 | Bce Inc. | System and method for unlocking a device |
US8346562B2 (en) * | 2010-01-06 | 2013-01-01 | Csr Technology Inc. | Method and apparatus for voice controlled operation of a media player |
EP2555536A1 (en) | 2011-08-05 | 2013-02-06 | Samsung Electronics Co., Ltd. | Method for controlling electronic apparatus based on voice recognition and motion recognition, and electronic apparatus applying the same |
KR101262700B1 (ko) * | 2011-08-05 | 2013-05-08 | 삼성전자주식회사 | 음성 인식 및 모션 인식을 이용하는 전자 장치의 제어 방법 및 이를 적용한 전자 장치 |
CN102436813A (zh) * | 2011-12-21 | 2012-05-02 | 成都众询科技有限公司 | 一种可控语音控制系统 |
KR20130133629A (ko) * | 2012-05-29 | 2013-12-09 | 삼성전자주식회사 | 전자장치에서 음성명령을 실행시키기 위한 장치 및 방법 |
US9135915B1 (en) * | 2012-07-26 | 2015-09-15 | Google Inc. | Augmenting speech segmentation and recognition using head-mounted vibration and/or motion sensors |
CN106296867B (zh) * | 2015-06-11 | 2019-09-06 | 杭州萤石网络有限公司 | 影像记录设备及其影像标记方法 |
CN107256707B (zh) * | 2017-05-24 | 2021-04-30 | 深圳市冠旭电子股份有限公司 | 一种语音识别方法、系统及终端设备 |
US10283117B2 (en) * | 2017-06-19 | 2019-05-07 | Lenovo (Singapore) Pte. Ltd. | Systems and methods for identification of response cue at peripheral device |
JP7044633B2 (ja) * | 2017-12-28 | 2022-03-30 | シャープ株式会社 | 操作支援装置、操作支援システム、及び操作支援方法 |
CN109065058B (zh) * | 2018-09-30 | 2024-03-15 | 合肥鑫晟光电科技有限公司 | 语音通信方法、装置及系统 |
Family Cites Families (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP0633520B1 (en) * | 1993-07-01 | 2000-09-20 | Koninklijke Philips Electronics N.V. | Remote control having voice input |
US5657425A (en) * | 1993-11-15 | 1997-08-12 | International Business Machines Corporation | Location dependent verbal command execution in a computer based control system |
AU1298995A (en) * | 1993-12-01 | 1995-06-19 | Nhc Corporation | Wireless remote switching system |
US5444673A (en) * | 1994-07-12 | 1995-08-22 | Mathurin; Trevor S. | Audio controlled and activated wristwatch memory aid device |
-
1995
- 1995-06-30 US US08/497,302 patent/US5704009A/en not_active Expired - Lifetime
-
1996
- 1996-05-15 TW TW085105742A patent/TW366483B/zh active
- 1996-06-27 WO PCT/GB1996/001544 patent/WO1997002526A1/en active IP Right Grant
- 1996-06-27 HU HU9801839A patent/HUP9801839A3/hu unknown
- 1996-06-27 DE DE69606042T patent/DE69606042T2/de not_active Expired - Lifetime
- 1996-06-27 CA CA002220861A patent/CA2220861C/en not_active Expired - Fee Related
- 1996-06-27 EP EP96920991A patent/EP0836720B1/en not_active Expired - Lifetime
- 1996-06-27 KR KR1019970708903A patent/KR100297076B1/ko not_active IP Right Cessation
- 1996-06-27 CN CN96195188A patent/CN1095563C/zh not_active Expired - Lifetime
- 1996-06-27 JP JP50490997A patent/JP3335178B2/ja not_active Expired - Fee Related
- 1996-06-27 CZ CZ19973953A patent/CZ287316B6/cs not_active IP Right Cessation
- 1996-06-27 PL PL96324025A patent/PL182225B1/pl unknown
Also Published As
Publication number | Publication date |
---|---|
WO1997002526A1 (en) | 1997-01-23 |
TW366483B (en) | 1999-08-11 |
HUP9801839A2 (hu) | 1998-11-30 |
CN1095563C (zh) | 2002-12-04 |
EP0836720A1 (en) | 1998-04-22 |
DE69606042T2 (de) | 2000-10-26 |
KR19990022423A (ko) | 1999-03-25 |
CZ287316B6 (en) | 2000-10-11 |
CN1189900A (zh) | 1998-08-05 |
CA2220861C (en) | 2002-11-05 |
EP0836720B1 (en) | 2000-01-05 |
CA2220861A1 (en) | 1997-01-23 |
PL324025A1 (en) | 1998-05-11 |
DE69606042D1 (de) | 2000-02-10 |
HUP9801839A3 (en) | 2002-09-30 |
CZ395397A3 (cs) | 1999-01-13 |
JPH10507559A (ja) | 1998-07-21 |
JP3335178B2 (ja) | 2002-10-15 |
KR100297076B1 (ko) | 2001-08-07 |
US5704009A (en) | 1997-12-30 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
PL182225B1 (pl) | Sposób i system komunikacji glosowej z oddalonym,uruchamianym glosowo systemem przetwarzania danych PL PL PL | |
US5977951A (en) | System and method for substituting an animated character when a remote control physical character is unavailable | |
US7490039B1 (en) | Text to speech system and method having interactive spelling capabilities | |
US5818800A (en) | Voice recording device having portable and local modes of operation | |
US9100742B2 (en) | USB dictation device | |
EP1028410B1 (en) | Speech recognition enrolment system | |
EP0694904B1 (en) | Text to speech system | |
US5943648A (en) | Speech signal distribution system providing supplemental parameter associated data | |
US20050114132A1 (en) | Voice interactive method and system | |
CA1211217A (en) | Electronic memory devices for the blind | |
KR20190068133A (ko) | 오디오 데이터에 포함된 음소 정보를 이용하여 어플리케이션을 실행하기 위한 전자 장치 및 그의 동작 방법 | |
US5113481A (en) | Augmentive communications system and method | |
EP0472193A2 (en) | Translation device based on voice recognition and voice synthesis | |
KR950014504B1 (ko) | 전자문서를 음성 처리하는 휴대용 컴퓨터 디바이스 | |
Roy et al. | Wearable audio computing: A survey of interaction techniques | |
JP2007221574A (ja) | 音声処理装置、音声処理方法及びプログラム | |
KR20220140301A (ko) | 인공지능을 통해 학습자 식별이 가능한 화상 학습 시스템 및 그 방법 | |
CN110289010B (zh) | 一种声音采集的方法、装置、设备和计算机存储介质 | |
JP2000231558A (ja) | 通信装置、通信方法及び通信制御プログラムを記録した記録媒体 | |
CN116243804A (zh) | 一种语音控制键盘 | |
JP2002259373A (ja) | 辞書装置 | |
JP2003140677A (ja) | 読み上げシステム | |
Flanagan et al. | Integrated information modalities for human/machine communication: HuMaNet, an experimental system for conferencing | |
JPS59123870A (ja) | 発声困難患者用代用音声発生装置 | |
CN113393831A (zh) | 基于至少双音素的语音输入操作方法及电脑程序产品 |