PL182225B1

PL182225B1 - Sposób i system komunikacji glosowej z oddalonym,uruchamianym glosowo systemem przetwarzania danych PL PL PL

Info

Publication number: PL182225B1
Application number: PL96324025A
Authority: PL
Inventors: Troy L Cline; Scott H Isensee; Ricky L Poston; Jon H Werner
Original assignee: Ibm
Priority date: 1995-06-30
Filing date: 1996-06-27
Publication date: 2001-11-30
Also published as: WO1997002526A1; TW366483B; HUP9801839A2; CN1095563C; EP0836720A1; DE69606042T2; KR19990022423A; CZ287316B6; CN1189900A; CA2220861C; EP0836720B1; CA2220861A1; PL324025A1; DE69606042D1; HUP9801839A3; CZ395397A3; JPH10507559A; JP3335178B2; KR100297076B1; US5704009A

Abstract

. 1. Sposób komunikacji glosowej z od- dalonym, uruchamianym glosowo syste- mem przetwarzania danych, który zawiera system rozpoznawania mowy, znamienny tym, ze zapamietuje sie charakterystyki glosu uzytkownika w pamieci (226) bez- przewodowego urzadzenia transmisyjnego (220) oraz uruchamia sie glosem bezprze- wodowe urzadzenie transmisyjne (220) i oddalony system rozpoznawania mowy (230) w odpowiedzi na rozkaz aktywacji glosowej, po czym transmituje sie charakte- rystyki glosu z pamieci (226) do systemu rozpoznawania mowy (230) w odpowiedzi na uruchomienie bezprzewodowego urza- dzenia transmisyjnego (220) i systemu roz- poznawania mowy (230). FIG. 1 PL PL PL

Description

Przedmiotem wynalazku jest sposób i system komunikacji głosowej z oddalonym, uruchamianym głosowo systemem przetwarzania danych.

Słowo mówione odgrywa ważną rolę w komunikacji międzyludzkiej oraz w komunikacji człowiek-maszyna i maszyna-człowiek. Na przykład, nowoczesne systemy poczty głosowej, systemy pomocy i wizyjne systemy konferencyjne wykorzystują mowę ludzką. Ponadto, przy stale rozwijającej się technice, mowa ludzka będzie odgrywała nawet większą rolę w komunikacji maszyna/człowiek. Szczególnie rozwój bezprzewodowych maszyn ATM (automatów bankowych sterowanych kartami identyfikacyjnymi), albo dowolnych typów bezprzewodowych urządzeń takich jak pompa gazowa, kiosk informacyjny o podróżach, punkt sprzedaży) spowodował wykorzystanie systemów rozpoznawania mowy, za pomocą których użytkownik tylko mówi do maszyny ATM.

Znane systemy rozpoznawania mowy „słuchają” i rozumieją mowę ludzką. Jednakże, w celu uzyskania akceptowalnej dokładności rozpoznawania głosu, znane systemy rozpoznawania mowy wykorzystują zapamiętane próbki głosu użytkownika. Użytkownik generuje próbki głosu przez wypowiedzenie około 30 dokładnie określonych zdań, które obejmują wystarczające charakterystyki głosu. Charakterystyki głosu zawierają prozodia głosu użytkownika zawierające rytm, tonację, modulację i szybkość. Znane analizatory mowy przetwarzają próbki głosu na odseparowane próbki dźwięku dla każdego segmentu dyfonicznego i w celu określenia krzywych charakterystyk prozodii. Analizatory mowy wykorzystują znane techniki przetwarzania sygnałów cyfrowych, takie jak ukryte modele Markova, dla generowania segmentów dyfonicznych i krzywych prozodii. Zatem, przy wykorzystaniu zapamiętanych próbek głosu, znane systemy rozpoznawania mowy mają współczynnik dokładności około 90%. Jednakże byłoby niezmiernie niekorzystne powtarzać te 30 zdań w każdym czasie, gdy użytkownik życzy sobie nawiązać komunikację głosową z bezprzewodową maszyną

Znany jest z europejskiego opisu patentowego nr 0633520 system transmisji głosu dla umożliwienia łączności głosowej z systemem rozpoznawania mowy w systemie przetwarzania danych, odległym od bezprzewodowego urządzenia transmisyjnego.

Znane rozwiązania nie zapewniają uzyskanie dla dużej liczby użytkowników wydajniejszej, efektywniejszej i oddalonej komunikacji przez mowę z bezprzewodową maszyną interakcyjną Ponadto zastosowane urządzenia muszą być rozbudowane, żeby transmitować analizowane próbki głosu użytkownika do maszyny przed tym, jak użytkownik może komunikować się głosowo z maszyną z wysokim współczynnikiem dokładności.

Istotą sposobu komunikacji głosowej z oddalonym, uruchamianym głosowo systemem przetwarzania danych, według wynalazku, który zawiera system rozpoznawania mowy, jest to, że zapamiętuje się charakterystyki głosu użytkownika w pamięci bezprzewodowego urządzenia transmisyjnego oraz uruchamia się głosem bezprzewodowe urządzenie transmisyjne i oddalony system rozpoznawania mowy w odpowiedzi na rozkaz aktywacji głosowej, po czym transmituje się charakterystyki głosu z pamięci do systemu rozpoznawania mowy w odpowiedzi na uruchomienie bezprzewodowego urządzenia transmisyjnego i systemu rozpoznawania mowy.

Korzystnie w trakcie zapamiętywania charakterystyk głosu użytkownika zapisuje się próbki głosu użytkownika, poddaje się dyskretyzacji zapisane próbki głosu i tworzy się głos zdyskretyzowany, po czym wydziela się charakterystyki głosu z głosu zdyskretyzowanego wykorzystując analizator mowy i zapamiętuje się charakterystyki głosu w pamięci.

Korzystnie w trakcie uruchamiania głosem bezprzewodowego urządzenia transmisyjnego i oddalonego systemu rozpoznawania mowy, odbiera się przez bezprzewodowe urządzenie transmisyjne rozkaz aktywacji głosowej od użytkownika i ustawia się w stan czuwania bez

182 225 przewodowe urządzenie transmisyjne, po czym transmituje się rozkaz aktywacji głosowej z bezprzewodowego urządzenia transmisyjnego do systemu rozpoznawania mowy dla ustawienia jego w stan czuwania.

Korzystnie następnie wysyła się sygnał z procesora w bezprzewodowym urządzeniu transmisyjnym do pamięci.

Korzystnie w trakcie transmitowania charakterystyk głosu wysyła się sygnał z procesora do pamięci.

Istotą systemu komunikacji głosowej z oddalonym, uruchamianym głosowo systemem przetwarzania danych według wynalazku zawierającym system rozpoznawania mowy, jest to, że zawiera bezprzewodowe urządzenie transmisyjne z pamięcią do zapamiętywania charakterystyk głosu użytkownika połączone zdalnie z systemem rozpoznawania mowy aktywowanym w odpowiedzi na odebrany rozkaz aktywacji głosowej z bezprzewodowego urządzenia transmisyjnego, po czym bezprzewodowe urządzenie transmisyjne jest dostosowane do transmitowania charakterystyk głosu z pamięci do systemu rozpoznawania mowy, w odpowiedzi na uruchomienie systemu rozpoznawania mowy i bezprzewodowego urządzenia transmisyjnego, dla słownej komunikacji użytkownika bezpośrednio z systemem rozpoznawania mowy.

Korzystnie zawiera układ wydzielania symboli głosowych dla generowania charakterystyk głosu z próbki głosu użytkownika.

Korzystnie bezprzewodowe urządzenie transmisyjne zawiera mikrofon odbierania rozkazu aktywacji głosowej dołączony do układu rozpoznawania mowy dla rozpoznawania rozkazu aktywacji głosowej, który jest dołączany do jednostki transmisyjnej przełączającej odebrany rozkaz aktywacji głosowej do systemu rozpoznawania mowy.

Korzystnie jednostka transmisyjna zawiera nadajnik częstotliwości radiowej.

Korzystnie bezprzewodowe urządzenie transmisyjne zawiera następnie procesor sterujący pamięcią i jednostką transmisyjną.

Zaletą rozwiązania według wynalazkujest to, że bezpośrednio transmituje się charakterystyki głosu użytkownika do bezprzewodowego systemu przetwarzania danych w odpowiedzi na wstępnie zdefiniowany rozkaz głosowy. Zapewnia to użytkownikowi łatwiejszą i efektywniejszą słowną komunikację, na przykład, z automatami bankowymi bez konieczności wkładania kart lub innego typu urządzeń do maszyny. Ponadto użytkownik może uruchamiać więcej niż jeden bezprzewodowy, oddalony system przetwarzania danych, który nie mógłby być osiągany przez wkładanie karty.

Przedmiot wynalazku w przykładzie wykonania jest przedstawiony na rysunku, na którym fig. 1 przedstawia schemat blokowy stacji roboczej dla zastosowania wynalazku, fig. 2 schemat blokowy systemu komunikacji głosowej, fig. 3 - użytkownika z bezprzewodowym urządzeniem transmisyjnym do komunikowania się z oddalonym systemem przetwarzania danych, zaś fig. 4 - sieć działań dla transmisji charakterystyk głosu z bezprzewodowego urządzenia transmisyjnego do oddalonego systemu przetwarzania danych.

Rozwiązanie według wynalazku jest realizowane w komputerze podręcznym albo, alternatywnie, w stacji roboczej przedstawionej na fig. 1. Stacja robocza 100 zawiera jednostkę centralną (CPU) 10, dla przetwarzania danych z pamięci podręcznej (CACHE) 15, pamięci o dostępie bezpośrednim (RAM) 14, pamięci stałej (ROM) 16 i nieulotnej pamięci RAM (NVRAM) 32. Jeden lub więcej dysków 20, sterowanych przez adapter wejścia/wyjścia I/O 18, zapewniają pamięć długookresową. Mogą być tu użyte różne inne nośniki pamięciowe, włączając taśmy, CD-ROM-y i napędy dysku optycznego WORM. Wymienne nośniki danych mogą być także wykorzystane do zapamiętywania danych lub instrukcji przetwarzania komputerowego. Instrukcje i dane z komputera sterują jednostką CPU 10 z pamięcią RAM 14.

Użytkownicy łączą się ze stacją roboczą 100 poprzez urządzenia wejścia/wyjścia, to jest sterowniki użytkownika, sterowane przez adapter 22 interfejsu użytkownika. Monitor ekranowy 38 wyświetla informacje dla użytkownika, natomiast klawiatura 24, urządzenie wskazujące 26, przyrząd transmisyjny 30 i głośnik 28 pozwalają użytkownikowi zarządzać systemem komputerowym. Mogąbyć tu wykorzystane alternatywnie dodatkowe rodzaje sterowników, takie jak joysticki, ekrany dotykowe lub słuchawki nagłowne wirtualnej rzeczywistości.

182 225

Adapter komunikacyjny 34 steruje łącznością pomiędzy tym systemem komputerowym i innymi jednostkami przetwarzającymi dołączonymi do sieci przez adapter sieciowy. Adapter monitorowy 36 steruje łącznością pomiędzy tym systemem komputerowym i monitorem ekranowym 38. ... . .

Figura 2 przedstawia schemat blokowy systemu komunikacji głosowej 200 zgodnie z wynalazkiem. System komunikacji 200 zawiera układ wydzielania symboli głosowych 210, urządzenie transmisyjne 220 i system rozpoznawania mowy 230. Układ wydzielania symboli głosowych 210 jest umieszczony we właściwej stacji roboczej, takiej jak stacja robocza 100 z fig. 1, i zawiera podsystem analogowo-cyfrowy A/D 204, analizator mowy 206 i układ kodowania mowy 207.

Figura 4 przedstawia sieć działań dla transmisji charakterystyk głosu z bezprzewodowego urządzenia transmisyjnego do oddalonego systemu przetwarzania danych. Odnosząc się do fig. 2 i 4, użytkownik generuje próbkę głosu (na przykład, około 30 zdań) zawierającą wystarczające charakterystyki głosu osoby mówiącej do mikrofonu 202 (etap 410 w sieci działań). Charakterystyki głosu zawierają prozodia głosu, takie jak rytm, tonację, modulację i szybkość. Zdania tego typu są dobrze znane fachowcom z zakresu syntezy mowy. Na przykład, jednym ze zdań może być dla języka angielskiego: „The quick fox jumped over the lazy brown dog” („Szybki lis przeskoczył leniwego brązowego psa”). Podsystem A/D 204 próbkuje i przetwarza na wartość cyfrową próbki głosu oraz zawiera system przetwarzania analogowo-cyfrowego, taki jak multimedialny dźwiękowy adapter zapisywania i odtwarzania, kartę dźwiękową lub rozwiązanie na pojedynczym mikroukładzie (etap 412).

Na odwrót, dowolny typowy analizator mowy 206 przetwarza cyfrowe próbki głosu w celu odseparowania próbek dźwiękowych dla każdego segmentu dyfonicznego i określenia krzywych charakterystyk prozodii (etap 416). Analizator mowy 206 wykorzystuje znaną technikę przetwarzania sygnałów cyfrowych, taką jak ukryte modele Marko va, dla generowania segmentów dyfonicznych i krzywych prozodii.

Układ kodowania mowy 207 wykorzystuje znaną technikę kodowania cyfrowego do kompresji segmentów dyfonicznych i krzywych prozodii dla zmniejszenia szerokości pasma transmisji i zapamiętania wymagań (etap 416). Układ kodowania mowy 207 zapamiętuje wynik skompresowanych krzywych prozodii i segmentów dyfonicznych w pamięci RAM 226 urządzenia transmisyjnego 220. Urządzenie transmisyjne 220 także zawiera uruchamiany głosem mikrofon 221 dla odbierania rozkazów uruchamiania głosem, następny podsystem A/D 222, układ rozpoznawania mowy 224, zasilacz (nie pokazany na rysunku), procesor 228 i jednostkę transmisyjną 229.

Figura 3 przedstawia użytkownika z bezprzewodowym urządzeniem transmisyjnym 220 do komunikowania się z oddalonym systemem przetwarzania danych 310. Powołując się na fig.2, 3 i 4, użytkownik nosi urządzenie transmisyjne 220, podobnie jak nosi broszę. Alternatywnie, użytkownik mógłby trzymać urządzenie transmisyjne 220 w swoich ustach. Kiedy użytkownik, który nosi urządzenie transmisyjne 220, ma życzenie połączyć się z systemem rozpoznawania mowy 230 umieszczonym w oddalonym systemie przetwarzania danych 310, na przykład automacie bankowym sterowanym kartami identyfikacyjnymi, zbliża się do oddalonego systemu przetwarzania danych 310 i wymawia rozkaz aktywacji głosowej (np. „KOMPUTER”, „ZAREJESTROWANIE W KOMPUTERZE”) do uruchamianego głosem mikrofonu 221 urządzenia transmisyjnego 220 (etap 418). Należy zaznaczyć, że „bezprzewodowy” oznacza, że system przetwarzania danych 310 jest bezprzewodowy w odniesieniu do urządzenia transmisyjnego 220. Uruchamiany głosem mikrofon 221 wykrywa rozkaz aktywacji głosowej zaś podsystem A/D 222 próbkuje i poddaje dyskretyzacji rozkaz aktywacji głosowej. Podsystem A/D 222 wysyła cyfrowy rozkaz aktywacji głosowej do układu rozpoznawania mowy 224.

Układ rozpoznawania mowy 224 może być w zasadzie dowolnego typu. Jeśli układ rozpoznawania mowy 224 rozpoznaje rozkaz aktywacji głosowej to wysyła sygnał wskazujący do procesora 228. W odpowiedzi, procesor 228 wysyła sygnał do jednostki transmisyjnej 229 w celu transmisji rozkazu aktywacji głosowej do jednostki odbiorczej 232 systemu rozpoznawania mowy 230 (etap 420). Jednostka transmisyjna 229 może być dowolnego typu

182 225 bezprzewodową jednostką transmisyjną, na przykład laserem, dioda, elektroluminescencyjną na podczerwień, jednakże korzystnie jednostka transmisyjna 229 jest nadajnikiem częstotliwości radiowej (RF). Procesor 228 wysyła sygnał krótkiej przerwy czasowej do pamięci RAM 226 by system rozpoznawania mowy 230 był w stanie gotowości.

System rozpoznawania mowy 230 zawiera jednostkę odbiorczą 232, układ dekompresji mowy 233 i następny układ rozpoznawania mowy 234 oraz jest umieszczony w dowolnej stacji roboczej, takiej jak stacja robocza 100. Jednostka odbiorcza 232 wysyła odebrany rozkaz aktywacji głosowej do układu dekompresji mowy 233, gdzie jest poddany dekompresji. Układ dekompresji mowy 233 wysyła rozkaz aktywacji głosowej do układu rozpoznawania mowy 234. Jeśli układ rozpoznawania mowy 234 rozpoznaje rozkaz aktywacji głosowej, jest on uaktywniony i oczekuje na odbiór krzywych prozodii i segmentów dyfonicznych z urządzenia transmisyjnego 220. Zatem, pojedynczy rozkaz aktywacji głosowej uruchamia urządzenie transmisyjne 220 i system rozpoznawania mowy 230. Dlatego, po krótkiej przerwie czasowej, procesor 228 steruje pamięcią RAM 226 w celu wysłania poprzez jednostkę transmisyjną 229 i jednostkę odbiorczą 232 krzywych prozodii i segmentów dyfonicznych do układu rozpoznawania mowy 234 (etap 424 i 426). Układ rozpoznawania mowy 234 wykorzystuje te krzywe prozodii i segmenty dyfoniczne do rozpoznawania głosu użytkownika. Użytkownik może teraz mówić bezpośrednio do systemu rozpoznawania mowy 230.

182 225

200

FIG. 2

FIG. 3

182 225

FIG. 4

182 225

SIEC

Departament Wydawnictw UP RP. Nakład 60 egz. Cena 2,00 zł.

Claims

Zastrzeżenia patentowe

1. Sposób komunikacji głosowej z oddalonym, uruchamianym głosowo systemem przetwarzania danych, który zawiera system rozpoznawania mowy, znamienny tym, że zapamiętuje się charakterystyki głosu użytkownika w pamięci (226) bezprzewodowego urządzenia transmisyjnego (220) oraz uruchamia się głosem bezprzewodowe urządzenie transmisyjne (220) i oddalony system rozpoznawania mowy (230) w odpowiedzi na rozkaz aktywacji głosowej, po czym transmituje się charakterystyki głosu z pamięci (226) do systemu rozpoznawania mowy (230) w odpowiedzi na uruchomienie bezprzewodowego urządzenia transmisyjnego (220) i systemu rozpoznawania mowy (230).
2. Sposób według zastrz. 1, znamienny tym, że w trakcie zapamiętywania charakterystyk głosu użytkownika zapisuje się próbki głosu użytkownika, poddaje się dyskretyzacji zapisane próbki głosu i tworzy się głos zdyskretyzowany, po czym wydziela się charakterystyki głosu z głosu zdyskretyzowanego wykorzystując analizator mowy i zapamiętuje się charakterystyki głosu w pamięci (226).
3. Sposób według zastrz. 1, znamienny tym, że w trakcie uruchamiania głosem bezprzewodowego urządzenia transmisyjnego (220) i oddalonego systemu rozpoznawania mowy (230), odbiera się przez bezprzewodowe urządzenie transmisyjne (220) rozkaz aktywacji głosowej od użytkownika i ustawia się w stan czuwania bezprzewodowe urządzenie transmisyjne (220), po czym transmituje się rozkaz aktywacji głosowej z bezprzewodowego urządzenia transmisyjnego (220) do systemu rozpoznawania mowy (230) dla ustawienia jego w stan czuwania.
4. Sposób według zastrz. 3, znamienny tym, że następnie wysyła się sygnał z procesora (228) w bezprzewodowym urządzeniu transmisyjnym (220) do pamięci (226).
5. Sposób według zastrz. 1, znamienny tym, że w trakcie transmitowania charakterystyk głosu wysyła się sygnał z procesora (228) do pamięci (226).
6. System komunikacji głosowej z oddalonym, uruchamianym głosowo systemem przetwarzania danych zawierającym system rozpoznawania mowy, znamienny tym, że zawiera bezprzewodowe urządzenie transmisyjne (220) z pamięcią (226) do zapamiętywania charakterystyk głosu użytkownika połączone zdalnie z systemem rozpoznawania mowy (230) aktywowanym w odpowiedzi na odebrany rozkaz aktywacji głosowej z bezprzewodowego urządzenia transmisyjnego (220), po czym bezprzewodowe urządzenie transmisyjne (220) jest dostosowane do transmitowania charakterystyk głosu z pamięci (226) do systemu rozpoznawania mowy (230), w odpowiedzi na uruchomienie systemu rozpoznawania mowy (230) i bezprzewodowego urządzenia transmisyjnego (220), dla słownej komunikacji użytkownika bezpośrednio z systemem rozpoznawania mowy (230).
7. System według zastrz. 6, znamienny tym, że zawiera układ wydzielania symboli głosowych dla generowania charakterystyk głosu z próbki głosu użytkownika.
8. System według zastrz. 6, znamienny tym, że bezprzewodowe urządzenie transmisyjne (220) zawiera mikrofon (221) odbierania rozkazu aktywacji głosowej dołączony do układu rozpoznawania mowy (224) dla rozpoznawania rozkazu aktywacji głosowej, który jest dołączany do jednostki transmisyjnej (229) przełączającej odebrany rozkaz aktywacji głosowej do systemu rozpoznawania mowy (230).
9. System według zastrz. 8, znamienny tym, że jednostka transmisyjna (229) zawiera nadajnik częstotliwości radiowej.

182 225
10. System według zastrz. 8, znamienny tym, że bezprzewodowe urządzenie transmisyjne (220) zawiera następnie procesor (228) sterujący pamięcią (226) i jednostką transmisyjną (229).

♦ ♦ ♦