TW567465B - Configurable distributed speech recognition system - Google Patents
Configurable distributed speech recognition system Download PDFInfo
- Publication number
- TW567465B TW567465B TW091119932A TW91119932A TW567465B TW 567465 B TW567465 B TW 567465B TW 091119932 A TW091119932 A TW 091119932A TW 91119932 A TW91119932 A TW 91119932A TW 567465 B TW567465 B TW 567465B
- Authority
- TW
- Taiwan
- Prior art keywords
- configurable
- speech recognition
- decentralized
- recognition
- voice
- Prior art date
Links
- 238000012545 processing Methods 0.000 claims description 19
- 238000004891 communication Methods 0.000 claims description 12
- 230000005540 biological transmission Effects 0.000 claims description 9
- 238000000034 method Methods 0.000 claims description 5
- 230000000694 effects Effects 0.000 claims description 4
- 230000008569 process Effects 0.000 claims description 3
- 238000010295 mobile communication Methods 0.000 claims description 2
- 239000005441 aurora Substances 0.000 description 4
- 238000010586 diagram Methods 0.000 description 4
- 238000000605 extraction Methods 0.000 description 4
- 230000004044 response Effects 0.000 description 4
- 230000009467 reduction Effects 0.000 description 3
- 230000006978 adaptation Effects 0.000 description 2
- 238000011161 development Methods 0.000 description 2
- 230000006870 function Effects 0.000 description 2
- 239000000463 material Substances 0.000 description 2
- 210000004258 portal system Anatomy 0.000 description 2
- 239000013598 vector Substances 0.000 description 2
- 241001494479 Pecora Species 0.000 description 1
- 230000000903 blocking effect Effects 0.000 description 1
- 238000013144 data compression Methods 0.000 description 1
- 230000007423 decrease Effects 0.000 description 1
- 230000007123 defense Effects 0.000 description 1
- 230000009982 effect on human Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/28—Constructional details of speech recognition systems
- G10L15/30—Distributed recognition, e.g. in client-server systems, for mobile phones or network applications
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Telephonic Communication Services (AREA)
Description
567465 五、發明說明α) 5 - 1發明領域: 本發明係關於辨認系統,特別一種關於語音辨認的可 配置分散型語音辨認系統。 5 - 2發明背景: 近年來,無線通訊產品的進步與發展無疑給予語音辨 認界一個前景。主要原因是攜帶式無線裝置(Wireless Μ〇b i 1 e D e v i c e,WM D)雖然體型小機動性高,但是使用者 的輸入方式及輸入速度卻受到限制。因此有其迫切需要去 使用語音辨認技術。然而實現一個符合一般消費大眾期望 的語音辨認器,除了需要強大的計算能力及記憶體資源外 ,還牽涉各種聲學、語音、文法等資料庫,才可能達成。 因此將整個語音辨認器裝置在一個攜帶式無線裝置上,是 不切實際的做法。 針對上述問題,許多國際的語音辨認研究單位及無線 通訊產品製造廠紛紛提出所謂的主從架構(861^61"-C 1 i ent),將辨認處理所需要的資源分散在伺服器端 (Server side)及客戶端(Client side)。其中最具規 模的是歐洲電信標準學會(ETSI,European Telecommunications Standards Institute) Aurora計畫丨J 提出的n分散式語音辨認n ( D i s t r i b u t e d S p e e c h
第5頁 567465 五、發明說明(2)
Recognition’ DSR)架構,第一圖為一習知的Aur〇ra分 散式語音辨認架構。 然而,分散式浯音辨認主要的發展目標是解決手機 (mobile phone)在語音入口 ( V〇ice p〇rtal)系統上的 低辨識率問題,但是對於一般的無線通訊裝置及其他語音 辨認應用並沒有定義。因此無法用來解決所有無線通訊產 品的語音辨認問題。目前使用手機向v〇ice p〇rtal系統要 求服務時,常會因語音傳輸的錯誤而造成辨認率下降,主 要原因是手機傳送的語音編碼是專為人類聽覺設計,傳 輸le成的少Ϊ錯疾對人類影響很小,但對語音辨認器卻會 造成極大傷害。 而為解決上述問題,Aurora拾棄原本利用speech channel (語音通道)傳送語音編碼的方式,改採用err〇r protected data channel (錯誤保護資料通道)傳輸適合 辨識的語音參數’並將計算分散在手機(c丨丨ent)及 Voice P〇rtal( Server)兩端。主要著眼於,既要能使用 Server上的資源’又希望傳輸上的err〇r^^語音辨認的傷 害降至越低越好。 » 基本上’ Aurora分散式語音辨認基本架構將辨認器一 分為二’ C 1 1 e n t端作抗噪音處理及抽取特徵,再將特徵壓 縮’封包後利用error protected data channel傳送至
第6頁 567465
五、發明說明(3) erver端° Server端將妆 如第一圖所示的Aurora分散到十封包後解壓再送入辨認器。 前端處理100及後端處理1〇4式語音辨認架構,#中可分為 ^ ^ ^ υ 4 ° W端處理1 0 0於手機上完成
Cl ient端必需的運算處理,士热乂 σ Λ ^ Χ 、1Λη ^ 主要為抗噪音處理(noise reduction) I00a及擷取特徵處理( extraction) lOOf。經由前端處理ι〇〇所產生的資料經過 傳輸協定I 0 2,傳送至後端處理丨〇 4。後端處理I 〇 4則由伺 服器端的一祠服器處理’主要是經由獨立語音辨識器1〇4ε 進行辨識後’再完成其目的處置作業l〇4e。其中,音素參
數模組I04b、字句模組I04c、文法模組i〇4d,則用以提供 獨立語音辨識裔I 〇 4 a於辨識時所需的資料。 然而,絕大部份的無線通訊行動裝置(Wireless Mobile Device)並沒有足夠的能力去完成於client端的 運算,所以A u r 〇 r a分散式語音辨認架構並不適用於一般 無線通訊行動裝置。 因此一種能夠適用於一般無線通訊行動裝置的分散式 語音辨認架構是需要的。並且可根據使用環境及行動通訊 裝置做最佳的運算配置,而不先預設語音辨認系統 client — server的 δ己置 ° 5 - 3發明目的及概述:
第7頁 567465 五、發明說明(4) 鑒於上述之發明背景中,傳統的語音辨認系統所產生 之諸多缺點,本發明提供一種可配置分散型語音辨認系統 ,用以克服傳統上所衍生的問題。 本發明之主要目的為適用於各種的行動裝置,而不是 侷限於行動電話。 本發明之另一目的為適用於各種的無線網路,而不侷 限於大型電信網路。 本發明之另一目的為易於切換各種語音辨認服務。 本發明之另一目的為可配置分散型語音辨認系統可對 辨認資料自動作收集和分類。 本發明之另一目的為可針對辨認率、傳輸的頻寬及伺 服器端的負載,進行系統配置的最佳化。 本發明之另一目的為本發明之可配置分散型語音辨認 系統可對辨認結果自動進行分類。 根據以上所述之目的,本發明提供一種可配置分散型 語音辨認系統,且可應用於各種行動裝置及各種應用層 面,而且提供一整合的平台。本發明亦可根據客戶端
第8頁 567465 五、發明說明(5) (c 1 i ent)裝置的計算、記憶、通訊能力,配置出適合該 裝置的最佳化辨認。 本發明之一種可配置分散型語音辨認系統,包含:可 配置分散型語音辨認協定及可配置分散型語音辨認伺服器 。其中’可配置分散型语音辨#忍協定用以規定客戶端語音 行動裝置的語音資料及配置資料的傳送袼式,以形成一 ^ 息封包,而可配置分散型語音辨認伺服器,則用以接收來 自客戶端语音行動裝置的信息封包’並根據配置資料進行 5吾音辨5忍參數的調整’並將語音辨〗忍後的結果傳回該客戶 端語音行動裝置。
其中,可配置分散型語音辨認伺服器包含解析器、配 置控制器、可配置分散型語音辨認引擎、歷史日諸、診斷 工具組及可配置對話系統。解析器,用以解析並取得信息 封包中的配置資料及語音資料。配置控制器,用以根據配 置資料產生辨認調整參數。可配置分散型語音辨認引擎, 用以辨識由該解析器傳來的該語音資料’並接受該配置控 制器的配置。歷史日誌用以紀錄伺服器所產生的結果資料 。診斷工具組可根據歷史日誌中的資料產生診斷參數,以 調校可配置分散型語音辨認引擎。可配置對話系統根據辨 認引擎的辨認結果,分析產生於對話中可能出現的字彙組 ,提供辨認引擎於下次辨認時增進辨識率及辨識速度。
第9頁 567465 五、發明說明(6) ----~η 5 - 4發明詳細說明: 本發明的較佳貫施例會詳細描述如下。然而,除了 ▲羊 細描述外’本發明還可以廣泛地施行在其他的實施例中, 且本發明的範圍不受限定,其以之後的專利範圍為準。 本發明之一種可配置分散型語音辨認系統,包含··可 配置分散型語音辨認協定及可配置分散型語音辨認飼服器 。其中,可配置分散型語音辨認協定用以規定客戶端言五; 行動裝置的语音賓料及配置資料的傳送格式,以形成一作 息封包,而可配置分散型語音辨認伺服器,則用以接收^ ^ 自客戶端6吾θ彳亍動装置的彳5息封包’並根據配置資料進行 語音辨認參數的調整,並將語音辨認後的結果傳回該客戶 端語音行動裝置。 其中,可配置分散型語音辨認伺服器包含解析器、配 置控制器、可配置分散型語音辨認引擎、歷史日誌、診斷 工具組及可配置對話系統。解析器,用以解析並取得信息 対包中的配置資料及語音資料。配置控制器,用以根據配 置資料產生辨認調整參數。可配置分散型語音辨認引擎, 用以辨識由該解析器傳來的該語音資料,並接受該配置控 > 制器的配置。歷史日誌用以紀錄伺服器所產生的結果資料 。診斷工具組可根據歷史日諸中的資料產生診斷參數,以 調校玎配置/刀散型語音辨認引擎。可配置對話系統根據辨
第10頁 567465 五、發明說明(7) 認引擎的辨認結果,分析產生於對話中可能出現的字彙組 ,提供辨認引擎於下次辨認時增進辨識率及辨識速度。 第二圖用以說明本發明之可配置分散型語音辨認系統 的較佳實施系統架構圖,其中C-DSR Server 200 (Configurable Distributed Speech Recognition S e r v e r,可配置分散型語音辨認伺服器),用以處理經由 C-DSR Protocol 214( configurable distributed speech recognition protocol,可西己置分散型語音劳辛1:¾ 協定)傳送的資料。
C-DSR Protocol 214負責將Client端的資訊以一符合 C-DSR Protocol 214規格的信息(message)封包傳送至 C-DSR Server。信息封包中包含配置資料 (configuration data)及語音資料(speech data)等 資訊。其中配置資料如S p e a k e r P r 〇 f i 1 e (說話者基本資 料)、Acoustic Environment(聲音環境)、Channel Effects(通道效應)、Device Specification(裝置規
格)以及 S e r v i c e T y p e (服務類別)。然而,如果因為 某些限制因素,以致於無法提供信息所要求的完整資訊内 容,C-DSR Protocol 21 4亦允許Client端只提供部分資 訊。C-DSR Protocol 21 4可將未處理的語音資料(Speech raw data)或是經處理或格式化過的特徵向量 (processed /formatted feature vectors)傳送至 C~DSR
567465 五、發明說明(8)
Server2 0 0進行語音辨認處理。 上述的C-DSR Server 200中至少包含:解析器202 (Parser),配置控制器 2 04 ( Configuration Controller204),可配置對話系統 206( Configurable Dialog System, CDS ),歷史日誌 208( History Log, HL),診斷工具組 210( Diagnostic Tool Sets, DTS)及 C-DSR引擎 212( C-DSR Engine, C-DSRE),其中:
Parser 2 0 2解析取得經由C-DSR Protocol 214傳送到 C-DSR Server 2 0 0的信息(message)封包,然後將信息 中所包含的配置資料送至配置控制器2 0 4。配置控制器2 0 4 收配置資料後,如果其中包含的配置資訊不完整,則由配 置控制器2 04配置成完整的配置資料後,才交給c-DSR引擎 2 1 2處理。這樣做的原因是,雖然C 1 i e n t有完全操控C - D S R 引擎2 1 2的能力,但是在很多情況下,c 1 i ent並不想去逐 一設定配置資料中所有的搁位(K e y - w 〇 r d)。比如說,
Cl i ent可以只設定一部份攔位值,其餘的配置控制器204 會依據已知的訊息填入適當的值。配置控制器2 0 4還有另 一功能,它可根據目前系統及通訊的狀況,做為設定欄位 值的參考依據,達成在通訊傳輸速度及辨識率要求的平衡 與最佳化之目的。 接下來,將語音資料送至C - D S R引擎2 1 2進行語音辨
第12頁 567465 五、發明說明(10) 診斷工具組2 1 0負責使用歷史日誌2 0 8中的資料製作冷 斷報告(Diagnostic Reports),這些報告是將歷史日^ 加以運算而得一些〇081?引擎212所需的調整參數。對(:一^ 0 3防丨擎212做調整,其目的是確保(:-08旧丨擎212是一個高 效率的引擎。所謂高效率,指的是這引擎在提昇辨識率5 同時’亦兼顧記憶體與計算量(Computation Cost)的需 求。這疋C-DSR弓丨擎21 2的特徵之一是將Memory、CPU Power、傳輸頻寬(Transmission Bandwidth)以及辨認 率之間做最佳化的平衡。 在本發明中,C-DSR引擎21 2是一個通則化 (g e n e r a 1 i z e d)的辨識引擎,且倶備適應性 (Adaptation)的功能。可以根據使用者的指令,調適語 者資料、裝置參數等。適應性的能力則需要收集 Adaptation Data,因此C-DSR引擎21 2每次所輸入的參數 配置及其對應的辨認結果,都會被自動分類且整理存放在 一資料庫(即歷史日誌2 0 8)中。C-DSR引擎21 2將辨認結 果回覆給客戶端透過C-DSR Protocol 214;同時也將結果 複製給歷史日誌2 0 8。 C-DSR引擎21 2是被配置控制器2 0 4所配置來處理下列 狀況: 各種不同的說話者基本資料(Speaker Profiles),
第14頁 567465 五、發明說明(11) 像是姓名/性別/年齡/腔調,(:-〇81?引擎212可以使用不同 的參數設疋调整敢適合的聲音模型,而這些資料部分由診 斷工具組2 1 0所取得。 各種不同的聲音環境(Acoustic Environment) /通 道效應(Channel Effects),像辦公室/家中/街道/車上 等,而這些資料部分亦由診斷工具組2 1 〇所取得。或是各 種不同的服務類型(Service Types)。 第三圖用以說明一客戶端(Client)的資料處理步 驟。首先為配置設定3 0 0,其中此配置設定的資料可分別 來自使用者部分及客戶端裝置部分。接下來為語音資料的 輪入3 0 2,然後經由噪音抑制3〇4 ( noise reduction), 特徵擷取306( feature extraction)及語音/資料壓縮 3 0 8等處理,其中步驟3 〇 4,步驟3 〇 6,步驟3 〇 8可依客戶端 裂置的不同而省略。 然後將語音資料及配置資料編碼,成為一信息封包 3 1 0 ’並傳送至可配置分散型語音辨認伺服器3丨2。接下來 等待可配置分散型語音辨認伺服器的回應3 1 4,然後解碼 (decode)所接收到的回應封包,並擷取回應之結果 316〇 567465 五、發明說明(12) 認系統,且可應用於各種行動裝置及各種應用層面,而且 提供一整合的平台。本發明亦可根據客戶端(c 1 i e n t)裝 置的計算、記憶、通訊能力,配置出適合該裝置的最佳化 辨認。 以上所述僅為本發明之較佳實施例而已,並非用以限 定本發明之申請專利範圍;凡其它未脫離本發明所揭示之 精神下所完成之等效改變或修飾,均應包含在下述之申請 專利範圍内。
第16頁 567465 圖式簡單說明 第一圖為一習知的Aurora D SR基本架構。 第二圖用以說明本發明之可配置分散型語音辨認系統 的較佳實施系統架構。 第三圖用以說明一客戶端的資料處理步驟。 主要部分之代表符號: 1 0 0前端處理 1 0 0 a抗噪音處理 1 0 0 b擷取特徵處理 10 2資料通道 1 0 4後端處理 1 0 4 a非特定語者語音辨識器 104b音素模型 104c字句模型 104d文法模型 104e處置作業 2 0 0可配置分散型語音辨認伺服器 2 0 2解析器 2 0 4配置控制器 2 0 6可配置對話系統 2 0 8歷史日諸 2 1 0診斷工具組
第17頁 567465 圖式簡單說明 2 1 2可配置分散型語音辨認引擎 2 1 4可配置分散型語音辨認協定 3 0 0〜3 1 8步驟流程方塊 第18頁
Claims (1)
- 567465 六、申請專利範圍 1 · 一種可配置分散型語音辨認系統,包含: 一可配置分散型語音辨認協定,用以規定一客戶端裝 置的語音資料及配置資料的傳送袼式,以形成一信息 (message)封包;及 可配置分散型語音辨認伺服器,用以接收來自該客 戶端裝置的該信息封包,該可配置分散型語音辨認伺服器 根據忒配置資料進行語音辨認參數的調整,並將語音辨認 處理後所產生的結果傳回該客戶端裝置。 2 ·如申請專利範圍第丨項所述之可配置分散型語音辨認系 統,其中上述之客戶端裝置為一行動通訊裝置。 =·如申請專利範圍第丨項所述之可配置分散型語音辨認系 —其中上述之可配置分散型語音辨認伺服器包含: 析為,用以解析該信息封包,以取得該配置資及該 音資料; 次制—配置控制器,用以處理該配置資料,並根據該配置 =二產生一辨認調整參數,該辨認調整參數用以於該可配 二放型,音辨認系統於進行語音辨認時,根據該客戶端 ^的計异、記憶、通訊能力及頻寬配置該可配置分 曰辨認伺服器的資源; 可配置分散型語音辨認引擎,用以辨識由該解 來的該語音資料,並接受該配置控制器的配置;° 一歷史日誌’用以紀錄該分散型語音辨認伺服器中所第19頁 567465 六、申請專利範圍 產生的歷史資料;及 一診斷工具組,根據該歷史資料產生一診斷參數用以 調校該可配置分散型語音辨認引擎。 4. 如申請專利範圍第1項所述之可配置分散型語音辨認系 統,其中上述之分散型語音辨認伺服器更包含一可配置對 話系統,該可配置對話系統根據該可配置分散型語音辨認 引擎的辨認結果,分析產生於一對話中可能出現的字彙 組,並供該可配置分散型語音辨認引擎於下次辨認時使 用,以增進辨識率及辨識速度。 # 5. 如申請專利範圍第4項所述之可配置分散型語音辨認系 統,其中上述之歷史日誌用以紀錄該配置控制器、該分散 型語音辨認引擎以及該可配置對話系統所產生的結果。 6. 如申請專利範圍第1項所述之可配置分散型語音辨認系 統,其中上述之配置資料,係選自於由一說話者聲音輪 廓、聲音環境、通道效應、該客戶端裝置規格以及服務類 別所組成的族群的一種配置資料。 7. —種可配置分散型語音辨認伺服器,包含: 一解析器,用以接收並解析一信息封包,以取得該信 息封包中所包含的一配置資料及一語音資料; 一配置控制器,用以處理該配置資料,並根據該配置第20頁 567465 六、申請專利範圍 資料產生一辨認調整參數,該辨認調整參數用以於該可配 置分散型語音辨認系統於進行語音辨認時,根據該客戶端 裝置的計算、記憶、通訊能力及頻寬配置該可配置分散型 語音辨認伺服器的資源;及 一可配置分散型語音辨認引擎,用以辨識由該解析器 傳來的該語音資料,並接受該配置控制器的配置。 8. 如申請專利範圍第7項所述之可配置分散型語音辨認伺 服器,更包含一歷史日誌,用以紀錄該分散型語音辨認伺 服器中所產生的歷史資料。 9. 如申請專利範圍第8項所述之可配置分散型語音辨認伺 服器,更包含一診斷工具組,根據該歷史資料產生一診斷 參數用以調校該可配置分散型語音辨認引擎。 1 0.如申請專利範圍第7項所述之可配置分散型語音辨認 伺服器,更包含一可配置對話系統,該可配置對話系統根 據該可配置分散型語音辨認引擎的辨認結果,分析產生於 一對話中可能出現的字彙組,並供該可配置分散型語音辨 認引擎於下次辨認時使用,以增進辨識率及辨識速度。 11.如申請專利範圍第7項所述之可配置分散型語音辨認 伺服器,其中上述之信息封包係由一語音行動裝置所傳送 出。第21頁 567465 六、申請專利範圍 1 2.如申請專利範圍第1 1項所述之可配置分散型語音辨認 伺服器,其中上述之配置資料,係選自於由一說話者聲音 輪廓、聲音環境、通道效應、該語音行動裝置規格以及服 務類別所組成的族群的一種配置資料。第22頁
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
TW091119932A TW567465B (en) | 2002-09-02 | 2002-09-02 | Configurable distributed speech recognition system |
US10/338,547 US7302390B2 (en) | 2002-09-02 | 2003-01-08 | Configurable distributed speech recognition system |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
TW091119932A TW567465B (en) | 2002-09-02 | 2002-09-02 | Configurable distributed speech recognition system |
Publications (1)
Publication Number | Publication Date |
---|---|
TW567465B true TW567465B (en) | 2003-12-21 |
Family
ID=31974918
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
TW091119932A TW567465B (en) | 2002-09-02 | 2002-09-02 | Configurable distributed speech recognition system |
Country Status (2)
Country | Link |
---|---|
US (1) | US7302390B2 (zh) |
TW (1) | TW567465B (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US9330668B2 (en) | 2005-12-20 | 2016-05-03 | International Business Machines Corporation | Sharing voice application processing via markup |
Families Citing this family (24)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
FR2853127A1 (fr) * | 2003-03-25 | 2004-10-01 | France Telecom | Systeme de reconnaissance de parole distribuee |
US8024194B2 (en) * | 2004-12-08 | 2011-09-20 | Nuance Communications, Inc. | Dynamic switching between local and remote speech rendering |
US8706501B2 (en) * | 2004-12-09 | 2014-04-22 | Nuance Communications, Inc. | Method and system for sharing speech processing resources over a communication network |
US7406053B2 (en) * | 2004-12-13 | 2008-07-29 | Hewlett-Packard Development Company, L.P. | Methods and systems for controlling the number of computations involved in computing the allocation of resources given resource constraints |
US7853453B2 (en) * | 2005-06-30 | 2010-12-14 | Microsoft Corporation | Analyzing dialog between a user and an interactive application |
US7873523B2 (en) * | 2005-06-30 | 2011-01-18 | Microsoft Corporation | Computer implemented method of analyzing recognition results between a user and an interactive application utilizing inferred values instead of transcribed speech |
US20070006082A1 (en) * | 2005-06-30 | 2007-01-04 | Microsoft Corporation | Speech application instrumentation and logging |
US9208785B2 (en) * | 2006-05-10 | 2015-12-08 | Nuance Communications, Inc. | Synchronizing distributed speech recognition |
US20080208594A1 (en) * | 2007-02-27 | 2008-08-28 | Cross Charles W | Effecting Functions On A Multimodal Telephony Device |
US8886540B2 (en) | 2007-03-07 | 2014-11-11 | Vlingo Corporation | Using speech recognition results based on an unstructured language model in a mobile communication facility application |
US8949130B2 (en) | 2007-03-07 | 2015-02-03 | Vlingo Corporation | Internal and external speech recognition use with a mobile communication facility |
US8838457B2 (en) | 2007-03-07 | 2014-09-16 | Vlingo Corporation | Using results of unstructured language model based speech recognition to control a system-level function of a mobile communications facility |
US8635243B2 (en) | 2007-03-07 | 2014-01-21 | Research In Motion Limited | Sending a communications header with voice recording to send metadata for use in speech recognition, formatting, and search mobile search application |
US20080221884A1 (en) | 2007-03-07 | 2008-09-11 | Cerra Joseph P | Mobile environment speech processing facility |
US10056077B2 (en) | 2007-03-07 | 2018-08-21 | Nuance Communications, Inc. | Using speech recognition results based on an unstructured language model with a music system |
US8949266B2 (en) | 2007-03-07 | 2015-02-03 | Vlingo Corporation | Multiple web-based content category searching in mobile search application |
US8886545B2 (en) | 2007-03-07 | 2014-11-11 | Vlingo Corporation | Dealing with switch latency in speech recognition |
US20090018826A1 (en) * | 2007-07-13 | 2009-01-15 | Berlin Andrew A | Methods, Systems and Devices for Speech Transduction |
US8694310B2 (en) * | 2007-09-17 | 2014-04-08 | Qnx Software Systems Limited | Remote control server protocol system |
US9002713B2 (en) * | 2009-06-09 | 2015-04-07 | At&T Intellectual Property I, L.P. | System and method for speech personalization by need |
US8370142B2 (en) | 2009-10-30 | 2013-02-05 | Zipdx, Llc | Real-time transcription of conference calls |
US20110166862A1 (en) * | 2010-01-04 | 2011-07-07 | Eyal Eshed | System and method for variable automated response to remote verbal input at a mobile device |
US10671428B2 (en) * | 2015-09-08 | 2020-06-02 | Apple Inc. | Distributed personal assistant |
TWI718513B (zh) * | 2019-03-29 | 2021-02-11 | 群光電子股份有限公司 | 電子裝置與語音辨識切換方法 |
Family Cites Families (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2001095312A1 (en) * | 2000-06-08 | 2001-12-13 | Nokia Corporation | Method and system for adaptive distributed speech recognition |
US7024359B2 (en) * | 2001-01-31 | 2006-04-04 | Qualcomm Incorporated | Distributed voice recognition system using acoustic feature vector modification |
US6801604B2 (en) * | 2001-06-25 | 2004-10-05 | International Business Machines Corporation | Universal IP-based and scalable architectures across conversational applications using web services for speech and audio processing resources |
US6941265B2 (en) * | 2001-12-14 | 2005-09-06 | Qualcomm Inc | Voice recognition system method and apparatus |
US7062444B2 (en) * | 2002-01-24 | 2006-06-13 | Intel Corporation | Architecture for DSR client and server development platform |
-
2002
- 2002-09-02 TW TW091119932A patent/TW567465B/zh not_active IP Right Cessation
-
2003
- 2003-01-08 US US10/338,547 patent/US7302390B2/en active Active
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US9330668B2 (en) | 2005-12-20 | 2016-05-03 | International Business Machines Corporation | Sharing voice application processing via markup |
Also Published As
Publication number | Publication date |
---|---|
US20040044522A1 (en) | 2004-03-04 |
US7302390B2 (en) | 2007-11-27 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
TW567465B (en) | Configurable distributed speech recognition system | |
JP6728456B2 (ja) | 複数のメディア処理ノードによる適応処理 | |
US6785647B2 (en) | Speech recognition system with network accessible speech processing resources | |
JP3728177B2 (ja) | 音声処理システム、装置、方法及び記憶媒体 | |
US9099090B2 (en) | Timely speech recognition | |
US20120014568A1 (en) | Speech Recognition, and Related Systems | |
US20090234635A1 (en) | Voice Entry Controller operative with one or more Translation Resources | |
US20020194000A1 (en) | Selection of a best speech recognizer from multiple speech recognizers using performance prediction | |
MXPA02002811A (es) | Sistema y metodo para transmitir entrada de voz desde un sitio remoto sobre un canal. | |
EP2304722B1 (en) | Method and apparatus for fast nearest-neighbor search for vector quantizers | |
CN1524388A (zh) | 经由蓝牙汽车配件的在线音乐数据提供系统 | |
TW200401532A (en) | Distributed voice recognition system utilizing multistream network feature processing | |
US7769583B2 (en) | Quantizing feature vectors in decision-making applications | |
CN106713111A (zh) | 一种添加好友的处理方法、终端及服务器 | |
US7478046B2 (en) | Server-client type speech recognition apparatus and method | |
CN112669821A (zh) | 一种语音意图识别方法、装置、设备及存储介质 | |
US20200005792A1 (en) | Novel and innovative means of providing an anonymized and secure mechanism for speech-to-text conversion. This invention provides a versatile and extensible privacy layer that leverages existing cloud-based Automated Speech Recognition (ASR) services and can accommodate emerging speech-to-text technologies, such as Natural Language Processing (NLP), voice bots and other voice-based artificial intelligence interfaces. This invention also allows the latest and best-of-breed speech technologies to be applied to the legal, medical, financial, and other privacy-sensitive fields without sacrificing | |
CN115943689A (zh) | 噪声环境中的话音或语音识别 | |
EP2226995A1 (en) | Voice mixing device and method, and multipoint conference server | |
CN112883178B (zh) | 对话方法、装置、服务器及存储介质 | |
US6980957B1 (en) | Audio transmission system with reduced bandwidth consumption | |
EP1229518A1 (en) | Speech recognition system, and terminal, and system unit, and method | |
JPH08179800A (ja) | 音声符号化装置 | |
JP2005055606A (ja) | サーバ、情報処理端末、音声認識システム | |
KR20170044409A (ko) | 다자간 대화 시스템 및 방법 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
GD4A | Issue of patent certificate for granted invention patent | ||
MK4A | Expiration of patent term of an invention patent |