TW567465B - Configurable distributed speech recognition system - Google Patents

Configurable distributed speech recognition system Download PDF

Info

Publication number
TW567465B
TW567465B TW091119932A TW91119932A TW567465B TW 567465 B TW567465 B TW 567465B TW 091119932 A TW091119932 A TW 091119932A TW 91119932 A TW91119932 A TW 91119932A TW 567465 B TW567465 B TW 567465B
Authority
TW
Taiwan
Prior art keywords
configurable
speech recognition
decentralized
recognition
voice
Prior art date
Application number
TW091119932A
Other languages
English (en)
Inventor
Yin-Pin Yang
Po-Cheng Chen
Chien-Chieh Wang
Original Assignee
Ind Tech Res Inst
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ind Tech Res Inst filed Critical Ind Tech Res Inst
Priority to TW091119932A priority Critical patent/TW567465B/zh
Priority to US10/338,547 priority patent/US7302390B2/en
Application granted granted Critical
Publication of TW567465B publication Critical patent/TW567465B/zh

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/28Constructional details of speech recognition systems
    • G10L15/30Distributed recognition, e.g. in client-server systems, for mobile phones or network applications

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Telephonic Communication Services (AREA)

Description

567465 五、發明說明α) 5 - 1發明領域: 本發明係關於辨認系統,特別一種關於語音辨認的可 配置分散型語音辨認系統。 5 - 2發明背景: 近年來,無線通訊產品的進步與發展無疑給予語音辨 認界一個前景。主要原因是攜帶式無線裝置(Wireless Μ〇b i 1 e D e v i c e,WM D)雖然體型小機動性高,但是使用者 的輸入方式及輸入速度卻受到限制。因此有其迫切需要去 使用語音辨認技術。然而實現一個符合一般消費大眾期望 的語音辨認器,除了需要強大的計算能力及記憶體資源外 ,還牽涉各種聲學、語音、文法等資料庫,才可能達成。 因此將整個語音辨認器裝置在一個攜帶式無線裝置上,是 不切實際的做法。 針對上述問題,許多國際的語音辨認研究單位及無線 通訊產品製造廠紛紛提出所謂的主從架構(861^61"-C 1 i ent),將辨認處理所需要的資源分散在伺服器端 (Server side)及客戶端(Client side)。其中最具規 模的是歐洲電信標準學會(ETSI,European Telecommunications Standards Institute) Aurora計畫丨J 提出的n分散式語音辨認n ( D i s t r i b u t e d S p e e c h
第5頁 567465 五、發明說明(2)
Recognition’ DSR)架構,第一圖為一習知的Aur〇ra分 散式語音辨認架構。 然而,分散式浯音辨認主要的發展目標是解決手機 (mobile phone)在語音入口 ( V〇ice p〇rtal)系統上的 低辨識率問題,但是對於一般的無線通訊裝置及其他語音 辨認應用並沒有定義。因此無法用來解決所有無線通訊產 品的語音辨認問題。目前使用手機向v〇ice p〇rtal系統要 求服務時,常會因語音傳輸的錯誤而造成辨認率下降,主 要原因是手機傳送的語音編碼是專為人類聽覺設計,傳 輸le成的少Ϊ錯疾對人類影響很小,但對語音辨認器卻會 造成極大傷害。 而為解決上述問題,Aurora拾棄原本利用speech channel (語音通道)傳送語音編碼的方式,改採用err〇r protected data channel (錯誤保護資料通道)傳輸適合 辨識的語音參數’並將計算分散在手機(c丨丨ent)及 Voice P〇rtal( Server)兩端。主要著眼於,既要能使用 Server上的資源’又希望傳輸上的err〇r^^語音辨認的傷 害降至越低越好。 » 基本上’ Aurora分散式語音辨認基本架構將辨認器一 分為二’ C 1 1 e n t端作抗噪音處理及抽取特徵,再將特徵壓 縮’封包後利用error protected data channel傳送至
第6頁 567465
五、發明說明(3) erver端° Server端將妆 如第一圖所示的Aurora分散到十封包後解壓再送入辨認器。 前端處理100及後端處理1〇4式語音辨認架構,#中可分為 ^ ^ ^ υ 4 ° W端處理1 0 0於手機上完成
Cl ient端必需的運算處理,士热乂 σ Λ ^ Χ 、1Λη ^ 主要為抗噪音處理(noise reduction) I00a及擷取特徵處理( extraction) lOOf。經由前端處理ι〇〇所產生的資料經過 傳輸協定I 0 2,傳送至後端處理丨〇 4。後端處理I 〇 4則由伺 服器端的一祠服器處理’主要是經由獨立語音辨識器1〇4ε 進行辨識後’再完成其目的處置作業l〇4e。其中,音素參
數模組I04b、字句模組I04c、文法模組i〇4d,則用以提供 獨立語音辨識裔I 〇 4 a於辨識時所需的資料。 然而,絕大部份的無線通訊行動裝置(Wireless Mobile Device)並沒有足夠的能力去完成於client端的 運算,所以A u r 〇 r a分散式語音辨認架構並不適用於一般 無線通訊行動裝置。 因此一種能夠適用於一般無線通訊行動裝置的分散式 語音辨認架構是需要的。並且可根據使用環境及行動通訊 裝置做最佳的運算配置,而不先預設語音辨認系統 client — server的 δ己置 ° 5 - 3發明目的及概述:
第7頁 567465 五、發明說明(4) 鑒於上述之發明背景中,傳統的語音辨認系統所產生 之諸多缺點,本發明提供一種可配置分散型語音辨認系統 ,用以克服傳統上所衍生的問題。 本發明之主要目的為適用於各種的行動裝置,而不是 侷限於行動電話。 本發明之另一目的為適用於各種的無線網路,而不侷 限於大型電信網路。 本發明之另一目的為易於切換各種語音辨認服務。 本發明之另一目的為可配置分散型語音辨認系統可對 辨認資料自動作收集和分類。 本發明之另一目的為可針對辨認率、傳輸的頻寬及伺 服器端的負載,進行系統配置的最佳化。 本發明之另一目的為本發明之可配置分散型語音辨認 系統可對辨認結果自動進行分類。 根據以上所述之目的,本發明提供一種可配置分散型 語音辨認系統,且可應用於各種行動裝置及各種應用層 面,而且提供一整合的平台。本發明亦可根據客戶端
第8頁 567465 五、發明說明(5) (c 1 i ent)裝置的計算、記憶、通訊能力,配置出適合該 裝置的最佳化辨認。 本發明之一種可配置分散型語音辨認系統,包含:可 配置分散型語音辨認協定及可配置分散型語音辨認伺服器 。其中’可配置分散型语音辨#忍協定用以規定客戶端語音 行動裝置的語音資料及配置資料的傳送袼式,以形成一 ^ 息封包,而可配置分散型語音辨認伺服器,則用以接收來 自客戶端语音行動裝置的信息封包’並根據配置資料進行 5吾音辨5忍參數的調整’並將語音辨〗忍後的結果傳回該客戶 端語音行動裝置。
其中,可配置分散型語音辨認伺服器包含解析器、配 置控制器、可配置分散型語音辨認引擎、歷史日諸、診斷 工具組及可配置對話系統。解析器,用以解析並取得信息 封包中的配置資料及語音資料。配置控制器,用以根據配 置資料產生辨認調整參數。可配置分散型語音辨認引擎, 用以辨識由該解析器傳來的該語音資料’並接受該配置控 制器的配置。歷史日誌用以紀錄伺服器所產生的結果資料 。診斷工具組可根據歷史日誌中的資料產生診斷參數,以 調校可配置分散型語音辨認引擎。可配置對話系統根據辨 認引擎的辨認結果,分析產生於對話中可能出現的字彙組 ,提供辨認引擎於下次辨認時增進辨識率及辨識速度。
第9頁 567465 五、發明說明(6) ----~η 5 - 4發明詳細說明: 本發明的較佳貫施例會詳細描述如下。然而,除了 ▲羊 細描述外’本發明還可以廣泛地施行在其他的實施例中, 且本發明的範圍不受限定,其以之後的專利範圍為準。 本發明之一種可配置分散型語音辨認系統,包含··可 配置分散型語音辨認協定及可配置分散型語音辨認飼服器 。其中,可配置分散型語音辨認協定用以規定客戶端言五; 行動裝置的语音賓料及配置資料的傳送格式,以形成一作 息封包,而可配置分散型語音辨認伺服器,則用以接收^ ^ 自客戶端6吾θ彳亍動装置的彳5息封包’並根據配置資料進行 語音辨認參數的調整,並將語音辨認後的結果傳回該客戶 端語音行動裝置。 其中,可配置分散型語音辨認伺服器包含解析器、配 置控制器、可配置分散型語音辨認引擎、歷史日誌、診斷 工具組及可配置對話系統。解析器,用以解析並取得信息 対包中的配置資料及語音資料。配置控制器,用以根據配 置資料產生辨認調整參數。可配置分散型語音辨認引擎, 用以辨識由該解析器傳來的該語音資料,並接受該配置控 > 制器的配置。歷史日誌用以紀錄伺服器所產生的結果資料 。診斷工具組可根據歷史日諸中的資料產生診斷參數,以 調校玎配置/刀散型語音辨認引擎。可配置對話系統根據辨
第10頁 567465 五、發明說明(7) 認引擎的辨認結果,分析產生於對話中可能出現的字彙組 ,提供辨認引擎於下次辨認時增進辨識率及辨識速度。 第二圖用以說明本發明之可配置分散型語音辨認系統 的較佳實施系統架構圖,其中C-DSR Server 200 (Configurable Distributed Speech Recognition S e r v e r,可配置分散型語音辨認伺服器),用以處理經由 C-DSR Protocol 214( configurable distributed speech recognition protocol,可西己置分散型語音劳辛1:¾ 協定)傳送的資料。
C-DSR Protocol 214負責將Client端的資訊以一符合 C-DSR Protocol 214規格的信息(message)封包傳送至 C-DSR Server。信息封包中包含配置資料 (configuration data)及語音資料(speech data)等 資訊。其中配置資料如S p e a k e r P r 〇 f i 1 e (說話者基本資 料)、Acoustic Environment(聲音環境)、Channel Effects(通道效應)、Device Specification(裝置規
格)以及 S e r v i c e T y p e (服務類別)。然而,如果因為 某些限制因素,以致於無法提供信息所要求的完整資訊内 容,C-DSR Protocol 21 4亦允許Client端只提供部分資 訊。C-DSR Protocol 21 4可將未處理的語音資料(Speech raw data)或是經處理或格式化過的特徵向量 (processed /formatted feature vectors)傳送至 C~DSR
567465 五、發明說明(8)
Server2 0 0進行語音辨認處理。 上述的C-DSR Server 200中至少包含:解析器202 (Parser),配置控制器 2 04 ( Configuration Controller204),可配置對話系統 206( Configurable Dialog System, CDS ),歷史日誌 208( History Log, HL),診斷工具組 210( Diagnostic Tool Sets, DTS)及 C-DSR引擎 212( C-DSR Engine, C-DSRE),其中:
Parser 2 0 2解析取得經由C-DSR Protocol 214傳送到 C-DSR Server 2 0 0的信息(message)封包,然後將信息 中所包含的配置資料送至配置控制器2 0 4。配置控制器2 0 4 收配置資料後,如果其中包含的配置資訊不完整,則由配 置控制器2 04配置成完整的配置資料後,才交給c-DSR引擎 2 1 2處理。這樣做的原因是,雖然C 1 i e n t有完全操控C - D S R 引擎2 1 2的能力,但是在很多情況下,c 1 i ent並不想去逐 一設定配置資料中所有的搁位(K e y - w 〇 r d)。比如說,
Cl i ent可以只設定一部份攔位值,其餘的配置控制器204 會依據已知的訊息填入適當的值。配置控制器2 0 4還有另 一功能,它可根據目前系統及通訊的狀況,做為設定欄位 值的參考依據,達成在通訊傳輸速度及辨識率要求的平衡 與最佳化之目的。 接下來,將語音資料送至C - D S R引擎2 1 2進行語音辨
第12頁 567465 五、發明說明(10) 診斷工具組2 1 0負責使用歷史日誌2 0 8中的資料製作冷 斷報告(Diagnostic Reports),這些報告是將歷史日^ 加以運算而得一些〇081?引擎212所需的調整參數。對(:一^ 0 3防丨擎212做調整,其目的是確保(:-08旧丨擎212是一個高 效率的引擎。所謂高效率,指的是這引擎在提昇辨識率5 同時’亦兼顧記憶體與計算量(Computation Cost)的需 求。這疋C-DSR弓丨擎21 2的特徵之一是將Memory、CPU Power、傳輸頻寬(Transmission Bandwidth)以及辨認 率之間做最佳化的平衡。 在本發明中,C-DSR引擎21 2是一個通則化 (g e n e r a 1 i z e d)的辨識引擎,且倶備適應性 (Adaptation)的功能。可以根據使用者的指令,調適語 者資料、裝置參數等。適應性的能力則需要收集 Adaptation Data,因此C-DSR引擎21 2每次所輸入的參數 配置及其對應的辨認結果,都會被自動分類且整理存放在 一資料庫(即歷史日誌2 0 8)中。C-DSR引擎21 2將辨認結 果回覆給客戶端透過C-DSR Protocol 214;同時也將結果 複製給歷史日誌2 0 8。 C-DSR引擎21 2是被配置控制器2 0 4所配置來處理下列 狀況: 各種不同的說話者基本資料(Speaker Profiles),
第14頁 567465 五、發明說明(11) 像是姓名/性別/年齡/腔調,(:-〇81?引擎212可以使用不同 的參數設疋调整敢適合的聲音模型,而這些資料部分由診 斷工具組2 1 0所取得。 各種不同的聲音環境(Acoustic Environment) /通 道效應(Channel Effects),像辦公室/家中/街道/車上 等,而這些資料部分亦由診斷工具組2 1 〇所取得。或是各 種不同的服務類型(Service Types)。 第三圖用以說明一客戶端(Client)的資料處理步 驟。首先為配置設定3 0 0,其中此配置設定的資料可分別 來自使用者部分及客戶端裝置部分。接下來為語音資料的 輪入3 0 2,然後經由噪音抑制3〇4 ( noise reduction), 特徵擷取306( feature extraction)及語音/資料壓縮 3 0 8等處理,其中步驟3 〇 4,步驟3 〇 6,步驟3 〇 8可依客戶端 裂置的不同而省略。 然後將語音資料及配置資料編碼,成為一信息封包 3 1 0 ’並傳送至可配置分散型語音辨認伺服器3丨2。接下來 等待可配置分散型語音辨認伺服器的回應3 1 4,然後解碼 (decode)所接收到的回應封包,並擷取回應之結果 316〇 567465 五、發明說明(12) 認系統,且可應用於各種行動裝置及各種應用層面,而且 提供一整合的平台。本發明亦可根據客戶端(c 1 i e n t)裝 置的計算、記憶、通訊能力,配置出適合該裝置的最佳化 辨認。 以上所述僅為本發明之較佳實施例而已,並非用以限 定本發明之申請專利範圍;凡其它未脫離本發明所揭示之 精神下所完成之等效改變或修飾,均應包含在下述之申請 專利範圍内。
第16頁 567465 圖式簡單說明 第一圖為一習知的Aurora D SR基本架構。 第二圖用以說明本發明之可配置分散型語音辨認系統 的較佳實施系統架構。 第三圖用以說明一客戶端的資料處理步驟。 主要部分之代表符號: 1 0 0前端處理 1 0 0 a抗噪音處理 1 0 0 b擷取特徵處理 10 2資料通道 1 0 4後端處理 1 0 4 a非特定語者語音辨識器 104b音素模型 104c字句模型 104d文法模型 104e處置作業 2 0 0可配置分散型語音辨認伺服器 2 0 2解析器 2 0 4配置控制器 2 0 6可配置對話系統 2 0 8歷史日諸 2 1 0診斷工具組
第17頁 567465 圖式簡單說明 2 1 2可配置分散型語音辨認引擎 2 1 4可配置分散型語音辨認協定 3 0 0〜3 1 8步驟流程方塊 第18頁

Claims (1)

  1. 567465 六、申請專利範圍 1 · 一種可配置分散型語音辨認系統,包含: 一可配置分散型語音辨認協定,用以規定一客戶端裝 置的語音資料及配置資料的傳送袼式,以形成一信息 (message)封包;及 可配置分散型語音辨認伺服器,用以接收來自該客 戶端裝置的該信息封包,該可配置分散型語音辨認伺服器 根據忒配置資料進行語音辨認參數的調整,並將語音辨認 處理後所產生的結果傳回該客戶端裝置。 2 ·如申請專利範圍第丨項所述之可配置分散型語音辨認系 統,其中上述之客戶端裝置為一行動通訊裝置。 =·如申請專利範圍第丨項所述之可配置分散型語音辨認系 —其中上述之可配置分散型語音辨認伺服器包含: 析為,用以解析該信息封包,以取得該配置資及該 音資料; 次制—配置控制器,用以處理該配置資料,並根據該配置 =二產生一辨認調整參數,該辨認調整參數用以於該可配 二放型,音辨認系統於進行語音辨認時,根據該客戶端 ^的計异、記憶、通訊能力及頻寬配置該可配置分 曰辨認伺服器的資源; 可配置分散型語音辨認引擎,用以辨識由該解 來的該語音資料,並接受該配置控制器的配置;° 一歷史日誌’用以紀錄該分散型語音辨認伺服器中所
    第19頁 567465 六、申請專利範圍 產生的歷史資料;及 一診斷工具組,根據該歷史資料產生一診斷參數用以 調校該可配置分散型語音辨認引擎。 4. 如申請專利範圍第1項所述之可配置分散型語音辨認系 統,其中上述之分散型語音辨認伺服器更包含一可配置對 話系統,該可配置對話系統根據該可配置分散型語音辨認 引擎的辨認結果,分析產生於一對話中可能出現的字彙 組,並供該可配置分散型語音辨認引擎於下次辨認時使 用,以增進辨識率及辨識速度。 # 5. 如申請專利範圍第4項所述之可配置分散型語音辨認系 統,其中上述之歷史日誌用以紀錄該配置控制器、該分散 型語音辨認引擎以及該可配置對話系統所產生的結果。 6. 如申請專利範圍第1項所述之可配置分散型語音辨認系 統,其中上述之配置資料,係選自於由一說話者聲音輪 廓、聲音環境、通道效應、該客戶端裝置規格以及服務類 別所組成的族群的一種配置資料。 7. —種可配置分散型語音辨認伺服器,包含: 一解析器,用以接收並解析一信息封包,以取得該信 息封包中所包含的一配置資料及一語音資料; 一配置控制器,用以處理該配置資料,並根據該配置
    第20頁 567465 六、申請專利範圍 資料產生一辨認調整參數,該辨認調整參數用以於該可配 置分散型語音辨認系統於進行語音辨認時,根據該客戶端 裝置的計算、記憶、通訊能力及頻寬配置該可配置分散型 語音辨認伺服器的資源;及 一可配置分散型語音辨認引擎,用以辨識由該解析器 傳來的該語音資料,並接受該配置控制器的配置。 8. 如申請專利範圍第7項所述之可配置分散型語音辨認伺 服器,更包含一歷史日誌,用以紀錄該分散型語音辨認伺 服器中所產生的歷史資料。 9. 如申請專利範圍第8項所述之可配置分散型語音辨認伺 服器,更包含一診斷工具組,根據該歷史資料產生一診斷 參數用以調校該可配置分散型語音辨認引擎。 1 0.如申請專利範圍第7項所述之可配置分散型語音辨認 伺服器,更包含一可配置對話系統,該可配置對話系統根 據該可配置分散型語音辨認引擎的辨認結果,分析產生於 一對話中可能出現的字彙組,並供該可配置分散型語音辨 認引擎於下次辨認時使用,以增進辨識率及辨識速度。 11.如申請專利範圍第7項所述之可配置分散型語音辨認 伺服器,其中上述之信息封包係由一語音行動裝置所傳送 出。
    第21頁 567465 六、申請專利範圍 1 2.如申請專利範圍第1 1項所述之可配置分散型語音辨認 伺服器,其中上述之配置資料,係選自於由一說話者聲音 輪廓、聲音環境、通道效應、該語音行動裝置規格以及服 務類別所組成的族群的一種配置資料。
    第22頁
TW091119932A 2002-09-02 2002-09-02 Configurable distributed speech recognition system TW567465B (en)

Priority Applications (2)

Application Number Priority Date Filing Date Title
TW091119932A TW567465B (en) 2002-09-02 2002-09-02 Configurable distributed speech recognition system
US10/338,547 US7302390B2 (en) 2002-09-02 2003-01-08 Configurable distributed speech recognition system

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
TW091119932A TW567465B (en) 2002-09-02 2002-09-02 Configurable distributed speech recognition system

Publications (1)

Publication Number Publication Date
TW567465B true TW567465B (en) 2003-12-21

Family

ID=31974918

Family Applications (1)

Application Number Title Priority Date Filing Date
TW091119932A TW567465B (en) 2002-09-02 2002-09-02 Configurable distributed speech recognition system

Country Status (2)

Country Link
US (1) US7302390B2 (zh)
TW (1) TW567465B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9330668B2 (en) 2005-12-20 2016-05-03 International Business Machines Corporation Sharing voice application processing via markup

Families Citing this family (24)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
FR2853127A1 (fr) * 2003-03-25 2004-10-01 France Telecom Systeme de reconnaissance de parole distribuee
US8024194B2 (en) * 2004-12-08 2011-09-20 Nuance Communications, Inc. Dynamic switching between local and remote speech rendering
US8706501B2 (en) * 2004-12-09 2014-04-22 Nuance Communications, Inc. Method and system for sharing speech processing resources over a communication network
US7406053B2 (en) * 2004-12-13 2008-07-29 Hewlett-Packard Development Company, L.P. Methods and systems for controlling the number of computations involved in computing the allocation of resources given resource constraints
US7853453B2 (en) * 2005-06-30 2010-12-14 Microsoft Corporation Analyzing dialog between a user and an interactive application
US7873523B2 (en) * 2005-06-30 2011-01-18 Microsoft Corporation Computer implemented method of analyzing recognition results between a user and an interactive application utilizing inferred values instead of transcribed speech
US20070006082A1 (en) * 2005-06-30 2007-01-04 Microsoft Corporation Speech application instrumentation and logging
US9208785B2 (en) * 2006-05-10 2015-12-08 Nuance Communications, Inc. Synchronizing distributed speech recognition
US20080208594A1 (en) * 2007-02-27 2008-08-28 Cross Charles W Effecting Functions On A Multimodal Telephony Device
US8886540B2 (en) 2007-03-07 2014-11-11 Vlingo Corporation Using speech recognition results based on an unstructured language model in a mobile communication facility application
US8949130B2 (en) 2007-03-07 2015-02-03 Vlingo Corporation Internal and external speech recognition use with a mobile communication facility
US8838457B2 (en) 2007-03-07 2014-09-16 Vlingo Corporation Using results of unstructured language model based speech recognition to control a system-level function of a mobile communications facility
US8635243B2 (en) 2007-03-07 2014-01-21 Research In Motion Limited Sending a communications header with voice recording to send metadata for use in speech recognition, formatting, and search mobile search application
US20080221884A1 (en) 2007-03-07 2008-09-11 Cerra Joseph P Mobile environment speech processing facility
US10056077B2 (en) 2007-03-07 2018-08-21 Nuance Communications, Inc. Using speech recognition results based on an unstructured language model with a music system
US8949266B2 (en) 2007-03-07 2015-02-03 Vlingo Corporation Multiple web-based content category searching in mobile search application
US8886545B2 (en) 2007-03-07 2014-11-11 Vlingo Corporation Dealing with switch latency in speech recognition
US20090018826A1 (en) * 2007-07-13 2009-01-15 Berlin Andrew A Methods, Systems and Devices for Speech Transduction
US8694310B2 (en) * 2007-09-17 2014-04-08 Qnx Software Systems Limited Remote control server protocol system
US9002713B2 (en) * 2009-06-09 2015-04-07 At&T Intellectual Property I, L.P. System and method for speech personalization by need
US8370142B2 (en) 2009-10-30 2013-02-05 Zipdx, Llc Real-time transcription of conference calls
US20110166862A1 (en) * 2010-01-04 2011-07-07 Eyal Eshed System and method for variable automated response to remote verbal input at a mobile device
US10671428B2 (en) * 2015-09-08 2020-06-02 Apple Inc. Distributed personal assistant
TWI718513B (zh) * 2019-03-29 2021-02-11 群光電子股份有限公司 電子裝置與語音辨識切換方法

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2001095312A1 (en) * 2000-06-08 2001-12-13 Nokia Corporation Method and system for adaptive distributed speech recognition
US7024359B2 (en) * 2001-01-31 2006-04-04 Qualcomm Incorporated Distributed voice recognition system using acoustic feature vector modification
US6801604B2 (en) * 2001-06-25 2004-10-05 International Business Machines Corporation Universal IP-based and scalable architectures across conversational applications using web services for speech and audio processing resources
US6941265B2 (en) * 2001-12-14 2005-09-06 Qualcomm Inc Voice recognition system method and apparatus
US7062444B2 (en) * 2002-01-24 2006-06-13 Intel Corporation Architecture for DSR client and server development platform

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9330668B2 (en) 2005-12-20 2016-05-03 International Business Machines Corporation Sharing voice application processing via markup

Also Published As

Publication number Publication date
US20040044522A1 (en) 2004-03-04
US7302390B2 (en) 2007-11-27

Similar Documents

Publication Publication Date Title
TW567465B (en) Configurable distributed speech recognition system
JP6728456B2 (ja) 複数のメディア処理ノードによる適応処理
US6785647B2 (en) Speech recognition system with network accessible speech processing resources
JP3728177B2 (ja) 音声処理システム、装置、方法及び記憶媒体
US9099090B2 (en) Timely speech recognition
US20120014568A1 (en) Speech Recognition, and Related Systems
US20090234635A1 (en) Voice Entry Controller operative with one or more Translation Resources
US20020194000A1 (en) Selection of a best speech recognizer from multiple speech recognizers using performance prediction
MXPA02002811A (es) Sistema y metodo para transmitir entrada de voz desde un sitio remoto sobre un canal.
EP2304722B1 (en) Method and apparatus for fast nearest-neighbor search for vector quantizers
CN1524388A (zh) 经由蓝牙汽车配件的在线音乐数据提供系统
TW200401532A (en) Distributed voice recognition system utilizing multistream network feature processing
US7769583B2 (en) Quantizing feature vectors in decision-making applications
CN106713111A (zh) 一种添加好友的处理方法、终端及服务器
US7478046B2 (en) Server-client type speech recognition apparatus and method
CN112669821A (zh) 一种语音意图识别方法、装置、设备及存储介质
US20200005792A1 (en) Novel and innovative means of providing an anonymized and secure mechanism for speech-to-text conversion. This invention provides a versatile and extensible privacy layer that leverages existing cloud-based Automated Speech Recognition (ASR) services and can accommodate emerging speech-to-text technologies, such as Natural Language Processing (NLP), voice bots and other voice-based artificial intelligence interfaces. This invention also allows the latest and best-of-breed speech technologies to be applied to the legal, medical, financial, and other privacy-sensitive fields without sacrificing
CN115943689A (zh) 噪声环境中的话音或语音识别
EP2226995A1 (en) Voice mixing device and method, and multipoint conference server
CN112883178B (zh) 对话方法、装置、服务器及存储介质
US6980957B1 (en) Audio transmission system with reduced bandwidth consumption
EP1229518A1 (en) Speech recognition system, and terminal, and system unit, and method
JPH08179800A (ja) 音声符号化装置
JP2005055606A (ja) サーバ、情報処理端末、音声認識システム
KR20170044409A (ko) 다자간 대화 시스템 및 방법

Legal Events

Date Code Title Description
GD4A Issue of patent certificate for granted invention patent
MK4A Expiration of patent term of an invention patent