TWI682386B

TWI682386B - 整合式語音辨識系統及方法

Info

Publication number: TWI682386B
Application number: TW107115723A
Authority: TW
Inventors: 李杜榮; 李振忠; 陳俊宏; 洪建國
Original assignee: 廣達電腦股份有限公司
Priority date: 2018-05-09
Filing date: 2018-05-09
Publication date: 2020-01-11
Also published as: CN110473570A; CN110473570B; TW201947580A; US20190348047A1

Abstract

一種整合式語音辨識系統，具有儲存裝置以及控制器。儲存裝置儲存複數使用者所分別對應到複數語音辨識服務的複數評比分數。控制器根據使用者資料從複數使用者群組中挑選一使用者群組，取得語音辨識服務分別針對同一語音資料所產生之複數辨識結果，以及根據使用者中屬於決定之使用者群組者所對應之評比分數將辨識結果進行排序以產生推薦清單。

Description

整合式語音辨識系統及方法

本申請主要關於語音辨識技術，特別係有關於一種整合了多種語音辨識服務的語音辨識系統及方法。

隨著數位裝置的日漸普及，各種人機介面也紛紛發展以讓使用者能夠方便操作這些數位裝置。舉例來說，目前最被廣泛使用的人機介面之一是觸控式介面，其優點是，比起傳統的鍵盤、滑鼠的操作方式，觸控式介面的操作相當直覺化。然而，在某些情況下，觸控式介面可能並不容易或不方便使用，例如：當使用者的雙手都在忙(如：開車)、或需要輸入複雜的操作指令、或需要輸入一長串文字時。

相較之下，另一種人機介面一語音介面不僅具備直覺化的特性，還可彌補觸控式介面在上述情況中的不足。因此，語音介面的應用相當廣泛，特別是例如：使用者在開車時可透過語音介面控制各式裝置、以及透過語音介面下指令給語音行動助理進行複雜的操作等。一般來說，語音介面係透過語音辨識服務將人說話的語音內容轉換成文字或機器碼/指令，然而，不同語言的特性、或同語言但不同口音都會對語音辨識的準確度有所影響。

目前市場上已有多種語音辨識服務，但由於所使用的語音辨識技術各有不同，因此即便是在相同語系(如：中文)的同一個句子，也會因為說話的人有不同口音，而導致每個語音辨識服務各自產生不同的辨識結果。

為了解決上述問題，本申請提供了一種整合式語音辨識系統及方法，其透過使用者分群的機制對不同語音辨識服務的評比分數進行分析，以推薦使用者選用適合的語音辨識服務，從而獲得較佳的語音辨識準確度。

本申請之一實施例提供了一種整合式語音辨識系統，包括一儲存裝置以及一控制器。上述儲存裝置係用以儲存複數使用者所分別對應到複數語音辨識服務的複數第一評比分數。上述控制器係用以根據一使用者資料從複數使用者群組中挑選一第一使用者群組，取得上述語音辨識服務分別針對一語音資料所產生之複數辨識結果，以及根據上述使用者中屬於上述第一使用者群組者所對應之上述第一評比分數將上述辨識結果進行排序以產生一推薦清單。

本申請之另一實施例提供了一種整合式語音辨識方法，適用於一伺服器，上述伺服器包括一儲存裝置用以儲存複數使用者所分別對應到複數語音辨識服務的複數第一評比分數。上述整合式語音辨識方法包括以下步驟：根據一使用者資料從複數使用者群組中挑選一第一使用者群組；取得上述語音辨識服務分別針對一語音資料所產生之複數辨識結果；以及根據上述使用者中屬於上述第一使用者群組者所對應之上述第一評比分數將上述辨識結果進行排序以產生一推薦清單。

關於本申請其他附加的特徵與優點，此領域之熟習技術人士，在不脫離本申請之精神和範圍內，當可根據本案實施方法中所揭露之整合式語音辨識系統及方法做些許的更動與潤飾而得到。

100‧‧‧網路通訊環境

110‧‧‧使用者裝置

120‧‧‧電信網路

121‧‧‧存取網路

122‧‧‧核心網路

130‧‧‧無線區域網路

140‧‧‧網際網路

150~160‧‧‧語音辨識伺服器

170‧‧‧整合式語音辨識系統

10‧‧‧通訊裝置

20‧‧‧控制器

30‧‧‧儲存裝置

40‧‧‧輸入輸出裝置

410‧‧‧前端輸入模組

420‧‧‧使用者分群模組

430‧‧‧語音辨識整合模組

440‧‧‧推薦清單計算模組

450‧‧‧選擇及回饋模組

460‧‧‧相似度計算模組

S310~S330、S501~S513‧‧‧步驟編號

第1圖係根據本申請一實施例所述之網路通訊環境之示意圖。

第2圖係根據本申請一實施例所述之整合式語音辨識系統170之硬體架構示意圖。

第3圖係根據本申請一實施例所述之整合式語音辨識方法之流程圖。

第4A~4D圖係根據本申請一實施例所述以軟體來實現整合式語音辨識方法之示意圖。

本章節所敘述的是實施本申請之較佳方式，目的在於說明本申請之精神而非用以限定本申請之保護範圍，當可理解的是，使用於本說明書中的「包含」、「包括」等詞，係用以表示存在特定的技術特徵、數值、方法步驟、作業處理、元件以及/或組件，但並不排除可加上更多的技術特徵、數值、方法步驟、作業處理、元件、組件，或以上的任意組合。

第1圖係根據本申請一實施例所述之網路通訊環境之示意圖。網路通訊環境100包括使用者裝置110、電信網路120、無線區域網路130、網際網路140、語音辨識伺服器 150~160、以及整合式語音辨識系統170。

使用者裝置110可為智慧型手機、平板電腦、筆記型電腦、桌上型電腦、或任何電子計算裝置，只要其可支援電信網路120所使用之電信網路技術、以及/或無線區域網路130所使用之無線區域網路技術。明確來說，使用者裝置110可選擇性地連接至電信網路120或無線區域網路130，以取得網路連線至網際網路140，並進一步透過網際網路140連接到整合式語音辨識系統170。

電信網路120可使用任一電信網路技術，包括：全球行動通訊系統(Global System for Mobile communications，GSM)技術、通用封包無線服務(General Packet Radio Service，GPRS)技術、全球增強型數據傳輸(Enhanced Data rates for Global Evolution，EDGE)技術、寬頻分碼多工存取(Wideband Code Division Multiple Access，WCDMA)技術、分碼多工存取-2000(Code Division Multiple Access 2000，CDMA-2000)技術、分時同步分碼多工存取(Time Division-Synchronous Code Division Multiple Access，TD-SCDMA)技術、全球互通微波存取(Worldwide Interoperability for Microwave Access，WiMAX)技術、長期演進(Long Term Evolution，LTE)技術、長期演進強化(LTE Advanced，LTE-A)技術、、以及分時長期演進(Time-Division LTE，TD-LTE)技術等。

進一步說明，電信網路120包括存取網路121與核心網路122，其中存取網路121係用以處理無線電訊號、支援終端無線電協定、以及連接使用者裝置110與核心網路122，而核心網路122係用以執行行動管理、網路端的驗證、以及與公眾網路(例如：網際網路140)的介接。

無線區域網路130可由使用無線保真(Wireless Fidelity，WiFi)技術之存取點131所建立。明確來說，存取點131可透過乙太網纜線連接至有線區域網路，進而連接至網際網路140。存取點131通常係用以接收、暫存、以及傳送針對使用者裝置110之資料流量。當可理解的是，除了無線保真技術之外，存取點131亦可使用其他的短距無線技術來建立無線區域網路130，例如：藍牙技術、群蜂技術等，故本申請不在此限。

語音辨識伺服器150~160分別為一雲端伺服器，其主要負責分別使用不同的語音辨識引擎提供語音辨識服務給網際網路140上的其他連網裝置(如：使用者裝置110、或整合式語音辨識系統170)。不同的語音辨識服務可包括：Google Cloud Speech、Microsoft Azure Bing Speech、Amazon Alexa Voice Service、以及IBM Bluemix Watson等。舉例來說，語音辨識伺服器150可提供Google Cloud Speech服務，語音辨識伺服器160可提供Microsoft Azure Bing Speech服務。

當可理解的是，網路通訊環境100還可再包括更多其他的語音辨識伺服器，而不僅僅限於語音辨識伺服器150~160。舉例來說，還可包括：提供Amazon Alexa Voice Service服務的語音辨識伺服器、以及提供IBM Bluemix Watson服務的語音辨識伺服器。

整合式語音辨識系統170為一(雲端)伺服器，其主要負責提供整合式的語音辨識服務。當使用者裝置110需要使用語音辨識服務時，可將語音資料傳送到整合式語音辨識系統170，由整合式語音辨識系統170來整合不同語音辨識伺服器所產生的辨識結果。明確來說，整合式語音辨識系統170可根據使用者分群的機制去分析所有使用者分別對應到不同語音辨識服務的評比分數，以評選出最適合使用者裝置110的語音辨識服務。此外，整合式語音辨識系統170還可將辨識結果與使用者的選擇回饋進行比對，以調整使用者分群機制中的權重比例參數。

在一實施例，整合式語音辨識系統170係透過語音辨識服務的提供商所發佈的應用程式介面(Application Programming Interface，API)去存取語音辨識伺服器150~160所提供的語音辨識服務並取得個別的辨識結果。

當可理解的是，第1圖所示之網路通訊環境僅用以提供一說明之範例，並非用以限制本申請之保護範圍。舉例來說，語音辨識伺服器150~160可整合到整合式語音辨識系統170之中，也就是說，整合式語音辨識系統170本身即內建不同的語音辨識引擎；或者，整合式語音辨識系統170可直接透過內建/外接的儲存裝置來讀取要進行辨識的語音資料。

第2圖係根據本申請一實施例所述之整合式語音辨識系統170之硬體架構示意圖。整合式語音辨識系統170包括通訊裝置10、控制器20、儲存裝置30、輸入輸出裝置40。

通訊裝置10係用以提供連線至網際網路140，並透過網際網路140連接到使用者裝置110、以及語音辨識伺服器150~160。通訊裝置10可透過有線的方式提供網路連線，例如：乙太網(Ethernet)、光纖網路、或非對稱數位式用戶線路(Asymmetric Digital Subscriber Line，ADSL)等，或者，通訊裝置10亦可透過無線的方式提供網路連線，例如使用無線保真技術、或其他電信網路技術。

控制器20可為通用處理器、微處理器(Micro Control Unit，MCU)、應用處理器(Application Processor，AP)、或數位訊號處理器(Digital Signal Processor，DSP)等，其可包括各式電路邏輯，用以提供數據處理及運算之功能、控制通訊裝置10的運作以提供網路連線、從儲存裝置30讀取或儲存數據、以及從輸入輸出裝置40接收管理者所輸入之設定或輸出訊號。特別是，控制器20係用以協調控制通訊裝置10、儲存裝置30、以及輸入輸出裝置40之運作，以執行本申請的整合式語音辨識方法。

該領域之熟習技藝人士當可理解，控制器20中的電路邏輯通常可包括多個電晶體，用以控制該電路邏輯之運作以提供所需之功能及作業。更進一步的，電晶體的特定結構及其之間的連結關係通常是由編譯器所決定，例如：暫存器轉移語言(Register Transfer Language，RTL)編譯器可由處理器所運作，將類似組合語言碼的指令檔(script)編譯成適用於設計或製造該電路邏輯所需之形式。

儲存裝置30為非暫態(non-transitory)之電腦可讀取儲存媒體，例如：隨機存取記憶體(Random Access Memory，RAM)、快閃記憶體，或硬碟、光碟，或上述媒體之任意組合，用以儲存指令集、應用及/或通訊協定之程式碼、以及本申請的整合式語音辨識方法之程式碼等。特別是，儲存裝置30還可維護一資料庫用以儲存複數使用者分別對應到不同語音辨識服務的評比分數、每次分群推薦的準確度係數、以及分群規則。

輸入輸出裝置40可包括一或多個按鈕、鍵盤、滑鼠、觸碰板、視訊鏡頭、麥克風、顯示螢幕(例如：液晶顯示器、發光二極體顯示器、或電子紙顯示器等)、以及/或喇叭等，用以作為人機介面與管理者互動，包括：接收管理者所輸入的設定(如：分群規則設定、權重比例參數設定、以及語音辨識服務之管理(新增/刪除)設定)、以及輸出反饋訊號。

當可理解的是，第2圖所示之元件僅用以提供一說明之範例，並非用以限制本申請之保護範圍。舉例來說，整合式語音辨識系統170還可包括其他元件，例如：電源供應器、以及/或全球定位系統(Global Positioning System，GPS)等。

第3圖係根據本申請一實施例所述之整合式語音辨識方法之流程圖。在此實施例，整合式語音辨識方法係適用於一雲端伺服器，如：整合式語音辨識系統170。

首先，整合式語音辨識系統根據一使用者資料從複數使用者群組中挑選一第一使用者群組(步驟S310)，所選的使用者群組即為當前使用者的分群結果。

在一實施例，整合式語音辨識系統可以從網際網路上的其他連網裝置(如：使用者裝置110)接收上述使用者資料。或者，在另一實施例，整合式語音辨識系統可以從內部/外接的儲存裝置中讀取上述使用者資料。使用者資料可包括網路協定(Internet Protocol，IP)位址、位置資訊、性別資訊、年齡資訊、或以上之任意組合。其中，位置資訊可以是由使用者裝置內建的全球定位系統所提供的定位資訊，或者，位置資訊可以是由使用者手動輸入的居住地/所在地資訊。

在一實施例，由於考量到不同地理區域的使用者會有相近的口音或說話習慣，所以可以根據使用者的所在區域來將使用者進行分群，舉例來說，可根據網路協定位址、以及/或位置資訊來決定每個使用者的所在區域，如：台北、台中、高雄、上海、或北京等。

接著，整合式語音辨識系統取得不同語音辨識服務分別針對同一語音資料所產生之複數辨識結果(步驟S320)。在一實施例，整合式語音辨識系統可以從網際網路上的其他連網裝置(如：使用者裝置110)接收上述語音資料。或者，在另一實施例，整合式語音辨識系統可以從內部/外接的儲存裝置中讀取上述語音資料。

更進一步地，整合式語音辨識系統可以透過網際網路分別連接到不同的語音辨識伺服器以存取不同的語音辨識服務，或者，整合式語音辨識系統亦可直接內建語音辨識引擎以提供這些語音辨識服務。

然後，整合式語音辨識系統根據第一使用者群組中的使用者所對應之評比分數將複數辨識結果進行排序以產生一推薦清單(步驟S330)，方法流程結束。

其中，第3圖整合式語音辨識方法之流程圖的詳細操作內容將於第4A~4D圖進一步說明。

第4A~4D圖係根據本申請一實施例所述以軟體來實現整合式語音辨識方法之示意圖。在此實施例，用以實現整合式語音辨識方法之軟體架構包括有：前端輸入模組410、使用者分群模組420、語音辨識整合模組430、推薦清單計算模組440、選擇及回饋模組450、以及相似度計算模組460。上述軟體模組可由程式碼所組成並由整合式語音辨識系統170中的控制器20載入執行，從而實現整合式語音辨識方法。

首先，關於前端輸入模組410，其主要負責提供整合式語音辨識系統170對使用者裝置110的接口。

透過此接口，可讓整合式語音辨識系統170從使用者裝置110接收當前的一使用者F的使用者資料及語音資料(步驟S501)。在另一實施例，前端輸入模組410還可進一步從使用者裝置110接收裝置資料，例如：裝置型號、以及作業系統版本等。

關於使用者分群模組420，其主要負責從資料庫中讀取分群規則(步驟S502)，然後依據分群規則及使用者資料將當前的使用者進行分群歸類(步驟S503)。

舉例來說，分群規則可指示以使用者的所在區域進行分群，所以可以先根據使用者資料中的網路協定位址、以及/或全球定位系統之定位資訊來決定使用者的所在區域，然後再將使用者進行分群。

關於語音辨識整合模組430，其主要負責提供整合式語音辨識系統170對語音辨識伺服器150~160的接口。

透過此接口，可讓整合式語音辨識系統170將語音資料分別傳送到語音辨識伺服器150~160進行語音辨識(步驟S504)，並且從語音辨識伺服器150~160分別接收辨識結果(步驟S505)。此接口在實作上，可使用語音辨識服務的提供商所發佈的應用程式介面去存取語音辨識伺服器150~160所提供的語音辨識服務並取得個別的辨識結果。

當可理解的是，語音辨識整合模組430還可對接更多其他的語音辨識伺服器，而不僅僅限於語音辨識伺服器150~160。

關於推薦清單計算模組440，其主要負責至資料庫讀取複數使用者分別對應到不同語音辨識服務的評比分數(步驟S506)，並根據分群結果及評比分數計算出語音辨識服務的排名順序(步驟S507)，然後再依照排名順序產生推薦清單(步驟S508)。

明確來說，資料庫中儲存了複數使用者先前使用整合式語音辨識系統170時的分群結果、該等使用者對應到不同語音辨識服務的評比分數R_i(i為語音辨識服務的index)、以及每個使用者當次的推薦準確度係數β，如以下表1所示。

在此範例中，分群的依據是使用者的所在區域。其中，評比分數R_i越高代表該語音辨識服務的辨識越準確，而推薦準確度係數β則代表最後產生的推薦清單是否符合使用者的選擇，若符合，推薦準確度係數β的值為1，反之，若不符合，則推薦準確度係數β的值為0。關於評比分數R_i以及推薦準確度係數β的計算方式將於後續進一步說明。

步驟S507的具體內容可包括三個部分，在第一部分，先針對每個語音辨識服務計算出所有使用者(複數使用者先前)的平均評比分數AR_i，以表1的數據為例，語音辨識服務1~4的所有人綜合評比分數AR_i、以及根據所有人綜合評比分數AR_i所決定之排名順序如表2所示。

接著，在第二部分，根據步驟S503的分群結果計算相同使用者群組的使用者對應到每個語音辨識服務的分群評比分數 G_kR_i(k為使用者群組的index)，假設步驟S503的分群結果是將當前的使用者F依據其所在位置分群為「台北人」的使用者群組，那麼「台北人」群組的所有使用者分別對應到每個語音辨識服務的平均評比分數、以及根據分群評比分數G_kR_i所決定之排名順序如下表3所示。

然後，在第三部分，針對每個語音辨識服務以一權重比例α將所有人平均評比分數AR_i及群組平均評比分數G_kR_i加總計算出個別之綜合評比分數FRi，並根據綜合評比分數FRi決定綜合推薦排名順序，如以下表4所示(以權重比例α=0.6為例)。

在一實施例，權重比例α可以是將資料庫中所記錄的每次推薦的推薦準確度係數β加總後取平均值所得到，以表 1的數據為例，權重比例

。

步驟S508的具體內容即是根據綜合推薦排名順序將不同語音辨識服務的辨識結果進行排序以產生推薦清單。以表4的綜合推薦排名順序為例，推薦清單中的第一條目(entry)是語音辨識服務1的辨識結果、第二條目是語音辨識服務3的辨識結果、第三條目是語音辨識服務4的辨識結果、第四條目是語音辨識服務2的辨識結果。

關於選擇及回饋模組450，其主要負責將推薦清單傳送到使用者裝置110(步驟S509)，然後從使用者裝置110接收選擇回饋(步驟S510)。

明確來說，若推薦清單中存在使用者想要的辨識結果，則選擇回饋可包括使用者所選定的辨識結果。反之，若推薦清單中所有的辨識結果都不是使用者想要的，則使用者可自行修正辨識結果，而選擇回饋則可包括修正後的辨識結果。

關於相似度計算模組460，其主要負責根據使用者的選擇回饋來回推計算出每個語音辨識服務的評比分數，並根據該等評比分數決定最後排名順序(步驟S511)，接著，根據最後排名順序決定當次推薦的準確度係數(步驟S512)，然後將這些評比分數存到資料庫中(步驟S513)。

明確來說，相似度計算模組460係計算每個語音辨識服務的辨識結果與使用者的選擇回饋之間的相似度(意即：比對兩者是否相同)，並以相似度作為該次辨識的評比分數。

為方便說明，在此假設推薦清單中所有的辨識結果都不是使用者想要的，所以使用者的選擇回饋包括了修正後的辨識結果：「親子旅遊大控訴」，而上述相似度之計算如以下表5所示。

其中，每個辨識結果與正確辨識結果之間的相似度係以正確的字數除以所有字數而得到。

根據表5所示之範例，由於最後排名順序的第一位與群組推薦排名順序中的第一位相同，所以將當次推薦的準確度係數設為1。若最後排名順序的第一位與群組推薦排名順序中的第一位不同，則將當次推薦的準確度係數設為0。

在步驟S513之後，資料庫就會新增一個條目用以儲存使用者F該次的評比分數及推薦準確度係數，如以下表6所示。

而下次推薦時所要使用的權重比例α就會變成

(四捨五入到小數點後第一位)，也就是說，隨著資料庫裡的樣本數越來越多，權重比例α的值會不斷修正。

根據上述實施例，當可理解的是，本申請的整合式語音辨識系統及方法的特徵在於，透過使用者分群的機制對不同語音辨識服務的評比分數進行分析，以推薦使用者選用適合的語音辨識服務，從而獲得較佳的語音辨識準確度。須注意的是，雖然上述表1~表6所示範例是以使用者的所在位置為分群之依據，但本發明不在此限。舉例來說，其他使用者資料(如：性別、年齡)、以及/或裝置資料(如：裝置型號、作業系統版本)亦可作為分群之依據。

本申請雖以各種實施例揭露如上，然而其僅為範例參考而非用以限定本申請的範圍，任何熟習此項技藝者，在不脫離本申請之精神和範圍內，當可做些許的更動與潤飾。因此上述實施例並非用以限定本申請之範圍，本申請之保護範圍當視後附之申請專利範圍所界定者為準。

於申請專利範圍中所使用的「第一」、「第二」等詞係用來修飾權利要求中的元件，並非用來表示之間具有優先權順序，先行關係，或者是一個元件先於另一個元件，或者是執行方法步驟時的時間先後順序，僅用來區別具有相同名字的元件。