TWI682386B - 整合式語音辨識系統及方法 - Google Patents
整合式語音辨識系統及方法 Download PDFInfo
- Publication number
- TWI682386B TWI682386B TW107115723A TW107115723A TWI682386B TW I682386 B TWI682386 B TW I682386B TW 107115723 A TW107115723 A TW 107115723A TW 107115723 A TW107115723 A TW 107115723A TW I682386 B TWI682386 B TW I682386B
- Authority
- TW
- Taiwan
- Prior art keywords
- speech recognition
- user
- users
- scores
- rating
- Prior art date
Links
- 238000000034 method Methods 0.000 title claims description 32
- 238000011156 evaluation Methods 0.000 claims description 9
- 238000005516 engineering process Methods 0.000 description 21
- 238000004891 communication Methods 0.000 description 14
- 238000004364 calculation method Methods 0.000 description 12
- 238000010586 diagram Methods 0.000 description 6
- 230000007246 mechanism Effects 0.000 description 4
- 230000010354 integration Effects 0.000 description 3
- 230000007774 longterm Effects 0.000 description 3
- 230000008901 benefit Effects 0.000 description 2
- 230000006870 function Effects 0.000 description 2
- 238000012546 transfer Methods 0.000 description 2
- 230000005540 biological transmission Effects 0.000 description 1
- 230000007812 deficiency Effects 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 238000010295 mobile communication Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 239000013307 optical fiber Substances 0.000 description 1
- 230000008569 process Effects 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/28—Constructional details of speech recognition systems
- G10L15/32—Multiple recognisers used in sequence or in parallel; Score combination systems therefor, e.g. voting systems
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F3/00—Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
- G06F3/01—Input arrangements or combined input and output arrangements for interaction between user and computer
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/48—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
- G10L25/51—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
- G10L25/60—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination for measuring the quality of voice signals
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/48—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
- G10L25/69—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for evaluating synthetic or decoded voice signals
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/28—Constructional details of speech recognition systems
- G10L15/30—Distributed recognition, e.g. in client-server systems, for mobile phones or network applications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
- G10L2015/226—Procedures used during a speech recognition process, e.g. man-machine dialogue using non-speech characteristics
- G10L2015/227—Procedures used during a speech recognition process, e.g. man-machine dialogue using non-speech characteristics of the speaker; Human-factor methodology
Landscapes
- Engineering & Computer Science (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Multimedia (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Acoustics & Sound (AREA)
- General Engineering & Computer Science (AREA)
- Signal Processing (AREA)
- Theoretical Computer Science (AREA)
- Quality & Reliability (AREA)
- General Physics & Mathematics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Telephonic Communication Services (AREA)
- Machine Translation (AREA)
- Navigation (AREA)
- Fittings On The Vehicle Exterior For Carrying Loads, And Devices For Holding Or Mounting Articles (AREA)
Abstract
一種整合式語音辨識系統,具有儲存裝置以及控制器。儲存裝置儲存複數使用者所分別對應到複數語音辨識服務的複數評比分數。控制器根據使用者資料從複數使用者群組中挑選一使用者群組,取得語音辨識服務分別針對同一語音資料所產生之複數辨識結果,以及根據使用者中屬於決定之使用者群組者所對應之評比分數將辨識結果進行排序以產生推薦清單。
Description
本申請主要關於語音辨識技術,特別係有關於一種整合了多種語音辨識服務的語音辨識系統及方法。
隨著數位裝置的日漸普及,各種人機介面也紛紛發展以讓使用者能夠方便操作這些數位裝置。舉例來說,目前最被廣泛使用的人機介面之一是觸控式介面,其優點是,比起傳統的鍵盤、滑鼠的操作方式,觸控式介面的操作相當直覺化。然而,在某些情況下,觸控式介面可能並不容易或不方便使用,例如:當使用者的雙手都在忙(如:開車)、或需要輸入複雜的操作指令、或需要輸入一長串文字時。
相較之下,另一種人機介面一語音介面不僅具備直覺化的特性,還可彌補觸控式介面在上述情況中的不足。因此,語音介面的應用相當廣泛,特別是例如:使用者在開車時可透過語音介面控制各式裝置、以及透過語音介面下指令給語音行動助理進行複雜的操作等。一般來說,語音介面係透過語音辨識服務將人說話的語音內容轉換成文字或機器碼/指令,然而,不同語言的特性、或同語言但不同口音都會對語音辨識的準確度有所影響。
目前市場上已有多種語音辨識服務,但由於所使
用的語音辨識技術各有不同,因此即便是在相同語系(如:中文)的同一個句子,也會因為說話的人有不同口音,而導致每個語音辨識服務各自產生不同的辨識結果。
為了解決上述問題,本申請提供了一種整合式語音辨識系統及方法,其透過使用者分群的機制對不同語音辨識服務的評比分數進行分析,以推薦使用者選用適合的語音辨識服務,從而獲得較佳的語音辨識準確度。
本申請之一實施例提供了一種整合式語音辨識系統,包括一儲存裝置以及一控制器。上述儲存裝置係用以儲存複數使用者所分別對應到複數語音辨識服務的複數第一評比分數。上述控制器係用以根據一使用者資料從複數使用者群組中挑選一第一使用者群組,取得上述語音辨識服務分別針對一語音資料所產生之複數辨識結果,以及根據上述使用者中屬於上述第一使用者群組者所對應之上述第一評比分數將上述辨識結果進行排序以產生一推薦清單。
本申請之另一實施例提供了一種整合式語音辨識方法,適用於一伺服器,上述伺服器包括一儲存裝置用以儲存複數使用者所分別對應到複數語音辨識服務的複數第一評比分數。上述整合式語音辨識方法包括以下步驟:根據一使用者資料從複數使用者群組中挑選一第一使用者群組;取得上述語音辨識服務分別針對一語音資料所產生之複數辨識結果;以及根據上述使用者中屬於上述第一使用者群組者所對應之上述第一評比分數將上述辨識結果進行排序以產生一推薦清單。
關於本申請其他附加的特徵與優點,此領域之熟習技術人士,在不脫離本申請之精神和範圍內,當可根據本案實施方法中所揭露之整合式語音辨識系統及方法做些許的更動與潤飾而得到。
100‧‧‧網路通訊環境
110‧‧‧使用者裝置
120‧‧‧電信網路
121‧‧‧存取網路
122‧‧‧核心網路
130‧‧‧無線區域網路
140‧‧‧網際網路
150~160‧‧‧語音辨識伺服器
170‧‧‧整合式語音辨識系統
10‧‧‧通訊裝置
20‧‧‧控制器
30‧‧‧儲存裝置
40‧‧‧輸入輸出裝置
410‧‧‧前端輸入模組
420‧‧‧使用者分群模組
430‧‧‧語音辨識整合模組
440‧‧‧推薦清單計算模組
450‧‧‧選擇及回饋模組
460‧‧‧相似度計算模組
S310~S330、S501~S513‧‧‧步驟編號
第1圖係根據本申請一實施例所述之網路通訊環境之示意圖。
第2圖係根據本申請一實施例所述之整合式語音辨識系統170之硬體架構示意圖。
第3圖係根據本申請一實施例所述之整合式語音辨識方法之流程圖。
第4A~4D圖係根據本申請一實施例所述以軟體來實現整合式語音辨識方法之示意圖。
本章節所敘述的是實施本申請之較佳方式,目的在於說明本申請之精神而非用以限定本申請之保護範圍,當可理解的是,使用於本說明書中的「包含」、「包括」等詞,係用以表示存在特定的技術特徵、數值、方法步驟、作業處理、元件以及/或組件,但並不排除可加上更多的技術特徵、數值、方法步驟、作業處理、元件、組件,或以上的任意組合。
第1圖係根據本申請一實施例所述之網路通訊環境之示意圖。網路通訊環境100包括使用者裝置110、電信網路120、無線區域網路130、網際網路140、語音辨識伺服器
150~160、以及整合式語音辨識系統170。
使用者裝置110可為智慧型手機、平板電腦、筆記型電腦、桌上型電腦、或任何電子計算裝置,只要其可支援電信網路120所使用之電信網路技術、以及/或無線區域網路130所使用之無線區域網路技術。明確來說,使用者裝置110可選擇性地連接至電信網路120或無線區域網路130,以取得網路連線至網際網路140,並進一步透過網際網路140連接到整合式語音辨識系統170。
電信網路120可使用任一電信網路技術,包括:全球行動通訊系統(Global System for Mobile communications,GSM)技術、通用封包無線服務(General Packet Radio Service,GPRS)技術、全球增強型數據傳輸(Enhanced Data rates for Global Evolution,EDGE)技術、寬頻分碼多工存取(Wideband Code Division Multiple Access,WCDMA)技術、分碼多工存取-2000(Code Division Multiple Access 2000,CDMA-2000)技術、分時同步分碼多工存取(Time Division-Synchronous Code Division Multiple Access,TD-SCDMA)技術、全球互通微波存取(Worldwide Interoperability for Microwave Access,WiMAX)技術、長期演進(Long Term Evolution,LTE)技術、長期演進強化(LTE Advanced,LTE-A)技術、、以及分時長期演進(Time-Division LTE,TD-LTE)技術等。
進一步說明,電信網路120包括存取網路121與核心網路122,其中存取網路121係用以處理無線電訊號、支
援終端無線電協定、以及連接使用者裝置110與核心網路122,而核心網路122係用以執行行動管理、網路端的驗證、以及與公眾網路(例如:網際網路140)的介接。
無線區域網路130可由使用無線保真(Wireless Fidelity,WiFi)技術之存取點131所建立。明確來說,存取點131可透過乙太網纜線連接至有線區域網路,進而連接至網際網路140。存取點131通常係用以接收、暫存、以及傳送針對使用者裝置110之資料流量。當可理解的是,除了無線保真技術之外,存取點131亦可使用其他的短距無線技術來建立無線區域網路130,例如:藍牙技術、群蜂技術等,故本申請不在此限。
語音辨識伺服器150~160分別為一雲端伺服器,其主要負責分別使用不同的語音辨識引擎提供語音辨識服務給網際網路140上的其他連網裝置(如:使用者裝置110、或整合式語音辨識系統170)。不同的語音辨識服務可包括:Google Cloud Speech、Microsoft Azure Bing Speech、Amazon Alexa Voice Service、以及IBM Bluemix Watson等。舉例來說,語音辨識伺服器150可提供Google Cloud Speech服務,語音辨識伺服器160可提供Microsoft Azure Bing Speech服務。
當可理解的是,網路通訊環境100還可再包括更多其他的語音辨識伺服器,而不僅僅限於語音辨識伺服器150~160。舉例來說,還可包括:提供Amazon Alexa Voice Service服務的語音辨識伺服器、以及提供IBM Bluemix Watson服務的語音辨識伺服器。
整合式語音辨識系統170為一(雲端)伺服器,其主要負責提供整合式的語音辨識服務。當使用者裝置110需要使用語音辨識服務時,可將語音資料傳送到整合式語音辨識系統170,由整合式語音辨識系統170來整合不同語音辨識伺服器所產生的辨識結果。明確來說,整合式語音辨識系統170可根據使用者分群的機制去分析所有使用者分別對應到不同語音辨識服務的評比分數,以評選出最適合使用者裝置110的語音辨識服務。此外,整合式語音辨識系統170還可將辨識結果與使用者的選擇回饋進行比對,以調整使用者分群機制中的權重比例參數。
在一實施例,整合式語音辨識系統170係透過語音辨識服務的提供商所發佈的應用程式介面(Application Programming Interface,API)去存取語音辨識伺服器150~160所提供的語音辨識服務並取得個別的辨識結果。
當可理解的是,第1圖所示之網路通訊環境僅用以提供一說明之範例,並非用以限制本申請之保護範圍。舉例來說,語音辨識伺服器150~160可整合到整合式語音辨識系統170之中,也就是說,整合式語音辨識系統170本身即內建不同的語音辨識引擎;或者,整合式語音辨識系統170可直接透過內建/外接的儲存裝置來讀取要進行辨識的語音資料。
第2圖係根據本申請一實施例所述之整合式語音辨識系統170之硬體架構示意圖。整合式語音辨識系統170包括通訊裝置10、控制器20、儲存裝置30、輸入輸出裝置40。
通訊裝置10係用以提供連線至網際網路140,並透
過網際網路140連接到使用者裝置110、以及語音辨識伺服器150~160。通訊裝置10可透過有線的方式提供網路連線,例如:乙太網(Ethernet)、光纖網路、或非對稱數位式用戶線路(Asymmetric Digital Subscriber Line,ADSL)等,或者,通訊裝置10亦可透過無線的方式提供網路連線,例如使用無線保真技術、或其他電信網路技術。
控制器20可為通用處理器、微處理器(Micro Control Unit,MCU)、應用處理器(Application Processor,AP)、或數位訊號處理器(Digital Signal Processor,DSP)等,其可包括各式電路邏輯,用以提供數據處理及運算之功能、控制通訊裝置10的運作以提供網路連線、從儲存裝置30讀取或儲存數據、以及從輸入輸出裝置40接收管理者所輸入之設定或輸出訊號。特別是,控制器20係用以協調控制通訊裝置10、儲存裝置30、以及輸入輸出裝置40之運作,以執行本申請的整合式語音辨識方法。
該領域之熟習技藝人士當可理解,控制器20中的電路邏輯通常可包括多個電晶體,用以控制該電路邏輯之運作以提供所需之功能及作業。更進一步的,電晶體的特定結構及其之間的連結關係通常是由編譯器所決定,例如:暫存器轉移語言(Register Transfer Language,RTL)編譯器可由處理器所運作,將類似組合語言碼的指令檔(script)編譯成適用於設計或製造該電路邏輯所需之形式。
儲存裝置30為非暫態(non-transitory)之電腦可讀取儲存媒體,例如:隨機存取記憶體(Random Access
Memory,RAM)、快閃記憶體,或硬碟、光碟,或上述媒體之任意組合,用以儲存指令集、應用及/或通訊協定之程式碼、以及本申請的整合式語音辨識方法之程式碼等。特別是,儲存裝置30還可維護一資料庫用以儲存複數使用者分別對應到不同語音辨識服務的評比分數、每次分群推薦的準確度係數、以及分群規則。
輸入輸出裝置40可包括一或多個按鈕、鍵盤、滑鼠、觸碰板、視訊鏡頭、麥克風、顯示螢幕(例如:液晶顯示器、發光二極體顯示器、或電子紙顯示器等)、以及/或喇叭等,用以作為人機介面與管理者互動,包括:接收管理者所輸入的設定(如:分群規則設定、權重比例參數設定、以及語音辨識服務之管理(新增/刪除)設定)、以及輸出反饋訊號。
當可理解的是,第2圖所示之元件僅用以提供一說明之範例,並非用以限制本申請之保護範圍。舉例來說,整合式語音辨識系統170還可包括其他元件,例如:電源供應器、以及/或全球定位系統(Global Positioning System,GPS)等。
第3圖係根據本申請一實施例所述之整合式語音辨識方法之流程圖。在此實施例,整合式語音辨識方法係適用於一雲端伺服器,如:整合式語音辨識系統170。
首先,整合式語音辨識系統根據一使用者資料從複數使用者群組中挑選一第一使用者群組(步驟S310),所選的使用者群組即為當前使用者的分群結果。
在一實施例,整合式語音辨識系統可以從網際網路上的其他連網裝置(如:使用者裝置110)接收上述使用者
資料。或者,在另一實施例,整合式語音辨識系統可以從內部/外接的儲存裝置中讀取上述使用者資料。使用者資料可包括網路協定(Internet Protocol,IP)位址、位置資訊、性別資訊、年齡資訊、或以上之任意組合。其中,位置資訊可以是由使用者裝置內建的全球定位系統所提供的定位資訊,或者,位置資訊可以是由使用者手動輸入的居住地/所在地資訊。
在一實施例,由於考量到不同地理區域的使用者會有相近的口音或說話習慣,所以可以根據使用者的所在區域來將使用者進行分群,舉例來說,可根據網路協定位址、以及/或位置資訊來決定每個使用者的所在區域,如:台北、台中、高雄、上海、或北京等。
接著,整合式語音辨識系統取得不同語音辨識服務分別針對同一語音資料所產生之複數辨識結果(步驟S320)。在一實施例,整合式語音辨識系統可以從網際網路上的其他連網裝置(如:使用者裝置110)接收上述語音資料。或者,在另一實施例,整合式語音辨識系統可以從內部/外接的儲存裝置中讀取上述語音資料。
更進一步地,整合式語音辨識系統可以透過網際網路分別連接到不同的語音辨識伺服器以存取不同的語音辨識服務,或者,整合式語音辨識系統亦可直接內建語音辨識引擎以提供這些語音辨識服務。
然後,整合式語音辨識系統根據第一使用者群組中的使用者所對應之評比分數將複數辨識結果進行排序以產生一推薦清單(步驟S330),方法流程結束。
其中,第3圖整合式語音辨識方法之流程圖的詳細操作內容將於第4A~4D圖進一步說明。
第4A~4D圖係根據本申請一實施例所述以軟體來實現整合式語音辨識方法之示意圖。在此實施例,用以實現整合式語音辨識方法之軟體架構包括有:前端輸入模組410、使用者分群模組420、語音辨識整合模組430、推薦清單計算模組440、選擇及回饋模組450、以及相似度計算模組460。上述軟體模組可由程式碼所組成並由整合式語音辨識系統170中的控制器20載入執行,從而實現整合式語音辨識方法。
首先,關於前端輸入模組410,其主要負責提供整合式語音辨識系統170對使用者裝置110的接口。
透過此接口,可讓整合式語音辨識系統170從使用者裝置110接收當前的一使用者F的使用者資料及語音資料(步驟S501)。在另一實施例,前端輸入模組410還可進一步從使用者裝置110接收裝置資料,例如:裝置型號、以及作業系統版本等。
關於使用者分群模組420,其主要負責從資料庫中讀取分群規則(步驟S502),然後依據分群規則及使用者資料將當前的使用者進行分群歸類(步驟S503)。
舉例來說,分群規則可指示以使用者的所在區域進行分群,所以可以先根據使用者資料中的網路協定位址、以及/或全球定位系統之定位資訊來決定使用者的所在區域,然後再將使用者進行分群。
關於語音辨識整合模組430,其主要負責提供整合
式語音辨識系統170對語音辨識伺服器150~160的接口。
透過此接口,可讓整合式語音辨識系統170將語音資料分別傳送到語音辨識伺服器150~160進行語音辨識(步驟S504),並且從語音辨識伺服器150~160分別接收辨識結果(步驟S505)。此接口在實作上,可使用語音辨識服務的提供商所發佈的應用程式介面去存取語音辨識伺服器150~160所提供的語音辨識服務並取得個別的辨識結果。
當可理解的是,語音辨識整合模組430還可對接更多其他的語音辨識伺服器,而不僅僅限於語音辨識伺服器150~160。
關於推薦清單計算模組440,其主要負責至資料庫讀取複數使用者分別對應到不同語音辨識服務的評比分數(步驟S506),並根據分群結果及評比分數計算出語音辨識服務的排名順序(步驟S507),然後再依照排名順序產生推薦清單(步驟S508)。
明確來說,資料庫中儲存了複數使用者先前使用整合式語音辨識系統170時的分群結果、該等使用者對應到不同語音辨識服務的評比分數Ri(i為語音辨識服務的index)、以及每個使用者當次的推薦準確度係數β,如以下表1所示。
步驟S507的具體內容可包括三個部分,在第一部分,先針對每個語音辨識服務計算出所有使用者(複數使用者先前)的平均評比分數ARi,以表1的數據為例,語音辨識服務1~4的所有人綜合評比分數ARi、以及根據所有人綜合評比分數ARi所決定之排名順序如表2所示。
步驟S508的具體內容即是根據綜合推薦排名順序將不同語音辨識服務的辨識結果進行排序以產生推薦清單。以表4的綜合推薦排名順序為例,推薦清單中的第一條目(entry)是語音辨識服務1的辨識結果、第二條目是語音辨識服務3的辨識結果、第三條目是語音辨識服務4的辨識結果、第四條目是語音辨識服務2的辨識結果。
關於選擇及回饋模組450,其主要負責將推薦清單傳送到使用者裝置110(步驟S509),然後從使用者裝置110接收選擇回饋(步驟S510)。
明確來說,若推薦清單中存在使用者想要的辨識結果,則選擇回饋可包括使用者所選定的辨識結果。反之,若推薦清單中所有的辨識結果都不是使用者想要的,則使用者可自行修正辨識結果,而選擇回饋則可包括修正後的辨識結果。
關於相似度計算模組460,其主要負責根據使用者的選擇回饋來回推計算出每個語音辨識服務的評比分數,並根據該等評比分數決定最後排名順序(步驟S511),接著,根據最後排名順序決定當次推薦的準確度係數(步驟S512),然後將這些評比分數存到資料庫中(步驟S513)。
明確來說,相似度計算模組460係計算每個語音辨識服務的辨識結果與使用者的選擇回饋之間的相似度(意即:比對兩者是否相同),並以相似度作為該次辨識的評比分
數。
為方便說明,在此假設推薦清單中所有的辨識結果都不是使用者想要的,所以使用者的選擇回饋包括了修正後的辨識結果:「親子旅遊大控訴」,而上述相似度之計算如以下表5所示。
根據表5所示之範例,由於最後排名順序的第一位與群組推薦排名順序中的第一位相同,所以將當次推薦的準確度係數設為1。若最後排名順序的第一位與群組推薦排名順序中的第一位不同,則將當次推薦的準確度係數設為0。
在步驟S513之後,資料庫就會新增一個條目用以儲存使用者F該次的評比分數及推薦準確度係數,如以下表6所示。
根據上述實施例,當可理解的是,本申請的整合式語音辨識系統及方法的特徵在於,透過使用者分群的機制對不同語音辨識服務的評比分數進行分析,以推薦使用者選用適合的語音辨識服務,從而獲得較佳的語音辨識準確度。須注意的是,雖然上述表1~表6所示範例是以使用者的所在位置為分群之依據,但本發明不在此限。舉例來說,其他使用者資料(如:性別、年齡)、以及/或裝置資料(如:裝置型號、作業系統版本)亦可作為分群之依據。
本申請雖以各種實施例揭露如上,然而其僅為範例參考而非用以限定本申請的範圍,任何熟習此項技藝者,在不脫離本申請之精神和範圍內,當可做些許的更動與潤飾。因此上述實施例並非用以限定本申請之範圍,本申請之保護範圍當視後附之申請專利範圍所界定者為準。
於申請專利範圍中所使用的「第一」、「第二」等
詞係用來修飾權利要求中的元件,並非用來表示之間具有優先權順序,先行關係,或者是一個元件先於另一個元件,或者是執行方法步驟時的時間先後順序,僅用來區別具有相同名字的元件。
410‧‧‧前端輸入模組
420‧‧‧使用者分群模組
430‧‧‧語音辨識整合模組
440‧‧‧推薦清單計算模組
450‧‧‧選擇及回饋模組
460‧‧‧相似度計算模組
S310~S330、S501~S513‧‧‧步驟編號
Claims (10)
- 一種整合式語音辨識系統,包括:一儲存裝置,用以儲存複數使用者所分別對應到複數語音辨識服務的複數第一評比分數;一控制器,用以根據一使用者資料從複數使用者群組中挑選一第一使用者群組,取得上述語音辨識服務分別針對一語音資料所產生之複數辨識結果,以及根據上述使用者中屬於上述第一使用者群組者所對應之上述第一評比分數將上述辨識結果進行排序以產生一推薦清單。
- 如申請專利範圍第1項所述之整合式語音辨識系統,其中上述推薦清單之產生步驟更包括:針對每個語音辨識服務將所有上述使用者所對應的上述第一評比分數加總後計算出個別之一第一平均評比分數,根據該等第一平均評比分數決定一第一排名順序,針對每個語音辨識服務將上述使用者中屬於上述第一使用者群組者所對應之上述第一評比分數加總後計算出個別之一第二平均評比分數,根據該等第二平均評比分數決定一第二排名順序,針對每個語音辨識服務以一權重比例將上述第一平均評比分數及上述第二平均評比分數加總計算出個別之一綜合評比分數,根據該等綜合評比分數決定一第三排名順序。
- 如申請專利範圍第2項所述之整合式語音辨識系統,其中上述控制器更計算上述辨識結果之每一者與一新使用者之一選擇回饋之間的相似度,以產生該新使用者對應 到上述語音辨識服務的複數第二評比分數,根據該等第二評比分數決定一第四排名順序,以及比對上述第四排名順序以及上述第二排名順序中的第一位是否相同以決定一推薦準確度係數。
- 如申請專利範圍第2項所述之整合式語音辨識系統,其中上述儲存裝置還儲存分別對應至上述使用者之複數推薦準確度係數,上述控制器更根據上述推薦準確度係數決定上述權重比例。
- 如申請專利範圍第1項所述之整合式語音辨識系統,其中上述使用者資料包括以下至少一者:一網路協定(Internet Protocol,IP)位址、一位置資訊、一性別資訊、以及一年齡資訊。
- 一種整合式語音辨識方法,適用於一伺服器,上述伺服器包括一儲存裝置用以儲存複數使用者所分別對應到複數語音辨識服務的複數第一評比分數,上述整合式語音辨識方法包括:根據一使用者資料從複數使用者群組中挑選一第一使用者群組;取得上述語音辨識服務分別針對一語音資料所產生之複數辨識結果;以及根據上述使用者中屬於上述第一使用者群組者所對應之上述第一評比分數將上述辨識結果進行排序以產生一推薦清單。
- 如申請專利範圍第6項所述之整合式語音辨識方法,其 中上述推薦清單之產生步驟更包括:針對每個語音辨識服務將所有上述使用者所對應的上述第一評比分數加總後計算出個別之一第一平均評比分數,並根據該等第一平均評比分數決定一第一排名順序;針對每個語音辨識服務將上述使用者中屬於上述第一使用者群組者所對應之上述第一評比分數加總後計算出個別之一第二平均評比分數,並根據該等第二平均評比分數決定一第二排名順序;以及針對每個語音辨識服務以一權重比例將上述第一平均評比分數及上述第二平均評比分數加總計算出個別之一綜合評比分數,並根據該等綜合評比分數決定一第三排名順序。
- 如申請專利範圍第7項所述之整合式語音辨識方法,更包括:計算上述辨識結果之每一者與一新使用者之一選擇回饋之間的相似度,以產生該新使用者對應到上述語音辨識服務的複數第二評比分數,並根據該等第二評比分數決定一第四排名順序;以及比對上述第四排名順序以及上述第二排名順序中的第一位是否相同以決定一推薦準確度係數。
- 如申請專利範圍第7項所述之整合式語音辨識方法,其中上述儲存裝置還儲存分別對應至上述使用者之複數推薦準確度係數,上述整合式語音辨識方法更包括:根據上述推薦準確度係數決定上述權重比例。
- 如申請專利範圍第6項所述之整合式語音辨識方法,其中上述使用者資料包括以下至少一者:一網路協定位址、一位置資訊、一性別資訊、以及一年齡資訊。
Priority Applications (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
TW107115723A TWI682386B (zh) | 2018-05-09 | 2018-05-09 | 整合式語音辨識系統及方法 |
CN201810502185.4A CN110473570B (zh) | 2018-05-09 | 2018-05-23 | 整合式语音辨识系统及方法 |
US16/217,101 US20190348047A1 (en) | 2018-05-09 | 2018-12-12 | Integrated speech recognition systems and methods |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
TW107115723A TWI682386B (zh) | 2018-05-09 | 2018-05-09 | 整合式語音辨識系統及方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
TW201947580A TW201947580A (zh) | 2019-12-16 |
TWI682386B true TWI682386B (zh) | 2020-01-11 |
Family
ID=68463302
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
TW107115723A TWI682386B (zh) | 2018-05-09 | 2018-05-09 | 整合式語音辨識系統及方法 |
Country Status (3)
Country | Link |
---|---|
US (1) | US20190348047A1 (zh) |
CN (1) | CN110473570B (zh) |
TW (1) | TWI682386B (zh) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP3384490A1 (en) * | 2015-12-01 | 2018-10-10 | Nuance Communications, Inc. | Representing results from various speech services as a unified conceptual knowledge base |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
TW201246185A (en) * | 2011-05-10 | 2012-11-16 | Univ Nat Chiao Tung | Chinese speech recognition device and speech recognition method thereof |
WO2012165529A1 (ja) * | 2011-06-03 | 2012-12-06 | 日本電気株式会社 | 言語モデル構築支援装置、方法及びプログラム |
US20120310647A1 (en) * | 2001-06-06 | 2012-12-06 | Nuance Communications, Inc. | Pattern processing system specific to a user group |
CN107656983A (zh) * | 2017-09-08 | 2018-02-02 | 广州索答信息科技有限公司 | 一种基于声纹识别的智能推荐方法及装置 |
Family Cites Families (14)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6526380B1 (en) * | 1999-03-26 | 2003-02-25 | Koninklijke Philips Electronics N.V. | Speech recognition system having parallel large vocabulary recognition engines |
EP1378886A1 (en) * | 2002-07-02 | 2004-01-07 | Ubicall Communications en abrégé "UbiCall" S.A. | Speech recognition device |
US8364481B2 (en) * | 2008-07-02 | 2013-01-29 | Google Inc. | Speech recognition with parallel recognition tasks |
US9183843B2 (en) * | 2011-01-07 | 2015-11-10 | Nuance Communications, Inc. | Configurable speech recognition system using multiple recognizers |
US9129591B2 (en) * | 2012-03-08 | 2015-09-08 | Google Inc. | Recognizing speech in multiple languages |
JP5957269B2 (ja) * | 2012-04-09 | 2016-07-27 | クラリオン株式会社 | 音声認識サーバ統合装置および音声認識サーバ統合方法 |
CN103077718B (zh) * | 2013-01-09 | 2015-11-25 | 华为终端有限公司 | 语音处理方法、系统和终端 |
EP2816552B1 (en) * | 2013-06-20 | 2018-10-17 | 2236008 Ontario Inc. | Conditional multipass automatic speech recognition |
CN103578471B (zh) * | 2013-10-18 | 2017-03-01 | 威盛电子股份有限公司 | 语音辨识方法及其电子装置 |
CN104823235B (zh) * | 2013-11-29 | 2017-07-14 | 三菱电机株式会社 | 声音识别装置 |
US9413891B2 (en) * | 2014-01-08 | 2016-08-09 | Callminer, Inc. | Real-time conversational analytics facility |
CN104536978A (zh) * | 2014-12-05 | 2015-04-22 | 奇瑞汽车股份有限公司 | 识别语音数据的方法和装置 |
CN106157956A (zh) * | 2015-03-24 | 2016-11-23 | 中兴通讯股份有限公司 | 语音识别的方法及装置 |
CN107316637A (zh) * | 2017-05-31 | 2017-11-03 | 广东欧珀移动通信有限公司 | 语音识别方法及相关产品 |
-
2018
- 2018-05-09 TW TW107115723A patent/TWI682386B/zh active
- 2018-05-23 CN CN201810502185.4A patent/CN110473570B/zh active Active
- 2018-12-12 US US16/217,101 patent/US20190348047A1/en not_active Abandoned
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20120310647A1 (en) * | 2001-06-06 | 2012-12-06 | Nuance Communications, Inc. | Pattern processing system specific to a user group |
TW201246185A (en) * | 2011-05-10 | 2012-11-16 | Univ Nat Chiao Tung | Chinese speech recognition device and speech recognition method thereof |
WO2012165529A1 (ja) * | 2011-06-03 | 2012-12-06 | 日本電気株式会社 | 言語モデル構築支援装置、方法及びプログラム |
CN107656983A (zh) * | 2017-09-08 | 2018-02-02 | 广州索答信息科技有限公司 | 一种基于声纹识别的智能推荐方法及装置 |
Also Published As
Publication number | Publication date |
---|---|
CN110473570A (zh) | 2019-11-19 |
CN110473570B (zh) | 2021-11-26 |
TW201947580A (zh) | 2019-12-16 |
US20190348047A1 (en) | 2019-11-14 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US10078489B2 (en) | Voice interface to a social networking service | |
US10747954B2 (en) | System and method for performing tasks based on user inputs using natural language processing | |
CN109840089A (zh) | 用于对电子设备的会话代理进行视觉理解和编程的系统和方法 | |
US20140089314A1 (en) | Function-presenting system, terminal device, server device, program and function-presenting method | |
CN103080927B (zh) | 使用搜索结果的自动路由 | |
WO2020177592A1 (zh) | 画作问答方法及装置、画作问答系统、可读存储介质 | |
CN112470144A (zh) | 用于助理系统的上下文自动完成 | |
US10521483B2 (en) | Ranking test framework for search results on an online social network | |
US11630560B2 (en) | Map information display method and apparatus, electronic device, and computer storage medium | |
CN110785970B (zh) | 使网页的机器人创建自动化的技术 | |
JP6309539B2 (ja) | 音声入力を実現する方法および装置 | |
US20220164205A1 (en) | Feature exposure for model recommendations and feedback | |
WO2020056621A1 (zh) | 一种意图识别模型的学习方法、装置及设备 | |
US20170286133A1 (en) | One Step Task Completion | |
WO2013143252A1 (zh) | 一种基于上下文场景的输入候选词提示方法及系统 | |
CN110619050A (zh) | 意图识别方法及设备 | |
WO2022012205A1 (zh) | 词补全方法和装置 | |
JP2019500704A (ja) | 人工知能ベースの関連度計算を用いたノート提供方法及び装置 | |
TWI682386B (zh) | 整合式語音辨識系統及方法 | |
CN104166455B (zh) | 用于确定目标用户所对应的输入模型的方法与设备 | |
US9830362B2 (en) | Techniques for ranking character searches | |
US10608966B1 (en) | Techniques to customize bot messaging behavior | |
WO2021098876A1 (zh) | 一种基于知识图谱的问答方法及装置 | |
KR102249109B1 (ko) | 가변적인 답변이 필요한 질문에 대한 답변 세트의 제공 방법 및 이를 이용하는 장치 | |
US10963466B2 (en) | Contextual associations for entity queries |