TWI574255B

TWI574255B - 語音辨識方法、電子裝置及語音辨識系統

Info

Publication number: TWI574255B
Application number: TW105105071A
Authority: TW
Inventors: 李彥君; 簡孝堅; 陳彥華
Original assignee: 華碩電腦股份有限公司
Priority date: 2016-02-22
Filing date: 2016-02-22
Publication date: 2017-03-11
Also published as: TW201730874A

Description

語音辨識方法、電子裝置及語音辨識系統

本發明是有關於一種語音辨識技術。

隨著通訊技術的進步，和語音辨識相關的許多應用技術也逐漸成為在設計電子產品時不可或缺的項目之一，讓使用者能夠直接利用語音輸入取代文字輸入來與電子裝置進行溝通。語音識別（speech recognition）目標是以電腦自動將人類的語音內容轉換為相應的文字。語音識別技術的應用包括語音撥號、語音導航、室內設備控制、語音文檔檢索、簡單的聽寫數據錄入等。

對於本地端裝置使用的電子裝置而言，由於本地端裝置中並未建置語音辨識用的資料庫，因此，目前傳統作法是透過網路服務，而由遠端的服務器來進行語音辨識。故，在網路覆蓋率不佳的區域便無法離線來使用語音辨識的功能。

本發明的語音辨識方法，包括：自輸入裝置接收到音訊資料之後，判斷本地端裝置是否連線至網際網路，其中本地端裝置包括音訊資料庫以及結果資料庫，音訊資料庫儲存多個歷史音訊資料，結果資料庫儲存與上述音訊資料相關聯的多個歷史文本資料；當判定本地端裝置連線至網際網路時，傳送音訊資料至遠端服務器，以執行線上分析而獲得文本分析結果；以及當判定本地端裝置未連線至網際網路時，執行離線分析。上述執行離線分析的步驟包括：將所接收的音訊資料與儲存在音訊資料庫中的各歷史音訊資料進行聲紋比對，以獲得對應的其中一個歷史音訊資料；以及依據所獲得的其中一個歷史音訊資料，自本地端裝置的結果資料庫取出相關聯的其中一個歷史文本資料。在此，所述歷史文本資料是預先經由線上分析而自遠端服務器獲得。

本發明的電子裝置，包括：輸入裝置，接收音訊資料；音訊資料庫，儲存多個歷史音訊資料；結果資料庫，儲存與上述音訊資料相關聯的多個歷史文本資料；通信單元，連線至網際網路；處理器，耦接至輸入裝置、音訊資料庫、結果資料庫以及通信單元。在自輸入裝置接收到音訊資料之後，處理器判斷通信單元是否連線至網際網路。當判定通信單元連線至網際網路時，處理器透過通信單元傳送音訊資料至遠端服務器，以執行線上分析而獲得文本分析結果。當判定通信單元未連線至網際網路時，處理器執行離線分析，包括：將所接收的音訊資料與儲存在音訊資料庫中的各歷史音訊資料進行聲紋比對，以獲得對應的其中一個歷史音訊資料；並且依據所獲得的其中一個歷史音訊資料，自結果資料庫取出相關聯的其中一個歷史文本資料。在此，所述歷史文本資料是預先經由線上分析而自遠端服務器獲得。

本發明更包括一語音辨識系統，包括：本地端裝置以及遠端服務器。本地端裝置包括：輸入裝置，接收音訊資料；音訊資料庫，儲存多個歷史音訊資料；結果資料庫，儲存與上述歷史音訊資料相關聯的多個歷史文本資料；第一通信單元，連線至網際網路；第一處理器，耦接至輸入裝置、音訊資料庫、結果資料庫以及第一通信單元，其中，在自輸入裝置接收到音訊資料之後，第一處理器判斷第一通信單元是否連線至網際網路。遠端服務器包括：第二通信單元，連線至網際網路；以及第二處理器，耦接至第二通信單元，對音訊資料進行語音轉文本識別。當第一處理器判定第一通信單元連線至網際網路時，第一處理器透過第一通信單元傳送音訊資料至遠端服務器，以執行線上分析而獲得文本分析結果。當第一處理器判定第一通信單元未連線至網際網路時，第一處理器執行離線分析，包括：將所接收的音訊資料與儲存在音訊資料庫中的各歷史音訊資料進行聲紋比對，以獲得對應的其中一個歷史音訊資料；並且依據所獲得的其中一個歷史音訊資料，自結果資料庫取出相關聯的其中一個歷史文本資料。在此，所述歷史文本資料是預先經由線上分析而自遠端服務器獲得。

基於上述，在連線至網際網路的情況下，由遠端服務器執行線上分析，並且持續蒐集歷史音訊資料與歷史文本資料。據此，在未連線至網際網路的情況下，本地端裝置基於所蒐集的歷史資料來執行離線分析。

為讓本發明的上述特徵和優點能更明顯易懂，下文特舉實施例，並配合所附圖式作詳細說明如下。

一般傳統的語音辨識系統架構僅提供線上分析，即，透過輸入裝置蒐集音訊資料，經由網路服務進行運算後回傳分析結果，因此在離線狀態下便無法來執行語音辨識。為此，本發明提出一種並存於連網與非連網狀態下的語音辨識方法、電子裝置及語音辨識系統。為了使本案之內容更為明瞭，以下特舉實施例作為本案確實能夠據以實施的範例。

圖1是依照本發明一實施例的語音辨識系統的方塊圖。請參照圖1，語音辨識系統100包括本地端裝置A、遠端服務器B以及網際網路C。本地端裝置A透過網際網路C與遠端服務器B連接。

本地端裝置A可以是個人電腦、筆記型電腦、平板電腦、智慧型手機、導航裝置、車用電子裝置等具有運算能力的電子裝置。本地端裝置A包括第一處理器110、輸入裝置120、音訊資料庫130、結果資料庫140以及第一通信單元150。第一處理器110耦接至該輸入裝置120、音訊資料庫130、結果資料庫140以及第一通信單元150。上述音訊資料庫130與結果資料庫140可以建置在同一個儲存單元內，也可以分別儲存於兩個獨立的儲存單元內。儲存單元例如為非揮發性記憶體（non-volatile memory）、隨機存取記憶體（random access memory，ram）或硬碟等。

遠端服務器B為具有運算功能的雲端服務器，提供一線上分析的功能。遠端服務器B包括第二處理器160以及第二通信單元170。第二處理器160用以執行語音轉文本識別（Speech To Text，STT）。

第一處理器110與第二處理器160例如為中央處理單元（central processing unit，CPU）、可程式化之微處理器（microprocessor）、嵌入式控制晶片、數位訊號處理器（digital signal processor，DSP）、特殊應用積體電路（application specific integrated circuits，ASIC）或其他類似裝置。第一通信單元150及第二通信單元170例如為支援有線或無線通訊協定的晶片。輸入裝置120例如為麥克風等收音器材。

圖2是依照本發明一實施例的語音辨識方法的流程圖。請參照圖1及圖2，在步驟S205中，第一處理器110自輸入裝置120接收音訊資料。即，使用者透過輸入裝置120收音，並由輸入裝置120將音訊資料傳送至第一處理器110。

接著，在步驟S210中，第一處理器110判斷本地端裝置A是否連線至網際網路C，即，判斷第一通信單元150目前是否連線至網際網路C。

當判定本地端裝置A連線至網際網路C時，如步驟S215所示，本地端裝置A傳送音訊資料至遠端服務器B，以執行線上分析。具體而言，第一處理器110透過第一通信單元150傳送音訊資料至遠端服務器B，以由遠端服務器B執行線上分析，而後第一處理器110自遠端服務器B獲得文本分析結果，並儲存文本分析結果至結果資料庫140。在此，本地端裝置A的結果資料庫140中所儲存的歷史文本資料是預先經由線上分析而自遠端服務器B獲得。

例如，遠端服務器B提供一語音識別模組。語音識別模組包括信號處理及特徵提取模組、聲學模型、發音詞典、語言模型及解碼器。信號處理及特徵提取模塊用以從輸入信號（音訊資料）中提取特徵，供聲學模型使用。聲學模型例如採用隱藏式馬可夫（Hidden Markov Model，HMM）模型進行建模。語言模型對所針對的語言進行建模。發音詞典包含多個詞彙集及其發音，用以提供聲學模型與語言模型間的映射。解碼器根據聲學模型、語言模型及發音詞典，尋找出音訊資料對應的詞串。據此，第二處理器160利用語音識別模組來執行語音轉文本識別，以將音訊資料轉換為文字資料。

而當判定本地端裝置A未連線至網際網路C時，在步驟S220中，由本地端裝置A執行離線分析。離線分析包括步驟S221及S223。

在步驟S221中，第一處理器110對音訊資料進行聲紋比對，以取出對應的歷史音訊資料。即，第一處理器110將所接收的音訊資料與儲存在音訊資料庫130中的多個歷史音訊資料進行聲紋比對，以獲得對應的其中一個歷史音訊資料。例如，第一處理器110逐一比對音訊資料與各個歷史音訊資料的波形，以找出最相似的歷史音訊資料。

之後，在步驟S223中，第一處理器110依據所獲得的歷史音訊資料，自結果資料庫140取出相關聯的歷史文本資料。由於音訊資料庫130中的每一筆歷史音訊資料皆與結果資料庫140中的其中一筆歷史文本資料相關聯，因此，在獲得其中一歷史音訊資料之後，便可根據其關聯性來獲得對應的歷史文本資料。

於一實施例中，本地端裝置A會預先在連線至網際網路的情況下持續蒐集歷史音訊資料與歷史文本資料，以建立離線用資料庫，底下再舉一例來說明。

圖3是依照本發明一實施例的建立離線用資料庫的方法流程圖。請同時參照圖1及圖3，在第一處理器110自輸入裝置120接收到音訊資料之後，當判定本地端裝置A連線至網際網路C時（圖2的步驟S210的「是」），在步驟S305中，第一處理器110傳送音訊資料至遠端服務器B，以執行線上分析。例如，遠端服務器B包括語音識別模組，第二處理器160利用語音識別模組來執行語音轉文本識別。在獲得文本分析結果之後，第二處理器160透過第二通信單元170將文本分析結果傳送至本地端裝置A。

在第一處理器110自輸入裝置120接收到音訊資料之後，在步驟S310中，第一處理器110還可進一步將自輸入裝置120所接收到的音訊資料儲存至音訊資料庫130。在此，在不影響現有機制下，開通一管道同步將輸入裝置120所獲得的音訊資料另行儲存至音訊資料庫130。另外，本實施例並不限制步驟S305及步驟S310兩者的先後順序。

而在第一處理器110傳送音訊資料至遠端服務器B之後，在步驟S315中，第一處理器110自遠端服務器B接收到文本分析結果。接著，在步驟S320中，第一處理器110儲存文本分析結果至結果資料庫140。在此，在不影響現有機制下，開通一管道同步將自遠端服務器B所獲得的文本分析結果另行儲存至結果資料庫140。儲存至結果資料庫140的文本分析結果就是歷史文本資料。

在步驟S325中，第一處理器110對儲存至音訊資料庫130中的音訊資料與儲存至結果資料庫140的文本分析結果建立一關聯。據此，在執行離線分析時，第一處理器110便能夠根據音訊資料庫130以及結果資料庫140來獲得對應的歷史文本資料。即，自音訊資料庫130中獲得相似的歷史音訊資料之後，根據所建立的關聯，自結果資料庫140中來獲得對應的歷史文本資料。

另外，倘若第一處理器110在執行聲紋比對之後無法獲得相似的歷史音訊資料，則第一處理器110會產生一提示訊息。例如，透過提示訊息來通知使用者連線至網際網路C來進行線上分析等。

而在執行離線分析的情況下，第一處理器110傳送自結果資料庫140所取出的歷史文本資料至輸出裝置（例如螢幕等顯示器）。在執行線上分析的情況下，第一處理器110傳送自遠端服務器B所獲得的文本分析結果至輸出裝置。

綜上所述，在連線至網際網路C的情況下，由遠端服務B器執行線上分析，並且持續蒐集歷史音訊資料與歷史文本資料來建立離線用資料庫。據此，在未連線至網際網路C的情況下，本地端裝置A基於音訊資料庫130及結果資料庫140來執行離線分析。

雖然本發明已以實施例揭露如上，然其並非用以限定本發明，任何所屬技術領域中具有通常知識者，在不脫離本發明的精神和範圍內，當可作些許的更動與潤飾，故本發明的保護範圍當視後附的申請專利範圍所界定者為準。

100‧‧語音辨識系統

110‧‧‧第一處理器

120‧‧‧輸入裝置

130‧‧‧音訊資料庫

140‧‧‧結果資料庫

150‧‧‧第一通信單元

160‧‧‧第二處理器

170‧‧‧第二通信單元

A‧‧‧本地端裝置

B‧‧‧遠端服務器

C‧‧‧網際網路

S205~S223‧‧‧語音辨識方法各步驟

S305~S325‧‧‧建立離線用資料庫的方法各步驟

圖1是依照本發明一實施例的語音辨識系統的方塊圖。圖2是依照本發明一實施例的語音辨識方法的流程圖。圖3是依照本發明一實施例的建立離線用資料庫的方法流程圖。

S205~S223‧‧‧語音辨識方法各步驟

Claims

一種語音辨識方法，包括：自一輸入裝置接收到一音訊資料之後，判斷一本地端裝置是否連線至一網際網路，其中該本地端裝置包括一音訊資料庫以及一結果資料庫，該音訊資料庫儲存多個歷史音訊資料，該結果資料庫儲存與該些歷史音訊資料相關聯的多個歷史文本資料；當判定該本地端裝置連線至該網際網路時，傳送該音訊資料至一遠端服務器，以執行一線上分析，對該音訊資料進行一語音轉文本識別而獲得一文本分析結果；儲存該文本分析結果至該結果資料庫；以及對儲存至該音訊資料庫中的該音訊資料與儲存至該結果資料庫的該文本分析結果建立一關聯；以及當判定該本地端裝置未連線至該網際網路時，執行一離線分析，而執行該離線分析的步驟包括：將所接收的該音訊資料、與儲存在該音訊資料庫中的該些歷史音訊資料進行聲紋比對，以獲得對應的其中一個所述歷史音訊資料；以及依據所獲得的其中一個所述歷史音訊資料，自該本地端裝置的該結果資料庫取出相關聯的其中一個所述歷史文本資料，其中該些歷史文本資料是預先經由該線上分析而自該遠端服務器獲得。
如申請專利範圍第1項所述的語音辨識方法，其中在自該輸入裝置接收到該音訊資料之後，更包括：儲存自該輸入裝置所接收的該音訊資料至該音訊資料庫。
如申請專利範圍第1項所述的語音辨識方法，更包括：在執行該離線分析的情況下，傳送自該結果資料庫所取出的其中一個所述歷史文本資料至一輸出裝置；以及在執行該線上分析的情況下，傳送自該遠端服務器所獲得的該文本分析結果至該輸出裝置。
如申請專利範圍第3項所述的語音辨識方法，其中該輸入裝置為一麥克風，該輸出裝置為一螢幕。
一種電子裝置，包括：一輸入裝置，接收一音訊資料；一音訊資料庫，儲存多個歷史音訊資料；一結果資料庫，儲存與該些歷史音訊資料相關聯的多個歷史文本資料；一通信單元，連線至一網際網路；一處理器，耦接至該輸入裝置、該音訊資料庫、該結果資料庫以及該通信單元，其中，在自該輸入裝置接收到該音訊資料之後，該處理器判斷該通信單元是否連線至該網際網路；當判定該通信單元連線至該網際網路時，該處理器透過該通信單元傳送該音訊資料至一遠端服務器，以執行一線上分析而獲得一文本分析結果，當判定該通信單元未連線至該網際網路時，該處理器執行一離線分析，包括：將所接收的該音訊資料、與儲存在該音訊資料庫中的該些歷史音訊資料進行聲紋比對，以獲得對應的其中一個所述歷史音訊資料；並且依據所獲得的其中一個所述歷史音訊資料，自該結果資料庫取出相關聯的其中一個所述歷史文本資料，其中該些歷史文本資料是預先經由該線上分析而自該遠端服務器獲得。
如申請專利範圍第5項所述的電子裝置，其中該處理器儲存自該輸入裝置所接收的該音訊資料至該音訊資料庫；而當判定該通信單元連線至該網際網路時，且自該遠端服務器接收到該文本分析結果後，該處理器儲存該文本分析結果至該結果資料庫；以及該處理器對儲存至該音訊資料庫中的該音訊資料與儲存至該結果資料庫的該文本分析結果建立一關聯。
如申請專利範圍第5項所述的電子裝置，更包括：一輸出裝置，耦接至該處理器；在執行該離線分析的情況下，該輸出裝置輸出自該結果資料庫所取出的其中一個所述歷史文本資料，在執行該線上分析的情況下，該輸出裝置輸出自該遠端服務器所獲得的該文本分析結果。
如申請專利範圍第7項所述的電子裝置，其中該輸入裝置為一麥克風，該輸出裝置為一螢幕。
一種語音辨識系統，包括：一本地端裝置，包括：一輸入裝置，接收一音訊資料；一音訊資料庫，儲存多個歷史音訊資料；一結果資料庫，儲存與該些歷史音訊資料相關聯的多個歷史文本資料；一第一通信單元，連線至一網際網路；一第一處理器，耦接至該輸入裝置、該音訊資料庫、該結果資料庫以及該第一通信單元，其中，在自該輸入裝置接收到該音訊資料之後，該第一處理器判斷該第一通信單元是否連線至該網際網路；以及一遠端服務器，包括：一第二通信單元，連線至該網際網路；以及一第二處理器，耦接至該第二通信單元，對該音訊資料進行一語音轉文本識別；其中，當該第一處理器判定該第一通信單元連線至該網際網路時，該第一處理器透過該第一通信單元傳送該音訊資料至該遠端服務器，以執行一線上分析而獲得一文本分析結果；當該第一處理器判定該第一通信單元未連線至該網際網路時，該第一處理器執行一離線分析，包括：將所接收的該音訊資料、與儲存在該音訊資料庫中的該些歷史音訊資料進行聲紋比對，以獲得對應的其中一個所述歷史音訊資料；並且依據所獲得的其中一個所述歷史音訊資料，自該結果資料庫取出相關聯的其中一個所述歷史文本資料，其中該些歷史文本資料是預先經由該線上分析而自該遠端服務器獲得。