TW201946050A

TW201946050A - 語音辨識裝置及方法

Info

Publication number: TW201946050A
Application number: TW107114344A
Authority: TW
Inventors: 林忠億; 郭錦斌; 陳怡樺
Original assignee: 鴻海精密工業股份有限公司
Priority date: 2018-04-26
Filing date: 2018-04-26
Publication date: 2019-12-01
Also published as: TWI662542B

Abstract

本發明涉及一種語音辨識裝置及語音辨識方法。該方法用於將獲取的語音與一語音庫進行比對確定出匹配語音及與該匹配語音對應的信心度；判斷該匹配語音的信心度是否超過一預設值；當該匹配語音的信心度超過該預設值時藉由一語音輸出單元輸出該匹配語音；當匹配語音的信心度未超過預設值時識別與該語音關聯的影像並識別該影像中的手勢；將識別的手勢與該影像所對應的匹配語音進行匹配處理以使該匹配語音與該手勢的語義相匹配；及輸出匹配處理後的匹配語音。本發明能夠提高語音辨識的準確度，並增強用戶的體驗效果。

Description

語音辨識裝置及方法

本發明涉及語音辨識領域，尤其涉及一種語音辨識裝置及語音辨識方法。

現有技術中，語音辨識系統在識別使用者的語音時會產生多種相似的語音辨識結果供用戶選擇。造成語音辨識的效率低下。然而，目前手勢動作一般都有特定的含義，比如搖手的手勢動作表示否定的意義，OK的手勢動作表示贊成或完成的意義，手往下比一的手勢動作表示強調的意義。因而，在語音辨識的過程中結合具有特定含義的手持識別能夠提高語音辨識的準確度，並增強用戶的體驗效果。

鑒於以上內容，有必要提供一種語音辨識裝置及語音辨識方法提高語音辨識的準確度，並增強用戶的體驗效果。

一種語音辨識裝置，包括語音採集單元、語音輸出單元、攝像單元及處理單元，該語音採集單元用於採集語音，該攝像單元用於採集影像，該處理單元用於：

獲取該語音採集單元採集的語音；

獲取該攝像單元採集的影像，並將該影像與採集的語音在時間上進行關聯；

將獲取的語音與一語音庫進行比對確定出匹配語音及與該匹配語音對應的信心度，其中，該信心度指示該匹配語音與該語音採集單元採集的語音相匹配的準確度；

判斷該匹配語音的信心度是否超過一預設值；及

當該匹配語音的信心度超過該預設值時藉由該語音輸出單元輸出該匹配語音。

優選地，該處理單元還用於：

當匹配語音的信心度未超過預設值時識別與該語音關聯的影像並識別該影像中的手勢；

將識別的手勢與該影像所對應的匹配語音進行增強處理以使該匹配語音與該手勢的語義相匹配；及

輸出匹配處理後的匹配語音。

優選地，該處理單元還用於：

將該語音按照字、詞進行分割；將分割的字、詞與語音庫中的字、詞進行比對以在該語音庫中確定與語音中每個字、詞相匹配的匹配字及匹配詞；

根據比對結果確定匹配字的信心度與匹配詞的信心度；

根據該些匹配字及匹配詞確定出匹配語音；及

根據該些匹配字的信心度與匹配詞的信心度確定該匹配語音的信心度。

優選地，該處理單元用於將獲取的語音劃分為多個語音片段，將獲取的影像資訊劃分為多個影像片段，並將該些影像片段與語音片段按照時間進行對應關聯，其中，該處理單元從獲取的語音中提取音位特徵，並使用終點演算法識別獲取的語音中每個句子的終點，並按照句子將獲取的語音劃分為多個語音片段。

優選地，該處理單元還用於：

根據識別的手勢查找一定義多個手勢與語義的對應關係的語義關係表確定與該手勢對應的語義。

一種語音辨識方法，該方法包括步驟：

獲取一語音採集單元採集的語音；

獲取一攝像單元採集的影像，並將該影像與採集的語音在時間上進行關聯；

判斷該匹配語音的信心度是否超過一預設值；及

當該匹配語音的信心度超過該預設值時藉由一語音輸出單元輸出該匹配語音。

優選地，該方法還包括步驟：

將識別的手勢與該影像所對應的匹配語音進行匹配處理以使該匹配語音與該手勢的語義相匹配；及

輸出匹配處理後的匹配語音。

優選地，該方法還包括步驟：

根據比對結果確定匹配字的信心度與匹配詞的信心度；

根據該些匹配字及匹配詞確定出匹配語音；及

優選地，該方法還包括步驟：

將獲取的語音劃分為多個語音片段，其中，從獲取的語音中提取音位特徵，並使用終點演算法識別獲取的語音中每個句子的終點，並按照句子將獲取的語音劃分為多個語音片段；

將獲取的影像資訊劃分為多個影像片段，並將該些影像片段與語音片段按照時間進行對應關聯。

優選地，該方法還包括步驟：

本發明能夠提高語音辨識的準確度，並增強用戶的體驗效果。

請參考圖1，所示為本發明一實施方式中語音辨識系統1的應用環境圖。該語音辨識系統1應用在一語音辨識裝置2中。該語音辨識裝置2與一伺服器3通訊連接。本實施方式中，該伺服器3為雲端伺服器。該語音辨識系統1用於獲取使用者的語音及手勢動作，並根據獲取的語音及手勢動作識別使用者的語音及輸出該語音。本實施方式中，該語音辨識裝置2可以為電視、電腦、智慧手機等裝置。

請參考圖2，所示為本發明一實施方式中語音辨識裝置2的功能模組圖。該語音辨識裝置2包括，但不限於攝像單元21、語音採集單元22、語音輸出單元23、通訊單元24、存儲單元25及處理單元26。本實施方式中，該攝像單元21用於攝取語音辨識裝置2周圍的環境圖像並將攝取的圖像傳送給該處理單元26。例如，該攝像單元21可以攝取位於語音辨識裝置2周圍的使用者的手勢圖像，並將攝取的使用者的手勢圖像發送給該處理單元26。本實施方式中，該攝像單元21可以為一攝像頭、3D光場相機等。該語音採集單元22用於採集接語音辨識裝置2周圍的語音資訊並將接收的語音資訊傳送給處理單元26。在本實施方式中，該語音採集單元22可以為麥克風或麥克風陣列等。

該語音輸出單元23用於在該處理單元26的控制下輸出語音資訊。在本實施方式中，該語音輸出單元23可以為揚聲器。該通訊單元24用於供該語音辨識裝置2與伺服器3通訊連接。在一實施方式中，該通訊單元24可以為WIFI通訊模組、3G/4G通訊模組、Zigbee通訊模組及Blue Tooth通訊模組。該存儲單元25用於存儲該語音辨識裝置2的程式碼及資料資料。例如，該存儲單元25可以存儲預設人臉圖像、預設語音手勢圖像及語音辨識系統1。本實施方式中，該存儲單元25可以為該語音辨識裝置2的內部存儲單元，例如該語音辨識裝置2的硬碟或記憶體。在另一實施方式中，該存儲單元25也可以為該語音辨識裝置2的外部存放裝置，例如該語音辨識裝置2上配備的插接式硬碟，智慧存儲卡（Smart Media Card, SMC），安全數位（Secure Digital, SD）卡，快閃記憶體卡（Flash Card）等。該處理單元26用於獲取使用者的語音及手勢動作，並根據獲取的語音及手勢動作識別使用者的語音及控制輸出該語音。本實施方式中，該處理單元26可以為一中央處理器（Central Processing Unit, CPU），微處理器或其他資料處理晶片，該處理單元26用於執行軟體程式碼或運算資料。

請參考圖3，所示為本發明一實施方式中語音辨識系統1的功能模組圖。該語音辨識系統1包括一個或多個模組，所述一個或者多個模組被存儲於該存儲單元25中，並被該處理單元26所執行。本實施方式中，語音辨識系統1包括獲取模組101、語音辨識模組102、判斷模組103、輸出模組104、圖像識別模組105、匹配模組106。在其他實施方式中，該語音辨識系統1為內嵌在該語音辨識裝置2中的程式段或代碼。

該獲取模組101用於獲取該語音採集單元22採集的語音。

該獲取模組101還用於獲取該攝像單元21採集的影像，並將該影像與採集的語音在時間上進行關聯。本實施方式中，該獲取模組101將獲取的語音劃分為多個語音片段，具體的，該獲取模組101可以從所述語音中提取音位特徵，並使用終點演算法識別語音中每個句子的終點，並按照識別的句子終點將獲取的語音劃分為多個語音片段。該獲取模組101還將獲取的影像資訊劃分為多個影像片段，並將該些影像片段與語音片段按照時間進行對應關聯，其中每一語音片段與一影像片段在時間上對應關聯。

該語音辨識模組102用於將獲取的語音與一語音庫進行比對確定出匹配語音及與該匹配語音對應的信心度。其中，該信心度指示該匹配語音與該語音採集單元22採集的語音相匹配的準確度。本實施方式中，該語音辨識模組102將該語音按照字、詞進行分割，將分割的字、詞與語音庫中的字、詞進行比對以在該語音庫中確定與語音中每個字、詞相匹配的匹配字及匹配詞，根據比對結果確定匹配字的信心度與匹配詞的信心度，並根據該些匹配字及匹配詞確定出匹配語音及根據該些匹配字的信心度與匹配詞的信心度確定該匹配語音的信心度。本實施方式中，該語音辨識模組102根據該些匹配字及匹配詞確定出的匹配語音可以是一個或是多個。本實施方式中，該語音庫存儲在該語音辨識裝置2的存儲單元25中，該語音辨識模組102查找存儲在該存儲單元25中的語音庫從而將獲取的語音與該語音庫進行比對。在其他實施方式中，該語音庫存儲在該伺服器3中，該語音辨識模組102藉由訪問該伺服器3查找該語音庫從而將獲取的語音與該語音庫進行比對。

該判斷模組103用於判斷該匹配語音的信心度是否超過一預設值。本實施方式中，該預設值可以根據實際需要具體設定，例如，可將該預設值設定為0.6。

該輸出模組104用於在該匹配語音的信心度超過該預設值時，藉由該語音輸出單元23輸出該匹配語音。在其他實施方式中，當語音辨識模組102確定的匹配語音的數量超過1個時，該輸出模組104輸出信心度最大的匹配語音。

該圖像識別模組105用於在匹配語音的信心度小於一預設值時識別與該語音關聯的影像並識別該影像中的手勢。該匹配模組106用於將識別的手勢與該影像所對應的匹配語音進行匹配處理以使該匹配語音與該手勢的語義相匹配。該輸出模組104將匹配模組106匹配處理後的匹配語音輸出。

本實施方式中，該匹配模組106根據識別的手勢查找語義關係表確定該手勢的語義。其中，該語義關係表中定義多個手勢與語義的對應關係。該匹配模組106根據手勢查找該語義關係表並確定與該手勢相對應的語義。該匹配模組106根據該手勢的語義對該匹配語音進行匹配處理以使該匹配語音與該手勢的語義相匹配。該輸出模組104將匹配模組106匹配處理後的匹配語音輸出。在一實施方式中，當識別出的匹配語音有多個時，該匹配模組106確定每一匹配語音相對於該手勢的語義的匹配度，依據每一匹配語音相對於該手勢的語義的匹配度確定與該手勢的語義的匹配度最高的匹配語音，並將與該手勢的語義的匹配度最高的匹配語音與該手勢進行匹配處理。該輸出模組104輸出經過匹配處理的匹配語音。

本實施方式中，該獲取模組101將獲取的語音劃分為多個語音片段及將獲取的影像資訊劃分為多個影像片段並將每一語音片段與一影像片段在時間上對應關聯後，該語音辨識模組102將劃分的語音片段與一語音庫進行比對確定出與每一語音片段對應的匹配語音及確定出該匹配語音的信心度。該判斷模組103判斷與每一語音片段對應的匹配語音的信心度是否超過預設值。當與語音片段對應的匹配語音的信心度超過預設值時，該輸出模組104藉由該語音輸出單元23輸出該匹配語音；當語音片段所對應的匹配語音信心度沒有超過預設值時，該圖像識別模組105識別語音片段所對應的影像片段並識別該語音片段所對應的影像片段中的手勢。該匹配模組106用於將從影像片段中識別的手勢與該影像所對應的語音片段的匹配語音進行匹配處理以使該匹配語音與該手勢的語義相匹配。該輸出模組104輸出匹配處理後的匹配語音。

請參考圖4，所示為本發明一實施方式中語音辨識方法的流程圖。該方法應用在語音辨識裝置2中。根據不同需求，該流程圖中步驟的順序可以改變，某些步驟可以省略或合併。該方法包括如下步驟。

S401：獲取語音採集單元22採集的語音。

S402：獲取攝像單元21採集的影像，並將該影像與採集的語音在時間上進行關聯。本實施方式中，該語音辨識裝置2將獲取的語音劃分為多個語音片段，具體的，該語音辨識裝置2可以從所述語音中提取音位特徵，並使用終點演算法識別語音中每個句子的終點，並按照句子將獲取的語音劃分為多個語音片段。該語音辨識裝置2將獲取的影像資訊劃分為多個影像片段，並將該些影像片段與語音片段按照時間進行對應關聯，其中每一語音片段與一影像片段在時間上對應關聯。

S403：將獲取的語音與一語音庫進行比對確定出匹配語音及與該匹配語音對應的信心度。其中，該信心度指示該匹配語音與該語音採集單元22採集的語音相匹配的準確度。

本實施方式中，該語音辨識裝置2將語音按照字、詞進行分割，將分割的字、詞與語音庫中的字、詞進行比對以在該語音庫中確定與語音中每個字、詞相匹配的匹配字及匹配詞，根據比對結果確定匹配字的信心度與匹配詞的信心度，並根據該些匹配字及匹配詞確定出匹配語音及根據該些匹配字的信心度與匹配詞的信心度確定該匹配語音的信心度。本實施方式中，該語音辨識裝置2根據該些匹配字及匹配詞確定出的匹配語音可以是一個或是多個。本實施方式中，該語音庫存儲在該語音辨識裝置2的存儲單元25中，該語音辨識裝置2查找存儲在該存儲單元25中的語音庫從而將獲取的語音與該語音庫進行比對。在其他實施方式中，該語音庫存儲在該伺服器3中，該語音辨識裝置2藉由訪問該伺服器3查找該語音庫從而將獲取的語音與該語音庫進行比對。

本實施方式中，在將獲取的語音劃分為多個語音片段及將獲取的影像資訊劃分為多個影像片段並將每一語音片段與一影像片段在時間上對應關聯後，該語音辨識裝置2還識別每一語音片段並將識別的語音片段與一語音庫進行比對確定出與每一語音片段對應的匹配語音及確定出該匹配語音的信心度。

S404：判斷該匹配語音的信心度是否超過一預設值。本實施方式中，該預設值可以根據實際需要具體設定，例如，可將該預設值設定為0.6。本實施方式中，該語音辨識裝置2判斷與每一語音片段對應的匹配語音的信心度是否超過預設值。當匹配語音的信心度超過預設值時執行步驟S405，否則執行步驟S406。

S405：藉由語音輸出單元23輸出該匹配語音。在其他實施方式中，當確定的匹配語音的數量超過1個時，該語音辨識裝置2輸出信心度最大的匹配語音。

S406：識別與該語音關聯的影像並識別該影像中的手勢。本實施方式中，該語音辨識裝置2根據識別的手勢查找語義關係表確定該手勢的語義。其中，該語義關係表中定義多個手勢與語義的對應關係。該語音辨識裝置2根據手勢查找該語義關係表並確定與該手勢相對應的語義。例如，在一實施方式中，當語音片段所對應的匹配語音信心度沒有超過預設值時，該語音辨識裝置2識別語音片段所對應的影像片段並識別該語音片段所對應的影像片段中的手勢。

S407：將識別的手勢與該影像所對應的匹配語音進行匹配處理以使該匹配語音與該手勢的語義相匹配。本實施方式中，該語音辨識裝置2根據該手勢的語義對該匹配語音進行匹配處理以使該匹配語音與該手勢的語義相匹配。例如，在一實施方式中，該語音辨識裝置2將從影像片段中識別的手勢與該影像片段所對應的語音片段的匹配語音進行匹配處理以使該匹配語音與該手勢的語義相匹配。

在一實施方式中，當識別出的匹配語音有多個時，該語音辨識裝置2確定每一匹配語音相對於該手勢的語義的匹配度，依據每一匹配語音相對於該手勢的語義的匹配度確定與該手勢的語義的匹配度最高的匹配語音，並將與該手勢的語義的匹配度最高的匹配語音與該手勢進行匹配處理。

S408：輸出匹配處理後的匹配語音。

綜上所述，本發明符合發明專利要件，爰依法提出專利申請。惟，以上所述者僅為本發明之較佳實施方式，舉凡熟悉本案技藝之人士，於爰依本發明精神所作之等效修飾或變化，皆應涵蓋於以下之申請專利範圍內。

1‧‧‧語音辨識系統

2‧‧‧語音辨識裝置

3‧‧‧伺服器

21‧‧‧攝像單元

22‧‧‧語音採集單元

23‧‧‧語音輸出單元

24‧‧‧通訊單元

25‧‧‧存儲單元

26‧‧‧處理單元

101‧‧‧獲取模組

102‧‧‧語音辨識模組

103‧‧‧判斷模組

104‧‧‧輸出模組

105‧‧‧圖像識別模組

106‧‧‧匹配模組

S401~S408‧‧‧步驟

圖1為本發明一實施方式中語音辨識系統的應用環境圖。圖2為本發明一實施方式中語音辨識裝置的功能模組圖。圖3為本發明一實施方式中語音辨識系統的功能模組圖。圖4為本發明一實施方式中語音辨識方法的流程圖。

Claims

一種語音辨識裝置，包括語音採集單元、語音輸出單元、攝像單元及處理單元，該語音採集單元用於採集語音，該攝像單元用於採集影像，其改良在於，該處理單元用於：獲取該語音採集單元採集的語音；獲取該攝像單元採集的影像，並將該影像與採集的語音在時間上進行關聯；將獲取的語音與一語音庫進行比對確定出匹配語音及與該匹配語音對應的信心度，其中，該信心度指示該匹配語音與該語音採集單元採集的語音相匹配的準確度；判斷該匹配語音的信心度是否超過一預設值；及當該匹配語音的信心度超過該預設值時藉由該語音輸出單元輸出該匹配語音。
如申請專利範圍第1項所述的語音辨識裝置，其中，該處理單元還用於：當匹配語音的信心度未超過預設值時識別與該語音關聯的影像並識別該影像中的手勢；將識別的手勢與該影像所對應的匹配語音進行匹配處理以使該匹配語音與該手勢的語義相匹配；及輸出匹配處理後的匹配語音。
如申請專利範圍第1項所述的語音辨識裝置，其中，該處理單元還用於：將該語音按照字、詞進行分割；將分割的字、詞與語音庫中的字、詞進行比對以在該語音庫中確定與語音中每個字、詞相匹配的匹配字及匹配詞；根據比對結果確定匹配字的信心度與匹配詞的信心度；根據該些匹配字及匹配詞確定出匹配語音；及根據該些匹配字的信心度與匹配詞的信心度確定該匹配語音的信心度。
如申請專利範圍第1項所述的語音辨識裝置，其中，該處理單元用於將獲取的語音劃分為多個語音片段，將獲取的影像資訊劃分為多個影像片段，並將該些影像片段與語音片段按照時間進行對應關聯，其中，該處理單元從獲取的語音中提取音位特徵，並使用終點演算法識別獲取的語音中每個句子的終點，並按照句子將獲取的語音劃分為多個語音片段。
如申請專利範圍第2項所述的語音辨識裝置，其中，該處理單元還用於：根據識別的手勢查找一定義多個手勢與語義的對應關係的語義關係表確定與該手勢對應的語義。
一種語音辨識方法，其改良在於，該方法包括步驟：獲取一語音採集單元採集的語音；獲取一攝像單元採集的影像，並將該影像與採集的語音在時間上進行關聯；將獲取的語音與一語音庫進行比對確定出匹配語音及與該匹配語音對應的信心度，其中，該信心度指示該匹配語音與該語音採集單元採集的語音相匹配的準確度；判斷該匹配語音的信心度是否超過一預設值；及當該匹配語音的信心度超過該預設值時藉由一語音輸出單元輸出該匹配語音。
如申請專利範圍第6項所述的語音辨識方法，其中，該方法還包括步驟：當匹配語音的信心度未超過預設值時識別與該語音關聯的影像並識別該影像中的手勢；將識別的手勢與該影像所對應的匹配語音進行匹配處理以使該匹配語音與該手勢的語義相匹配；及輸出匹配處理後的匹配語音。
如申請專利範圍第6項所述的語音辨識方法，其中，該方法還包括步驟：將該語音按照字、詞進行分割；將分割的字、詞與語音庫中的字、詞進行比對以在該語音庫中確定與語音中每個字、詞相匹配的匹配字及匹配詞；根據比對結果確定匹配字的信心度與匹配詞的信心度；根據該些匹配字及匹配詞確定出匹配語音；及根據該些匹配字的信心度與匹配詞的信心度確定該匹配語音的信心度。
如申請專利範圍第6項所述的語音辨識方法，其中，該方法還包括步驟：將獲取的語音劃分為多個語音片段，其中，從獲取的語音中提取音位特徵，並使用終點演算法識別獲取的語音中每個句子的終點，並按照句子將獲取的語音劃分為多個語音片段；將獲取的影像資訊劃分為多個影像片段，並將該些影像片段與語音片段按照時間進行對應關聯。
如申請專利範圍第7項所述的語音辨識方法，其中，該方法還包括步驟：根據識別的手勢查找一定義多個手勢與語義的對應關係的語義關係表確定與該手勢對應的語義。