TW202029017A

TW202029017A - 音訊裝置以及語音控制方法

Info

Publication number: TW202029017A
Application number: TW108101873A
Authority: TW
Inventors: 張楊慶; 王稔志; 高承裕
Original assignee: 和碩聯合科技股份有限公司
Priority date: 2019-01-17
Filing date: 2019-01-17
Publication date: 2020-08-01

Abstract

本揭示文件提供一種語音控制方法，適用於音訊裝置。語音控制方法包含以下步驟：擷取觸發資料，並判斷觸發資料是否對應於第一關鍵字語音；當觸發資料對應於第一關鍵字語音時，持續接收語音訊號；判斷語音訊號之音量是否大於門檻值，以及當該語音訊號之音量大於門檻值時，開始從語音訊號擷取語音待處理資料。

Description

音訊裝置以及語音控制方法

本揭示文件係有關於一種語音方法及裝置，且特別是有關於一種語音控制方法及音訊裝置。

隨著智慧型家電的發展與應用，開發商希望提供使用者更便利的使用體驗，來提升生活品質。舉例來說，若使用者可以透過對電子裝置說話的方式，而不用走到旁邊即可控制電子裝置，可以大幅提升使用者購買的慾望。尤其是在多人的家庭中，若控制電子裝置的使用者已出門，另一人想切換為其想要的功能，就必需手動來操控。

發明內容旨在提供本揭示內容的簡化摘要，以使閱讀者對本揭示內容具備基本的理解。此發明內容並非本揭示內容的完整概述，且其用意並非在指出本發明實施例的重要/關鍵元件或界定本發明的範圍。

根據本揭示文件之一實施例，揭示一種語音控制方法，適用於音訊裝置。語音控制方法包含以下步驟：擷取一觸發資料，並判斷該觸發資料是否對應於一第一關鍵字語音；當該觸發資料對應於該第一關鍵字語音時，持續接收一語音訊號；判斷該語音訊號之一音量是否大於一門檻值，以及當該語音訊號之該音量大於該門檻值時，開始從語音訊號擷取一語音待處理資料。

根據另一實施例，揭示一種語音控制方法，適用於音訊裝置。語音控制方法包含以下步驟：擷取一原始語音資料；處理該原始語音資料以獲得對應一使用者帳號之一使用者比對資料；擷取一觸發資料，並判斷該觸發資料是否對應於一第一關鍵字語音；當該觸發資料對應於該第一關鍵字語音時，持續接收一語音訊號；判斷該語音訊號之一音量是否大於一門檻值；當該語音訊號之該音量大於該門檻值時，開始從語音訊號擷取一語音待處理資料；以及根據該使用者比對資料以判斷是否切換該音訊裝置之控制權限至該使用者帳號。

根據另一實施例，揭示一種音訊裝置。音訊裝置包含音訊擷取模組、儲存媒體以及處理器。音訊擷取模組用以擷取語音資料。儲存媒體耦接音訊擷取模組。儲存媒體用以儲存語音資料。處理器耦接音訊擷取模組以及儲存媒體。處理器用以執行：擷取一觸發資料，並判斷該觸發資料是否對應於一第一關鍵字語音；當該觸發資料對應於該第一關鍵字語音時，持續接收一語音訊號；判斷該語音訊號之一振幅是否大於一門檻值，以及當該語音訊號之該振幅大於該門檻值時，開始從語音訊號擷取一語音待處理資料；根據該語音待處理資料以判斷是否對應一使用者帳號；以及當判斷對應於該使用者帳號，則切換該音訊裝置之控制權限至該使用者帳號。

為讓本揭示內容之上述和其他目的、特徵、優點與實施例能更明顯易懂，所附符號之說明如下：

100‧‧‧音訊裝置

110‧‧‧音訊擷取模組

120‧‧‧處理器

130‧‧‧儲存媒體

140‧‧‧音訊播放模組

S201~S205、S210~S280‧‧‧步驟

以下詳細描述結合隨附圖式閱讀時，將有利於較佳地理解本揭示文件之態樣。應注意，根據說明上實務的需求，圖式中各特徵並不一定按比例繪製。實際上，出於論述清晰之目的，可能任意增加或減小各特徵之尺寸。

第1圖繪示根據本揭示文件一些實施例中一種音訊裝置與使用者之間的相對位置之示意圖。

第2圖繪示根據本揭示文件一些實施例中一種語音控制方法之步驟流程圖。

第3圖繪示根據本揭示文件另一些實施例中一種語音控制方法之步驟流程圖。

以下揭示內容提供許多不同實施例或實例，以便實施本發明之不同特徵。下文描述元件及排列之特定實例以簡化本發明。當然，該等實例僅為示例性且並不欲為限制性。舉例而言，以下描述中在第二特徵上方或第二特徵上形成第一特徵可包括以直接接觸形成第一特徵及第二特徵的實施例，且亦可包括可在第一特徵與第二特徵之間形成額外特徵使得第一特徵及特徵可不處於直接接觸的實施例。另外，本發明可在各實例中重複元件符號及/或字母。此重複係出於簡明性及清晰之目的，且本身並不指示所論述之各實施例及/或配置之間的關係。

進一步地，為了便於描述，本文可使用空間相對性術語(諸如「之下」、「下方」、「較低」、「上方」、「較高」及類似者)來描述諸圖中所圖示一個元件或特徵與另一元件(或多個元件)或特徵(或多個特徵)之關係。除了諸圖所描繪之定向外，空間相對性術語意欲包含使用或操作中裝置之不同定向。設備可經其他方式定向(旋轉90度或處於其他定向上)且因此可同樣解讀本文所使用之空間相對性描述詞。

請參照第1圖，其繪示根據本揭示文件一些實施例中一種音訊裝置100與使用者之間的相對位置之示意圖。音訊裝置100可以為但不限於音箱裝置、喇叭、揚聲器等具備播放音樂或任何音訊訊號之電子裝置。

音訊裝置100可以經由使用者的說話語音而被操控。舉例來說，使用者可以在任何位置說出“Hey Jack”之觸發資料，而使得音訊裝置100從待機狀態而被喚醒。相似地，音訊裝置100可經由語音待處理資料而受控執行相關操作，例如切換使用者、啟動、播放音樂、接收廣播訊號、播報天氣預報、關閉等。

音訊裝置100包含音訊擷取模組110、處理器120、儲存媒體130以及音訊播放模組140。處理器120耦接於音訊擷取模組110、儲存媒體130以及音訊播放模組140。音訊擷取模組110用以擷取觸發資料與語音待處理資料。儲存媒體130用以儲存預先設定好之關鍵字之語音資料。處理器120用以根據音訊擷取模組110擷取到的語音待處理資料，來決定是否開啟音訊裝置100或執行其他對應之操作。音訊播放模組140用以播放音訊訊號(例如音樂、廣播等)。音訊擷取模組110可以為但不限於麥克風。

請參照第2圖，其繪示根據本揭示文件一些實施例中適用於第1圖之音訊裝置100的語音控制方法之步驟流程圖。如第2圖所示，在步驟S210中，當使用者說話時，音訊擷取模組110擷取觸發資料。在一實施例中，處理器120會解析此段觸發資料是否對應於預先設定好之關鍵字(例如“Hey Jack”)。若觸發資料不符合關鍵字，則音訊裝置100繼續處於待機狀態。若觸發資料符合關鍵字，則執行步驟S220。在本實施例中，音訊裝置100是以關鍵字相依(keyword dependency)方式被喚醒，使用者必需說出預先設定好的關鍵字，方能啟動音訊裝置100。在另一實施例中，音訊裝置100亦可透過使用者說出的任何字詞而被啟動，此為非關鍵字相依(keyword independency)方式。

在步驟S220中，音訊裝置100偵測使用者所說的話，判斷使用者說話的音量是否大於門檻值。舉例來說，當使用者說出“Hey Jack”之觸發資料並喚醒音訊裝置100之後，為避免使用者在說出觸發資料後暫時地沒有說話而消耗處理器120的資源，音訊裝置100會開始持續錄音，但處理器120不進行進一步的分析(例如語音辨識)。當處理器120偵測語音訊號的音量或振幅大於一門檻值(例如在取樣位元深度為16-bit時，偵測到音量大於或等於-44dBFS)時，則判斷使用者開始進一步語音操作音訊裝置100。若在步驟S220中判斷音量不大於門檻值，則執行步驟S290，音訊裝置100維持待機狀態。

在步驟S230中，音訊擷取模組110自語音訊號擷取並取樣使用者的語音待處理資料，舉例來說，使用者說出“Listen to me,please change user.”之語音待處理資料。為使接下來可以正確解析語音待處理資料，在步驟S240中，處理器120對語音待處理資料執行預處理(pre-processing)程序，以產生經調整語音資料。在一實施例中，預處理程序可為任何改善音質的現有技術，例如放大語音資料的振幅。

在步驟S250中，處理器120對經調整語音資料進行語音識別，以解析經調整語音資料的內容，例如對放大振幅後的語音待處理資料進行語音辨識，以解析其內容是否為“Listen to me,please change user.”。

接著，在步驟S260中，處理器120判斷經調整語音資料是否對應至使用者帳號之一。在一實施例中，儲存媒體140預先儲存複數個關鍵字語音，各關鍵字語音對應至一使用者帳號，不同使用者預先錄製好自己的聲紋以及將聲紋關聯至對應的使用者帳號。在一實施例中，預先錄製各使用者說出的“Listen to me,please change user.”之關鍵字語音，並儲存此些關鍵字語音，使各關鍵字語音對應到各自的使用者帳號。

在進行聲紋辨識時，處理器120解析經調整語音資料的特徵點，並與預錄好的關鍵字語音作比對。若比對吻合，代表目前說話的使用者具有音訊裝置100的操控權限，則於步驟S270中，處理器120切換控制權限至經調整語音資料對應的使用者帳號，並啟動音訊裝置100。若比對不吻合，代表目前說話的使用者不具操控權限，於步驟S280中，不啟動音訊裝置100。

請參見第3圖，其繪示根據本揭示文件另一些實施例中一種語音控制方法之步驟流程圖。第3圖之語音控制方法中，進一步說明使用者預先錄製原始語音資料的步驟，以供後續的使用者聲紋比對。

如第1圖及第3圖所示，在步驟S201中，音訊擷取模組110擷取使用者發出的原始語音資料。舉例來說，使用者說出“Listen to me,please change user.”之關鍵字語音，作為原始語音資料。

接著，在步驟S203中，處理器120對原始語音資料執行預處理，以獲得使用者比對資料。對原始語音資料執行預處理的方法，例如音訊處理原始語音資料之振幅。接著，在步驟S205中，將使用者比對資料儲存於儲存媒體130。接著，步驟S210至步驟S240及步驟S290之內容，請參照前述第2圖之說明，於此不予重述。

接續於第3圖，在步驟S252中，處理器120比對經調整語音資料與使用者比對資料，以進行語音識別，舉例來說，解析經調整語音資料的特徵點，並以特徵點來與使用者比對資料來比對，並獲得比對結果。

在步驟S262中，根據前述比對結果，判斷經調整語音資料是否對應於任何的使用者帳號。若經調整語音資料對應至使用者帳號，代表聲紋辨識成功，目前說話的使用者具有控制權限，則執行步驟S270。

在步驟S270中，處理器120切換控制權限至該使用者帳號，並啟動音訊裝置100。在一實施例中，聲紋辨識成功後，音訊裝置100還可以執行以下但不限於啟動錄音程式以接收使用者的語音命令，或者以音訊播放模組140播放聲音、顯示器(未繪示)顯示影像或音訊裝置100的發光模組(未繪示)閃爍燈號的方式來提示音訊裝置100的可使用狀態。

若經調整帳號沒有對應至任何使用者帳號，則在步驟280中，不啟動音訊裝置100。在一實施例中，聲紋辨識失敗後，音訊裝置100會執行以下但不限於關閉錄音程式而無法接收使用者的語音命令，或者以播放聲音、顯示影像或閃爍燈號的方式來提示音訊裝置 100為不可使用狀態。

本揭示文件之音訊裝置100及語音控制方法提供靜默偵測程序可以增加不同使用者之間的辨識效率，提供音訊裝置100在多使用者的使用環境。此外，對語音資料進行預處理以降低錯誤解析語音內容的問題，並且可以智能切換使用者帳號，使得音訊裝置100的控制權限切換至目前說話的使用者，提升多使用者共同使用音訊裝置100的便利性。

上文概述若干實施例之特徵，使得熟習此項技術者可更好地理解本發明之態樣。熟習此項技術者應瞭解，可輕易使用本發明作為設計或修改其他製程及結構的基礎，以便實施本文所介紹之實施例的相同目的及/或實現相同優勢。熟習此項技術者亦應認識到，此類等效結構並未脫離本發明之精神及範疇，且可在不脫離本發明之精神及範疇的情況下產生本文的各種變化、替代及更改。

S210~S290‧‧‧步驟

Claims

一種語音控制方法，適用於一音訊裝置，其中該語音控制方法包含：擷取一觸發資料，並判斷該觸發資料是否對應於一第一關鍵字語音；當該觸發資料對應於該第一關鍵字語音時，持續接收一語音訊號；判斷該語音訊號之一音量是否大於一門檻值；以及當該語音訊號之該音量大於一門檻值時，開始從該語音訊號擷取一語音待處理資料。
如請求項1所述之語音控制方法，該方法還包含：根據該語音待處理資料以判斷是否對應一使用者帳號；以及當判斷對應於該使用者帳號，則切換該音訊裝置之控制權限至該使用者帳號。
如請求項1所述之語音控制方法，該方法還包含辨識該經調整語音資料是否符合一第二關鍵字語音，當該經調整語音資料符合該第二關鍵字語音時，切換該音訊裝置之控制權限至該經調整語音資料對應之該使用者帳號。
如請求項1所述之語音控制方法，該方法還包含以一取樣位元深度取樣該語音訊號，以及偵測該語音訊號之該音量是否大於或等於該門檻值。
如請求項1所述之語音控制方法，其中判斷是否對應該使用者帳號的步驟還包含：音訊處理該語音待處理資料以產生一經調整語音資料；以及根據該經調整語音資料判斷是否對應該使用者帳號。
一種語音控制方法，適用於一音訊裝置，其中該語音控制方法包含：擷取一原始語音資料；處理該原始語音資料以獲得對應一使用者帳號之一使用者比對資料；擷取一觸發資料，並判斷該觸發資料是否對應於一第一關鍵字語音；當該觸發資料對應於該第一關鍵字語音時，持續接收一語音訊號；判斷該語音訊號之一音量是否大於一門檻值；當該語音訊號之該音量大於該門檻值時，開始從該語音訊號擷取一語音待處理資料；以及根據該使用者比對資料以判斷是否切換該音訊裝置之控制權限至該使用者帳號。
如請求項6所述之語音控制方法，該方法還包含以一取樣位元深度取樣該語音訊號，以及偵測該語音訊號之該音量是否大於或等於該門檻值。
如請求項6所述之語音控制方法，其中擷取該語音待處理資料之後的步驟還包含：擷取一語音待處理資料；處理該語音待處理資料以產生一經調整語音資料；比對該經調整語音資料與該使用者比對資料；以及當該經調整語音資料對應於該使用者比對資料，則切換該音訊裝置之控制權限至該使用者帳號。
一種音訊裝置，包含：一音訊擷取模組，用以擷取一語音待處理資料；一儲存媒體，耦接該音訊擷取模組，該儲存媒體用以儲存該語音待處理資料；一處理器，耦接該音訊擷取模組以及該儲存媒體，該處理器用以：擷取一觸發資料，並判斷該觸發資料是否對應於一第一關鍵字語音；當該觸發資料對應於該第一關鍵字語音時，持續接收一語音訊號；判斷該語音訊號之一振幅是否大於一門檻值，以及當該語音訊號之該振幅大於該門檻值時，開始從該語音訊號擷取一語音待處理資料；根據該語音待處理資料以判斷是否對應一使用者帳號；以及當判斷對應於該使用者帳號，則切換該音訊裝置之控制權限至該使用者帳號。
如請求項9所述之音訊裝置，其中該處理器還用以音訊處理該語音待處理資料以產生該經調整語音資料，以及辨識該經調整語音資料是否符合一第二關鍵字語音，當該語音資料符合該第二關鍵字語音時，切換一控制權限至該經調整語音資料對應之該使用者帳號。
如請求項9所述之音訊裝置，其中該處理器還用以根據一取樣位元深度取樣該語音訊號，以及偵測該語音訊號之該音量是否大於或等於該門檻值。