TWI832078B - 語音設備及其語音互動方法,以及電腦可讀記錄媒體 - Google Patents

語音設備及其語音互動方法,以及電腦可讀記錄媒體 Download PDF

Info

Publication number
TWI832078B
TWI832078B TW110129703A TW110129703A TWI832078B TW I832078 B TWI832078 B TW I832078B TW 110129703 A TW110129703 A TW 110129703A TW 110129703 A TW110129703 A TW 110129703A TW I832078 B TWI832078 B TW I832078B
Authority
TW
Taiwan
Prior art keywords
voice
modules
module
state
interaction
Prior art date
Application number
TW110129703A
Other languages
English (en)
Other versions
TW202244907A (zh
Inventor
黃偉
Original Assignee
新加坡商聯發科技(新加坡)私人有限公司
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Priority claimed from CN202110529498.0A external-priority patent/CN115346523A/zh
Application filed by 新加坡商聯發科技(新加坡)私人有限公司 filed Critical 新加坡商聯發科技(新加坡)私人有限公司
Publication of TW202244907A publication Critical patent/TW202244907A/zh
Application granted granted Critical
Publication of TWI832078B publication Critical patent/TWI832078B/zh

Links

Abstract

本申請公開了一種語音設備及其語音互動方法。其中,所述語音設備包括至少兩個語音模組,語音設備的語音互動方法包括:確定至少兩個語音模組的工作狀態;基於預設原則和至少兩個語音模組的工作狀態,從至少兩個語音模組中選定一個語音模組進行語音互動,並暫停其餘語音模組的語音互動。本申請可以解決同一個語音設備中的複數套語音服務存在衝突的問題。

Description

語音設備及其語音互動方法,以及電腦可讀記錄媒體
本發明涉及語音設備技術領域,特別是涉及一種語音設備的語音互動方法及裝置。
目前語音設備大多只支援一套語音服務,例如小米音箱只支援小米語音服務,谷歌鬧鐘只支援谷歌語音服務,一些現代智慧汽車只支援Alex語音服務......,這樣使用者在一個語音設備上只能使用一套語音服務,如果使用者想要使用兩種或兩種以上的語音服務需要買兩台以上的設備。
為了使使用者可以在一個語音設備上使用兩種及兩種以上的語音服務,可以將至少兩種語音服務裝載在同一個語音設備中,但是這樣可能會出現語音服務衝突的問題。
本發明提供一種語音設備的語音互動方法及裝置,以解決同一個語音設備中的複數套語音服務存在衝突的問題。
為解決上述問題,本發明提供一種語音設備的語音互動方法,語音設備包括切換模組和至少兩個語音模組,語音互動方法包括:確定至少兩個語音模組的工作狀態;基於預設原則和至少兩個語音模組的工作狀態,從所述 至少兩個語音模組中選定一個語音模組進行語音互動,並暫停其餘語音模組的語音互動。
為解決上述問題,本發明還提供一種語音設備,該語音設備包括:錄音器件;播放機件;至少兩個語音模組,每個語音模組均與錄音器件和播放機件通信連接;切換模組,與至少兩個語音模組、錄音器件和播放機件通信連接,用於執行上述方法。
為解決上述問題,本發明還提供一種語音設備,該語音設備包括錄音器件、播放機件和處理器;處理器與錄音器件和播放機件通信連接,處理器用於執行指令以實現上述的方法。
為解決上述問題,本發明還提供一種電腦可讀記錄媒體,其用於存儲指令/程式資料,指令/程式資料能夠被執行以實現上述方法。
本發明的語音設備可基於複數套語音服務對應的語音模組各自的工作狀態,從複數套語音模組中選定一個作為進行語音互動,並暫停其餘語音模組的語音互動,即語音設備可以基於複數套語音模組的工作狀態自行確定進行語音互動的語音模組,由此本發明可以解決語音設備內複數套語音服務存在衝突的問題,且無需人為確定。
10,20:語音設備
11:語音模組
12:切換模組
113:播放控制子模組
112:語音分析子模組
111:關鍵字識別子模組
14:錄音器件
141:錄音硬體
142:錄音軟體
13:播放機件
13:信號產生電路
131:播放硬體
132:播放軟體
S101,S102,S201,S202,S301,S302,S401,S402,S501,S502:步驟
22:處理器
21:記憶體
30:電腦可讀記錄媒體
31:指令/程式資料
此處所說明的附圖用來提供對本發明的進一步理解,構成本發明的一部分,本發明的示意性實施例及其說明用於解釋本發明,並不構成對本發明的不當限定。在附圖中:圖1是傳統的語音設備一實施方式的結構示意圖;圖2是本發明語音設備一實施方式的結構示意圖;圖3是本發明語音設備一實施方式的結構示意圖; 圖4是本發明語音設備的語音互動方法一實施方式的流程示意圖;圖5是本發明語音設備的語音互動方法一實施方式的流程示意圖;圖6是本發明語音設備的語音互動方法一實施例的原理示意圖;圖7是本發明語音設備的語音互動方法一實施方式的流程示意圖;圖8是本發明語音設備的語音互動方法一實施例的原理示意圖;圖9是本發明語音設備的語音互動方法一實施例的原理示意圖;圖10是本發明語音設備的語音互動方法一實施例的原理示意圖;圖11是本發明語音設備的語音互動方法一實施方式的流程示意圖;圖12是本發明語音設備的語音互動方法一實施例的原理示意圖;圖13是本發明語音設備的語音互動方法一實施方式的流程示意圖;圖14是本發明語音設備的語音互動方法一實施例的原理示意圖;圖15是本發明語音設備一實施方式的結構示意圖;圖16是本發明電腦可讀記錄媒體一實施方式的結構示意圖。
在說明書及申請專利範圍當中使用了某些詞彙來指稱特定的元件。所屬技術領域具有通常知識者應可理解,硬體製造商可能會用不同的名詞來稱呼同一個元件。本說明書及申請專利範圍並不以名稱的差異來作為區分元件的方式,而是以元件在功能上的差異來作為區分的準則。在通篇說明書及申請專利範圍當中所提及的“包含”及“包括”為一開放式的用語,故應解釋成“包含但不限定於”。“大體上”是指在可接受的誤差範圍內,所屬技術領域具有通常知識者能夠在一定誤差範圍內解決所述技術問題,基本達到所述技術效果。此外,“耦接”一詞在此包含任何直接及間接的電性連接手段。因此,若文中描述一第一裝置耦接於一第二裝置,則代表該第一裝置可直接電性連接於該第二裝置,或 通過其它裝置或連接手段間接地電性連接至該第二裝置。以下所述為實施本發明的較佳方式,目的在於說明本發明的精神而非用以限定本發明的保護範圍,本發明的保護範圍當視後附的申請專利範圍所界定者為准。
下面的描述為本發明預期的最優實施例。這些描述用於闡述本發明的大致原則而不應用於限制本發明。本發明的保護範圍應在參考本發明的申請專利範圍的基礎上進行認定。
目前語音設備大多只支援一套語音服務,例如小米音箱只支援小米語音服務,谷歌鬧鐘只支援谷歌語音服務,一些現代智慧汽車只支援Alex語音服務......,這樣使用者在一個語音設備上只能使用一套語音服務,如果使用者想要使用兩種或兩種以上的語音服務需要買兩台以上的設備。
為了使使用者可以在一個語音設備上使用兩種及兩種以上的語音服務,可以將至少兩種語音服務裝載在同一個語音設備中,但是這樣可能會出現語音服務衝突的問題。
為了解決同一個語音設備中的複數套語音服務存在衝突的問題,當前可以通過按鍵重啟系統控制同一個語音設備中每一個語音服務的開關狀態,以通過按鍵重啟系統來切換同一個語音設備中的複數套語音服務。具體地,如圖1所示,通過按鍵重啟系統控制一個語音服務處於開啟狀態時,使其餘的語音服務處於關閉狀態。這種具有按鍵重啟系統的語音設備中的複數套語音系統不能同時處於開啟狀態(alive),並且還需要人為切換以選擇使用的語音服務。
基於此,本發明提出一種無需人為切換語音服務的語音設備。
具體地,如圖2所示,語音設備10內具有一切換模組12,該切換模組12可在語音設備10內的複數套語音服務存在衝突時,基於複數套語音服務對應的語音模組11各自的工作狀態,從多個語音模組11中選定一個作為 主語音模組,將其餘語音模組作為備用語音服務,限制備用語音模組的活動,從而使語音設備10通過主語音模組進行語音互動,即語音設備10可以基於複數套語音模組11的運行情況自行確定與使用者進行語音互動的語音模組11,無需人為確定。
語音設備10的具體結構可如圖3所示,語音設備10包括錄音器件14、播放機件13、切換模組12和至少兩個語音模組11。
其中,錄音器件14可包括錄音硬體141(麥克風或耳機等)和錄音軟體142(輸入驅動器)。播放機件13可包括播放硬體131(喇叭或耳機等)和播放軟體132(輸出驅動器)。
其中,每個語音模組11集成有一套語音服務,不同的語音模組11集成的語音服務不相同。每個語音模組11均與錄音器件14和播放機件13通信連接,這樣每一語音模組11可從錄音器件14獲取到錄音器件14採集到的語音,並且可以將自身播放內容(例如,回應於使用者的請求的回復內容)發送給播放機件13,以讓播放機件13播放。
每個語音模組11均可集成有關鍵字識別子模組111、語音分析子模組112和播放控制子模組。每個語音模組11從錄音器件14獲取到採集語音時,關鍵字識別子模組111對採集語音進行關鍵字識別;若關鍵字識別子模組111從採集語音中識別到關鍵字(例如,從“OK,Google!what’s the time”中識別出關鍵字“Google”),會將採集語音發送給語音分析子模組112,當關鍵字識別子模組111識別到關鍵字,語音模組11的工作狀態可從待機狀態(IDLE)變為喚醒狀態(Hotword);語音分析子模組112對採集語音進行語音分析,在語音分析子模組112對採集語音進行語音分析時,語音模組11的工作狀態可從喚醒狀態(Hotword)變為解析狀態(Detecting);若語音分析子模組112對採集語音解析完畢,會讓播放控制子模組113將播放內容(例如,回應於使用者 的請求的回復內容)發送給播放機件13,以讓播放機件13播放,此時語音模組11的工作狀態從解析狀態(Detecting)變為回饋狀態(Responding)。當播放機件13將語音模組11的播放內容播放完畢,語音模組11的狀態再次變為待機狀態。
切換模組12用於在語音設備10內的複數套語音服務存在衝突時,或者在至少一個語音模組11的工作狀態改變時,基於預設原則和複數套語音服務對應的語音模組11各自的工作狀態,從複數套語音模組11中選定一個語音模組進行語音互動,並暫停其餘語音模組的語音互動,從而避免同一語音設備10中的複數套語音服務之間的衝突。
其中,暫停語音模組的語音互動可以指:在使用者對語音設備下達語音指令時,語音設備不會通過被暫停的語音模組回復使用者。而暫停其餘語音模組的語音互動的方法不受限制,只要達到目的即可。例如,暫停/中斷/停止其餘語音模組的工作(示例性地,讓其餘語音模組暫停對錄音器件14的採集語音進行關鍵字識別,或者讓其餘語音模組暫停將自身的播放內容發送給播放機件13);不播放其餘語音模組的播放內容(例如,暫停/停止播放相關的語音模組的播放內容,或靜音相關的語音模組的播放內容);將其餘語音模組恢復為待機狀態;保持其餘語音模組的當前狀態;緩存其餘語音模組的播放內容;不向其餘語音模組提供採集語音;或斷開其餘語音模組等,這些暫停方法的選擇在不同場景中可能略有差異。
可選地,切換模組12與每個語音模組11均通信連接,這樣切換模組12可從每個語音模組11獲取到工作狀態資訊,以便切換模組12基於多個語音模組11的工作狀態選定一個語音模組11進行語音互動,並暫停其餘語音模組11的語音互動。另外,切換模組12也可向語音模組11發送指令,以使語音模組11執行所述指令對應的操作。例如,切換模組12可向語音模組11發送 恢復待機狀態的指令,以使相應語音模組11停止當前工作而重新回到待機狀態。例如,切換模組12可向語音模組11發送暫停指令,以使相應語音模組11暫停執行當前工作(例如,保持相應的工作狀態)。例如,切換模組12可向語音模組11發送工作繼續指令,以使相應語音模組11恢復執行先前工作(例如,從當前工作狀態開始,繼續執行後續工作狀態)。
切換模組12可與播放機件13通信連接。切換模組12可向播放機件13發送各種控制指令,例如播放至少一個語音模組11的播放內容的指令,又例如不播放至少一個語音模組11的播放內容的指令(例如,暫停/停止播放至少一個語音模組11的播放內容的指令,靜音至少一個語音模組11的播放內容的指令),又例如恢復播放至少一個語音模組11的播放內容的指令(例如,繼續播放至少一個語音模組11的播放內容的指令,或取消靜音至少一個語音模組11的播放內容的指令)。在播放機件13從切換模組12獲取到不播放某一語音模組11播放內容的指令(例如,不播放AVS語音模組的播放內容)的情況下,即使播放機件13獲取到所述語音模組的播放內容,播放機件13也不會播出。對於播放機件13而言,切換模組12發出的指令的優先順序高於語音模組11發出的指令的優先順序。
切換模組12可與錄音器件14通信連接。切換模組12可向錄音器件14發送各種控制指令,例如,不向特定語音模組發送採集語音的指令,例如,不將採集語音發送給AVS語音模組的指令。這樣錄音器件14回應于不向特定語音模組發送採集語音的指令,只會將採集語音發送給語音設備10內除去所述特定語音模組之外的其他語音模組11,這樣所述特定語音模組就不會接收到採集語音。另外,切換模組12也可向錄音器件14發送僅向特定語音模組發送採集語音的指令,例如,“將採集語音發送給AVS語音模組的指令”,這樣錄音器件14就可僅將當前採集到的語音發送給AVS語音模組。
另外,本發明的語音設備10還可包括回聲消除模組,回聲消除模組用於對播放機件13的採集語音進行回聲消除。
在一實施方式中,回聲消除模組可集成於語音模組11內(例如,關鍵字識別子模組111內),且每一語音模組11均可集成有一回聲消除模組,從而語音模組11獲取到採集語音後,會對採集語音進行回音消除,以保證語音模組11能夠準確地確認出採集語音中是否有關鍵字和進行語音分析,以保證語音互動品質。
在另一實施方式中,回聲消除模組可集成於錄音器件14內,錄音器件14每採集到一段語音,錄音器件14內的回聲消除模組均可對採集到的語音進行回聲消除,錄音器件14將回聲消除後的採集語音發送給語音模組11。為保證回聲消除品質,播放機件13可將播放內容發送給回聲消除模組,以讓回聲消除模組基於播放內容對採集語音進行回聲消除。
下面將詳細介紹上述語音設備10的語音互動方法,其中語音互動方法一實施方式的流程示意圖具體如圖4所示,本實施方式的語音設備的語音互動方法包括以下步驟。需要注意的是,以下步驟編號僅用於簡化說明,並不旨在限制步驟的執行順序,本實施方式的各步驟可以在不違背本發明技術思想的基礎上,任意更換執行順序。
S101:確定至少兩個語音模組的工作狀態。
可先確定語音設備內至少兩個語音模組的工作狀態,以便基於預設原則和至少兩個語音模組的工作狀態,從至少兩個語音模組中選定一個語音模組進行語音互動,並暫停其餘語音模組的語音互動。
可選地,在語音模組的工作狀態發生變化的情況下,語音模組可向切換模組告知其變化後的工作狀態,以使切換模組知曉每個語音模組的即時工作狀態。
在另一實施方式中,切換模組可每隔一時間段向每一語音模組詢問每一語音模組的工作狀態。
因此,本實施例所述步驟S101可發生在任何語音模組的工作狀態發生變化時,或可發生在切換模組週期性詢問每一個語音模組工作狀態的時間點。
其中,語音模組的工作狀態可包括待機狀態(IDLE)、喚醒狀態(Hotword)、解析狀態(Detecting)和回饋狀態(Responding)等。
S102:基於預設原則和至少兩個語音模組的工作狀態,從至少兩個語音模組中選定一個語音模組進行語音互動,並暫停其餘語音模組的語音互動。
確定至少兩個語音模組的工作狀態後,切換模組可基於預設原則和至少兩個語音模組的工作狀態從至少兩個語音模組中選定一個語音模組進行語音互動,並暫停其餘語音模組的語音互動。
可選地,暫停其餘語音模組的語音互動的方法包括但不限於如下方式中至少一種:暫停/中斷/停止其餘語音模組的工作(例如,暫停對錄音器件的採集語音進行關鍵字識別);控制播放機件不播放其餘語音模組的播放內容(例如,暫停/停止播放相關的語音模組的播放內容,或靜音相關的語音模組的播放內容);將其餘語音模組恢復為待機狀態;保持其餘語音模組的當前狀態;緩存其餘語音模組的播放內容;控制錄音器件不向其餘語音模組提供採集語音;斷開其餘語音模組等。這些暫停動作的選擇在不同場景中可能略有差異。
可以理解的是,在所有語音模組均在正常工作狀態下時,所有語音模組都能從錄音器件獲取到採集音訊,並能夠對採集音訊進行關鍵字識別,以便使用者使用一語音服務時,該語音服務對應的語音模組能夠及時回應。
此外,在某些實施例中,當選定進行語音互動的語音模組的工作 狀態變為回饋狀態或待機狀態的情況下,可重新使其餘被暫停的語音模組的語音互動恢復正常運行。所述恢復正常運行包括但不限於:恢復語音模組的工作(例如,恢復對錄音器件的採集語音進行關鍵字識別,恢復正常的狀態轉變過程);控制播放機件播放語音模組的播放內容;控制錄音器件向語音模組提供採集語音等。這樣恢復正常運行的其餘語音模組便能夠重新回應本發明提供的各種預設原則的約束。當選定進行語音互動的語音模組的工作狀態變為回饋狀態的情況下重新使其餘被暫停的語音模組的語音互動恢復正常運行,可使語音模組的多個語音服務實現短暫的同時運行的狀態(例如,選定的語音模組進行語音播報的同時,恢復的語音模組能正常監測用於的語音指令;或者選擇的語音模組進行語音播報的同時,恢復的語音模組能正常進行關鍵字解析等),可以提高語音設備的運行效率。
在本實施方式中,基於複數套語音服務對應的語音模組各自的工作狀態,從複數套語音模組中選定一個語音模組,並使語音設備通過選定的語音模組進行語音互動,並暫停其餘語音模組的語音互動,即語音設備可以基於複數套語音模組的運行情況自行確定與使用者進行語音互動的語音模組,由此可解決語音設備內複數套語音服務存在衝突的問題,且無需人為確定。
可選地,對應於不同場景,可以設定不同的預設原則,也即,具體實現中,語音設備可以實施本發明的預設原則中的一種或者多種。下述內容將對其中四種預設原則進行詳細描述。作為舉例,語音設備同一時期僅實施預設原則中的一種。此外,語音設備可在不同的預設原則之間進行切換,通常切換的時間點較佳為所有語音模組均處於IDLE狀態。例如,在第一時段語音設備可實施先呼叫先回應原則,在第二時段語音設備可切換為實施呼叫打斷原則,在第三時段語音設備可切換為實施解析不可打斷原則,而在第四時段語音設備可切換為分步回應原則。何時實施何種預設原則可由用戶自由設定。
下面將詳細介紹第一種預設原則──先呼叫先回應原則,具體如圖5-圖6所示,本實施方式的語音設備的語音互動方法包括以下步驟。需要注意的是,以下步驟編號僅用於簡化說明,並不旨在限制步驟的執行順序,本實施方式的各步驟可以在不違背本發明技術思想的基礎上,任意更換執行順序。
S201:確定至少兩個語音模組的工作狀態。
S202:若基於至少兩個語音模組的工作狀態,確認一個語音模組處於喚醒狀態,且其他語音模組處於待機狀態,將處於喚醒狀態的語音模組選定為進行語音互動的語音模組,並暫停其餘語音模組的語音互動。
如前所述,可選地,在語音模組的工作狀態發生變化的情況下,語音模組可向切換模組告知其變化後的工作狀態,以使切換模組知曉每個語音模組的即時工作狀態。此外,在另一實施方式中,切換模組可每隔一時間段向每一語音模組詢問每一語音模組的工作狀態。因此,本實施例所述步驟S201可發生在任何語音模組的工作狀態發生變化時,或可發生在切換模組週期性詢問每一個語音模組工作狀態的時間點。
其中,語音模組的工作狀態可包括待機狀態(IDLE)、喚醒狀態(Hotword)、解析狀態(Detecting)和回饋狀態(Responding)等。
在本實施例中,暫停語音模組的語音互動的方法可包括如下方式中至少一種:控制播放機件不播放語音模組的播放內容(例如,暫停/停止播放語音模組提供的播放內容,或靜音語音模組提供的播放內容);將語音模組保持為待機狀態;控制錄音器件不向語音模組提供採集語音;斷開語音模組等。
如圖6所示,使用者先使用GVA語音服務,那麼GVA語音服務會被先回應,使用者先使用AVS服務則AVS服務會被回應,即以誰先進入喚醒(hotword)狀態為判斷依據,將優先進入hotword狀態的語音模組作為進行語音互動的語音模組,並暫停其他語音模組的語音服務。在圖6的實施例中, 作為舉例,GVA先進入喚醒(hotword)狀態,因此在本實施例中,切換模組(在圖中標記為MiraVoice)將GVA作為進行語音互動的語音模組,並暫停AVS的語音互動,且作為舉例,圖6中暫停AVS的方式為將AVS語音模組保持為待機狀態。
可選地,在本實施例中,當選定的語音模組(例如,圖6中的GVA語音模組)的工作狀態變為回饋狀態或待機狀態的情況下,可重新使其餘語音模組的語音互動恢復正常運行。在本實施中,所述恢復正常運行包括但不限於:恢復語音模組的工作(例如使語音模組能正常進行狀態轉變過程);控制播放機件能播放語音模組的播放內容;控制錄音器件能向語音模組提供採集語音等。這樣恢復正常運行狀態的其餘語音模組便能夠重新回應本發明提供的各種預設原則的約束。
下面將詳細介紹第二種預設原則──呼叫打斷原則,具體如圖7、圖8、圖9和圖10所示。如圖7所示,本實施方式的語音設備的語音互動方法包括以下步驟。需要注意的是,以下步驟編號僅用於簡化說明,並不旨在限制步驟的執行順序,本實施方式的各步驟可以在不違背本發明技術思想的基礎上,任意更換執行順序。
S301:確定至少兩個語音模組的工作狀態。
S302:若基於至少兩個語音模組的工作狀態,確認至少一個語音模組處於喚醒狀態,且其餘語音模組處於解析狀態、回饋狀態或待機狀態中任一種,則將最後進入喚醒狀態的語音模組選定為進行語音互動的語音模組,並暫停其餘語音模組的語音互動。
如前所述,可選地,在語音模組的工作狀態發生變化的情況下,語音模組可向切換模組告知其變化後的工作狀態,以使切換模組知曉每個語音模組的即時工作狀態。此外,在另一實施方式中,切換模組可每隔一時間段向 每一語音模組詢問每一語音模組的工作狀態。因此,本實施例所述步驟S301可發生在任何語音模組的工作狀態發生變化時,或可發生在切換模組週期性詢問每一個語音模組工作狀態的時間點。
其中,語音模組的工作狀態可包括待機狀態(IDLE)、喚醒狀態(Hotword)、解析狀態(Detecting)和回饋狀態(Responding)等。
在本實施例中,所述暫停可包括如下方式中至少一種:暫停/中斷/停止語音模組的工作(例如,暫停對錄音器件的採集語音進行關鍵字識別),控制播放機件不播放語音模組的播放內容(例如,暫停/停止播放語音模組提供的播放內容,或靜音語音模組提供的播放內容),將語音模組恢復為待機狀態,保持語音模組的當前狀態,控制錄音器件不向語音模組提供採集語音,斷開語音模組等。在具體實現中,可根據實際應用場景選擇合適的暫停動作。具體實現中,當其餘語音模組均處於待機狀態的情況下,本實施例就變成前述的第一種預設原則。
如圖8所示,使用者先使用AVS語音服務,那麼AVS語音服務會被先回應,本實施例中,當AVS正處於回饋(Responding)狀態時,GVA語音服務進入喚醒(hotword)狀態,則回應於GVA語音服務進入喚醒狀態切換模組(在圖中標記為MiraVoice)將GVA語音模組作為進行語音互動的語音模組,並暫停(打斷)AVS的播放。在圖8的實施例中,作為舉例,暫停AVS的方式為將AVS語音模組恢復為待機狀態且控制播放機件不播放AVS語音模組的播放內容(例如,暫停/停止播放語音模組提供的播放內容,或靜音語音模組提供的播放內容)。
如圖9,使用者先使用GVA語音服務,那麼GVA語音服務會被先回應,本實施例中,當GVA正處於喚醒(hotword)狀態時,AVS語音服務進入喚醒(hotword)狀態,則回應於AVS語音服務為最後進入喚醒狀態的語 音模組切換模組(在圖中標記為MiraVoice)將AVS語音模組作為進行語音互動的語音模組,並暫停(打斷)GVA的語音服務。在圖9的實施例中,作為舉例,暫停GVA的方式為將GVA語音模組恢復為待機狀態且控制播放機件不播放GVA語音模組的播放內容(例如,暫停/停止播放語音模組提供的播放內容,或靜音語音模組提供的播放內容),以及控制錄音器件不向語音模組GVA提供採集語音。
如圖10,使用者先使用GVA語音服務,那麼GVA語音服務會被先回應,本實施例中,當GVA正處於解析(Detecting)狀態時,AVS語音服務進入喚醒(hotword)狀態,則回應於AVS語音服務進入喚醒狀態切換模組(在圖中標記為MiraVoice)將AVS語音模組作為進行語音互動的語音模組,並暫停(打斷)原來GVA的語音服務。在圖10的實施例中,作為舉例,暫停GVA的方式為斷開GVA語音模組且控制播放機件不播放GVA語音模組的播放內容(例如,暫停/停止播放語音模組提供的播放內容,或靜音語音模組提供的播放內容),以及控制錄音器件不向語音模組GVA提供採集語音。
可選地,在呼叫打斷原則中,當選定的語音模組(例如,圖8中的GVA語音模組,圖9和圖10中的AVS語音模組)的工作狀態變為回饋狀態或待機狀態的情況下,可重新使其餘語音模組(例如,圖8中的AVS語音模組,圖9和圖10中的GVA語音模組)的語音互動恢復正常運行。在圖8的實施例中,作為舉例,恢復AVS正常運行的方式為使AVS能正常進行各種狀態切換且控制播放機件能播放AVS語音模組的播放內容。在圖9的實施例中,作為舉例,恢復GVA的正常運行的方式為使GVA能正常進行各種狀態切換且控制播放機件能播放AVS語音模組的播放內容以及控制錄音器件向語音模組GVA提供採集語音。在圖10的實施例中,作為舉例,恢復GVA的正常運行的方式為重新連接GVA語音模組且控制播放機件能播放GVA放語音模組的播放 內容,以及控制錄音器件向語音模組GVA提供採集語音。這樣進行正常運行狀態的其餘語音模組便能夠重新回應本發明提供的各種預設原則的約束。
下面將詳細介紹第三種預設原則──解析不可打斷原則,具體如圖11-圖12所示,本實施方式的語音設備的語音互動方法包括以下步驟。需要注意的是,以下步驟編號僅用於簡化說明,並不旨在限制步驟的執行順序,本實施方式的各步驟可以在不違背本發明技術思想的基礎上,任意更換執行順序。
S401:確定至少兩個語音模組的工作狀態。
S402:若基於至少兩個語音模組的工作狀態,確認一個語音模組處於解析狀態,且其他語音模組處於喚醒狀態或待機狀態,將處於解析狀態的語音模組選定為進行語音互動的語音模組,並暫停其餘語音模組的語音互動。
在本實施例中,所述暫停可包括:暫停/中斷/停止語音模組的工作(例如,暫停對錄音器件的採集語音進行關鍵字識別),控制播放機件不播放語音模組的播放內容(例如,暫停/停止播放語音模組提供的播放內容,或靜音語音模組提供的播放內容),將語音模組保持為當前狀態,將語音模組恢復為待機狀態,控制錄音器件不向語音模組提供採集語音,斷開語音模組等。在具體實現中,可根據實際應用場景選擇合適的暫停動作。
作為舉例,如圖12所示,在使用者同時請求兩個語音服務的情況下,以誰先進入解析(Detecting)狀態為判斷,則切換模組(在圖中標記為MiraVoice)將優先進入Detecting狀態的語音模組選定為進行語音互動的語音模組,並暫停其餘語音模組的語音互動。在圖12中,GVA語音服務優先進入Detecting狀態,故其被選定為進行語音互動的語音模組,並暫停AVS的語音互動。在圖12的實施例中,作為舉例,暫停AVS的方式為將AVS的狀態恢復為待機狀態,控制播放機件不播放AVS語音模組的播放內容(例如,暫停/停止播放語音模組提供的播放內容,或靜音語音模組提供的播放內容),以及控制錄 音器件不向語音模組AVS提供採集語音。可選地,在本實施例中,當選定的語音模組(例如,圖12中的GVA語音模組)的工作狀態變為回饋狀態或待機狀態的情況下,可重新使其餘語音模組的語音互動恢復正常運行。在圖12的實施例中,作為舉例,恢復AVS的正常運行的方式使AVS能進行正常的狀態轉變,控制播放機件能播放AVS語音模組的播放內容,以及控制錄音器件向語音模組AVS提供採集語音。這樣恢復正常運行狀態的其餘語音模組便能夠重新回應本發明提供的各種預設原則的約束。
下面將詳細介紹第四種預設原則──分步回應原則,其具體如圖13-圖14所示,本實施方式的語音設備的語音互動方法包括以下步驟可以理解的是,需要注意的是,以下步驟編號僅用於簡化說明,並不旨在限制步驟的執行順序,本實施方式的各步驟可以在不違背本發明技術思想的基礎上,任意更換執行順序。
S501:確定至少兩個語音模組的工作狀態。
S502:若基於至少兩個語音模組的工作狀態,確認至少兩個語音模組的工作狀態已切換為喚醒狀態,且最後切換到喚醒狀態的語音模組的狀態切換時間與至少一個其他切換到喚醒狀態的語音模組的狀態切換時間的間隔小於預設時長,按照預設順序從狀態切換時間間隔小於所述預設時長的所有語音模組中選定一個為進行語音互動的語音模組,並暫停其餘語音模組的語音互動。
如圖14所示,在使用者同時請求兩個語音服務(GVA和AVS)的情況下,即兩個語音服務對應的語音模組到達喚醒狀態的時間間隔短于預設時長,切換模組(在圖中標記為MiraVoice)會先將其中一個語音服務對應的語音模組(例如,GVA)選定為進行語音互動的語音模組,並暫停其餘語音模組(例如,AVS)的語音互動。在本實施例中,所述暫停包括將語音模組保持為當前狀態並緩存語音模組的運行資料,以便當相應語音模組後續被按預設順序 選定為進行語音互動的語音模組時,能從保持的狀態開始執行後續語音互動。
其中,預設順序可以是語音模組切換到喚醒狀態的先後順序(圖14所示的實施例即是按照該順序)。或者預設順序可以是語音模組的優先順序的高低順序。預設順序還可以是切換模組對語音模組進行隨意排列組合而成的順序。
若當前選定的語音模組已切換至回饋狀態或待機狀態,且當前選定的語音模組不是預設順序的最後一個語音模組,則繼續執行按照預設順序從狀態切換時間間隔小於所述預設時長的所有語音模組中選定一個為進行語音互動的語音模組,並暫停其餘語音模組的語音互動的步驟,直至選定的語音模組為所述預設順序的最後一個語音模組。作為舉例,在圖14所示的實施例中,當GVA已切換至回饋狀態或待機狀態,且由於GVA語音模組不是預設順序的最後一個語音模組,則繼續選定AVS作為進行語音互動的語音模組,在本實施例中,選定AVS作為進行語音互動的語音模組後使AVS從保持的喚醒狀態繼續向下執行後續狀態,也即繼續執行解析,回應等狀態。
請參閱圖15,圖15是本發明語音設備20一實施方式的結構示意圖。本發明語音設備20包括處理器22、錄音器件和播放機件,處理器22耦接於錄音器件和播放機件,處理器22用於執行指令以實現上述本發明語音互動方法任一實施方式及任意不衝突的組合所提供的方法。
語音設備20可為手機、筆記型電腦等終端,或者還可以為伺服器,或者還可為冰箱、空調等與腳部穿戴設備構建成局域網的一物聯網設備。
處理器22還可以稱為CPU(Central Processing Unit,中央處理單元)。處理器22可能是一種積體電路晶片,具有信號的處理能力。處理器22還可以是通用處理器、數位訊號處理器(DSP)、專用積體電路(ASIC)、現場可程式設計閘陣列(FPGA)或者其他可程式設計邏輯器件、分立門或者電晶 體邏輯器件、分立硬體元件。通用處理器可以是微處理器,或者該處理器22也可以是任何常規的處理器等。
語音設備20還可進一步包括記憶體21,用於存儲處理器22運行所需的指令和資料。
請參閱圖16,圖16為本發明實施方式中電腦可讀記錄媒體的結構示意圖。本發明實施例的電腦可讀記錄媒體30存儲有指令/程式資料31,該指令/程式資料31被執行時實現本發明上述方法任一實施例以及任意不衝突的組合所提供的方法。其中,該指令/程式資料31可以形成程式檔以軟體產品的形式存儲在上述記錄媒體30中,以使得一台電腦設備(可以是個人電腦,伺服器,或者網路設備等)或處理器(processor)執行本發明各個實施方式方法的全部或部分步驟。而前述的記錄媒體30包括:U盤、移動硬碟、唯讀記憶體(ROM,Read-Only Memory)、隨機存取記憶體(RAM,Random Access Memory)、磁碟或者光碟等各種可以存儲程式碼的介質,或者是電腦、伺服器、手機、平板等設備。
在本發明所提供的幾個實施例中,應該理解到,所揭露的系統,裝置和方法,可以通過其它的方式實現。例如,以上所描述的裝置實施例僅僅是示意性的,例如,單元的劃分,僅僅為一種邏輯功能劃分,實際實現時可以有另外的劃分方式,例如多個單元或元件可以結合或者可以集成到另一個系統,或一些特徵可以忽略,或不執行。另一點,所顯示或討論的相互之間的耦合或直接耦合或通信連接可以是通過一些介面,裝置或單元的間接耦合或通信連接,可以是電性,機械或其它的形式。
另外,在本發明各個實施例中的各功能單元可以集成在一個處理單元中,也可以是各個單元單獨物理存在,也可以兩個或兩個以上單元集成在一個單元中。上述集成的單元既可以採用硬體的形式實現,也可以採用軟體功 能單元的形式實現。
本發明雖以較佳實施例揭露如上,然其並非用以限定本發明的範圍,任何所屬技術領域具有通常知識者,在不脫離本發明的精神和範圍內,當可做些許的更動與潤飾,因此本發明的保護範圍當視申請專利範圍所界定者為准。
S101,S102:步驟

Claims (13)

  1. 一種語音設備的語音互動方法,其中所述語音設備包括至少兩個語音模組,所述語音互動方法包括:確定所述至少兩個語音模組的工作狀態;基於預設原則和所述至少兩個語音模組的工作狀態,從所述至少兩個語音模組中選定一個語音模組進行語音互動,並暫停其餘語音模組的語音互動;其中所述預設原則包括先呼叫先回應原則、呼叫打斷原則、解析不可打斷原則以及分步回應原則中至少一種;其中所述工作狀態包括待機狀態、喚醒狀態、解析狀態和回饋狀態,其中當每一個所述語音模組從採集語音中識別到關鍵字則進入所述喚醒狀態,當每一個所述語音模組對所述採集語音進行語音分析時進入所述解析狀態,當每一個所述語音模組對所述採集語音解析完畢並將播放內容發送給播放機件播放時,進入所述回饋狀態,當每一個所述語音模組未處於所述解析狀態、所述喚醒狀態和所述回饋狀態,則處於所述待機狀態,其中所述採集語音由錄音器件提供。
  2. 如請求項1所述的語音互動方法,其中當所述預設原則包括所述先呼叫先回應原則,所述基於預設原則和所述至少兩個語音模組的工作狀態,從所述至少兩個語音模組中選定一個語音模組進行語音互動,並暫停其餘語音模組的語音互動的步驟包括:若基於所述至少兩個語音模組的工作狀態,確認所述至少兩個語音模組中一語音模組處於所述喚醒狀態,且所述至少兩個語音模組中的其他語音模組處於所述待機狀態,將處於所述喚醒狀態的所述一語音模組選定為進行語音互動的語音模組,並暫停其餘語音模組的語音互動。
  3. 如請求項1所述的語音互動方法,其中當所述預設原則包括所述呼叫打斷原則,所述基於預設原則和確定的所述至少兩個語音模組的工作 狀態,從所述至少兩個語音模組中選定一個語音模組進行語音互動,並暫停其餘語音模組的語音互動的步驟包括:若基於所述至少兩個語音模組的工作狀態,確認所述至少兩個語音模組中至少一個語音模組處於所述喚醒狀態,且所述至少兩個語音模組中的其餘語音模組處於所述解析狀態、所述回饋狀態或所述待機狀態中任一種,則將最後進入所述喚醒狀態的語音模組選定為進行語音互動的語音模組,並暫停其餘語音模組的語音互動。
  4. 如請求項1所述的語音互動方法,其中當所述預設原則包括所述解析不可打斷原則,所述基於預設原則和所述至少兩個語音模組的工作狀態,從至少兩個語音模組中選定一個語音模組進行語音互動,並暫停其餘語音模組的語音互動的步驟包括:若基於所述至少兩個語音模組的工作狀態,確認所述至少兩個語音模組中一語音模組處於所述解析狀態,且所述至少兩個語音模組中的其他語音模組處於所述喚醒狀態或所述待機狀態,將處於所述解析狀態的所述一語音模組選定為進行語音互動的語音模組,並暫停其餘語音模組的語音互動。
  5. 如請求項1-4中任一項所述的語音互動方法,其中所述暫停其餘語音模組的語音互動的步驟包括如下方式中至少一種:控制所述播放機件不播放所述其餘語音模組的播放內容;控制所述錄音器件不向所述其餘語音模組提供採集語音;暫停所述其餘語音模組的工作;將所述其餘語音模組恢復為所述待機狀態;保持所述其餘語音模組的當前工作狀態;斷開所述其餘語音模組。
  6. 如請求項1-4中任一項所述的語音互動方法,其中還包括: 回應於當前選定的語音模組的工作狀態變為所述回饋狀態或所述待機狀態,重新使所述其餘語音模組的語音互動恢復正常運行;其中所述重新使所述其餘語音模組的語音互動恢復正常運行的步驟包括如下方式中至少一種:控制所述播放機件能播放所述其餘語音模組的播放內容;控制所述錄音器件向所述其餘語音模組提供採集語音;使所述其餘語音模組能正常進行工作狀態切換;重新連接所述其餘語音模組。
  7. 如請求項1所述的語音互動方法,其中當所述預設原則包括所述分步回應原則,所述基於預設原則和所述至少兩個語音模組的工作狀態,從所述至少兩個語音模組中選定一個語音模組進行語音互動,並暫停其餘語音模組的語音互動的步驟包括:若基於所述至少兩個語音模組的工作狀態,確定所述至少兩個語音模組中兩個或更多個語音模組的工作狀態已切換為所述喚醒狀態,且最後切換到所述喚醒狀態的語音模組的狀態切換時間與至少一個其他切換到所述喚醒狀態的語音模組的狀態切換時間的間隔小於預設時長,按照預設順序從狀態切換時間間隔小於所述預設時長的所有語音模組中選定一個為進行語音互動的語音模組,並暫停其餘語音模組的語音互動;其中所述預設順序包括所述至少兩個語音模組切換到所述喚醒狀態的先後順序,所述至少兩個語音模組的優先順序的高低順序,或者對所述至少兩個語音模組進行隨意排列組合而成的順序。
  8. 如請求項7所述的語音互動方法,其中所述暫停其餘語音模組的語音互動包括:將所述其餘語音模組保持為當前狀態並緩存所述其餘語音模組的運行資料。
  9. 如請求項7或8所述的語音互動方法,其中還包括:若當前選定的語音模組已切換至所述回饋狀態或所述待機狀態,且當前選 定的語音模組不是所述預設順序的最後一個語音模組,重複執行所述按照預設順序從狀態切換時間間隔小於所述預設時長的所有語音模組中選定一個為進行語音互動的語音模組,並暫停其餘語音模組的語音互動的步驟,直至選定的語音模組為所述預設順序的最後一個語音模組。
  10. 如請求項9所述的語音互動方法,其中所述按照預設順序從狀態切換時間間隔小於所述預設時長的所有語音模組中選定一個為進行語音互動的語音模組時,使選定的語音模組從保持的工作狀態開始執行後續語音互動。
  11. 一種語音設備,其中所述語音設備包括:錄音器件;播放機件;至少兩個語音模組,每個所述語音模組均與所述錄音器件和所述播放機件通信連接;切換模組,與所述至少兩個所述語音模組、所述錄音器件和所述播放機件通信連接,用於執行請求項1-10中任一項所述的方法。
  12. 一種語音設備,其中所述語音設備包括錄音器件、播放機件和處理器;所述處理器與所述錄音器件和所述播放機件通信連接,所述處理器用於執行指令以實現如請求項1-10中任一項所述的方法。
  13. 一種電腦可讀記錄媒體,其中所述電腦可讀記錄媒體中存儲有能夠實現如請求項1-10中任一項方法的程式檔。
TW110129703A 2021-05-14 2021-08-12 語音設備及其語音互動方法,以及電腦可讀記錄媒體 TWI832078B (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
CN202110529498.0 2021-05-14
CN202110529498.0A CN115346523A (zh) 2021-05-14 2021-05-14 语音设备的语音交互方法及装置

Publications (2)

Publication Number Publication Date
TW202244907A TW202244907A (zh) 2022-11-16
TWI832078B true TWI832078B (zh) 2024-02-11

Family

ID=

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2020192311A1 (zh) 2019-03-22 2020-10-01 北京达佳互联信息技术有限公司 主从服务器切换方法、装置、电子设备及存储介质

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2020192311A1 (zh) 2019-03-22 2020-10-01 北京达佳互联信息技术有限公司 主从服务器切换方法、装置、电子设备及存储介质

Similar Documents

Publication Publication Date Title
CN103257873B (zh) 一种智能终端设备的控制方法和系统
JP6742465B2 (ja) ブルートゥーススピーカーにおける連続ウェイクアップ遅延低減の方法、装置及びブルートゥーススピーカー
CN108509176A (zh) 一种播放音频数据的方法、装置、存储介质及智能终端
CN108024128B (zh) 蓝牙音乐播放的控制方法、装置、终端设备及存储介质
WO2011072480A1 (zh) 系统状态切换方法及便携终端
CN105262911B (zh) 语音通话中系统电话的处理方法、系统和装置
CN110457078B (zh) 智能服务方法、装置及设备
US20150163610A1 (en) Audio keyword based control of media output
KR20210130225A (ko) 서비스 요청 처리 방법 및 관련 디바이스
CN113613046A (zh) 管理回放组
WO2023169171A1 (zh) 进程管控方法、装置、存储介质及电子设备
CN113573172A (zh) 双设备音频播放方法、装置、电子设备及存储介质
CN116028205B (zh) 资源调度方法和电子设备
JP6785332B2 (ja) ブルートゥーススピーカーデータ処理の方法、装置及びブルートゥーススピーカー
TWI832078B (zh) 語音設備及其語音互動方法,以及電腦可讀記錄媒體
CN109658934A (zh) 通过语音控制多媒体app的方法及装置
WO2023165320A1 (zh) 播放参数配置方法及装置
CN110989816A (zh) 应用的处理方法、装置以及存储介质
TW202244907A (zh) 語音設備及其語音交互方法
JP7053693B2 (ja) 音声スキルの終了方法、装置、デバイスおよび記憶媒体
CN113840164A (zh) 语音控制方法、装置、终端设备及存储介质
CN113760219A (zh) 信息处理方法和装置
CN115080126A (zh) 共用硬件的切换方法、装置、电子设备及存储介质
CN111355996A (zh) 一种音频播放方法及计算设备
WO2023197681A1 (zh) 模式切换方法及装置、终端设备、存储介质