TW201923736A - 語音識別方法、裝置及系統 - Google Patents

語音識別方法、裝置及系統 Download PDF

Info

Publication number
TW201923736A
TW201923736A TW107132609A TW107132609A TW201923736A TW 201923736 A TW201923736 A TW 201923736A TW 107132609 A TW107132609 A TW 107132609A TW 107132609 A TW107132609 A TW 107132609A TW 201923736 A TW201923736 A TW 201923736A
Authority
TW
Taiwan
Prior art keywords
dialect
voice
word
server
wake
Prior art date
Application number
TW107132609A
Other languages
English (en)
Inventor
牛也
徐巍越
馮偉國
黃光遠
Original Assignee
香港商阿里巴巴集團服務有限公司
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 香港商阿里巴巴集團服務有限公司 filed Critical 香港商阿里巴巴集團服務有限公司
Publication of TW201923736A publication Critical patent/TW201923736A/zh

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/28Constructional details of speech recognition systems
    • G10L15/30Distributed recognition, e.g. in client-server systems, for mobile phones or network applications

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Telephonic Communication Services (AREA)

Abstract

本申請案實施例提供一種語音識別方法、裝置及系統。其中,方法包括:接收語音喚醒詞;識別語音喚醒詞所屬的第一方言;向伺服器發送服務請求,以請求伺服器從不同方言對應的ASR模型中選擇第一方言對應的ASR模型;向伺服器發送待識別語音信號,以供伺服器利用第一方言對應的ASR模型對待識別語音信號進行語音識別。本實施例提供的方法可以自動化地對多方言進行語音識別,提高針對多方言進行語音識別的效率。

Description

語音識別方法、裝置及系統
本申請案涉及語音識別技術領域,尤其涉及一種語音識別方法、裝置及系統。
自動語音識別(Automatic Speech Recognition,ASR)是一種可以把人類的語音音頻信號轉換為文本內容的技術。隨著軟硬體技術的發展,各種智慧型設備的計算能力和儲存容量有了很大進步,使得語音識別技術在智慧型設備中得以廣泛應用。   在語音識別技術中,需要準確識別語音音素,基於準確識別的語音音素才能轉換為文本。但是,不論是哪種語言,都會因為各種因素導致該語言有多種不同的發音,即多方言。以漢語為例,有官話方言、晉語、湘語、贛語、吳語、閩語、粵語、客語等多種方言,不同方言的發音差異較大。   目前,針對方言的語音識別方案尚不成熟,有待針對多方言問題提供一種解決方案。
本申請案的多個方面提供一種語音識別方法、裝置及系統,用以自動化地對多方言進行語音識別,提高針對多方言進行語音識別的效率。   本申請案實施例提供一種語音識別方法,適用於終端設備,該方法包括:   接收語音喚醒詞;   識別所述語音喚醒詞所屬的第一方言;   向伺服器發送服務請求,以請求所述伺服器從不同方言對應的ASR模型中選擇所述第一方言對應的ASR模型;   向所述伺服器發送待識別語音信號,以供所述伺服器利用所述第一方言對應的ASR模型對所述待識別語音信號進行語音識別。   本申請案實施例還提供一種語音識別方法,適用於伺服器,該方法包括:   接收終端設備發送的服務請求,所述服務請求指示選擇第一方言對應的ASR模型;   從不同方言對應的ASR模型中,選擇所述第一方言對應的ASR模型,所述第一方言是所述語音喚醒詞所屬的方言;   接收所述終端設備發送的待識別語音信號,並利用所述第一方言對應的ASR模型對所述待識別語音信號進行語音識別。   本申請案實施例還提供一種語音識別方法,適用於終端設備,該方法包括:   接收語音喚醒詞;   向伺服器發送所述語音喚醒詞,以供伺服器基於所述語音喚醒詞從不同方言對應的ASR模型中選擇所述語音喚醒詞所屬第一方言對應的ASR模型;   向所述伺服器發送待識別語音信號,以供所述伺服器利用所述第一方言對應的ASR模型對所述待識別語音信號進行語音識別。   本申請案實施例還提供一種語音識別方法,適用於伺服器,該方法包括:   接收終端設備發送的語音喚醒詞;   識別所述語音喚醒詞所屬的第一方言;   從不同方言對應的ASR模型中,選擇所述第一方言對應的ASR模型;   接收所述終端設備發送的待識別語音信號,並利用所述第一方言對應的ASR模型對所述待識別語音信號進行語音識別。   本申請案實施例還提供一種語音識別方法,包括:   接收語音喚醒詞;   識別所述語音喚醒詞所屬的第一方言;   從不同方言對應的ASR模型中選擇所述第一方言對應的ASR模型;   利用所述第一方言對應的ASR模型對待識別語音信號進行語音識別。   本申請案實施例還提供一種語音識別方法,適用於終端設備,該方法包括:   接收語音喚醒詞,以喚醒語音識別功能;   接收使用者輸入的具有方言指示意義的第一語音信號;   從所述第一語音信號中解析出需要進行語音識別的第一方言;   向伺服器發送服務請求,以請求所述伺服器從不同方言對應的ASR模型中選擇所述第一方言對應的ASR模型;   向所述伺服器發送待識別語音信號,以供所述伺服器利用所述第一方言對應的ASR模型對所述待識別語音信號進行語音識別。   本申請案實施例還提供一種終端設備,包括:記憶體、處理器以及通信組件;   所述記憶體,用於儲存電腦程式;   所述處理器,與所述記憶體耦合,用於執行所述電腦程式,以用於:   通過所述通信組件接收語音喚醒詞;   識別所述語音喚醒詞所屬的第一方言;   通過所述通信組件向伺服器發送服務請求,以請求所述伺服器從不同方言對應的ASR模型中選擇所述第一方言對應的ASR模型;   通過所述通信組件向所述伺服器發送待識別語音信號,以供所述伺服器利用所述第一方言對應的ASR模型對所述待識別語音信號進行語音識別;   所述通信組件,用於接收所述語音喚醒詞,向所述伺服器發送所述服務請求以及所述待識別語音信號。   本申請案實施例還提供一種伺服器,包括:記憶體、處理器以及通信組件;   所述記憶體,用於儲存電腦程式;   所述處理器,與所述記憶體耦合,用於執行所述電腦程式,以用於:   通過所述通信組件接收終端設備發送的服務請求,所述服務請求指示選擇第一方言對應的ASR模型;   從不同方言對應的ASR模型中,選擇所述第一方言對應的ASR模型,所述第一方言是所述語音喚醒詞所屬的方言;   通過所述通信組件接收所述終端設備發送的待識別語音信號,並利用所述第一方言對應的ASR模型對所述待識別語音信號進行語音識別;   所述通信組件,用於接收所述服務請求和所述待識別語音信號。   本申請案實施例還提供一種終端設備,包括:記憶體、處理器以及通信組件;   所述記憶體,用於儲存電腦程式;   所述處理器,與所述記憶體耦合,用於執行所述電腦程式,以用於:   通過所述通信組件接收語音喚醒詞;   通過所述通信組件向伺服器發送所述語音喚醒詞,以供伺服器基於所述語音喚醒詞從不同方言對應的ASR模型中選擇所述語音喚醒詞所屬第一方言對應的ASR模型;   通過所述通信組件向所述伺服器發送待識別語音信號,以供所述伺服器利用所述第一方言對應的ASR模型對所述待識別語音信號進行語音識別;   所述通信組件,用於接收所述語音喚醒詞,向所述伺服器發送所述語音喚醒詞和所述待識別語音信號。   本申請案實施例還提供一種伺服器,包括:記憶體、處理器以及通信組件;   所述記憶體,用於儲存電腦程式;   所述處理器,與所述記憶體耦合,用於執行所述電腦程式,以用於:   通過所述通信組件接收終端設備發送的語音喚醒詞;   識別所述語音喚醒詞所屬的第一方言;   從不同方言對應的ASR模型中,選擇所述第一方言對應的ASR模型;   通過所述通信組件接收所述終端設備發送的待識別語音信號,並利用所述第一方言對應的ASR模型對所述待識別語音信號進行語音識別;   所述通信組件,用於接收所述語音喚醒詞以及所述待識別語音信號。   本申請案實施例還提供一種電子設備,包括:記憶體、處理器以及通信組件;   所述記憶體,用於儲存電腦程式;   所述處理器,與所述記憶體耦合,用於執行所述電腦程式,以用於:   通過所述通信組件接收語音喚醒詞;   識別所述語音喚醒詞所屬的第一方言;   從不同方言對應的ASR模型中選擇所述第一方言對應的ASR模型;   利用所述第一方言對應的ASR模型對待識別語音信號進行語音識別;   所述通信組件,用於接收所述語音喚醒詞。   本申請案實施例還提供一種終端設備,包括:記憶體、處理器以及通信組件;   所述記憶體,用於儲存電腦程式;   所述處理器,與所述記憶體耦合,用於執行所述電腦程式,以用於:   通過所述通信組件接收語音喚醒詞,以喚醒語音識別功能;   通過所述通信組件接收使用者輸入的具有方言指示意義的第一語音信號;   從所述第一語音信號中解析出需要進行語音識別的第一方言;   通過所述通信組件向伺服器發送服務請求,以請求所述伺服器從不同方言對應的ASR模型中選擇所述第一方言對應的ASR模型;   通過所述通信組件向所述伺服器發送待識別語音信號,以供所述伺服器利用所述第一方言對應的ASR模型對所述待識別語音信號進行語音識別   所述通信組件,用於接收所述語音喚醒詞和所述第一語音信號,以及向所述伺服器發送所述服務請求和所述待識別語音信號。   本申請案實施例還提供一種儲存有電腦程式的電腦可讀儲存媒體,所述電腦程式被電腦執行時能夠實現上述第一種語音識別方法實施例中的步驟。   本申請案實施例還提供一種儲存有電腦程式的電腦可讀儲存媒體,其特徵在於,所述電腦程式被電腦執行時能夠實現上述第二種語音識別方法實施例中的步驟。   本申請案實施例還提供一種語音識別系統,包括伺服器和終端設備;   所述終端設備,用於接收語音喚醒詞,識別所述語音喚醒詞所屬的第一方言,並向所述伺服器發送服務請求,以及向所述伺服器發送待識別語音信號,所述服務請求指示選擇所述第一方言對應的ASR模型;   所述伺服器,用於接收所述服務請求,根據所述服務請求的指示,從不同方言對應的ASR模型中,選擇所述第一方言對應的ASR模型,以及接收所述待識別語音信號,並利用所述第一方言對應的ASR模型對所述待識別語音信號進行語音識別。   本申請案實施例還提供一種語音識別系統,其特徵在於,包括伺服器和終端設備;   所述終端設備,用於接收語音喚醒詞,向所述伺服器發送所述語音喚醒詞,以及向所述伺服器發送待識別語音信號;   所述伺服器,用於接收所述語音喚醒詞,識別所述語音喚醒詞所屬的第一方言,從不同方言對應的ASR模型中,選擇所述第一方言對應的ASR模型,以及接收所述待識別語音信號,並利用所述第一方言對應的ASR模型對所述待識別語音信號進行語音識別。   在本申請案實施例中,針對不同方言構建ASR模型,在語音識別過程中,預先識別語音喚醒詞所屬的方言,進而從不同方言對應的ASR模型中選擇與語音喚醒詞所屬的方言對應的ASR模型,利用所選擇的ASR模型對後續待識別語音信號進行語音識別,實現多方言語音識別的自動化,並且基於語音喚醒詞自動選擇相應方言的ASR模型,無需使用者手動操作,實現起來更加方便、快捷,有利於提高多方言語音識別的效率。
為使本申請案的目的、技術方案和優點更加清楚,下面將結合本申請案具體實施例及相應的附圖對本申請案技術方案進行清楚、完整地描述。顯然,所描述的實施例僅是本申請案一部分實施例,而不是全部的實施例。基於本申請案中的實施例,本領域普通技術人員在沒有做出進步性勞動前提下所獲得的所有其他實施例,都屬於本申請案保護的範圍。   在現有技術中,針對方言的語音識別方案尚不成熟,針對該技術問題,本申請案實施例提供一種解決方案,該方案的主要思路是:針對不同方言構建ASR模型,在語音識別過程中,預先識別語音喚醒詞所屬的方言,進而從不同方言對應的ASR模型中選擇與語音喚醒詞所屬的方言對應的ASR模型,利用所選擇的ASR模型對後續待識別語音信號進行語音識別,實現多方言語音識別的自動化,並且基於語音喚醒詞自動選擇相應方言的ASR模型,無需使用者手動操作,實現起來更加方便、快捷,有利於提高多方言語音識別的效率。   以下結合附圖,詳細說明本申請案各實施例提供的技術方案。   圖1為本申請案一示例性實施例提供的一種語音識別系統的結構示意圖。如圖1所示,該語音識別系統100包括:伺服器101和終端設備102。伺服器101與終端設備102之間通信連接。   例如,終端設備102可以通過網際網路與伺服器101進行通信連接,或者也可以通過移動式網路與伺服器101進行通信連接。若終端設備102通過移動式網路與伺服器101進行通信連接,該移動式網路的網路制式可以為2G(GSM)、2.5G(GPRS)、3G(WCDMA、TD-SCDMA、CDMA2000、UTMS)、4G(LTE)、4G+(LTE+)、WiMax等中的任意一種。   伺服器101主要面向不同方言提供ASR模型,並選擇相應ASR模型對相應方言下的語音信號進行語音識別。伺服器101可以是任何可提供計算服務,能夠回應服務請求,並進行處理的設備,例如可以是常規伺服器、雲端伺服器、雲端主機、虛擬中心等。伺服器的構成主要包括處理器、硬碟、記憶體、系統匯流排等,和通用的電腦架構類似。   在本實施例中,終端設備102主要面向使用者,可以向使用者提供語音識別的介面或入口。終端設備102的實現形式有多種,例如可以是智慧型手機、智慧型音箱、個人電腦、穿戴設備、平板電腦等。終端設備102通常包括至少一個處理單元和至少一個記憶體。處理單元和記憶體的數量取決於終端設備102的配置和類型。記憶體可以包括易失性的,例如RAM,也可以包括非易失性的,例如唯讀記憶體(Read-Only Memory,ROM)、快閃記憶體等,或者也可以同時包括兩種類型的。記憶體內通常儲存有作業系統(Operating System,OS)、一個或多個應用程式,也可以儲存有程式資料等。除了處理單元和記憶體之外,終端設備102還包括一些基本配置,例如網卡晶片、IO匯流排、音視頻組件(例如麥克風)等。可選地,終端設備102還可以包括一些週邊設備,例如鍵盤、滑鼠、輸入筆、印表機等。這些週邊設備在本領域中是總所周知的,在此不做贅述。   在本實施例中,終端設備102與伺服器101相互配合,可以向使用者提供語音識別功能。另外,考慮到在一些情況下,終端設備102會被多個使用者使用,多個使用者可能持不同方言。以漢語為例,以地域劃分可包括以下幾類方言:官話方言、晉語、湘語、贛語、吳語、閩語、粵語、客語。進一步,一些方言還可以細分,例如閩語又可以包括閩北話、閩南話、閩東話、閩中話、莆仙話等。不同方言的發音差異較大,無法用同一ASR模型進行語音識別。因此,在本實施例中,針對不同方言分別構建ASR模型,以便於對不同方言進行語音識別。進而,基於終端設備102與伺服器101之間的相互配合,可以向持不同方言的使用者提供語音識別功能,即可以對持不同方言的使用者的語音信號進行語音識別。   為了提高語音識別效率,終端設備102支援語音喚醒詞功能,即當使用者想要進行語音識別時,可以向終端設備102輸入語音喚醒詞,以喚醒語音識別功能。該語音喚醒詞是指定文本內容的語音信號,例如可以是“開啟”、“天貓精靈”、“hello”等。終端設備102接收使用者輸入的語音喚醒詞,識別該語音喚醒詞所屬的方言,進而可確定後續待識別語音信號所屬的方言(即該語音喚醒詞所屬的方言),為採用相應方言對應的ASR模型進行語音識別提供基礎。為便於描述和區分,將語音喚醒詞所屬的方言記為第一方言。其中,語音喚醒詞所屬的第一方言可以是任何一種語種下的任何一種方言。   終端設備102在識別出語音喚醒詞所屬的第一方言之後,可以向伺服器101發送服務請求,該服務請求指示伺服器101從不同方言對應的ASR模型中選擇第一方言對應的ASR模型。伺服器101接收終端設備102發送的服務請求,之後根據該服務請求的指示從不同方言對應的ASR模型中,選擇第一方言對應的ASR模型,以便基於第一方言對應的ASR模型對後續待識別語音信號進行語音識別。在本實施例中,伺服器101預先儲存有不同方言對應的ASR模型。ASR模型是一種可以把語音信號轉換為文本的模型。可選地,一種方言對應的一個ASR模型,或者幾種類似的方言也可以對應同一ASR模型,對此不做限定。其中,第一方言對應的ASR模型用於將第一方言的語音信號轉換為文本內容。   終端設備102在向伺服器101發送服務請求後,繼續向伺服器101發送待識別語音信號,該待識別語音信號屬於第一方言。伺服器101接收終端設備102發送的待識別語音信號,並根據選擇的第一方言對應的ASR模型對待識別語音信號進行語音識別,不僅可以對第一方言進行語音識別,而且採用與之匹配的ASR模型有利於提高語音識別的準確性。   可選地,待識別語音信號可以是使用者在輸入語音喚醒詞後,繼續向終端設備102輸入的語音信號,基於此,終端設備102在向伺服器101發送待識別語音信號之前,還可以接收使用者輸入的待識別語音信號。或者,待識別語音信號也可以是預先錄製並儲存在終端設備102本地的語音信號,基於此,終端設備102可以直接從本地獲取待識別語音信號。   在一些示例性實施例中,伺服器101可以向終端設備102返回語音識別結果或語音識別結果的關聯資訊。例如,伺服器101可以將語音識別出的文本內容返回給終端設備102;或者,伺服器101也可以將與語音識別結果相匹配的歌曲、視頻等資訊返回給終端設備102。終端設備102接收伺服器101返回的語音識別結果或語音識別結果的關聯資訊,並根據語音識別結果或語音識別結果的關聯資訊執行後續處理。例如,終端設備102在接收到語音識別出的文本內容之後,可以將文本內容展示給使用者,或者可以基於文本內容進行網路搜索等。又例如,終端設備102在接收到語音識別結果的關聯資訊,例如歌曲、視頻等資訊之後,可以播放歌曲、視頻等資訊,或者也可以將歌曲、視頻等資訊轉發給其它使用者,以便實現資訊分享。   在本實施例中,針對不同方言構建ASR模型,在語音識別過程中,預先識別語音喚醒詞所屬的方言,進而從不同方言對應的ASR模型中選擇與語音喚醒詞所屬的方言對應的ASR模型,利用所選擇的ASR模型對後續待識別語音信號進行語音識別,實現多方言語音識別的自動化,並且基於語音喚醒詞自動選擇相應方言的ASR模型,無需使用者手動操作,實現起來更加方便、快捷,有利於提高多方言語音識別的效率。   進一步地,基於語音喚醒詞比較簡短,識別語音喚醒詞所屬的方言的過程耗時較短,使得語音識別系統能夠快速識別語音喚醒詞所屬的第一方言,並選擇與第一方言對應的ASR模型,進一步提高對多方言語音進行識別的效率。   在本申請案各實施例中,並不限定終端設備102識別語音喚醒詞所屬的第一方言的方式,凡是可識別出語音喚醒詞所屬的第一方言的方式均適用於本申請案各實施例。在本申請案下面一些示例性實施例中,列舉幾種終端設備102識別語音喚醒詞所屬方言的方式:   方式1,終端設備102將語音喚醒詞分別與以不同方言錄製的基準喚醒詞進行聲學特徵的動態匹配,獲取與語音喚醒詞的匹配度符合第一設定要求的基準喚醒詞對應的方言作為第一方言。   在方式1中,預先以不同方言錄製基準喚醒詞。其中,以不同方言錄製的基準喚醒詞與語音喚醒詞的文本內容相同。由於持不同方言的使用者的發聲機理不同,以不同方言錄製的基準關鍵字的聲學特徵不同。基於此,終端設備102以不同方言預先錄製基準喚醒詞,待接收到使用者輸入的語音喚醒詞後,將語音喚醒詞分別與以不同方言錄製的基準喚醒詞進行聲學特徵的動態匹配,以得到與不同的基準喚醒詞的匹配度。其中,根據應用場景的不同,第一設定要求可以不同。例如,可以將與語音喚醒詞的匹配度最高的基準喚醒詞所對應的方言作為第一方言;或者,也可以設置一匹配度閾值,將與語音喚醒詞的匹配度大於匹配度閾值的基準喚醒詞所對應的方言作為第一方言;或者也可以設置一匹配度範圍,將與語音喚醒詞的匹配度落入該匹配度範圍內的基準喚醒詞所對應的方言作為第一方言。   在方式1中,聲學特徵可以體現為語音信號的時域特徵和頻域特徵。基於時域特徵和頻域特徵的匹配方法有多種,可選地,可基於動態時間扭曲(dynamic time warping,DTW)方法,對語音喚醒詞進行時間序列的動態匹配。   動態時間扭曲方法是一種衡量兩個時間序列之間的相似度的方法。終端設備102根據輸入的語音喚醒詞生成語音喚醒詞的時間序列,並分別與以不同方言錄製的基準喚醒詞的時間序列比較。在參與比較的兩個時間序列之間,確定至少一對相似點。將相似點之間的距離之和,即歸整路徑距離,來衡量兩個時間序列之間的相似性。可選地,可以將與語音喚醒詞的規整路徑距離最小的基準喚醒詞所對應的方言作為第一方言;也可以設置一距離閾值,將與語音喚醒詞的規整路徑距離小於距離閾值的基準喚醒詞所對應的方言作為第一方言;還可以設置一距離範圍,將與語音喚醒詞的規整路徑距離落入該距離範圍內的基準喚醒詞所對應的方言作為第一方言。   方式2,終端設備102識別語音喚醒詞的聲學特徵,將語音喚醒詞的聲學特徵分別與不同方言的聲學特徵進行匹配,獲取與語音喚醒詞的聲學特徵的匹配度符合第二設定要求的方言作為第一方言。   在方式2中,預先獲取不同方言的聲學特徵,通過識別語音喚醒詞的聲學特徵,進而基於聲學特徵之間的匹配確定語音喚醒詞所屬的第一方言。   可選地,在識別語音喚醒詞的聲學特徵之前,可以對語音喚醒詞進行濾波處理和數位化。濾波處理指保留語音喚醒詞中頻率在300~3400Hz中的信號。數位化指對保留的信號進行A/D轉換及抗混疊處理。   可選地,可以通過計算語音喚醒詞的頻譜特徵參數,例如滑動差分倒譜參數,來識別語音喚醒詞的聲學特徵。與方式1類似,根據應用場景的不同,第二設定要求可以不同。例如,可以將與語音喚醒詞的聲學特徵的匹配度最高的基準喚醒詞所對應的方言作為第一方言;也可以設置一匹配度閾值,將與語音喚醒詞的聲學特徵的匹配度大於匹配度閾值的基準喚醒詞所對應的方言作為第一方言;還可以設置一匹配度範圍,將與語音喚醒詞的聲學特徵的匹配度落入該匹配度範圍內的基準喚醒詞所對應的方言作為第一方言。   其中,滑動差分倒譜參數由若干塊跨多幀語音的差分倒譜組成,考慮了前後幀差分倒譜的影響,融入了較多的時序特徵。對比基準喚醒詞的滑動差分倒譜參數與以不同方言錄製的基準喚醒詞的滑動差分倒譜參數,可選地,將與基準喚醒詞的滑動差分倒譜參數匹配度最高的基準喚醒詞所對應的方言作為第一方言;也可以設置一參數差閾值,將與基準喚醒詞的滑動差分倒譜參數之差小於參數差閾值的語音喚醒詞所對應的方言作為第一方言;還可以設置一參數差範圍,將與基準喚醒詞的滑動差分倒譜參數之差落入該參數差範圍內的基準喚醒詞所對應的方言作為第一方言。   方式3,將語音喚醒詞轉換成文本喚醒詞,將文本喚醒詞分別與不同方言對應的基準文本喚醒詞進行匹配,獲取與文本喚醒詞的匹配度符合第三設定要求的基準文本喚醒詞對應的方言作為第一方言。   在方式3中,文本喚醒詞是語音喚醒詞經語音識別後轉換成的文本,不同方言對應的基準文本喚醒詞是不同方言對應的基準喚醒詞語音識別後轉換成的文本。可選地,對於文本喚醒詞和不同方言對應的基準文本喚醒詞,可以採用相同的語音識別模型進行粗略語音識別,以提高整個語音識別過程的效率。或者,也可以採用不同方言對應的ASR模型預先對不同方言對應的基準喚醒詞進行語音識別後轉換為對應的基準文本喚醒詞,當接收到語音喚醒詞後,可以依次選擇一種方言對應的ASR模型,並基於所選擇的ASR模型對語音喚醒詞進行語音識別以獲得文本喚醒詞,並將轉換後的文本喚醒詞與該種方言對應的基準文本喚醒詞進行匹配,若該種方言對應的基準文本喚醒詞與文本喚醒詞的匹配度符合第三設定要求,則將該種方言作為第一方言。反之,若該種方言對應的基準文本喚醒詞與文本喚醒詞的匹配度不符合第三設定要求,則繼續根據下一種方言對應的ASR模型對文本喚醒詞進行語音識別後轉換為文本喚醒詞,並將轉換後的文本喚醒詞與該種方言對應的基準文本喚醒詞進行匹配,直到獲取與文本喚醒詞的匹配度符合第三設定要求的基準文本喚醒詞,並將基準文本喚醒詞對應的方言作為語音喚醒詞所屬的第一方言。   可選地,與方式1、方式2類似,可以將與文本喚醒詞的匹配度最高的基準文本喚醒詞所對應的方言作為第一方言;也可以設置一匹配度閾值,將與文本喚醒詞的匹配度大於匹配度閾值的基準文本喚醒詞所對應的方言作為第一方言;還可以設置一匹配度範圍,將與文本喚醒詞的匹配度落入該匹配度範圍內的基準文本喚醒詞所對應的方言作為第一方言。   值得說明的是,第一設定要求、第二設定要求和第三設定要求可以相同,也可以不同。   在一些示例性實施例中,終端設備102是手機、電腦、穿戴設備等具備顯示幕的設備,則可以在顯示幕上顯示一語音輸入介面,通過語音輸入介面獲取使用者輸入的文本資訊和/或語音信號。可選地,當使用者需要進行語音識別時,可以通過按壓終端設備的開啟按鍵或者觸摸終端設備102的顯示幕等方式,向終端設備102發送開啟或者啟動的指令。終端設備102可回應於啟動或開啟自身的指令,在顯示幕上向使用者展示語音輸入介面。可選地,語音輸入介面上可以展示麥克風的圖示或者類似“喚醒詞輸入”的文本資訊,以指示使用者輸入語音喚醒詞。進而,終端設備102可基於語音輸入介面獲取使用者輸入的語音喚醒詞。   在一些示例性實施例中,終端設備102可以是手機、電腦、智慧型音箱等具備語音播放功能的設備。基於此,終端設備102在向伺服器101發送服務請求之後,並且在向伺服器101發送待識別語音信號之前,可以輸出語音輸入提示資訊,例如“請說話”、“請點播”等語音信號,以提示使用者進行語音輸入。對使用者來說,在輸入語音喚醒詞之後,可以在該語音輸入提示音的提示下,向終端設備102輸入待識別語音信號。終端設備102接收使用者輸入的待識別語音信號,將待識別語音信號發送給伺服器101,由伺服器101根據第一方言對應的ASR模型對待識別語音信號進行語音識別。   在另一些示例性實施例中,終端設備102可以是手機、電腦、穿戴設備等具備顯示幕的設備。基於此,終端設備102在向伺服器101發送服務請求之後,並且在向伺服器101發送待識別語音信號之前,可以文本或圖示等方式展示語音輸入提示資訊,例如類似“請說話”的文本、麥克風圖示等,以提示使用者進行語音輸入。對使用者來說,在輸入語音喚醒詞之後,可以在該語音輸入提示資訊的提示下,向終端設備102輸入待識別語音信號。終端設備102接收使用者輸入的待識別語音信號,將待識別語音信號發送給伺服器101,由伺服器101根據第一方言對應的ASR模型對待識別語音信號進行語音識別。   在又一些示例性實施例中,終端設備102可以具有指示燈。基於此,終端設備102在向伺服器101發送服務請求之後,並且在向伺服器101發送待識別語音信號之前,可以點亮指示燈,以提示使用者進行語音輸入。對使用者來說,在輸入語音喚醒詞之後,可以在該指示燈的提示下,向終端設備102輸入待識別語音信號。終端設備102接收使用者輸入的待識別語音信號,將待識別語音信號發送給伺服器101,由伺服器101根據第一方言對應的ASR模型對待識別語音信號進行語音識別。   值得說明的是,終端設備102可以同時具備語音播放功能、指示燈、顯示幕中的至少兩種或者三種。基於此,終端設備102可同時以音頻方式、以文本或者圖示方式以及點亮指示燈的方式中的兩種或三種,輸出語音輸入提示資訊,從而加強與使用者的互動效果。   在一些示例性實施例中,終端設備102在輸出語音輸入提示音或輸出語音輸入提示資訊或點亮指示燈之前,可以預先確定伺服器101已選擇第一方言對應的ASR模型,以便於在將使用者輸入的待識別語音信號發送至伺服器101後伺服器101可以直接根據已選擇的ASR模型對待識別語音信號進行識別。基於此,伺服器101在從不同方言對應的ASR模型中選擇第一方言對應的ASR模型之後,向終端設備102返回通知訊息,該通知訊息用於指示已選擇第一方言對應的ASR模型。基於此,終端設備102還可以接收伺服器101返回的通知訊息,進而基於該通知訊息獲知伺服器101已選擇第一方言對應的ASR模型。進而,終端設備102在接收到伺服器101返回的通知訊息後,可以輸出語音輸入提示音,或者輸出語音輸入提示資訊,或者點亮指示燈,以提示使用者進行語音輸入。   在本申請案各實施例中,伺服器101在選擇第一方言對應的ASR模型之前,需要構建不同方言對應的ASR模型。其中,伺服器101構建不同方言對應的ASR模型的過程主要包括:收集不同方言的語料;對不同方言的語料進行特徵提取,以得到不同方言的聲學特徵;根據不同方言的聲學特徵,構建不同方言對應的ASR模型。關於構建每種方言對應的ASR模型的詳細過程可參見現有技術,在此不再贅述。   可選地,可以通過網路收集不同方言的語料,或者也可以對持不同方言的大量使用者進行語音錄製,從而獲得不同方言的語料。   可選地,在對不同方言的語料進行特徵提取之前,可以對收集到的不同方言的語料進行預處理。預處理過程包括對語音進行預加重處理、加窗處理、端點檢測處理。對不同方言的語料進行預處理之後,可對語音進行特徵提取。語音的特徵包括時域特徵和頻域特徵。其中,時域特徵包括短時平均能量、短時平均過零率、共振峰、基音週期等,頻域特徵包括線性預測係數、LPC倒譜係數、線譜對參數、短時頻譜、Mel頻率倒譜係數等。   下面,以提取Mel頻率倒譜係數為例,說明聲學特徵提取的過程。首先利用人耳的感知特性,在語音的頻譜範圍內設置若干個帶通濾波器,每個帶通濾波器具有三角形或正弦形濾波特性,然後在帶通濾波器對語料進行濾波得到的特徵向量中納入能量資訊,計算若干個帶通濾波器的信號能量,再通過離散餘弦變換計算Mel頻率倒譜係數。   在得到不同方言的聲學特徵後,以不同方言的聲學特徵作為輸入,以不同方言的語料對應的文本作為輸出,訓練不同方言對應的初始模型中的參數,以得到不同方言對應的ASR模型。可選地,ASR模型包括但不限於基於向量量化法構建的模型、神經網路模型等。   下面以多個持不同方言的使用者使用終端設備進行點歌的應用場景為例,對上述實施例進行詳細說明。   該具備點歌功能的終端設備可以是智慧型音箱,可選地,該智慧型音響具備一顯示幕,該智慧型音箱預設的語音喚醒詞是“你好”。當持粵語方言的粵語使用者想要點歌時,粵語使用者首先觸摸顯示幕以輸入啟動該智慧型音箱的指令,智慧型音箱回應於啟動終端設備的指令,在顯示幕上展示語音輸入介面,語音輸入介面上顯示有“你好”文本。粵語使用者向語音輸入介面輸入“你好”的語音信號。智慧型音箱基於語音輸入介面獲取使用者輸入的“你好”的語音信號,並識別“你好”屬於粵語方言;然後,向伺服器發送服務請求,以請求伺服器從不同方言對應的ASR模型中選擇粵語方言對應的ASR模型。伺服器接收到服務請求後,選擇粵語方言對應的ASR模型,並向智慧型音箱返回通知訊息,該通知訊息用於指示已選擇粵語方言對應的ASR模型。接著,智慧型音箱輸出語音輸入提示資訊,例如“請輸入語音”,以提示使用者進行語音輸入。粵語使用者在語音輸入提示資訊的提示下,輸入歌曲名“五星紅旗”的語音信號。智慧型音箱接收粵語使用者輸入的語音信號“五星紅旗”,將語音信號“五星紅旗”發送給伺服器。伺服器利用粵語方言對應的ASR模型對語音信號“五星紅旗”進行語音識別以獲得文本資訊“五星紅旗”,將與“五星紅旗”相匹配的歌曲下發至智慧型音箱,以供智慧型音箱播放該歌曲。   同樣地,在持粵語方言的粵語使用者點歌結束之後,假設持藏語方言的藏語使用者想要點歌。此時,藏語使用者可以在智慧型音箱展示的語音輸入介面上輸入“你好”的語音信號。智慧型音箱識別“你好”屬於藏語方言;然後,向伺服器發送服務請求,以請求伺服器從不同方言對應的ASR模型中選擇藏語方言對應的ASR模型。伺服器接收到服務請求後,選擇藏語方言對應的ASR模型,並向智慧型音箱返回通知訊息,該通知訊息用於指示已選擇藏語方言對應的ASR模型。接著,智慧型音箱輸出語音輸入提示資訊,例如“請輸入語音”,以提示使用者進行語音輸入。藏語使用者在語音輸入提示資訊的提示下,輸入歌曲名“我的祖國”的語音信號。智慧型音箱接收使用者輸入的語音信號“我的祖國”,並將語音信號“我的祖國”發送給伺服器。伺服器利用藏語方言對應的ASR模型對語音信號“我的祖國”進行語音識別以獲得文本資訊“我的祖國”,將與“我的祖國”相匹配的歌曲下發至智慧型音箱,以供智慧型音箱播放該歌曲。   在該應用場景中,採用本申請案實施例提供的語音識別方法,當持不同方言的使用者採用同一智慧型音箱點歌時,無需使用者手動切換ASR模型,只需以相應方言輸入語音喚醒詞即可,智慧型音響可自動識別語音喚醒詞所屬的方言進而請求伺服器啟動相應方言對應的ASR模型識別使用者點的歌曲名稱,在支援多方言自動化點歌的同時,可以提高點歌的效率。   圖2為本申請案另一示例性實施例提供的一種語音識別方法的流程示意圖。該實施例可基於圖1所示語音識別系統實現,主要是從終端設備的角度進行的描述。如圖2所示,該方法包括:   21、接收語音喚醒詞。   22、識別語音喚醒詞所屬的第一方言。   23、向伺服器發送服務請求,以請求伺服器從不同方言對應的ASR模型中選擇第一方言對應的ASR模型。   24、向伺服器發送待識別語音信號,以供伺服器利用第一方言對應的ASR模型對待識別語音信號進行語音識別。   當使用者想要進行語音識別時,可向終端設備輸入語音喚醒詞,該語音喚醒詞是指定文本內容的語音信號,例如“開啟”、“天貓精靈”、“hello”等。終端設備接收使用者輸入的語音喚醒詞,識別該語音喚醒詞所屬的方言,進而可確定後續待識別語音信號所屬的方言(即該語音喚醒詞所屬的方言),為採用相應方言對應的ASR模型進行語音識別提供基礎。為便於描述和區分,將語音喚醒詞所屬的方言記為第一方言。   然後,終端設備在識別出語音喚醒詞所屬的第一方言之後,向伺服器發送服務請求,該服務請求指示伺服器從不同方言對應的ASR模型中選擇第一方言對應的ASR模型。接著,終端設備將待識別語音信號發送至伺服器。伺服器在接收到服務請求後,從不同方言對應的ASR模型中選擇第一方言對應的ASR模型,並通過所選擇的第一方言對應的ASR模型對接收到的待識別語音信號進行識別。   本實施例中,終端設備識別語音喚醒詞所屬的第一方言,並向伺服器發送服務請求,以使伺服器從不同方言對應的ASR模型中選擇第一方言對應的ASR模型,便於基於第一方言對應的ASR模型對後續待識別語音信號進行語音識別,實現了多方言語音識別的自動化,並且基於語音喚醒詞自動選擇相應方言的ASR模型,無需使用者手動操作,實現起來更加方便、快捷,有利於提高多方言語音識別的效率。進一步地,基於語音喚醒詞比較簡短,識別語音喚醒詞所屬的方言的過程耗時較短,使得語音識別系統能夠快速識別語音喚醒詞所屬的第一方言,並選擇與第一方言對應的ASR模型,進一提高對待識別語音進行識別的效率。   在一些示例性實施例中,上述識別語音喚醒詞所屬的第一方言的一種方式包括:將語音喚醒詞分別與以不同方言錄製的基準喚醒詞進行聲學特徵的動態匹配,獲取與語音喚醒詞的匹配度符合第一設定要求的基準喚醒詞對應的方言作為第一方言。或者,上述識別語音喚醒詞所屬的第一方言的另一種方式包括:將語音喚醒詞的聲學特徵分別與不同方言的聲學特徵進行匹配,獲取與語音喚醒詞的聲學特徵的匹配度符合第二設定要求的方言作為第一方言。或者,上述識別語音喚醒詞所屬的第一方言的又一種方式包括:或者將語音喚醒詞轉換成文本喚醒詞,將文本喚醒詞分別與不同方言對應的基準文本喚醒詞進行匹配,獲取與文本喚醒詞的匹配度符合第三設定要求的基準文本喚醒詞對應的方言作為第一方言。   在一些示例性實施例中,上述接收語音喚醒詞的一種方式包括:回應於啟動或開啟終端設備的指令,向使用者展示語音輸入介面;基於語音輸入介面獲取使用者輸入的語音喚醒詞。   在一些示例性實施例中,在向伺服器發送待識別語音信號之前,該方法還包括:輸出語音輸入提示資訊,以提示使用者進行語音輸入;接收使用者輸入的待識別語音信號。   在一些示例性實施例中,在輸出語音輸入提示資訊之前,該方法還包括:接收伺服器返回的通知訊息,該通知訊息用於指示已選擇第一方言對應的ASR模型。   圖3為本申請案又一示例性實施例提供的另一種語音識別方法的流程示意圖。該實施例可基於圖1所示語音識別系統實現,主要是從伺服器的角度進行的描述。如圖3所示,該方法包括:   31、接收終端設備發送的服務請求,該服務請求指示選擇第一方言對應的ASR模型。   32、從不同方言對應的ASR模型中,選擇第一方言對應的ASR模型,第一方言是語音喚醒詞所屬的方言。   33、接收終端設備發送的待識別語音信號,並利用第一方言對應的ASR模型對待識別語音信號進行語音識別。   在本實施例中,終端設備在識別出語音喚醒詞所屬的第一方言後,向伺服器發送服務請求。伺服器根據服務請求,從預先儲存的不同方言對應的ASR模型中,選擇第一方言對應的ASR模型,進而可基於第一方言對應的ASR模型為後續語音信號進行語音識別,實現了多方言語音識別的自動化,並且基於語音喚醒詞自動選擇相應方言的ASR模型,無需使用者手動操作,實現起來更加方便、快捷,有利於提高多方言語音識別的效率。   進一步地,基於語音喚醒詞比較簡短,識別語音喚醒詞所屬的方言的過程耗時較短,使得語音識別系統能夠快速識別語音喚醒詞所屬的第一方言,並選擇與第一方言對應的ASR模型,進一步提高多方言語音識別的效率。   在一些示例性實施例中,伺服器在選擇第一方言對應的ASR模型之前,需要構建不同方言對應的ASR模型。其中,一種構建不同方言對應的ASR模型的過程主要包括:收集不同方言的語料;對不同方言的語料進行特徵提取,以得到不同方言的聲學特徵;根據不同方言的聲學特徵,構建不同方言對應的ASR模型。   在一些示例性實施例中,在基於第一方言對應的ASR模型對待識別語音信號進行語音識別之後,可以將語音識別結果或語音識別結果的關聯資訊發送給終端設備,以供終端設備基於語音識別結果或語音識別結果的關聯資訊執行後續處理。   圖4為本申請案又一示例性實施例提供的另一種語音識別系統的結構示意圖。如圖4示,該語音識別系統400包括:伺服器401和終端設備402。伺服器401與終端設備402之間通信連接。   本實施例提供的語音識別系統400的架構與圖1示出的語音識別系統100的架構相同,區別在於伺服器401和終端設備402在語音識別過程中的功能有所不同。關於圖4中終端設備402和伺服器401的實現形式以及通信連接方式可參見圖1所示實施例的描述,在此不再贅述。   與圖1所示語音識別系統100類似,在圖4所示語音識別系統400中,終端設備402與伺服器401相互配合,也可以向使用者提供語音識別功能。而且,考慮到在一些情況下,終端設備402可能會被多個使用者使用,多個使用者可能持不同方言,於是,在語音識別系統400中,也針對不同方言分別構建ASR模型,進而,基於終端設備402與伺服器401之間的相互配合,可以向持不同方言的使用者提供語音識別功能,即可以對持不同方言的使用者的語音信號進行語音識別。   在圖4所示語音識別系統400中,終端設備402也支援語音喚醒詞功能,但終端設備402主要用於接收使用者輸入的語音喚醒詞並上報給伺服器401以供伺服器401識別語音喚醒詞所屬的方言,這點不同於圖1所示實施例中的終端設備102。相應地,在圖4所示語音識別系統400中,伺服器401除了面向不同方言提供ASR模型並選擇相應ASR模型對相應方言下的語音信號進行語音識別之外,還具有識別語音喚醒詞所屬方言的功能。   基於圖4所示語音識別系統400,當使用者想要進行語音識別時,可以向終端設備402輸入語音喚醒詞,該語音喚醒詞是指定文本內容的語音信號,例如“開啟”、“天貓精靈”、“hello”等。終端設備402接收使用者輸入的語音喚醒詞,並將該語音喚醒詞發送至伺服器401。伺服器401接收到終端設備402發送的語音喚醒詞後,識別該語音喚醒詞所屬的方言。為便於描述和區分,將語音喚醒詞所屬的方言記為第一方言。其中,第一方言指語音喚醒詞所屬的方言,例如可以是官話方言、晉語或湘語等。然後,伺服器401從不同方言對應的ASR模型中,選擇第一方言對應的ASR模型,以便於後續基於第一方言對應的ASR模型對第一方言下的語音信號進行語音識別。在本實施例中,伺服器401預先儲存有不同方言對應的ASR模型。可選地,一種方言對應的一個ASR模型,或者幾種類似的方言也可以對應同一ASR模型,對此不做限定。其中,第一方言對應的ASR模型用於將第一方言的語音信號轉換為文本內容。   終端設備402在向伺服器401發送語音喚醒詞後,繼續向伺服器401發送待識別語音信號。伺服器401接收終端設備402發送的待識別語音信號,並利用第一方言對應的ASR模型對待識別語音信號進行語音識別。可選地,待識別語音信號可以是使用者在輸入語音喚醒詞後,繼續向終端設備402輸入的語音信號,基於此,終端設備402在向伺服器401發送待識別語音信號之前,還可以接收使用者輸入的待識別語音信號。或者,待識別語音信號也可以是預先錄製並儲存在終端設備402本地的語音信號。   在本實施例中,針對不同方言構建ASR模型,在語音識別過程中,預先識別語音喚醒詞所屬的方言,進而從不同方言對應的ASR模型中選擇與語音喚醒詞所屬的方言對應的ASR模型,利用所選擇的ASR模型對後續待識別語音信號進行語音識別,實現多方言語音識別的自動化,並且基於語音喚醒詞自動選擇相應方言的ASR模型,無需使用者手動操作,實現起來更加方便、快捷,有利於提高多方言語音識別的效率。   進一步地,基於語音喚醒詞比較簡短,識別語音喚醒詞所屬的方言的過程耗時較短,使得語音識別系統能夠快速識別語音喚醒詞所屬的第一方言,並選擇與第一方言對應的ASR模型,進一步提高多方言語音識別的效率。   在一些示例性實施例中,伺服器401識別語音喚醒詞所屬的第一方言的一種方式包括:將語音喚醒詞分別與以不同方言錄製的基準喚醒詞進行聲學特徵的動態匹配,獲取與語音喚醒詞的匹配度符合第一設定要求的基準喚醒詞對應的方言作為第一方言。   在另一些示例性實施例中,伺服器401識別語音喚醒詞所屬的第一方言的另一種方式包括:將語音喚醒詞的聲學特徵分別與不同方言的聲學特徵進行匹配,獲取與語音喚醒詞的聲學特徵的匹配度符合第二設定要求的方言作為第一方言。   在又一些示例性實施例中,伺服器401識別語音喚醒詞所屬的第一方言的又一種方式包括:將語音喚醒詞轉換成文本喚醒詞,將文本喚醒詞分別與不同方言對應的基準文本喚醒詞進行匹配,獲取與文本喚醒詞的匹配度符合第三設定要求的基準文本喚醒詞對應的方言作為第一方言。   其中,伺服器401識別語音喚醒詞所屬的第一方言的方式與終端設備102識別語音喚醒詞所屬的第一方言的方式類似,詳細描述可參見前述實施例,在此不再贅述。   在一些示例性實施例中,終端設備402接收語音喚醒詞的方式包括:回應於啟動或開啟終端設備的指令,向使用者展示語音輸入介面;基於語音輸入介面獲取使用者輸入的語音喚醒詞。   在一些示例性實施例中,終端設備402在向伺服器401發送待識別語音信號之前,可以輸出語音輸入提示資訊,以提示使用者進行語音輸入;之後,接收使用者輸入的待識別語音信號。   在一些示例性實施例中,終端設備402在輸出語音輸入提示資訊之前,可以接收伺服器401返回的通知訊息,該通知訊息用於指示已選擇第一方言對應的ASR模型。基於此,終端設備402可以在確定伺服器401已選擇第一方言對應的ASR模型之後,向使用者輸出語音輸入提示資訊,以提示使用者進行語音輸入,這樣可以在將使用者輸入的待識別語音信號發送至伺服器401後伺服器401可以直接根據已選擇的ASR模型對待識別語音信號進行識別。   在一些示例性實施例中,伺服器401在從不同方言對應的ASR模型中,選擇第一方言對應的ASR模型之前,可以收集不同方言的語料;對不同方言的語料進行特徵提取,以得到不同方言的聲學特徵;根據不同方言的聲學特徵,構建不同方言對應的ASR模型。關於構建每種方言對應的ASR模型的詳細過程可參見現有技術,在此不再贅述。   在一些示例性實施例中,伺服器401可以向終端設備402返回語音識別結果或語音識別結果的關聯資訊。例如,伺服器401可以將語音識別出的文本內容返回給終端設備402;或者,伺服器401也可以將與語音識別結果相匹配的歌曲、視頻等資訊返回給終端設備402。終端設備402接收伺服器401返回的語音識別結果或語音識別結果的關聯資訊,並根據語音識別結果或語音識別結果的關聯資訊執行後續處理。   圖5為本申請案又一示例性實施例提供的又一種語音識別方法的流程示意圖。該實施例可基於圖4所示語音識別系統實現,主要是從終端設備的角度進行的描述。如圖5所示,該方法包括:   51、接收語音喚醒詞。   52、向伺服器發送語音喚醒詞,以供伺服器基於語音喚醒詞從不同方言對應的ASR模型中選擇語音喚醒詞所屬第一方言對應的ASR模型。   53、向伺服器發送待識別語音信號,以供伺服器利用第一方言對應的ASR模型對待識別語音信號進行語音識別。   當使用者想要進行語音識別時,可以向終端設備輸入語音喚醒詞,該語音喚醒詞是指定文本內容的語音信號,例如“開啟”、“天貓精靈”、“hello”等。終端設備接收使用者發送的語音喚醒詞,並向伺服器發送語音喚醒詞,以供伺服器識別該語音喚醒詞所屬的方言,進而可確定後續待識別語音信號所屬的方言(即該語音喚醒詞所屬的方言),為採用相應方言對應的ASR模型進行語音識別提供基礎。為便於描述和區分,將語音喚醒詞所屬的方言記為第一方言。   然後,伺服器根據語音喚醒詞所屬的第一方言,從不同方言對應的ASR模型中選擇語音喚醒詞所屬第一方言對應的ASR模型。接著,終端設備,繼續向伺服器發送待識別語音信號,以供伺服器利用第一方言對應的ASR模型對待識別語音信號進行語音識別。   在本實施例中,針對不同方言構建ASR模型,在語音識別過程中,預先識別語音喚醒詞所屬的方言,進而從不同方言對應的ASR模型中選擇與語音喚醒詞所屬的方言對應的ASR模型,利用所選擇的ASR模型對後續待識別語音信號進行語音識別,實現多方言語音識別的自動化,並且基於語音喚醒詞自動選擇相應方言的ASR模型,無需使用者手動操作,實現起來更加方便、快捷,有利於提高多方言語音識別的效率。   在一些示例性實施例中,上述接收語音喚醒詞包括:回應於啟動或開啟終端設備的指令,向使用者展示語音輸入介面;基於語音輸入介面獲取使用者輸入的語音喚醒詞。   在一些示例性實施例中,在向伺服器發送待識別語音信號之前,該方法還包括:輸出語音輸入提示資訊,以提示使用者進行語音輸入;接收使用者輸入的待識別語音信號。   在一些示例性實施例中,在輸出語音輸入提示資訊之前,該方法還包括:接收伺服器返回的通知訊息,通知訊息用於指示已選擇第一方言對應的ASR模型。   圖6為本申請案又一示例性實施例提供的又一種語音識別方法的流程示意圖。該實施例可基於圖4所示語音識別系統實現,主要是從伺服器的角度進行的描述。如圖6所示,該方法包括:   61、接收終端設備發送的語音喚醒詞。   62、識別語音喚醒詞所屬的第一方言。   63、從不同方言對應的ASR模型中,選擇第一方言對應的ASR模型。   64、接收終端設備發送的待識別語音信號,並利用第一方言對應的ASR模型對待識別語音信號進行語音識別。   伺服器接收終端設備發送的語音喚醒詞,識別該語音喚醒詞所屬的方言,進而可確定後續待識別語音信號所屬的方言(即該語音喚醒詞所屬的方言),為採用相應方言對應的ASR模型進行語音識別提供基礎。為便於描述和區分,將語音喚醒詞所屬的方言記為第一方言。   然後,伺服器從預先儲存的不同方言對應的ASR模型中,選擇第一方言對應的ASR模型,進而可基於第一方言對應的ASR模型為後續語音信號進行語音識別,實現了多方言語音識別的自動化,並且基於語音喚醒詞自動選擇相應方言的ASR模型,無需使用者手動操作,實現起來更加方便、快捷,有利於提高多方言語音識別的效率。   進一步地,基於語音喚醒詞比較簡短,識別語音喚醒詞所屬的方言的過程耗時較短,使得語音識別系統能夠快速識別語音喚醒詞所屬的第一方言,並選擇與第一方言對應的ASR模型,進一步提高多方言語音識別的效率。   在一些示例性實施例中,上述識別語音喚醒詞所屬的第一方言的一種方式包括:將語音喚醒詞分別與以不同方言錄製的基準喚醒詞進行聲學特徵的動態匹配,獲取與語音喚醒詞的匹配度符合第一設定要求的基準喚醒詞對應的方言作為第一方言。   在另一些示例性實施例中,上述識別語音喚醒詞所屬的第一方言的另一種方式包括:將語音喚醒詞的聲學特徵分別與不同方言的聲學特徵進行匹配,獲取與語音喚醒詞的聲學特徵的匹配度符合第二設定要求的方言作為第一方言。   在又一些示例性實施例中,上述識別語音喚醒詞所屬的第一方言的又一種方式包括:將語音喚醒詞轉換成文本喚醒詞,將文本喚醒詞分別與不同方言對應的基準文本喚醒詞進行匹配,獲取與文本喚醒詞的匹配度符合第三設定要求的基準文本喚醒詞對應的方言作為第一方言。   在一些示例性實施例中,在從不同方言對應的ASR模型中,選擇第一方言對應的ASR模型之前,該方法還包括:收集不同方言的語料;對不同方言的語料進行特徵提取,以得到不同方言的聲學特徵;根據不同方言的聲學特徵,構建不同方言對應的ASR模型。   在一些示例性實施例中,伺服器可以向終端設備返回語音識別結果或語音識別結果的關聯資訊。例如,伺服器可以將語音識別出的文本內容返回給終端設備;或者,也可以將與語音識別結果相匹配的歌曲、視頻等資訊返回給終端設備。   在上述各實施例中,由終端設備和伺服器配合執行多方言的語音識別,但並不限於此。例如,若終端設備或者伺服器的處理功能與儲存功能足夠強大,則可將多方言語音識別功能單獨集成於終端設備或者伺服器上實現。基於此,本申請案又一示例性實施例提供一種由伺服器或終端設備獨立實施的語音識別方法。為了描述簡便,在下述實施例中,將伺服器和終端設備統一稱為電子設備。如圖7所示,由伺服器或終端設備獨立實施的語音識別方法包括以下步驟:   71、接收語音喚醒詞。   72、識別語音喚醒詞所屬的第一方言。   73、從不同方言對應的ASR模型中選擇第一方言對應的ASR模型。   74、利用第一方言對應的ASR模型對待識別語音信號進行語音識別。   當使用者想要進行語音識別時,可以向電子設備輸入語音喚醒詞,該語音喚醒詞是指定文本內容的語音信號,例如“開啟”、“天貓精靈”、“hello”等。電子設備接收使用者發送的語音喚醒詞,並識別語音喚醒詞所屬的第一方言。其中,第一方言指語音喚醒詞所屬的方言,例如官話方言、晉語、湘語等。   接著,電子設備從不同方言對應的ASR模型中,選擇第一方言對應的ASR模型,以便基於第一方言對應的ASR模型對後續待識別語音信號進行語音識別。在本實施例中,電子設備預先儲存有不同方言對應的ASR模型。可選地,一種方言對應的一個ASR模型,或者幾種類似的方言也可以對應同一ASR模型,對此不做限定。其中,第一方言對應的ASR模型用於將第一方言的語音信號轉換為文本內容。   電子設備在選擇第一方言對應的ASR模型後,會利用第一方言對應的ASR模型對待識別語音信號進行語音識別。可選地,待識別語音信號可以是使用者在輸入語音喚醒詞後,繼續向電子設備輸入的語音信號,基於此,電子設備在利用第一方言對應的ASR模型對待識別語音信號進行語音識別之前,還可以接收使用者輸入的待識別語音信號。或者,待識別語音信號也可以是預先錄製並儲存在電子設備本地的語音信號,基於此,電子設備可以直接從本地獲取待識別語音信號。   在本實施例中,針對不同方言構建ASR模型,在語音識別過程中,預先識別語音喚醒詞所屬的方言,進而從不同方言對應的ASR模型中選擇與語音喚醒詞所屬的方言對應的ASR模型,利用所選擇的ASR模型對後續待識別語音信號進行語音識別,實現多方言語音識別的自動化,並且基於語音喚醒詞自動選擇相應方言的ASR模型,無需使用者手動操作,實現起來更加方便、快捷,有利於提高多方言語音識別的效率。   進一步地,基於語音喚醒詞比較簡短,識別語音喚醒詞所屬的方言的過程耗時較短,使得語音識別系統能夠快速識別語音喚醒詞所屬的第一方言,並選擇與第一方言對應的ASR模型,進一步提高多方言語音識別的效率。   在一些示例性實施例中,上述識別語音喚醒詞所屬的第一方言的一種方式包括:將語音喚醒詞分別與以不同方言錄製的基準喚醒詞進行聲學特徵的動態匹配,獲取與語音喚醒詞的匹配度符合第一設定要求的基準喚醒詞對應的方言作為第一方言。   在另一些示例性實施例中,上述識別語音喚醒詞所屬的第一方言的另一種方式包括:將語音喚醒詞的聲學特徵分別與不同方言的聲學特徵進行匹配,獲取與語音喚醒詞的聲學特徵的匹配度符合第二設定要求的方言作為第一方言。   在又一些示例性實施例中,上述識別語音喚醒詞所屬的第一方言的又一種方式包括:將語音喚醒詞轉換成文本喚醒詞,將文本喚醒詞分別與不同方言對應的基準文本喚醒詞進行匹配,獲取與文本喚醒詞的匹配度符合第三設定要求的基準文本喚醒詞對應的方言作為第一方言。   在一些示例性實施例中,上述接收語音喚醒詞,包括:回應於啟動或開啟終端設備的指令,向使用者展示語音輸入介面;基於語音輸入介面獲取使用者輸入的語音喚醒詞。   在一些示例性實施例中,在利用第一方言對應的ASR模型對待識別語音信號進行語音識別之前,該方法還包括:輸出語音輸入提示資訊,以提示使用者進行語音輸入;接收使用者輸入的待識別語音信號。   在一些示例性實施例中,在從不同方言對應的ASR模型中選擇第一方言對應的ASR模型之前,該方法還包括:收集不同方言的語料;對不同方言的語料進行特徵提取,以得到不同方言的聲學特徵;根據不同方言的聲學特徵,構建不同方言對應的ASR模型。   在一些示例性實施例中,在基於第一方言對應的ASR模型對待識別語音信號進行語音識別之後,電子設備可以基於語音識別結果或語音識別結果的關聯資訊執行後續處理。   值得說明的是,在本申請案上述實施例或下述實施例中,語音喚醒詞可以是預置的;或者,也可以允許使用者自訂喚醒詞。這裡自訂喚醒詞或預置喚醒詞主要是指喚醒詞的內容和/或聲調等。其中,自訂語音喚醒詞的功能可由終端設備來實現,也可以由伺服器來實現。可選地,可由識別語音喚醒詞所屬方言的設備提供自訂語音喚醒詞的功能。   以終端設備提供自訂喚醒詞的功能為例,終端設備可以向使用者提供一種自訂喚醒詞的入口。該入口可以實現為一物理按鈕,基於此,使用者可以點擊該物理按鈕觸發喚醒詞自訂操作。或者,該入口可以是終端設備的設置選項中的喚醒詞自訂子項,基於此,使用者可以進入終端設備的設置選項,然後針對該喚醒詞自訂子項進行點擊、懸停或長按等操作,從而觸發喚醒詞自訂操作。無論使用者通過何種方式觸發喚醒詞自訂操作,對終端設備來說,可回應於喚醒詞自訂操作,接收使用者輸入的自訂語音信號,並將接收到的自訂語音信號保存為語音喚醒詞。可選地,終端設備可以向使用者展示一音頻錄入頁面,以錄製使用者發出的自訂語音信號。例如,使用者在觸發喚醒詞自訂操作後,終端設備向使用者展示音頻錄入頁面,此時,使用者可以輸入語音信號“你好”,則終端設備接收到語音信號“你好”後會將語音信號“你好”設置為語音喚醒詞。可選地,終端設備可以維護一喚醒詞庫,將使用者自訂的語音喚醒詞保存至喚醒詞庫中。   可選地,語音喚醒詞不宜過長,以降低識別所屬方言時的難度,但也不宜過短。語音喚醒詞過短,辨識度不高,容易造成誤喚醒。例如,語音喚醒詞可以在3至5個字元之間,但不限於此。這裡的1個字元是指1個漢字、也可以是1個英文字母。   可選地,在自訂喚醒詞時,可以選擇易於區分的詞,而不宜選用較為常用的詞,以降低應用被誤喚醒的幾率。   在本申請案另一些實施例中,語音喚醒詞主要用於喚醒或啟動應用的語音識別功能,可以不限定語音喚醒詞所屬的方言,即使用者可以採用任意方言或普通話來發出語音喚醒詞。使用者在發出語音喚醒詞之後,可以再發出一具有方言指示意義的語音信號,例如該語音信號可以是內容為“天津話”、“河南話”、“啟用閩南方言”等的語音信號。然後,可從使用者發出的具有方言指示意義的語音信號中解析出需要進行語音識別的方言,進而從不同方言對應的ASR模型中選擇與所解析出的方言對應的ASR模型,並基於所選擇的ASR模型進行對後續待識別語音信號進行語音識別。為便於區分和描述,將這裡具有方言指示意義的語音信號稱為第一語音信號,將從所述第一語音信號中解析出的方言稱為第一方言。   其中,凡是具有方言指導意義的語音信號均可以作為本申請案實施例中的第一語音信號。例如,第一語音信號可以是使用者以第一方言發出的語音信號,從而可基於第一語音信號的聲學特徵識別第一方言。或者,第一語音信號可以是包含第一方言的名稱的語音信號,例如在語音信號“請啟用閩南話模型”中,“閩南話”記即為第一方言的名稱。基於此,可以從第一語音信號中提取第一方言的名稱對應的音素片段,進而識別出第一方言。   上述結合語音喚醒詞和第一語音信號的語音識別方法可由終端設備和伺服器相互配合實施,也可以由終端設備或伺服器獨立實施。下面將針對不同實施方式分別進行說明:方式 A 上述結合語音喚醒詞和第一語音信號的語音識別方法由終端設備和伺服器相互配合實施。在方式A中,終端設備支援語音喚醒功能,當使用者想要進行語音識別時,可以向終端設備輸入語音喚醒詞,以喚醒語音識別功能。終端設備接收語音喚醒詞,以喚醒語音識別功能。然後,使用者向終端設備輸入具有方言指導意義的第一語音信號;終端設備接收使用者輸入的第一語音信號後,從第一語音信號中解析出需要進行語音識別的第一方言,即後續待識別語音信號所屬的方言,從而為採用相應方言對應的ASR模型進行語音識別提供基礎。   終端設備在從第一語音信號中解析出第一方言後,向伺服器發送服務請求,該服務請求指示伺服器從不同方言對應的ASR模型中選擇第一方言對應的ASR模型。伺服器接收終端設備發送的服務請求之後,根據該服務請求的指示從不同方言對應的ASR模型中,選擇第一方言對應的ASR模型,以便基於第一方言對應的ASR模型對後續待識別語音信號進行語音識別。   終端設備在向伺服器發送服務請求後,繼續向伺服器發送待識別語音信號,該待識別語音信號屬於第一方言。伺服器接收終端設備發送的待識別語音信號,並根據選擇的第一方言對應的ASR模型對待識別語音信號進行語音識別。對待識別語音信號而言,採用與之匹配的ASR模型進行語音識別,有利於提高語音識別的準確性。   可選地,待識別語音信號可以是使用者在輸入第一語音信號後,繼續向終端設備輸入的語音信號,基於此,終端設備在向伺服器發送待識別語音信號之前,還可以接收使用者輸入的待識別語音信號。或者,待識別語音信號也可以是預先錄製並儲存在終端設備本地的語音信號。   在一些示例性實施例中,語音喚醒詞主要用於喚醒終端設備的語音識別功能;而後續需要進行語音識別的第一方言可由第一語音信號提供。基於此,可以不用限定使用者發出語音喚醒詞所使用的語言方式。例如,使用者可以使用普通話發出語音喚醒詞,或者也可以使用第一方言發出語音喚醒詞,或者還可以使用不同於第一方言的其它方言發出語音喚醒詞。   但是,對同一使用者來說,在使用終端設備過程中可以並且有可能使用同一語言方式向終端設備發出語音信號。也就是說,使用者可能使用相同的方言向終端設備輸入語音喚醒詞和第一語音信號。針對這些應用場景,終端設備在接收到使用者輸入的第一語音信號之後,可優先從第一語音信號中解析第一方言;未能從第一語音信號中解析出第一方言,則可以識別語音喚醒詞所屬的方言作為第一方言。其中,具體識別語音喚醒詞所屬方言的實施方式與上述實施例中識別語音喚醒詞所屬方言的實施方式相同,在此不再贅述。方式 B 上述結合語音喚醒詞和第一語音信號的語音識別方法由終端設備和伺服器相互配合實施。在方式B中,終端設備主要用於接收使用者輸入的語音喚醒詞和第一語音信號並上報給伺服器,以供伺服器從第一語音信號中解析出第一方言,這點不同與方式A中的終端設備。相應地,伺服器除了面向不同方言提供ASR模型並選擇相應ASR模型對相應方言下的語音信號進行語音識別之外,還具有從第一語音信號中解析出第一方言的功能。   在方式B中,當使用者想要進行語音識別時,可以向終端設備輸入語音喚醒詞。終端設備接收使用者輸入的語音喚醒詞,並將該語音喚醒詞發送至伺服器。伺服器基於語音喚醒詞,喚醒自身的語音識別功能。使用者在輸入語音喚醒詞後,可繼續向終端設備發送第一語音信號。終端設備將接收到的第一語音信號發送至伺服器。伺服器從第一語音信號中解析出第一方言,並從不同方言對應的ASR模型中,選擇第一方言對應的ASR模型,以便於後續基於第一方言對應的ASR模型對第一方言下的語音信號進行語音識別。   終端設備在向伺服器發送第一語音信號後,繼續向伺服器發送待識別語音信號。伺服器在選擇第一方言對應的ASR模型後,會利用第一方言對應的ASR模型對待識別語音進行語音識別。可選地,待識別語音可以是使用者在輸入第一語音信號後,繼續向終端設備輸入的語音信號,基於此,終端設備在向伺服器發送待識別語音信號之前,還可以接收使用者輸入的待識別語音信號。或者,待識別語音信號也可以是預先錄製並儲存在終端設備本地的語音信號。   在一些示例性實施例中,伺服器在從不同方言對應的ASR模型中選擇第一方言對應的ASR模型之前,還包括:若未能從第一語音信號中解析出第一方言,識別語音喚醒詞所屬的方言作為第一方言。   在一些示例性實施例中,伺服器在從第一語音信號中解析出需要進行語音識別的第一方言時,包括:基於聲學模型將第一語音信號轉換為第一音素序列;將記憶體中儲存的不同方言名稱對應的音素片段分別在第一音素序列中進行匹配;當在第一音素序列中匹配中音素片段時,將匹配中的音素片段對應的方言作為第一方言。方式 C 上述結合語音喚醒詞和第一語音信號的語音識別方法由終端設備或伺服器單獨實施。在方式C中,當使用者想要進行語音識別時,可以向終端設備或伺服器輸入語音喚醒詞。終端設備或伺服器根據使用者輸入的語音喚醒詞,喚醒語音識別功能。使用者在輸入語音喚醒詞後,可繼續向終端設備或者伺服器輸入具有方言指導意義的第一語音信號。終端設備或伺服器從第一語音信號中解析出第一方言,並從不同方言對應的ASR模型中,選擇第一方言對應的ASR模型。   終端設備或伺服器在選擇第一方言對應的ASR模型後,會利用第一方言對應的ASR模型對待識別語音進行語音識別。可選地,待識別語音可以是使用者在輸入第一語音信號後,繼續向終端設備或伺服器輸入的語音信號,基於此,終端設備或伺服器在利用第一方言對應的ASR模型對待識別語音信號進行語音識別之前,還可以接收使用者輸入的待識別語音信號。或者,待識別語音信號也可以是預先錄製並儲存在終端設備或伺服器本地的語音信號,基於此,終端設備或伺服器可以直接從本地獲取待識別語音信號。   在一些示例性實施例中,終端設備或伺服器在從不同方言對應的ASR模型中選擇第一方言對應的ASR模型之前,還包括:若未能從第一語音信號中解析出第一方言,識別語音喚醒詞所屬的方言作為第一方言。   在一些示例性實施例中,終端設備或伺服器在從第一語音信號中解析出需要進行語音識別的第一方言時,包括:基於聲學模型將第一語音信號轉換為第一音素序列;將記憶體中儲存的不同方言名稱對應的音素片段分別在第一音素序列中進行匹配;當在第一音素序列中匹配中音素片段時,將匹配中的音素片段對應的方言作為第一方言。   可選地,在上述方式A、方式B以及方式C中,從第一語音信號中解析出需要進行語音識別的第一方言,包括:基於聲學模型將第一語音信號轉換為第一音素序列;將不同方言名稱對應的音素片段分別在第一音素序列中進行匹配;當在第一音素序列中匹配中音素片段時,將匹配中的音素片段對應的方言作為第一方言。   其中,在基於聲學模型將第一語音信號轉換為第一音素序列之前,需要對第一語音信號進行預處理和特徵提取。其中預處理過程包括預加重、加窗分幀和端點檢測。特徵提取即對預處理後的第一語音信號進行時域特徵或者頻域特徵等聲學特徵的提取。   聲學模型可將第一語音信號的聲學特徵轉換為音素序列。音素是構成單詞發音或者漢字發音的基本要素。其中,構成單詞發音的音素可以是卡內基梅隆大學發明的39個音素;構成漢字發音的音素可以是全部聲母和韻母。聲學模型包括但不限於基於神經網路的深度學習模型、隱瑪律可夫模型等。其中,將聲學特徵轉換為音素序列的方式屬於現有技術,此處不再贅述。   終端設備或伺服器在將第一語音信號轉換為第一音素序列後,將不同方言名稱對應的音素片段分別在第一音素序列中進行匹配。其中,可以預先儲存不同方言名稱的音素片段,例如方言名稱“河南話”的音素片段、方言名稱“閩南語”的音素片段、方言名稱“British English”等。如果方言名稱是單詞,則音素片段是從卡內基梅隆大學發明的39個音素中獲取的若干音素構成的片段。如果方言名稱是漢字,則音素片段是方言名稱的聲母和韻母構成的片段。比較第一音素序列與預先儲存的不同方言名稱對應的音素片段,以判斷第一音素序列中是否包含與某個方言名稱的音素片段相同或相似的音素片段。可選地,可以計算第一音素序列中各音素片段分別與不同方言名稱的音素片段的相似度;從不同方言名稱的音素片段中,選擇與第一音素序列中某個音素片段的相似度滿足預設相似度要求的音素片段作為匹配中的音頻片段。然後,將匹配中的音素片段對應的方言作為第一方言。   值得說明的是,上述方式A、方式B以及方式C中有一些步驟或內容與圖1-圖7所示實施例中的一些步驟或內容相同或相似,這些相同或相似的內容可參見圖1-圖7所示實施例中的描述,在此不再贅述。   另外,在上述實施例及附圖中的描述的一些流程中,包含了按照特定順序出現的多個操作,但是應該清楚瞭解,這些操作可以不按照其在本文中出現的順序來執行或並存執行,操作的序號如201、202等,僅僅是用於區分開各個不同的操作,序號本身不代表任何的執行順序。另外,這些流程可以包括更多或更少的操作,並且這些操作可以按循序執行或並存執行。需要說明的是,本文中的“第一”、“第二”等描述,是用於區分不同的訊息、設備、模組等,不代表先後順序,也不限定“第一”和“第二”是不同的類型。   圖8為本申請案又一示例性實施例提供的一種語音識別裝置的模組結構示意圖。如圖8所示,語音識別裝置800包括接收模組801、識別模組802、第一發送模組803和第二發送模組804。   接收模組801,用於接收語音喚醒詞。   識別模組802,用於識別接收模組801接收的語音喚醒詞所屬的第一方言。   第一發送模組803,用於向伺服器發送服務請求,以請求伺服器從不同方言對應的ASR模型中選擇第一方言對應的ASR模型。   第二發送模組804,用於向伺服器發送待識別語音信號,以供伺服器利用第一方言對應的ASR模型對待識別語音信號進行語音識別。   在一可選實施方式中,識別模組802在識別語音喚醒詞所屬的第一方言時,具體用於:將語音喚醒詞分別與以不同方言錄製的基準喚醒詞進行聲學特徵的動態匹配,獲取與語音喚醒詞的匹配度符合第一設定要求的基準喚醒詞對應的方言作為第一方言;或者將語音喚醒詞的聲學特徵分別與不同方言的聲學特徵進行匹配,獲取與語音喚醒詞的聲學特徵的匹配度符合第二設定要求的方言作為第一方言;或者將語音喚醒詞轉換成文本喚醒詞,將文本喚醒詞分別與不同方言對應的基準文本喚醒詞進行匹配,獲取與文本喚醒詞的匹配度符合第三設定要求的基準文本喚醒詞對應的方言作為第一方言。   在一可選實施方式中,接收模組801在接收語音喚醒詞時,具體用於:回應於啟動或開啟終端設備的指令,向使用者展示語音輸入介面;基於語音輸入介面獲取使用者輸入的語音喚醒詞。   在一可選實施方式中,第二發送模組804在向伺服器發送待識別語音信號之前,還用於:輸出語音輸入提示資訊,以提示使用者進行語音輸入;接收使用者輸入的待識別語音信號。   在一可選實施方式中,第二發送模組804在輸出語音輸入提示資訊之前,還用於:接收伺服器返回的通知訊息,通知訊息用於指示已選擇第一方言對應的ASR模型。   在一可選實施方式中,接收模組801在接收語音喚醒詞之前,還用於:回應於喚醒詞自訂操作,接收使用者輸入的自訂語音信號;將自訂語音信號保存為語音喚醒詞。以上描述了語音識別裝置800的內部功能和結構,如圖9所示,實際中,該語音識別裝置800可實現為一種終端設備,包括:記憶體901、處理器902以及通信組件903。   記憶體901,用於儲存電腦程式,並可被儲存為儲存其它各種資料以支援在終端設備上的操作。這些資料的示例包括用於在終端設備上操作的任何應用程式或方法的指令,連絡人資料,電話簿資料,訊息,圖片,視頻等。   記憶體901可以由任何類型的易失性或非易失性存放裝置或者它們的組合實現,如靜態隨機存取記憶體(SRAM),電可擦除可程式設計唯讀記憶體(EEPROM),可擦除可程式設計唯讀記憶體(EPROM),可程式設計唯讀記憶體(PROM),唯讀記憶體(ROM),磁記憶體,快閃記憶體,磁片或光碟。   處理器902,與記憶體901耦合,用於執行記憶體901中的電腦程式,以用於:通過通信組件903接收語音喚醒詞;識別語音喚醒詞所屬的第一方言;通過通信組件903向伺服器發送服務請求,以請求伺服器從不同方言對應的ASR模型中選擇第一方言對應的ASR模型;通過通信組件903向伺服器發送待識別語音信號,以供伺服器利用第一方言對應的ASR模型對待識別語音信號進行語音識別。   通信組件903用於接收所述語音喚醒詞,向所述伺服器發送所述服務請求以及所述待識別語音信號。   在一可選實施方式中,處理器902在識別語音喚醒詞所屬的第一方言時,具體用於:   將語音喚醒詞分別與以不同方言錄製的基準喚醒詞進行聲學特徵的動態匹配,獲取與語音喚醒詞的匹配度符合第一設定要求的基準喚醒詞對應的方言作為第一方言;或者將語音喚醒詞的聲學特徵分別與不同方言的聲學特徵進行匹配,獲取與語音喚醒詞的聲學特徵的匹配度符合第二設定要求的方言作為第一方言;或者將語音喚醒詞轉換成文本喚醒詞,將文本喚醒詞分別與不同方言對應的基準文本喚醒詞進行匹配,獲取與文本喚醒詞的匹配度符合第三設定要求的基準文本喚醒詞對應的方言作為第一方言。   在一可選實施方式中,如圖9所示,該終端設備還包括:顯示幕904。基於此,處理器902在接收語音喚醒詞時,具體用於:回應於啟動或開啟終端設備的指令,通過顯示幕904向使用者展示語音輸入介面;並基於語音輸入介面獲取使用者輸入的語音喚醒詞。   在一可選實施方式中,該終端設備還包括:音頻組件906。基於此,處理器902在向伺服器發送待識別語音信號之前,還用於:通過音頻組件906輸出語音輸入提示資訊,以提示使用者進行語音輸入;通過音頻組件906接收使用者輸入的待識別語音信號。相應地,音頻組件906還用於輸出語音輸入提示資訊,並接收使用者輸入的待識別語音信號。   在一可選實施方式中,處理器902在輸出語音輸入提示資訊之前,還用於:通過通信組件903接收伺服器返回的通知訊息,通知訊息用於指示已選擇第一方言對應的ASR模型。   在一可選實施方式中,處理器902在接收語音喚醒詞之前,還用於:回應於喚醒詞自訂操作,通過通信組件903接收使用者輸入的自訂語音信號;將自訂語音信號保存為語音喚醒詞。   進一步,如圖9所示,該終端設備還包括:電源組件905等其它組件。   相應地,本申請案實施例還提供一種儲存有電腦程式的電腦可讀儲存媒體,電腦程式被執行時能夠實現上述方法實施例中可由終端設備執行的各步驟。   圖10為本申請案又一示例性實施例提供的另一種語音識別裝置的模組結構示意圖。如圖10所示,語音識別裝置1000包括第一接收模組1001、選擇模組1002、第二接收模組1003和識別模組1004。   第一接收模組1001,用於接收終端設備發送的服務請求,服務請求指示選擇第一方言對應的ASR模型。   選擇模組1002,用於從不同方言對應的ASR模型中,選擇第一方言對應的ASR模型,第一方言是語音喚醒詞所屬的方言。   第二接收模組1003,用於接收終端設備發送的待識別語音信號。   識別模組1004,用於利用第一方言對應的ASR模型對第二接收模組1003接收的待識別語音信號進行語音識別。   在一可選實施方式中,語音識別裝置1000還包括構建模組,用於在從不同方言對應的ASR模型中,選擇第一方言對應的ASR模型之前,收集不同方言的語料;對不同方言的語料進行特徵提取,以得到不同方言的聲學特徵;根據不同方言的聲學特徵,構建不同方言對應的ASR模型。   以上描述了語音識別裝置1000的內部功能和結構,如圖11所示,實際中,該語音識別裝置1000可實現一種伺服器,包括:記憶體1101、處理器1102以及通信組件1103。   記憶體1101,用於儲存電腦程式,並可被儲存為儲存其它各種資料以支援在伺服器上的操作。這些資料的示例包括用於在伺服器上操作的任何應用程式或方法的指令,連絡人資料,電話簿資料,訊息,圖片,視頻等。   記憶體1101可以由任何類型的易失性或非易失性存放裝置或者它們的組合實現,如靜態隨機存取記憶體(SRAM),電可擦除可程式設計唯讀記憶體(EEPROM),可擦除可程式設計唯讀記憶體(EPROM),可程式設計唯讀記憶體(PROM),唯讀記憶體(ROM),磁記憶體,快閃記憶體,磁片或光碟。   處理器1102,與記憶體1101耦合,用於執行記憶體1101中的電腦程式,以用於:通過通信組件1103接收終端設備發送的服務請求,服務請求指示選擇第一方言對應的ASR模型;從不同方言對應的ASR模型中,選擇第一方言對應的ASR模型,第一方言是語音喚醒詞所屬的方言;通過通信組件1103接收終端設備發送的待識別語音信號,並利用第一方言對應的ASR模型對待識別語音信號進行語音識別。   通信組件1103,用於接收所述服務請求和所述待識別語音信號。   在一可選實施方式中,處理器1102在從不同方言對應的ASR模型中,選擇第一方言對應的ASR模型之前,還用於:收集不同方言的語料;對不同方言的語料進行特徵提取,以得到不同方言的聲學特徵;根據不同方言的聲學特徵,構建不同方言對應的ASR模型。   進一步,如圖11所示,該伺服器還包括:音頻組件1106。基於此,處理器1102還用於:通過音頻組件1106接收終端設備發送的待識別語音信號。   可選地,如圖11所示,該伺服器還包括顯示幕1104、電源組件1105等其它組件。   相應地,本申請案實施例還提供一種儲存有電腦程式的電腦可讀儲存媒體,電腦程式被執行時能夠實現上述方法實施例中可由伺服器執行的各步驟。   本實施例中,針對不同方言構建ASR模型,在語音識別過程中,預先識別語音喚醒詞所屬的方言,進而從不同方言對應的ASR模型中選擇與語音喚醒詞所屬的方言對應的ASR模型,利用所選擇的ASR模型對後續待識別語音信號進行語音識別,實現多方言語音識別的自動化,並且基於語音喚醒詞自動選擇相應方言的ASR模型,無需使用者手動操作,實現起來更加方便、快捷,有利於提高多方言語音識別的效率。   進一步地,基於語音喚醒詞比較簡短,識別語音喚醒詞所屬的方言的過程耗時較短,使得語音識別系統能夠快速識別語音喚醒詞所屬的第一方言,並選擇與第一方言對應的ASR模型,進一步提高對多方言語音進行識別的效率。   圖12為本申請案又一示例性實施例提供的又一種語音識別裝置的模組結構示意圖。如圖12所示,語音識別裝置1200包括接收模組1201、第一發送模組1202和第二發送模組1203。   接收模組1201,用於接收語音喚醒詞。   第一發送模組1202,用於向伺服器發送接收模組1201接收的語音喚醒詞,以供伺服器基於語音喚醒詞從不同方言對應的ASR模型中選擇語音喚醒詞所屬第一方言對應的ASR模型。   第二發送模組1203,用於向伺服器發送待識別語音信號,以供伺服器利用第一方言對應的ASR模型對待識別語音信號進行語音識別。   在一可選實施方式中,接收模組1201在接收語音喚醒詞時,具體用於:回應於啟動或開啟終端設備的指令,向使用者展示語音輸入介面;基於語音輸入介面獲取使用者輸入的語音喚醒詞。   在一可選實施方式中,第二發送模組1203在在向伺服器發送待識別語音信號之前,還用於:輸出語音輸入提示資訊,以提示使用者進行語音輸入;接收使用者輸入的待識別語音信號。   在一可選實施方式中,第二發送模組1203在輸出語音輸入提示資訊之前,還用於:接收伺服器返回的通知訊息,通知訊息用於指示已選擇第一方言對應的ASR模型。   在一可選實施方式中,接收模組1201在接收語音喚醒詞之前,還用於:回應於喚醒詞自訂操作,接收使用者輸入的自訂語音信號。第一發送模組1202還用於將自訂語音信號上傳至伺服器。   以上描述了語音識別裝置1200的內部功能和結構,如圖13所示,實際中,該語音識別裝置1200可實現為一種終端設備,包括:記憶體1301、處理器1302以及通信組件1303。   記憶體1301,用於儲存電腦程式,並可被儲存為儲存其它各種資料以支援在終端設備上的操作。這些資料的示例包括用於在終端設備上操作的任何應用程式或方法的指令,連絡人資料,電話簿資料,訊息,圖片,視頻等。   記憶體1301可以由任何類型的易失性或非易失性存放裝置或者它們的組合實現,如靜態隨機存取記憶體(SRAM),電可擦除可程式設計唯讀記憶體(EEPROM),可擦除可程式設計唯讀記憶體(EPROM),可程式設計唯讀記憶體(PROM),唯讀記憶體(ROM),磁記憶體,快閃記憶體,磁片或光碟。   處理器1302,與記憶體1301耦合,用於執行記憶體1301中的電腦程式,以用於:通過通信組件1303接收語音喚醒詞;通過通信組件1303向伺服器發送語音喚醒詞,以供伺服器基於語音喚醒詞從不同方言對應的ASR模型中選擇語音喚醒詞所屬第一方言對應的ASR模型;通過通信組件1303向伺服器發送待識別語音信號,以供伺服器利用第一方言對應的ASR模型對待識別語音信號進行語音識別。   通信組件1303,用於接收所述語音喚醒詞,向所述伺服器發送所述語音喚醒詞和所述待識別語音信號   在一可選實施方式中,如圖13所示,該終端設備還包括顯示幕1304。基於此,處理器1302在接收語音喚醒詞時,具體用於:回應於啟動或開啟終端設備的指令,通過顯示幕1304向使用者展示語音輸入介面;並基於語音輸入介面獲取使用者輸入的語音喚醒詞。   在一可選實施方式中,如圖13所示,該終端設備還包括音頻組件1306。基於此,處理器1302用於:通過音頻組件1306接收語音喚醒詞。相應地,處理器1302在向伺服器發送待識別語音信號之前,還用於:通過音頻組件1306輸出語音輸入提示資訊,以提示使用者進行語音輸入;以及接收使用者輸入的待識別語音信號。   在一可選實施方式中,處理器1302在輸出語音輸入提示資訊之前,還用於:接收伺服器返回的通知訊息,通知訊息用於指示已選擇第一方言對應的ASR模型。   在一可選實施方式中,處理器1302在接收語音喚醒詞之前,還用於:回應於喚醒詞自訂操作,通過通信組件1303接收使用者輸入的自訂語音信號,並將自訂語音信號上傳至伺服器。   進一步,如圖13所示,該終端設備還包括:電源組件1305等其它組件。   相應地,本申請案實施例還提供一種儲存有電腦程式的電腦可讀儲存媒體,電腦程式被執行時能夠實現上述方法實施例中可由終端設備執行的各步驟。   圖14為本申請案又一示例性實施例提供的又一種語音識別裝置的模組結構示意圖。如圖14所示,語音識別裝置1400包括第一接收模組1401、第一識別模組1402、選擇模組1403、第二接收模組1404、第二識別模組1405。   第一接收模組1401,用於接收終端設備發送的語音喚醒詞。   第一識別模組1402,用於識別語音喚醒詞所屬的第一方言。   選擇模組1403,用於從不同方言對應的ASR模型中,選擇第一方言對應的ASR模型。   第二接收模組1404,用於接收終端設備發送的待識別語音信號。   第二識別模組1405,用於利用第一方言對應的ASR模型對第二接收模組1404接收的待識別語音信號進行語音識別。   在一可選實施方式中,第一識別模組1402在識別語音喚醒詞所屬的第一方言時,具體用於:將語音喚醒詞分別與以不同方言錄製的基準喚醒詞進行聲學特徵的動態匹配,獲取與語音喚醒詞的匹配度符合第一設定要求的基準喚醒詞對應的方言作為第一方言;或者將語音喚醒詞的聲學特徵分別與不同方言的聲學特徵進行匹配,獲取與語音喚醒詞的聲學特徵的匹配度符合第二設定要求的方言作為第一方言;或者將語音喚醒詞轉換成文本喚醒詞,將文本喚醒詞分別與不同方言對應的基準文本喚醒詞進行匹配,獲取與文本喚醒詞的匹配度符合第三設定要求的基準文本喚醒詞對應的方言作為第一方言。   在一可選實施方式中,語音識別裝置1400還包括構建模組,用於在從不同方言對應的ASR模型中,選擇第一方言對應的ASR模型之前,收集不同方言的語料;對不同方言的語料進行特徵提取,以得到不同方言的聲學特徵;根據不同方言的聲學特徵,構建不同方言對應的ASR模型。   以上描述了語音識別裝置1400的內部功能和結構,如圖15所示,實際中,該語音識別裝置1400可實現為一種伺服器,包括:記憶體1501、處理器1502以及通信組件1503。   記憶體1501,用於儲存電腦程式,並可被儲存為儲存其它各種資料以支援在伺服器上的操作。這些資料的示例包括用於在伺服器上操作的任何應用程式或方法的指令,連絡人資料,電話簿資料,訊息,圖片,視頻等。   記憶體1501可以由任何類型的易失性或非易失性存放裝置或者它們的組合實現,如靜態隨機存取記憶體(SRAM),電可擦除可程式設計唯讀記憶體(EEPROM),可擦除可程式設計唯讀記憶體(EPROM),可程式設計唯讀記憶體(PROM),唯讀記憶體(ROM),磁記憶體,快閃記憶體,磁片或光碟。   處理器1502,與記憶體1501耦合,用於執行記憶體1501中的電腦程式,以用於:通過通信組件1503接收終端設備發送的語音喚醒詞;識別語音喚醒詞所屬的第一方言;從不同方言對應的ASR模型中,選擇第一方言對應的ASR模型;通過通信組件1503接收終端設備發送的待識別語音信號,並利用第一方言對應的ASR模型對待識別語音信號進行語音識別。   通信組件1503,用於接收語音喚醒詞以及待識別語音信號。   在一可選實施方式中,處理器1502在識別語音喚醒詞所屬的第一方言時,具體用於:將語音喚醒詞分別與以不同方言錄製的基準喚醒詞進行聲學特徵的動態匹配,獲取與語音喚醒詞的匹配度符合第一設定要求的基準喚醒詞對應的方言作為第一方言;或者將語音喚醒詞的聲學特徵分別與不同方言的聲學特徵進行匹配,獲取與語音喚醒詞的聲學特徵的匹配度符合第二設定要求的方言作為第一方言;或者將語音喚醒詞轉換成文本喚醒詞,將文本喚醒詞分別與不同方言對應的基準文本喚醒詞進行匹配,獲取與文本喚醒詞的匹配度符合第三設定要求的基準文本喚醒詞對應的方言作為第一方言。   在一可選實施方式中,處理器1502在從不同方言對應的ASR模型中,選擇第一方言對應的ASR模型之前,還用於收集不同方言的語料;對不同方言的語料進行特徵提取,以得到不同方言的聲學特徵;根據不同方言的聲學特徵,構建不同方言對應的ASR模型。   進一步,如圖15所示,該伺服器還包括:音頻組件1506。基於此,處理器1502用於:通過音頻組件1506接收終端設備發送的語音喚醒詞,並通過音頻組件1506接收所述終端設備發送的待識別語音信號。   進一步,如圖15所示,該伺服器還包括:顯示幕1504、電源組件1505等其它組件。   相應地,本申請案實施例還提供一種儲存有電腦程式的電腦可讀儲存媒體,電腦程式被執行時能夠實現上述方法實施例中可由伺服器執行的各步驟。   在本實施例中,針對不同方言構建ASR模型,在語音識別過程中,預先識別語音喚醒詞所屬的方言,進而從不同方言對應的ASR模型中選擇與語音喚醒詞所屬的方言對應的ASR模型,利用所選擇的ASR模型對後續待識別語音信號進行語音識別,實現多方言語音識別的自動化,並且基於語音喚醒詞自動選擇相應方言的ASR模型,無需使用者手動操作,實現起來更加方便、快捷,有利於提高多方言語音識別的效率。   進一步地,基於語音喚醒詞比較簡短,識別語音喚醒詞所屬的方言的過程耗時較短,使得語音識別系統能夠快速識別語音喚醒詞所屬的第一方言,並選擇與第一方言對應的ASR模型,進一步提高多方言語音識別的效率。   圖16為本申請案又一示例性實施例提供的又一種語音識別裝置的模組結構示意圖。如圖16所示,語音識別裝置1600包括接收模組1601、第一識別模組1602、選擇模組1603、第二識別模組1604。   接收模組1601,用於接收語音喚醒詞。   第一識別模組1602,用於識別語音喚醒詞所屬的第一方言。   選擇模組1603,用於從不同方言對應的ASR模型中選擇第一方言對應的ASR模型。   第二識別模組1604,用於利用第一方言對應的ASR模型對待識別語音信號進行語音識別。   在一可選實施方式中,第一識別模組1602在識別語音喚醒詞所屬的第一方言時,具體用於:將語音喚醒詞分別與以不同方言錄製的基準喚醒詞進行聲學特徵的動態匹配,獲取與語音喚醒詞的匹配度符合第一設定要求的基準喚醒詞對應的方言作為第一方言;或者將語音喚醒詞的聲學特徵分別與不同方言的聲學特徵進行匹配,獲取與語音喚醒詞的聲學特徵的匹配度符合第二設定要求的方言作為第一方言;或者將語音喚醒詞轉換成文本喚醒詞,將文本喚醒詞分別與不同方言對應的基準文本喚醒詞進行匹配,獲取與文本喚醒詞的匹配度符合第三設定要求的基準文本喚醒詞對應的方言作為第一方言。   在一可選實施方式中,接收模組1601在接收終端設備發送的語音喚醒詞時,具體用於:回應於啟動或開啟終端設備的指令,向使用者展示語音輸入介面;基於語音輸入介面獲取使用者輸入的語音喚醒詞。   在一可選實施方式中,第二識別模組1604在利用第一方言對應的ASR模型對待識別語音信號進行語音識別之前,還用於:輸出語音輸入提示資訊,以提示使用者進行語音輸入;接收使用者輸入的待識別語音信號。   在一可選實施方式中,語音識別裝置1600還包括構建模組,用於在從不同方言對應的ASR模型中,選擇第一方言對應的ASR模型之前,收集不同方言的語料;對不同方言的語料進行特徵提取,以得到不同方言的聲學特徵;根據不同方言的聲學特徵,構建不同方言對應的ASR模型。   在一可選實施方式中,接收模組1601在接收語音喚醒詞之前,還用於:回應於喚醒詞自訂操作,接收使用者輸入的自訂語音信號;將自訂語音信號保存為語音喚醒詞。   以上描述了語音識別裝置1600的內部功能和結構,如圖17所示,實際中,該語音識別裝置1600可實現為一種電子設備,包括:記憶體1701、處理器1702以及通信組件1703。該電子設備可以是終端設備,也可以是伺服器。   記憶體1701,用於儲存電腦程式,並可被儲存為儲存其它各種資料以支援在電子設備上的操作。這些資料的示例包括用於在電子設備上操作的任何應用程式或方法的指令,連絡人資料,電話簿資料,訊息,圖片,視頻等。   記憶體1701可以由任何類型的易失性或非易失性存放裝置或者它們的組合實現,如靜態隨機存取記憶體(SRAM),電可擦除可程式設計唯讀記憶體(EEPROM),可擦除可程式設計唯讀記憶體(EPROM),可程式設計唯讀記憶體(PROM),唯讀記憶體(ROM),磁記憶體,快閃記憶體,磁片或光碟。   處理器1702,與記憶體1701耦合,用於執行記憶體1701中的電腦程式,以用於:通過通信組件1703接收語音喚醒詞;識別語音喚醒詞所屬的第一方言;從不同方言對應的ASR模型中選擇第一方言對應的ASR模型;利用第一方言對應的ASR模型對待識別語音信號進行語音識別。   通信組件1703,用於接收語音喚醒詞。   在一可選實施方式中,處理器1702在識別語音喚醒詞所屬的第一方言時,具體用於:將語音喚醒詞分別與以不同方言錄製的基準喚醒詞進行聲學特徵的動態匹配,獲取與語音喚醒詞的匹配度符合第一設定要求的基準喚醒詞對應的方言作為第一方言;或者將語音喚醒詞的聲學特徵分別與不同方言的聲學特徵進行匹配,獲取與語音喚醒詞的聲學特徵的匹配度符合第二設定要求的方言作為第一方言;或者將語音喚醒詞轉換成文本喚醒詞,將文本喚醒詞分別與不同方言對應的基準文本喚醒詞進行匹配,獲取與文本喚醒詞的匹配度符合第三設定要求的基準文本喚醒詞對應的方言作為第一方言。   在一可選實施方式中,如圖17所示,該電子設備還包括:顯示幕1704。基於此,處理器1702在接收終端設備發送的語音喚醒詞時,具體用於:回應於啟動或開啟終端設備的指令,通過顯示幕1704向使用者展示語音輸入介面;並基於語音輸入介面獲取使用者輸入的語音喚醒詞。   在一可選實施方式中,如圖17所示,該電子設備還包括:音頻組件1706。基於此,處理器1702在利用第一方言對應的ASR模型對待識別語音信號進行語音識別之前,還用於:通過音頻組件1706輸出語音輸入提示資訊,以提示使用者進行語音輸入;並接收使用者輸入的待識別語音信號。相應地,處理器1702還用於:通過音頻組件1706接收語音喚醒詞。   在一可選實施方式中,處理器1702在從不同方言對應的ASR模型中,選擇第一方言對應的ASR模型之前,還用於收集不同方言的語料;對不同方言的語料進行特徵提取,以得到不同方言的聲學特徵;根據不同方言的聲學特徵,構建不同方言對應的ASR模型。   在一可選實施方式中,處理器1702在接收語音喚醒詞之前,還用於:回應於喚醒詞自訂操作,通過通信組件1703接收使用者輸入的自訂語音信號;將自訂語音信號保存為語音喚醒詞。進一步,如圖17所示,該電子設備還包括:電源組件1705等其它組件。   相應地,本申請案實施例還提供一種儲存有電腦程式的電腦可讀儲存媒體,電腦程式被執行時能夠實現上述方法實施例中可由電子設備執行的各步驟。   在本實施例中,針對不同方言構建ASR模型,在語音識別過程中,預先識別語音喚醒詞所屬的方言,進而從不同方言對應的ASR模型中選擇與語音喚醒詞所屬的方言對應的ASR模型,利用所選擇的ASR模型對後續待識別語音信號進行語音識別,實現多方言語音識別的自動化,並且基於語音喚醒詞自動選擇相應方言的ASR模型,無需使用者手動操作,實現起來更加方便、快捷,有利於提高多方言語音識別的效率。   進一步地,基於語音喚醒詞比較簡短,識別語音喚醒詞所屬的方言的過程耗時較短,使得語音識別系統能夠快速識別語音喚醒詞所屬的第一方言,並選擇與第一方言對應的ASR模型,進一步提高對多方言語音進行識別的效率。   本申請案實施例還提供一種終端設備,包括:記憶體、處理器和通信組件。   記憶體,用於儲存電腦程式,並可被儲存為儲存其它各種資料以支援在終端設備上的操作。這些資料的示例包括用於在終端設備上操作的任何應用程式或方法的指令,連絡人資料,電話簿資料,訊息,圖片,視頻等。   記憶體可以由任何類型的易失性或非易失性存放裝置或者它們的組合實現,如靜態隨機存取記憶體(SRAM),電可擦除可程式設計唯讀記憶體(EEPROM),可擦除可程式設計唯讀記憶體(EPROM),可程式設計唯讀記憶體(PROM),唯讀記憶體(ROM),磁記憶體,快閃記憶體,磁片或光碟。   處理器,與記憶體和通信組件耦合,用於執行記憶體中的電腦程式,以用於:通過通信組件接收語音喚醒詞,以喚醒語音識別功能;通過通信組件接收使用者輸入的具有方言指示意義的第一語音信號;從第一語音信號中解析出需要進行語音識別的第一方言;從不同方言對應的ASR模型中選擇第一方言對應的ASR模型;通過通信組件向伺服器發送服務請求,以請求伺服器從不同方言對應的ASR模型中選擇所述第一方言對應的ASR模型;通過通信組件向伺服器發送待識別語音信號,以供伺服器利用第一方言對應的ASR模型對待識別語音信號進行語音識別。   所述通信組件,用於接收語音喚醒詞和所述第一語音信號,以及向所述伺服器發送服務請求和待識別語音信號。   在一可選實施方式中,處理器在向伺服器發送服務請求之前,還用於:若未能從第一語音信號中解析出第一方言,識別語音喚醒詞所屬的方言作為第一方言。   在一可選實施方式中,記憶體還用於儲存不同方言名稱對應的音素片段。相應地,處理器在從第一語音信號中解析出需要進行語音識別的第一方言時,具體用於:基於聲學模型將所述第一語音信號轉換為第一音素序列;將記憶體中儲存的不同方言名稱對應的音素片段分別在所述第一音素序列中進行匹配;當在所述第一音素序列中匹配中音素片段時,將所述匹配中的音素片段對應的方言作為所述第一方言。   本申請案實施例還提供一種伺服器,包括:記憶體、處理器和通信組件。   記憶體,用於儲存電腦程式,並可被儲存為儲存其它各種資料以支援在伺服器上的操作。這些資料的示例包括用於在伺服器上操作的任何應用程式或方法的指令,連絡人資料,電話簿資料,訊息,圖片,視頻等。   記憶體可以由任何類型的易失性或非易失性存放裝置或者它們的組合實現,如靜態隨機存取記憶體(SRAM),電可擦除可程式設計唯讀記憶體(EEPROM),可擦除可程式設計唯讀記憶體(EPROM),可程式設計唯讀記憶體(PROM),唯讀記憶體(ROM),磁記憶體,快閃記憶體,磁片或光碟。   處理器,與記憶體和通信組件耦合,用於執行記憶體中的電腦程式,以用於:通過通信組件接收終端設備發送的語音喚醒詞,以喚醒語音識別功能;通過通信組件接收終端設備發送的具有方言指示意義的第一語音信號;從第一語音信號中解析出需要進行語音識別的第一方言;從不同方言對應的ASR模型中選擇第一方言對應的ASR模型;通過通信組件接收終端設備發送的待識別語音信號,並利用第一方言對應的ASR模型對待識別語音信號進行語音識別。   通信組件,用於接收語音喚醒詞、第一語音信號和待識別語音信號。   在一可選實施方式中,處理器在從不同方言對應的ASR模型中選擇第一方言對應的ASR模型之前,還用於:若未能從第一語音信號中解析出第一方言,識別語音喚醒詞所屬的方言作為第一方言。   在一可選實施方式中,記憶體還用於儲存不同方言名稱對應的音素片段。相應地,處理器在從第一語音信號中解析出需要進行語音識別的第一方言時,具體用於:基於聲學模型將所述第一語音信號轉換為第一音素序列;將記憶體中儲存的不同方言名稱對應的音素片段分別在所述第一音素序列中進行匹配;當在所述第一音素序列中匹配中音素片段時,將所述匹配中的音素片段對應的方言作為所述第一方言。   本申請案實施例還提供一種電子設備,該電子設備可以是終端設備,也可以是伺服器。該電子設備包括:記憶體、處理器和通信組件。   記憶體,用於儲存電腦程式,並可被儲存為儲存其它各種資料以支援在電子設備上的操作。這些資料的示例包括用於在電子設備上操作的任何應用程式或方法的指令,連絡人資料,電話簿資料,訊息,圖片,視頻等。   記憶體可以由任何類型的易失性或非易失性存放裝置或者它們的組合實現,如靜態隨機存取記憶體(SRAM),電可擦除可程式設計唯讀記憶體(EEPROM),可擦除可程式設計唯讀記憶體(EPROM),可程式設計唯讀記憶體(PROM),唯讀記憶體(ROM),磁記憶體,快閃記憶體,磁片或光碟。   處理器,與記憶體和通信組件耦合,用於執行記憶體中的電腦程式,以用於:通過通信組件接收語音喚醒詞,以喚醒語音識別功能;通過通信組件接收使用者輸入的具有方言指示意義的第一語音信號;從第一語音信號中解析出需要進行語音識別的第一方言;從不同方言對應的ASR模型中選擇第一方言對應的ASR模型;利用第一方言對應的ASR模型對待識別語音信號進行語音識別。   通信組件,用於接收語音喚醒詞和第一語音信號。   在一可選實施方式中,處理器在從不同方言對應的ASR模型中選擇第一方言對應的ASR模型之前,還用於:若未能從第一語音信號中解析出第一方言,識別語音喚醒詞所屬的方言作為第一方言。   在一可選實施方式中,記憶體還用於儲存不同方言名稱對應的音素片段。相應地,處理器在從第一語音信號中解析出需要進行語音識別的第一方言時,具體用於:基於聲學模型將所述第一語音信號轉換為第一音素序列;將記憶體中儲存的不同方言名稱對應的音素片段分別在所述第一音素序列中進行匹配;當在所述第一音素序列中匹配中音素片段時,將所述匹配中的音素片段對應的方言作為所述第一方言。   上述圖9、圖11、圖13、圖15和圖17中的通信組件被儲存為便於通信組件所在設備和其他設備之間有線或無線方式的通信。通信組件所在設備可以接入基於通信標準的無線網路,如WiFi,2G或3G,或它們的組合。在一個示例性實施例中,通信組件經由廣播通道接收來自外部廣播管理系統的廣播信號或廣播相關資訊。在一個示例性實施例中,通信組件還包括近場通信(NFC)模組,以促進短程通信。例如,在NFC模組可基於射頻識別(RFID)技術,紅外線資料協會(IrDA)技術,超寬頻(UWB)技術,藍牙(BT)技術和其他技術來實現。   上述圖9、圖11、圖13、圖15和圖17中的顯示幕包括液晶顯示器(LCD)和觸摸面板(TP)。如果顯示幕包括觸摸面板,顯示幕可以被實現為觸控式螢幕,以接收來自使用者的輸入信號。觸摸面板包括一個或多個觸摸感測器以感測觸摸、滑動和觸摸面板上的手勢。觸摸感測器可以不僅感測觸摸或滑動動作的邊界,而且還檢測與觸摸或滑動操作相關的持續時間和壓力。   上述圖9、圖11、圖13、圖15和圖17中的電源組件為電源組件所在設備的各種組件提供電力。電源組件可以包括電源管理系統,一個或多個電源,及其他與為電源組件所在設備生成、管理和分配電力相關聯的組件。   上述圖9、圖11、圖13、圖15和圖17中的音頻組件可被儲存為輸出和/或輸入音頻信號。例如,音頻組件包括一個麥克風(MIC),當音頻組件所在設備處於操作模式,如呼叫模式、記錄模式和語音識別模式時,麥克風被儲存為接收外部音頻信號。所接收的音頻信號可以被進一步儲存在記憶體或經由通信組件發送。在一些實施例中,音頻組件還包括一個揚聲器,用於輸出音頻信號。   本領域內的技術人員應明白,本發明的實施例可提供為方法、系統、或電腦程式產品。因此,本發明可採用完全硬體實施例、完全軟體實施例、或結合軟體和硬體方面的實施例的形式。而且,本發明可採用在一個或多個其中包含有電腦可用程式碼的電腦可用儲存媒體(包括但不限於磁碟記憶體、CD-ROM、光學記憶體等)上實施的電腦程式產品的形式。   本發明是參照根據本發明實施例的方法、設備(系統)、和電腦程式產品的流程圖和/或方塊圖來描述的。應理解可由電腦程式指令實現流程圖和/或方塊圖中的每一流程和/或方塊、以及流程圖和/或方塊圖中的流程和/或方塊的結合。可提供這些電腦程式指令到通用電腦、專用電腦、嵌入式處理機或其他可程式設計資料處理設備的處理器以產生一個機器,使得通過電腦或其他可程式設計資料處理設備的處理器執行的指令產生用於實現在流程圖一個流程或多個流程和/或方塊圖一個方塊或多個方塊中指定的功能的裝置。   這些電腦程式指令也可儲存在能引導電腦或其他可程式設計資料處理設備以特定方式工作的電腦可讀記憶體中,使得儲存在該電腦可讀記憶體中的指令產生包括指令裝置的製造品,該指令裝置實現在流程圖一個流程或多個流程和/或方塊圖一個方塊或多個方塊中指定的功能。   這些電腦程式指令也可裝載到電腦或其他可程式設計資料處理設備上,使得在電腦或其他可程式設計設備上執行一系列操作步驟以產生電腦實現的處理,從而在電腦或其他可程式設計設備上執行的指令提供用於實現在流程圖一個流程或多個流程和/或方塊圖一個方塊或多個方塊中指定的功能的步驟。   在一個典型的儲存中,計算設備包括一個或多個處理器(CPU)、輸入/輸出介面、網路介面和記憶體。   記憶體可能包括電腦可讀媒體中的非永久性記憶體,隨機存取記憶體(RAM)和/或非易失性記憶體等形式,如唯讀記憶體(ROM)或快閃記憶體(flash RAM)。記憶體是電腦可讀媒體的示例。   電腦可讀媒體包括永久性和非永久性、可移動和非可移動媒體可以由任何方法或技術來實現資訊儲存。資訊可以是電腦可讀指令、資料結構、程式的模組或其他資料。電腦的儲存媒體的例子包括,但不限於相變記憶體 (PRAM)、靜態隨機存取記憶體(SRAM)、動態隨機存取記憶體(DRAM)、其他類型的隨機存取記憶體(RAM)、唯讀記憶體(ROM)、電可擦除可程式設計唯讀記憶體(EEPROM)、快閃記憶體或其他記憶體技術、唯讀光碟唯讀記憶體(CD-ROM)、數位多功能光碟 (DVD)或其他光學儲存、磁盒式磁帶,磁帶磁片儲存或其他磁性存放裝置或任何其他非傳輸媒體,可用於儲存可以被計算設備存取的資訊。按照本文中的界定,電腦可讀媒體不包括暫存電腦可讀媒體(transitory media),如調變的資料信號和載波。   還需要說明的是,術語“包括”、“包含”或者其任何其他變體意在涵蓋非排他性的包含,從而使得包括一系列要素的過程、方法、商品或者設備不僅包括那些要素,而且還包括沒有明確列出的其他要素,或者是還包括為這種過程、方法、商品或者設備所固有的要素。在沒有更多限制的情況下,由語句“包括一個……”限定的要素,並不排除在包括所述要素的過程、方法、商品或者設備中還存在另外的相同要素。   以上所述僅為本申請案的實施例而已,並不用於限制本申請案。對於本領域技術人員來說,本申請案可以有各種更改和變化。凡在本申請案的精神和原理之內所作的任何修改、等同替換、改進等,均應包含在本申請案的申請專利範圍之內。
100‧‧‧語音識別系統
101‧‧‧伺服器
102‧‧‧終端設備
400‧‧‧語音識別系統
401‧‧‧伺服器
402‧‧‧終端設備
800‧‧‧語音識別裝置
801‧‧‧接收模組
802‧‧‧識別模組
803‧‧‧第一發送模組
804‧‧‧第二發送模組
901‧‧‧記憶體
902‧‧‧處理器
903‧‧‧通信組件
904‧‧‧顯示幕
905‧‧‧電源組件
906‧‧‧音頻組件
1000‧‧‧語音識別裝置
1001‧‧‧第一接收模組
1002‧‧‧選擇模組
1003‧‧‧第二接收模組
1004‧‧‧識別模組
1101‧‧‧記憶體
1102‧‧‧處理器
1103‧‧‧通信組件
1104‧‧‧顯示幕
1105‧‧‧電源組件
1106‧‧‧音頻組件
1200‧‧‧語音識別裝置
1201‧‧‧接收模組
1202‧‧‧第一發送模組
1203‧‧‧第二發送模組
1301‧‧‧記憶體
1302‧‧‧處理器
1303‧‧‧通信組件
1304‧‧‧顯示幕
1305‧‧‧電源組件
1306‧‧‧音頻組件
1400‧‧‧語音識別裝置
1401‧‧‧第一接收模組
1402‧‧‧第一識別模組
1403‧‧‧選擇模組
1404‧‧‧第二接收模組
1405‧‧‧第二識別模組
1501‧‧‧記憶體
1502‧‧‧處理器
1503‧‧‧通信組件
1504‧‧‧顯示幕
1505‧‧‧電源組件
1506‧‧‧音頻組件
1600‧‧‧語音識別裝置
1601‧‧‧接收模組
1602‧‧‧第一識別模組
1603‧‧‧選擇模組
1604‧‧‧第二識別模組
1701‧‧‧記憶體
1702‧‧‧處理器
1703‧‧‧通信組件
1704‧‧‧顯示幕
1705‧‧‧電源組件
1706‧‧‧音頻組件
此處所說明的附圖用來提供對本申請案的進一步理解,構成本申請案的一部分,本申請案的示意性實施例及其說明用於解釋本申請案,並不構成對本申請案的不當限定。在附圖中:   圖1為本申請案一示例性實施例提供的一種語音識別系統的結構示意圖;   圖2為本申請案另一示例性實施例提供的一種語音識別方法的流程示意圖;   圖3為本申請案又一示例性實施例提供的另一種語音識別方法的流程示意圖;   圖4為本申請案又一示例性實施例提供的另一種語音識別系統的結構示意圖;   圖5為本申請案又一示例性實施例提供的又一種語音識別方法的流程示意圖;   圖6為本申請案又一示例性實施例提供的又一種語音識別方法的流程示意圖;   圖7為本申請案又一示例性實施例提供的又一種語音識別方法的流程示意圖;   圖8為本申請案又一示例性實施例提供的一種語音識別裝置的模組結構示意圖;   圖9為本申請案又一示例性實施例提供的一種終端設備的結構示意圖;   圖10為本申請案又一示例性一實施例提供的另一種語音識別裝置的模組結構示意圖;   圖11為本申請案又一示例性實施例提供的一種伺服器的結構示意圖;   圖12為本申請案又一示例性實施例提供的又一種語音識別裝置的模組結構示意圖;   圖13為本申請案又一示例性實施例提供的又一種終端設備的結構示意圖;   圖14為本申請案又一示例性實施例提供的又一種語音識別裝置的模組結構示意圖;   圖15為本申請案又一示例性實施例提供的另一種伺服器的結構示意圖;   圖16為本申請案又一示例性實施例提供的又一種語音識別裝置的模組結構示意圖;   圖17為本申請案又一示例性實施例提供的一種電子設備的結構示意圖。

Claims (24)

  1. 一種語音識別方法,適用於終端設備,其特徵在於,所述方法包括:   接收語音喚醒詞;   識別所述語音喚醒詞所屬的第一方言;   向伺服器發送服務請求,以請求所述伺服器從不同方言對應的ASR模型中選擇所述第一方言對應的ASR模型;   向所述伺服器發送待識別語音信號,以供所述伺服器利用所述第一方言對應的ASR模型對所述待識別語音信號進行語音識別。
  2. 根據申請專利範圍第1項所述的方法,其中,所述識別所述語音喚醒詞所屬的第一方言,包括:   將所述語音喚醒詞分別與以不同方言錄製的基準喚醒詞進行聲學特徵的動態匹配,獲取與所述語音喚醒詞的匹配度符合第一設定要求的基準喚醒詞對應的方言作為所述第一方言;或者   將所述語音喚醒詞的聲學特徵分別與不同方言的聲學特徵進行匹配,獲取與所述語音喚醒詞的聲學特徵的匹配度符合第二設定要求的方言作為所述第一方言;或者   將所述語音喚醒詞轉換成文本喚醒詞,將所述文本喚醒詞分別與不同方言對應的基準文本喚醒詞進行匹配,獲取與所述文本喚醒詞的匹配度符合第三設定要求的基準文本喚醒詞對應的方言作為所述第一方言。
  3. 根據申請專利範圍第1項所述的方法,其中,所述接收語音喚醒詞,包括:   回應於啟動或開啟所述終端設備的指令,向使用者展示語音輸入介面;   基於所述語音輸入介面獲取所述使用者輸入的語音喚醒詞。
  4. 根據申請專利範圍第1項所述的方法,其中,在向所述伺服器發送待識別語音信號之前,所述方法還包括:   輸出語音輸入提示資訊,以提示使用者進行語音輸入;   接收所述使用者輸入的待識別語音信號。
  5. 根據申請專利範圍第4項所述的方法,其中,在輸出語音輸入提示資訊之前,所述方法還包括:   接收所述伺服器返回的通知訊息,所述通知訊息用於指示已選擇所述第一方言對應的ASR模型。
  6. 根據申請專利範圍第1項所述的方法,其中,在接收語音喚醒詞之前,所述方法還包括:   回應於喚醒詞自訂操作,接收所述使用者輸入的自訂語音信號;   將所述自訂語音信號保存為所述語音喚醒詞。
  7. 一種語音識別方法,適用於伺服器,其特徵在於,所述方法包括:   接收終端設備發送的服務請求,所述服務請求指示選擇第一方言對應的ASR模型;   從不同方言對應的ASR模型中,選擇所述第一方言對應的ASR模型,所述第一方言是所述語音喚醒詞所屬的方言;   接收所述終端設備發送的待識別語音信號,並利用所述第一方言對應的ASR模型對所述待識別語音信號進行語音識別。
  8. 根據申請專利範圍第7項所述的方法,其中,在從不同方言對應的ASR模型中,選擇所述第一方言對應的ASR模型之前,所述方法還包括:   收集不同方言的語料;   對所述不同方言的語料進行特徵提取,以得到不同方言的聲學特徵;   根據所述不同方言的聲學特徵,構建不同方言對應的ASR模型。
  9. 一種語音識別方法,適用於終端設備,其特徵在於,所述方法包括:   接收語音喚醒詞;   向伺服器發送所述語音喚醒詞,以供伺服器基於所述語音喚醒詞從不同方言對應的ASR模型中選擇所述語音喚醒詞所屬第一方言對應的ASR模型;   向所述伺服器發送待識別語音信號,以供所述伺服器利用所述第一方言對應的ASR模型對所述待識別語音信號進行語音識別。
  10. 一種語音識別方法,適用於伺服器,其特徵在於,所述方法包括:   接收終端設備發送的語音喚醒詞;   識別所述語音喚醒詞所屬的第一方言;   從不同方言對應的ASR模型中,選擇所述第一方言對應的ASR模型;   接收所述終端設備發送的待識別語音信號,並利用所述第一方言對應的ASR模型對所述待識別語音信號進行語音識別。
  11. 一種語音識別方法,其特徵在於,包括:   接收語音喚醒詞;   識別所述語音喚醒詞所屬的第一方言;   從不同方言對應的ASR模型中選擇所述第一方言對應的ASR模型;   利用所述第一方言對應的ASR模型對待識別語音信號進行語音識別。
  12. 一種語音識別方法,適用於終端設備,其特徵在於,所述方法包括:   接收語音喚醒詞,以喚醒語音識別功能;   接收使用者輸入的具有方言指示意義的第一語音信號;   從所述第一語音信號中解析出需要進行語音識別的第一方言;   向伺服器發送服務請求,以請求所述伺服器從不同方言對應的ASR模型中選擇所述第一方言對應的ASR模型;   向所述伺服器發送待識別語音信號,以供所述伺服器利用所述第一方言對應的ASR模型對所述待識別語音信號進行語音識別。
  13. 根據申請專利範圍第12項所述的方法,其中,在向伺服器發送服務請求之前,所述方法還包括:   若未能從所述第一語音信號中解析出所述第一方言,識別所述語音喚醒詞所屬的方言作為所述第一方言。
  14. 根據申請專利範圍第12或13項所述的方法,其中,所述從所述第一語音信號中解析出需要進行語音識別的第一方言,包括:   基於聲學模型將所述第一語音信號轉換為第一音素序列;   將不同方言名稱對應的音素片段分別在所述第一音素序列中進行匹配;   當在所述第一音素序列中匹配中音素片段時,將所述匹配中的音素片段對應的方言作為所述第一方言。
  15. 一種終端設備,其特徵在於,包括:記憶體、處理器以及通信組件;   所述記憶體,用於儲存電腦程式;   所述處理器,與所述記憶體耦合,用於執行所述電腦程式,以用於:   通過所述通信組件接收語音喚醒詞;   識別所述語音喚醒詞所屬的第一方言;   通過所述通信組件向伺服器發送服務請求,以請求所述伺服器從不同方言對應的ASR模型中選擇所述第一方言對應的ASR模型;   通過所述通信組件向所述伺服器發送待識別語音信號,以供所述伺服器利用所述第一方言對應的ASR模型對所述待識別語音信號進行語音識別;   所述通信組件,用於接收所述語音喚醒詞,向所述伺服器發送所述服務請求以及所述待識別語音信號。
  16. 一種伺服器,其特徵在於,包括:記憶體、處理器以及通信組件;   所述記憶體,用於儲存電腦程式;   所述處理器,與所述記憶體耦合,用於執行所述電腦程式,以用於:   通過所述通信組件接收終端設備發送的服務請求,所述服務請求指示選擇第一方言對應的ASR模型;   從不同方言對應的ASR模型中,選擇所述第一方言對應的ASR模型,所述第一方言是所述語音喚醒詞所屬的方言;   通過所述通信組件接收所述終端設備發送的待識別語音信號,並利用所述第一方言對應的ASR模型對所述待識別語音信號進行語音識別;   所述通信組件,用於接收所述服務請求和所述待識別語音信號。
  17. 一種終端設備,其特徵在於,包括:記憶體、處理器以及通信組件;   所述記憶體,用於儲存電腦程式;   所述處理器,與所述記憶體耦合,用於執行所述電腦程式,以用於:   通過所述通信組件接收語音喚醒詞;   通過所述通信組件向伺服器發送所述語音喚醒詞,以供伺服器基於所述語音喚醒詞從不同方言對應的ASR模型中選擇所述語音喚醒詞所屬第一方言對應的ASR模型;   通過所述通信組件向所述伺服器發送待識別語音信號,以供所述伺服器利用所述第一方言對應的ASR模型對所述待識別語音信號進行語音識別;   所述通信組件,用於接收所述語音喚醒詞,向所述伺服器發送所述語音喚醒詞和所述待識別語音信號。
  18. 一種伺服器,其特徵在於,包括:記憶體、處理器以及通信組件;   所述記憶體,用於儲存電腦程式;   所述處理器,與所述記憶體耦合,用於執行所述電腦程式,以用於:   通過所述通信組件接收終端設備發送的語音喚醒詞;   識別所述語音喚醒詞所屬的第一方言;   從不同方言對應的ASR模型中,選擇所述第一方言對應的ASR模型;   通過所述通信組件接收所述終端設備發送的待識別語音信號,並利用所述第一方言對應的ASR模型對所述待識別語音信號進行語音識別;   所述通信組件,用於接收所述語音喚醒詞以及所述待識別語音信號。
  19. 一種電子設備,其特徵在於,包括:記憶體、處理器以及通信組件;   所述記憶體,用於儲存電腦程式;   所述處理器,與所述記憶體耦合,用於執行所述電腦程式,以用於:   通過所述通信組件接收語音喚醒詞;   識別所述語音喚醒詞所屬的第一方言;   從不同方言對應的ASR模型中選擇所述第一方言對應的ASR模型;   利用所述第一方言對應的ASR模型對待識別語音信號進行語音識別;   所述通信組件,用於接收所述語音喚醒詞。
  20. 一種終端設備,其特徵在於,包括:記憶體、處理器以及通信組件;   所述記憶體,用於儲存電腦程式;   所述處理器,與所述記憶體耦合,用於執行所述電腦程式,以用於:   通過所述通信組件接收語音喚醒詞,以喚醒語音識別功能;   通過所述通信組件接收使用者輸入的具有方言指示意義的第一語音信號;   從所述第一語音信號中解析出需要進行語音識別的第一方言;   通過所述通信組件向伺服器發送服務請求,以請求所述伺服器從不同方言對應的ASR模型中選擇所述第一方言對應的ASR模型;   通過所述通信組件向所述伺服器發送待識別語音信號,以供所述伺服器利用所述第一方言對應的ASR模型對所述待識別語音信號進行語音識別;   所述通信組件,用於接收所述語音喚醒詞和所述第一語音信號,以及向所述伺服器發送所述服務請求和所述待識別語音信號。
  21. 一種儲存有電腦程式的電腦可讀儲存媒體,其特徵在於,所述電腦程式被電腦執行時能夠實現申請專利範圍第1-6項之任一項所述方法的步驟。
  22. 一種儲存有電腦程式的電腦可讀儲存媒體,其特徵在於,所述電腦程式被電腦執行時能夠實現申請專利範圍第7-8項之任一項所述方法的步驟。
  23. 一種語音識別系統,其特徵在於,包括伺服器和終端設備;   所述終端設備,用於接收語音喚醒詞,識別所述語音喚醒詞所屬的第一方言,並向所述伺服器發送服務請求,以及向所述伺服器發送待識別語音信號,所述服務請求指示選擇所述第一方言對應的ASR模型;   所述伺服器,用於接收所述服務請求,根據所述服務請求的指示,從不同方言對應的ASR模型中,選擇所述第一方言對應的ASR模型,以及接收所述待識別語音信號,並利用所述第一方言對應的ASR模型對所述待識別語音信號進行語音識別。
  24. 一種語音識別系統,其特徵在於,包括伺服器和終端設備;   所述終端設備,用於接收語音喚醒詞,向所述伺服器發送所述語音喚醒詞,以及向所述伺服器發送待識別語音信號;   所述伺服器,用於接收所述語音喚醒詞,識別所述語音喚醒詞所屬的第一方言,從不同方言對應的ASR模型中,選擇所述第一方言對應的ASR模型,以及接收所述待識別語音信號,並利用所述第一方言對應的ASR模型對所述待識別語音信號進行語音識別。
TW107132609A 2017-11-17 2018-09-17 語音識別方法、裝置及系統 TW201923736A (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
??201711147698.X 2017-11-17
CN201711147698.XA CN109817220A (zh) 2017-11-17 2017-11-17 语音识别方法、装置及系统

Publications (1)

Publication Number Publication Date
TW201923736A true TW201923736A (zh) 2019-06-16

Family

ID=66539363

Family Applications (1)

Application Number Title Priority Date Filing Date
TW107132609A TW201923736A (zh) 2017-11-17 2018-09-17 語音識別方法、裝置及系統

Country Status (3)

Country Link
CN (1) CN109817220A (zh)
TW (1) TW201923736A (zh)
WO (1) WO2019096056A1 (zh)

Families Citing this family (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112102819A (zh) * 2019-05-29 2020-12-18 南宁富桂精密工业有限公司 语音辨识装置及其切换辨识语言的方法
CN112116909A (zh) * 2019-06-20 2020-12-22 杭州海康威视数字技术股份有限公司 语音识别方法、装置及系统
CN110364147B (zh) * 2019-08-29 2021-08-20 厦门市思芯微科技有限公司 一种唤醒训练词采集系统及方法
CN111091809B (zh) * 2019-10-31 2023-05-23 国家计算机网络与信息安全管理中心 一种深度特征融合的地域性口音识别方法及装置
CN110853643A (zh) * 2019-11-18 2020-02-28 北京小米移动软件有限公司 快应用中进行语音识别的方法、装置、设备及存储介质
CN110827799B (zh) * 2019-11-21 2022-06-10 百度在线网络技术(北京)有限公司 用于处理语音信号的方法、装置、设备和介质
CN111081217B (zh) * 2019-12-03 2021-06-04 珠海格力电器股份有限公司 一种语音唤醒方法、装置、电子设备及存储介质
CN111128125A (zh) * 2019-12-30 2020-05-08 深圳市优必选科技股份有限公司 语音服务配置系统及其语音服务配置方法和装置
CN111724766B (zh) * 2020-06-29 2024-01-05 合肥讯飞数码科技有限公司 语种识别方法、相关设备及可读存储介质
CN112820296B (zh) * 2021-01-06 2022-05-20 北京声智科技有限公司 一种数据传输方法及电子设备
CN113506565B (zh) * 2021-07-12 2024-06-04 北京捷通华声科技股份有限公司 语音识别的方法、装置、计算机可读存储介质与处理器

Family Cites Families (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9431012B2 (en) * 2012-04-30 2016-08-30 2236008 Ontario Inc. Post processing of natural language automatic speech recognition
US9275637B1 (en) * 2012-11-06 2016-03-01 Amazon Technologies, Inc. Wake word evaluation
CN104036774B (zh) * 2014-06-20 2018-03-06 国家计算机网络与信息安全管理中心 藏语方言识别方法及系统
CN104575504A (zh) * 2014-12-24 2015-04-29 上海师范大学 采用声纹和语音识别进行个性化电视语音唤醒的方法
CN105223851A (zh) * 2015-10-09 2016-01-06 韩山师范学院 基于方言识别的智能插座系统及控制方法
CN105654943A (zh) * 2015-10-26 2016-06-08 乐视致新电子科技(天津)有限公司 一种语音唤醒方法、装置及系统
CN105957527A (zh) * 2016-05-16 2016-09-21 珠海格力电器股份有限公司 一种语音控制电器的方法、装置及语音控制空调
CN106452997A (zh) * 2016-09-30 2017-02-22 无锡小天鹅股份有限公司 家用电器及其控制系统
CN106653031A (zh) * 2016-10-17 2017-05-10 海信集团有限公司 语音唤醒方法及语音交互装置
CN106997762A (zh) * 2017-03-08 2017-08-01 广东美的制冷设备有限公司 家用电器的语音控制方法以及装置
CN107134279B (zh) * 2017-06-30 2020-06-19 百度在线网络技术(北京)有限公司 一种语音唤醒方法、装置、终端和存储介质

Also Published As

Publication number Publication date
CN109817220A (zh) 2019-05-28
WO2019096056A1 (zh) 2019-05-23

Similar Documents

Publication Publication Date Title
TW201923736A (zh) 語音識別方法、裝置及系統
US20210249013A1 (en) Method and Apparatus to Provide Comprehensive Smart Assistant Services
US11132172B1 (en) Low latency audio data pipeline
US11810554B2 (en) Audio message extraction
US11915699B2 (en) Account association with device
US11514886B2 (en) Emotion classification information-based text-to-speech (TTS) method and apparatus
US10977299B2 (en) Systems and methods for consolidating recorded content
US20210183366A1 (en) Speech recognition through disambiguation feedback
US11100922B1 (en) System and methods for triggering sequences of operations based on voice commands
CN106782607B (zh) 确定热词适合度
US10811005B2 (en) Adapting voice input processing based on voice input characteristics
WO2017084360A1 (zh) 一种用于语音识别方法及系统
US10672379B1 (en) Systems and methods for selecting a recipient device for communications
US10079021B1 (en) Low latency audio interface
US10699706B1 (en) Systems and methods for device communications
KR102628211B1 (ko) 전자 장치 및 그 제어 방법
CN110852075B (zh) 自动添加标点符号的语音转写方法、装置及可读存储介质
WO2019045816A1 (en) GRAPHIC DATA SELECTION AND DIGITAL CONTENT PRESENTATION
WO2016183961A1 (zh) 智能设备的界面切换方法、系统、设备及非易失性计算机存储介质
CN115148185A (zh) 语音合成方法及装置、电子设备及存储介质
WO2020052135A1 (zh) 音乐推荐的方法、装置、计算装置和存储介质
CN113611316A (zh) 人机交互方法、装置、设备以及存储介质
US20190088258A1 (en) Voice recognition device, voice recognition method, and computer program product
US20180350360A1 (en) Provide non-obtrusive output
EP4261819A1 (en) Audio data processing method and apparatus, electronic device, medium, and program product