TW201921336A - 用於語音辨識的系統和方法 - Google Patents

用於語音辨識的系統和方法

Info

Publication number
TW201921336A
TW201921336A TW107120855A TW107120855A TW201921336A TW 201921336 A TW201921336 A TW 201921336A TW 107120855 A TW107120855 A TW 107120855A TW 107120855 A TW107120855 A TW 107120855A TW 201921336 A TW201921336 A TW 201921336A
Authority
TW
Taiwan
Prior art keywords
parameter
keywords
information
candidate
determining
Prior art date
Application number
TW107120855A
Other languages
English (en)
Inventor
李秀林
Original Assignee
大陸商北京嘀嘀無限科技發展有限公司
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Priority claimed from CN201710451642.7A external-priority patent/CN109145281B/zh
Priority claimed from CN201710469290.8A external-priority patent/CN109101475B/zh
Application filed by 大陸商北京嘀嘀無限科技發展有限公司 filed Critical 大陸商北京嘀嘀無限科技發展有限公司
Publication of TW201921336A publication Critical patent/TW201921336A/zh

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/063Training
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • G10L15/1822Parsing for meaning understanding
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/226Procedures used during a speech recognition process, e.g. man-machine dialogue using non-speech characteristics
    • G10L2015/228Procedures used during a speech recognition process, e.g. man-machine dialogue using non-speech characteristics of application context

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Artificial Intelligence (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Telephonic Communication Services (AREA)
  • Navigation (AREA)

Abstract

提供了用於語音辨識的系統和方法。所述方法可以包括獲得由使用者發出的語音資訊的複數個候選辨識結果和與複數個候選辨識結果分別對應的複數個初步分數。所述方法可以進一步包括對於複數個候選辨識結果中的每一個候選辨識結果,從候選辨識結果中擷取一個或以上關鍵字,並且確定與一個或以上擷取的關鍵字關聯的至少一個參數。該方法進一步可以包括針對複數個候選辨識結果中的每一個候選辨識結果,基於所述至少一個參數產生更新係數,並基於所述更新係數更新初步分數以產生更新分數。該方法可以進一步包括從複數個候選辨識結果中基於複數個更新分數確定目標辨識結果。

Description

用於語音辨識的系統和方法
本申請總體上涉及語音資訊處理,尤其涉及用於語音辨識的方法和系統。
本申請主張2018年6月15日提交之申請號為PCT/CN2018/091430的PCT申請案、2017年6月15日提交之申請號為201710451642.7的中國申請案、以及2017年6月20日提交之申請號為201710469290.8的中國申請案的優先權,其內容以引用的方式分別被包含於此。
隨著電腦技術的發展,人機互動愈來愈受歡迎。人機互動的基本要求是電腦應該理解使用者提供的資訊。隨著聲學模型和語音辨識技術(如自動語音辨識(Automatic Speech Recognition, ASR)技術)的發展,由於語音資訊的便利性,語音資訊通常是使用者與電腦互動的首選。然而,目前的語音辨識方法通常是單一回合辨識,語音資訊僅轉換為一種可能的辨識結果。換句話說,不同場景下不同人提供的語音資訊可能會被辨識是相同的結果,只能匹配一個或幾個人的真實意圖。例如,「我想訂一個高桌晚宴」的語音資訊可以被認為是購買特定桌子的指令,而使用者實際上想在餐館預定正式晚餐。錯誤辨識結果通常不會被糾正並直接顯示給使用者。在電腦可以準確理解他/她的意思之前,使用者可能需要多次重述他的話。使用目前的語音辨識方法的這種經歷既不容易也不愉快。因此,希望提供用於更精確和更有效地辨識語音資訊的系統和方法。
根據本申請的一個態樣,提供了一種用於語音辨識的方法。所述方法可以在具有至少一個儲存裝置的計算裝置上實施,所述儲存裝置儲存用於語音辨識的指令集,所述計算裝置還具有以通訊方式連接到網路的資料交換埠,以及與所述至少一個儲存裝置和資料交換埠通訊的至少一個處理器。所述方法可以包括獲得由使用者發出的語音資訊的複數個候選辨識結果和與所述複數個候選辨識結果分別對應的複數個初步分數。所述方法可以進一步包括,針對複數個候選辨識結果中的每一個候選辨識結果,從候選辨識結果中擷取一個或以上關鍵字,並且確定與一個或以上擷取的關鍵字關聯的至少一個參數。所述方法進一步可以包括:針對複數個候選辨識結果中的每一個候選辨識結果,基於至少一個參數產生更新係數,並基於更新係數更新初步分數以產生更新分數。所述方法可以進一步包括基於來自複數個候選辨識結果的複數個更新分數來確定目標辨識結果。
在一些實施例中,確定與一個或以上擷取的關鍵字關聯的至少一個參數可以包括經由資料交換埠從資料庫獲得複數個樣本關鍵字。對於所擷取的所述一個或以上關鍵字中的每一個關鍵字,確定與所述一個或以上擷取的關鍵字關聯的至少一個參數進一步可以包括確定所述一個或以上擷取的關鍵字中的每一個關鍵字與所述複數個樣本關鍵字中的每一個樣本關鍵字之間的匹配度,從所述複數個樣本關鍵字中確定所述一個或以上目標樣本關鍵字,其中所述一個或以上目標樣本關鍵字中的每一個與所述擷取的關鍵字之間的匹配度可以高於匹配度臨界值。確定與所述一個或以上擷取的關鍵字關聯的所述至少一個參數進一步可以包括基於所述一個或以上目標樣本關鍵字,確定與所述一個或以上擷取的關鍵字關聯的所述至少一個參數。
在一些實施例中,所述至少一個參數可以包括檢索參數,並且基於所述一個或以上目標樣本關鍵字確定與所述一個或以上擷取的關鍵字關聯的所述至少一個參數,可以包括基於所述一個或以上目標樣本關鍵字和所述一個或以上擷取的關鍵字之間的所述匹配度確定檢索參數。
在一些實施例中,所述至少一個參數可以包括熱門(popularity)參數,並且基於所述一個或以上目標樣本關鍵字來確定與所述一個或以上擷取的關鍵字關聯的至少一個參數,可以包括獲得所述一個或以上目標樣本關鍵字的熱門度,並根據所述一個或以上目標樣本關鍵字的熱門度確定熱門參數。
在一些實施例中,所述至少一個參數可以包括偏好參數,並且基於所述一個或以上目標樣本關鍵字確定與所述一個或以上擷取的關鍵字關聯的所述至少一個參數,可以包括獲得所述使用者對於所述一個或以上目標樣本詞彙的偏好度,並基於所述一個或以上目標樣本關鍵字的偏好度確定偏好參數。
在一些實施例中,所述至少一個參數可以包括距離參數,基於所述一個或以上目標樣本關鍵字確定與所述一個或以上擷取的關鍵字關聯的所述至少一個參數,可以包括獲得與所述一個或以上目標樣本關鍵字關聯的位置資訊,並識別候選辨識結果中一個或以上位置類型指示字。對於緊接在所述一個或以上所識別的位置類型指示字之後的所述一個或以上擷取的關鍵字中的每一個關鍵字,基於所述一個或以上目標樣本關鍵字確定與所述一個或以上擷取的關鍵字關聯的所述至少一個參數,進一步可以包括基於相應的位置類型指示字來確定所擷取的關鍵字的位置類型,以及基於與所述一個或以上目標樣本關鍵字關聯的位置資訊以關聯的所述位置資訊及所述一個或以上擷取的關鍵字的每一個關鍵字的位置類型,確定與所述一個或以上擷取的關鍵字關聯的距離資訊。基於所述一個或以上目標樣本關鍵字確定與所述一個或以上擷取的關鍵字關聯的所述至少一個參數,進一步可以包括基於距離資訊確定距離參數。
在一些實施例中,所述方法進一步包括獲得第一數量的行進次數,所述第一數量的行進次數與在統計時間段中與至少一個行進方式中的每一個行進方式關聯的所述距離資訊相對應,以及確定與在統計時間段內所有所述至少一個行進方式關聯的距離資訊相對應的第二數量的行進次數。所述方法可以進一步包括,對於所述至少一個行進方式中的每一個行進方式,基於所述第一數量的行進次數和所述第二數量的行進次數確定行進方式的使用機率,並且獲得與語音資訊關聯的行進方式。所述方法進一步可以包括基於使用與所述語音資訊關聯的行進方式的機率來確定距離參數。
在一些實施例中,所述至少一個參數可以包括熱門參數、偏好參數、檢索參數或距離參數中的至少一個。基於所述至少一個參數產生更新係數可以包括基於所述熱門參數、所述偏好參數和所述檢索參數產生所述更新係數,或者基於所述距離參數和所述檢索參數產生所述更新係數。
在一些實施例中,所述目標辨識結果可以包括出發位置或目的地,並且所述方法進一步可以包括基於目標辨識結果產生服務請求。
在一些實施例中,所述方法可以進一步包括將所述服務請求傳輸到與服務供應商關聯的使用者終端。
根據本申請的另一態樣,提供了一種用於語音辨識的系統。所述系統可以包括至少一個儲存裝置,所述儲存裝置包括一組指令,所述系統可以包括以通訊方式連接到網路的資料交換埠,以及與所述至少一個儲存裝置和所述資料交換埠通訊的至少一個處理器。所述至少一個處理器可以被配置為執行所述指令集,並且導引為使所述系統獲得由使用者發出的語音資訊的複數個候選辨識結果以及與所述複數個候選辨識結果分別對應的複數個初步分數。所述至少一個處理器可以進一步導引為使所述系統針對所述複數個候選辨識結果中的每一個候選辨識結果,從所述候選辨識結果中擷取一個或以上關鍵字,確定與所述一個或以上擷取的關鍵字關聯的至少一個參數,基於所述至少一個參數產生更新係數,並基於更新係數更新初步分數以產生更新分數。所述至少一個處理器可以進一步導引為使所述系統從所述複數個候選辨識結果中基於所述複數個更新分數確定目標辨識結果。
根據本申請的另一態樣,提供了一種非暫時性電腦可讀取媒體。所述非暫時性電腦可讀取媒體可以包括用於語音辨識的一組指令。當由至少一個處理器執行時,該組指令可以導引至少一個處理器實現方法。所述方法可以包括獲得由使用者發出的語音資訊的複數個候選辨識結果和與複數個候選辨識結果分別對應的複數個初步分數。所述方法可以進一步包括,對於所述複數個候選辨識結果中的每一個,從所述候選辨識結果中擷取一個或以上關鍵字,確定與所述一個或以上擷取的關鍵字關聯的所述至少一個參數,基於所述至少一個參數產生更新係數,並基於所述更新係數更新初步分數以產生更新分數。所述方法可以進一步包括從複數個候選辨識結果中基於複數個更新分數確定目標辨識結果。
根據本申請的另一態樣,提供了一種用於語音辨識的方法。所述方法可以在具有至少一個儲存裝置的計算裝置上實施,所述儲存裝置儲存一組用於語音辨識的指令,所述計算裝置具有與所述至少一個儲存裝置通訊的處理器。所述方法可以包括獲得由當前使用者提供的語音資訊的複數個候選辨識結果和複數個初步分數,其中所述複數個初步分數中的每一個初步分數對應於所述候選辨識結果中的一個候選辨識結果。所述方法可以進一步包括基於預定關鍵字擷取規則,從所述複數個候選辨識結果中的每一個候選辨識結果中擷取預設類型的一個或以上關鍵字。所述方法進一步可以包括基於擷取的所述一個或以上關鍵字,來修正與所述複數個候選辨識結果中的每一個候選辨識結果相對應的初步分數,並且基於所述修正的結果來確定語音資訊的目標辨識結果。
在一些實施例中,基於所述一個或以上擷取的關鍵字修正與所述複數個候選辨識結果中的每一個候選辨識結果相對應的初步分數,可以包括基於所擷取的所述一個或以上關鍵字與預設樣本資料庫中的複數個樣本關鍵字之間的相似度,確定具有擷取的所述一個或以上擷取的關鍵字的複數個候選辨識結果中的每一個候選辨識結果的更新係數。基於所述一個或以上擷取的關鍵字來修正與所述複數個候選辨識結果中的每一個候選辨識結果相對應的所述初步分數,進一步可以包括基於所述更新係數更新與所述複數個候選辨識結果中的每一個候選辨識結果相對應的所述初步分數,以產生對應於所述複數個候選辨識結果中的每一個候選辨識結果的更新分數。
在一些實施例中,所述預設樣本資料庫進一步可以包括所述複數個樣本關鍵字的熱門資訊或當前使用者使用所述複數個樣本關鍵字的歷史資訊中的至少一個。
在一些實施例中,所述預設樣本資料庫可以進一步包括複數個樣本關鍵字的熱門資訊。基於擷取的所述一個或以上關鍵字與預設樣本資料庫中的複數個樣本關鍵字之間的相似度,來確定具有所述一個或以上擷取的關鍵字的所述複數個候選辨識結果中的每一個候選辨識結果的更新係數,可以包括確定所述一個或以上擷取的關鍵字和所述複數個樣本關鍵字的相似度,從所述複數個樣本關鍵字中選擇一個或以上樣本關鍵字,根據熱門資訊和熱門參數之間的第一轉換關係,將選擇的所述一個或以上樣本關鍵字的熱門資訊轉換為一個或以上熱門參數,並基於所述一個或以上熱門參數確定具有所述一個或以上擷取的關鍵字的複數個候選辨識結果中的每一個候選辨識結果的更新係數。所述一個或以上擷取的關鍵字與所述一個或以上選擇的樣本關鍵字之間的相似度可以大於相似度臨界值。
在一些實施例中,所述複數個樣本關鍵字的熱門資訊可以包括對應於所述複數個週期性統計時間段的所述複數個樣本關鍵字的複數個熱門度。根據熱門資訊與熱門參數的第一轉換關係,將所選擇的一個或以上樣本關鍵字的熱門資訊轉換為一個或以上熱門參數,包括確定當前時間所屬的統計時間段,從與所述複數個週期性統計時間段對應的所述一個或以上選擇的樣本關鍵字的複數個熱門度中,選擇與所述統計時間段對應的一個或以上熱門度,以及根據熱門度和熱門參數之間的第二轉換關係,將所述一個或以上熱門度轉換為所述複數個候選辨識結果中的每一個候選辨識結果的一個或以上熱門參數。
在一些實施例中,預設樣本資料庫進一步可以包括複數個樣本關鍵字的熱門資訊和當前使用者使用複數個樣本關鍵字的歷史資訊。基於擷取的所述一個或以上關鍵字與所述預設樣本資料庫中的複數個樣本關鍵字之間的相似度,來確定具有一個或以上擷取的關鍵字的所述複數個候選辨識結果中的每一個的更新係數,可以包括確定所述一個或以上擷取的關鍵字和所述複數個樣本關鍵字的相似度,根據相似度和檢索參數之間的第三轉換關係將所述相似度轉換為檢索參數,根據相似度和偏好參數之間的第四轉換關係將所述相似度轉換為偏好參數,以及基於所述相似度、所述複數個樣本關鍵字的所述熱門資訊以及熱門資訊與熱門參數之間的第一轉換關係來確定熱門參數。基於擷取的所述一個或以上關鍵字與所述預設樣本資料庫中的所述複數個樣本關鍵字之間的所述相似度,確定具有一個或以上擷取的關鍵字的所述複數個候選辨識結果中的每一個候選辨識結果的更新係數,可以進一步包括藉由將所述檢索參數加上或乘以所述偏好參數和所述熱門參數之間的較高值,來獲得具有所述一個或以上擷取的關鍵字的所述複數個候選辨識結果中的每一個候選辨識結果的更新係數。對於相同的相似度,根據相似度和偏好參數之間的第四轉換關係轉換的偏好參數,可以大於基於熱門資訊和熱門參數之間的第一轉換關係確定的熱門參數。
根據本申請的另一態樣,提供了一種用於語音辨識的裝置。所述裝置可以包括至少一個儲存裝置,所述儲存裝置包括一組指令,以及所述裝置可以包括與所述至少一個儲存裝置通訊的至少一個處理器。所述至少一個處理器可以被配置為執行該組指令。所述至少一個處理器可以包括資訊獲取模組,被配置為用於獲取當前使用者提供的語音資訊的複數個候選辨識結果以及複數個初步分數,其中所述複數個初步分數中的每一個初步分數對應於所述候選辨識結果中的一個候選辨識結果。所述至少一個處理器進一步可以包括資訊擷取模組,所述資訊擷取模組被配置為基於預定關鍵字擷取規則從所述複數個候選辨識結果中的每一個候選辨識結果中,擷取預設類型的一個或以上關鍵字。所述至少一個處理器進一步可以包括結果確定模組,被配置為用於基於所述一個或以上擷取的關鍵字修正與所述複數個候選辨識結果中的每一個候選辨識結果對應的初步分數,並基於所述修正結果確定所述語音資訊的目標辨識結果。
根據本申請的另一態樣,提供了一種非暫時性電腦可讀取媒體。所述非暫時性電腦可讀取媒體可以包括用於語音辨識的一組指令。當由所述至少一個處理器執行時,所述指令可以導引至少一個處理器實現一種方法。所述方法可以包括獲得由當前使用者提供的語音資訊的所述複數個候選辨識結果和所述複數個初步分數,其中所述複數個初步分數中的每一個初步分數對應於所述候選辨識結果中的一個候選辨識結果。所述方法也可以包括基於預定關鍵字擷取規則,從所述複數個候選辨識結果中的每一個候選辨識結果中擷取預設類型的一個或以上關鍵字。所述方法進一步可以包括基於擷取的所述一個或以上關鍵字,來修正與所述複數個候選辨識結果中的每一個候選辨識結果相對應的所述初步分數,並且基於所述修正的結果來確定所述語音資訊的目標辨識結果。
根據本申請的另一態樣,提供了一種用於運輸服務的語音辨識的方法。所述方法可以在具有至少一個儲存裝置的計算裝置上實施,所述儲存裝置儲存用於運輸服務中的語音辨識的一組指令,並且所述計算裝置具有與所述至少一個儲存裝置通訊的至少一個處理器。所述方法可以包括接收和分析語音資訊以產生語音資訊的複數個候選辨識結果和複數個初步分數。所述複數個初步分數中的每一個初步分數可以對應於所述複數個候選辨識結果中的一個候選辨識結果,從所述複數個候選辨識結果中的每一個候選辨識結果中擷取所述至少一個位置的資訊。所述方法可以進一步包括在所述資料庫中搜索與所述至少一個位置中的每一個位置匹配的一個或以上興趣點(point of interest, POI),並且基於搜索到的所述一個或以上POI和所述至少一個位置中的每一個位置的匹配結果,確定所述複數個候選辨識結果中的每一個候選辨識結果的第一參數。所述方法可以進一步包括確定所述複數個候選辨識結果中的每一個候選辨識結果中的所述至少一個位置中的每一個位置的位置類型,以及基於位置類型確定所述複數個候選辨識結果中的每一個候選辨識結果的第二參數。所述方法進一步可以包括基於對應於所述複數個辨識結果中的每一個候選辨識結果的所述初步分數、所述第一參數和所述第二參數,確定與所述複數個候選辨識結果中的每一個候選辨識結果相對應的更新分數。所述方法可以進一步包括確定與所述複數個候選辨識結果相對應的所述複數個更新分數中的最高更新分數,並輸出與所述最高更新分數相對應的辨識結果。
在一些實施例中,在資料庫中搜索與所述至少一個位置中的每一個位置匹配的一個或以上POI,並且基於搜索到的一個或以上POI與所述至少一個位置中的每一個位置之間的匹配結果,確定複數個候選辨識結果中的每一個候選辨識結果的第一參數可以包括:當在所述資料庫中找到與所述至少一個位置相匹配的POI時,將所述辨識結果的所述第一參數確定為1;當在所述資料庫中未找到與所述至少一個位置相匹配的POI時,確定所述資料庫中的所述一個或以上POI中的每一個POI與所述至少一個位置之間的匹配度;當所述一個或以上POI中的每一個POI與所述至少一個位置之間的匹配度小於或等於第一匹配度臨界值時,將所述辨識結果的所述第一參數確定為0;以及當所述一個或以上POI中的每一個POI與所述至少一個位置之間的匹配度大於所述第一匹配度臨界值時,基於所述匹配度確定所述辨識結果的第一參數,所述辨識結果的第一參數可以與匹配度成正比。
在一些實施例中,確定與複數個候選辨識結果中的每一個候選辨識結果相對應的至少一個位置中的每一個位置的位置類型,可以包括確定辨識結果是否可以在至少一個位置的資訊之前包括出發位置資訊。確定與複數個候選辨識結果中的每一個候選辨識結果相對應的至少一個位置中的每一個位置的位置類型,可以包括:回應於確定辨識結果中在任何至少一個位置的資訊之前不包括出發位置資訊,確定與語音資訊關聯的位置資訊作為出發位置。確定與複數個候選辨識結果中的每一個候選辨識結果相對應的至少一個位置中的每一個位置的位置類型,可以包括:回應於確定辨識結果可以在至少一個出發位置的資訊之前包括出發位置資訊,在所述資料庫中搜索與所述至少一個位置匹配的第一POI,並確定與所述第一POI對應的第一位置作為所述出發位置;或在資料庫中搜索複數個第二POI,確定與複數個第二POI中的每一個第二POI對應的第二位置,以及基於與複數個第二POI對應的第二位置確定第一平均位置作為出發位置。複數個第二POI中的每一個第二POI與所述至少一個位置之間的匹配度可以大於第二匹配度臨界值。
在一些實施例中,確定與所述複數個候選辨識結果中的每一個候選辨識結果相對應的所述至少一個位置中的每一個位置的位置類型,進一步可以包括確定所述辨識結果是否可以在所述至少一個位置的資訊之前包括目的地資訊。確定與所述複數個候選辨識結果中的每一個候選辨識結果相對應的所述至少一個位置中的每一個位置的位置類型,進一步可以進一步包括回應於確定所述辨識結果在任何所述至少第一位置的資訊之前不包括目的地資訊,產生用於通知使用者提供目的地資訊的通知。確定與所述複數個候選辨識結果中的每一個候選辨識結果相對應的所述至少一個位置中的每一個位置的位置類型,可以進一步包括回應於確定所述辨識結果可以在至少一個位置的資訊之前包括目的地資訊,在資料庫中搜索與所述至少一個位置的資訊匹配的第三POI,並確定與所述第三POI對應的第三位置作為所述目的地;或在所述資料庫中搜索複數個第四POI,確定與所述複數個第四POI中的每一個第四POI對應的第四位置,以及基於與所述複數個第四POI對應的所述第二位置確定第二平均位置作為所述目的地。所述複數個第四POI中的每一個第四POI與所述至少一個位置之間的匹配度可以大於第三匹配度臨界值。
在一些實施例中,基於位置類型來確定所述複數個候選辨識結果中的每一個候選辨識結果的所述第二參數,可以包括確定對於所述複數個候選辨識結果中的每一個候選辨識結果,從出發位置到目的地的距離資訊,確定對應於所述距離資訊的至少一個行進方式,確定在統計時間段中與所述至少一個行進方式中的每一個行進方式的距離資訊對應的行進次數,基於所述至少一個行進方式中的每一個行進方式相對應的行進次數與所述統計時間段中的行進總次數來確定所述至少一個行進方式中的每一個行進方式的使用機率,以及將所述使用機率確定為所述第二參數。
在一些實施例中,所述方法可以進一步包括將與每一個POI相關的名稱與對應於所述POI的位置進行相關(correlate),並且將所述相關儲存到資料庫中。
在一些實施例中,提供了一種計算裝置。所述計算裝置可以包括儲存一組指令的至少一個儲存裝置以及與所述至少一個儲存裝置通訊的至少一個處理器。當執行所述指令時,可以導引所述至少一個處理器來實施上述方法。
在一些實施例中,提供了一種非暫時性電腦可讀取媒體。所述非暫時性電腦可讀取媒體可以包括用於語音辨識的一組指令。當執行所述指令時,可以導引所述至少一個處理器來實現上述方法。
根據本申請的另一態樣,提供了一種用於運輸服務的語音辨識系統。所述系統可以包括至少一個儲存裝置,所述儲存裝置包括一組指令,所述系統包括與所述至少一個儲存裝置通訊的至少一個處理器。所述至少一個處理器可以被配置為執行該組指令。所述至少一個處理器可以包括初步分數確定模組,被配置為用於接收並分析語音資訊以產生所述語音資訊的複數個候選辨識結果和複數個初步分數,其中所述複數個初步分數中的每一個初步分數可以對應於複數個候選辨識結果中的一個候選辨識結果。所述至少一個處理器可以進一步包括擷取模組,被配置為用於從複數個候選辨識結果中的每一個候選辨識結果中擷取至少一個位置的資訊。所述至少一個處理器可以進一步包括第一參數分配模組,被配置為用於在資料庫中搜索與所述至少一個位置中的每一個位置匹配的一個或以上興趣點(POI),並且基於搜索到的一個或以上POI與所述至少一個位置中的每一個位置的匹配結果,來確定所述複數個候選辨識結果中的每一個候選辨識結果的第一參數。所述至少一個處理器可以進一步包括第二參數分配模組,被配置為用於確定所述複數個候選辨識結果中的每一個候選辨識結果中的所述至少一個位置中的每一個位置的位置類型,以及基於位置類型確定所述複數個候選辨識結果中的每一個候選辨識結果的第二參數。所述至少一個處理器進一步可以包括修正模組,被配置為用於基於第一參數和第二參數,確定與複數個候選辨識結果中的每一個候選辨識結果相對應的更新分數。所述至少一個處理器可以進一步包括輸出模組,被配置為用於確定與所述複數個候選辨識結果對應的複數個更新分數中的最高更新分數,並輸出與最高更新分數相對應的辨識結果。
另外的特徵將在接下來的描述中部分地闡述,並且對於本領域具有通常知識者在檢閱下文和附圖時將部分地變得顯而易見,或者可以通過示例的生產或操作而被學習。本申請的特徵可以通過實踐或使用在下面討論的詳細示例中闡述的方法、手段和組合的各個方面來實現和獲得。
下述描述是為了使本領域具有通常知識者能製造和使用本申請,並且該描述是在特定的應用及其要求的背景下提供的。對於本領域具有通常知識者來說,顯然可以對所揭露的實施例作出各種改變。另外,在不偏離本申請的精神和範圍的情況下,本申請中所定義的普遍原則可以適用於其他實施例和應用場景。因此,本申請並不限於所揭露的實施例,而應被給予與申請專利範圍一致的最寬泛的範圍。
此處使用的術語僅僅用來描述特定的示意性實施例,並且不具有限定性。如本申請和申請專利範圍中所示,除非上下文明確提示例外情形,「一」、「一個」、「一種」及/或「該」等詞並非特指單數,也可以包括複數。將進一步理解的是,當在本申請中使用時,術語「包括(comprises, comprising)」及/或「包含(includes, including)」指明所述特徵、整體、步驟、操作、組件及/或元件,但並不排除一個或以上其他特徵、整體、步驟、操作、組件、元件及/或其組合的存在或增加。
考慮到以下描述,本申請的這些和其他特徵與特性,以及結構的相關組件的操作方法和功能與部件的組合和製造的經濟性可以變得更加明顯。參考圖示,所有這些都構成本說明書的一部分,然而,應當理解的是,圖示僅僅是為了說明和描述目的,並不旨在限制本申請的範圍。應當理解的是,附圖並不是按比例的。
本申請中使用了流程圖用來說明根據本申請的實施例的系統所執行的操作。應當理解的是,流程圖的操作不一定按照順序來精確地執行。相反,可以按照倒序執行或同時處理各種步驟。此外,可以將一個或以上其他操作添加到這些流程圖中。從這些流程圖中移除一個或以上操作。
此外,雖然本申請中揭露的系統和方法主要關於運輸服務中的語音辨識,但是應該理解的是,這僅僅是一個示例性實施例。本申請的系統或方法可以應用於需要辨識語音資訊的任何其他種類場景的使用者。例如,本申請的系統或方法可以應用於電子商務服務、線上購物服務、語音控制系統或類似物或其任意組合。本申請的系統或方法的應用場景可以包括網頁、瀏覽器的外掛程式、客戶終端、客製系統、內部分析系統、人工智慧機器人或類似物或其任意組合。
本申請中的運輸服務的出發位置可以通過嵌入在無線裝置(例如,使用者終端等)中的定位技術來獲取。本申請中使用的定位技術可以包括全球定位系統(GPS)、全球導航衛星系統(GLONASS)、北斗導航系統(COMPASS)、伽利略定位系統,准天頂衛星系統(QZSS)、北斗(Beidou)導航衛星系統、無線保真(WiFi)定位技術或類似物或其任意組合。本申請中可以互換使用一種或以上種上述定位技術。例如,基於GPS的方法和基於WiFi的方法可以一起用作定位技術以定位無線裝置。
如本申請中所使用的,「語音(speech)資訊」可以指音訊(audio)資料流。術語「語音資訊」和「語音資料」可以互換使用。在一些實施例中,語音資訊可以由使用者終端(例如,行動電話、載具的內建裝置)的麥克風獲取。在一些實施例中,語音資訊可以在被使用者終端進一步處理之前(例如,當使用者正在通過語音「打字」時)被轉換為文字並且顯示在使用者終端的螢幕上。在一些實施例中,語音資訊可以被轉換為用於控制使用者終端的語音命令,例如播放音樂、撥打號碼等。在一些實施例中,可以將語音資訊轉換為服務請求(例如,計程車服務、導航服務等)。可以在語音資訊被辨識之後執行與服務請求有關的操作。例如,在目的地,出發位置及/或開始時間被辨識之後,可以將計程車服務傳輸給服務提供方(例如,駕駛員)。
本申請的一個態樣涉及用於語音辨識的系統及/或方法。例如,語音資訊可以從使用者終端獲得。語音資訊可以被處理以產生複數個候選辨識結果和對應的初步分數。可以進一步評估複數個候選辨識結果中的每一個候選辨識結果。例如,可以從複數個候選辨識結果中的每一個候選辨識結果中擷取一個或以上關鍵字。可以將一個或以上擷取的關鍵字與複數個樣本關鍵字進行比較,以從複數個樣本關鍵字中確定目標樣本關鍵字。可以基於一個或以上擷取的關鍵字來確定至少一個參數,所述至少一個參數包括與擷取的關鍵字和目標樣本關鍵字之間的匹配度關聯的檢索參數,與複數個使用者對目標樣本關鍵字的使用相關的熱門參數,與提供語音資訊的使用者對目標樣本關鍵字的使用相關的偏好參數,與基於目標樣本關鍵字確定的從出發位置到目的地的道路距離相關的距離參數或類似物或其任意組合。可以基於至少一個參數確定更新係數並且將所述更新係數用於更新與複數個候選辨識結果中的每一個候選辨識結果相對應的初步分數。可以基於更新分數從複數個候選結果中選擇目標辨識結果。
圖1係根據本申請的一些實施例所示的示例性語音辨識系統的示意圖。例如,語音辨識系統100可以是用於語音辨識服務的服務平臺。語音辨識系統100可以包括伺服器110、網路120、使用者終端130和儲存器140(也被稱為資料庫)。該伺服器110可包含處理引擎112。
伺服器110可以用於處理語音資訊。例如,伺服器110可以經由網路120從使用者終端130獲取使用者的語音資訊。伺服器110可以存取儲存器140中的資料庫,並且基於儲存器140中的資料庫辨識語音資訊。語音資訊的辨識結果可以經由網路120被傳輸回給使用者終端130。在一些實施例中,伺服器110可以是單個伺服器或伺服器組。該伺服器組可以是集中式或分散式的(例如,伺服器110可以是分散式系統)。在一些實施例中,伺服器110可以是本地的或遠端的。例如,伺服器110可以經由網路120存取儲存在使用者終端130及/或儲存器140中的資訊及/或資料。又例如,伺服器110可以直接連接到使用者終端130,及/或儲存器140以存取資訊及/或資料。在一些實施例中,伺服器110可在雲端平臺上執行。僅僅作為範例,該雲端平臺可以包括私有雲、公共雲、混合雲、社區雲、分散式雲、內部雲、多層雲或類似物或其任意組合。在一些實施例中,伺服器110可以在具有圖1中所示的一個或以上元件的計算裝置上實現,如圖2所示。
在一些實施例中,伺服器110可包含處理引擎112。處理引擎112可處理語音資訊以執行本申請中描述的伺服器110的一個或以上功能。在一些實施例中,處理引擎112可從使用者終端130獲得使用者的語音資訊,並辨識語音資訊以產生複數個候選辨識結果和複數個初步分數。處理引擎112進一步可以為每一個候選辨識結果確定更新係數,並基於更新係數更新初步分數。例如,處理引擎112可以從儲存在儲存器140中的一個或以上資料庫獲得目標資料,並基於目標資料確定更新係數。
處理引擎112進一步可以基於更新分數從候選辨識結果確定目標辨識結果。對於與服務請求相關的語音資訊,處理引擎112可以基於目標辨識結果產生服務請求,並且執行與服務請求相關的操作,例如產生服務請求,搜索與服務請求有關的服務提供方,將服務請求傳輸給服務提供方等。在一些實施例中,處理引擎112可以包括一個或以上處理引擎(例如,單核心處理引擎或多核心處理器)。僅作為範例,處理引擎112可包括中央處理單元(CPU)、特定應用積體電路(ASIC)、特定應用指令集處理器(ASIP)、圖形處理單元(GPU)、物理運算處理單元(PPU)、數位訊號處理器(DSP)、現場可程式閘陣列(FPGA)、可程式邏輯裝置(PLD)、控制器、微控制器單元、精簡指令集電腦(RISC)、微處理器或類似物或其任意組合。
網路120可以促進資訊及/或資料的交換。在一些實施例中,語音辨識系統100中的一個或以上元件(例如,伺服器110、使用者終端130及/或儲存器140)可以經由網路120在語音辨識系統100中向其他元件傳輸資訊及/或資料。例如,伺服器110可以經由網路120從使用者終端130獲得/獲取語音資訊。在一些實施例中,網路120可以是任意形式的有線或者無線網路,或其組合。僅作為示例,網路120可以包括電纜網路、有線網路、光纖網路、電信通訊網路、內部網路、網際網路、區域網路(LAN)、廣域網路(WAN)、無線區域網路(WLAN)、都會區網路(MAN)、廣域網路(WAN)、公共電話交換網路(PSTN)、藍牙TM 網、ZigBeeTM 網路、近場通訊(NFC)網路、全球行動通訊系統(GSM)網路、分碼多重存取(CDMA)網路、分時多重存取(TDMA)網路、分封無線業務(GPRS)網路、增強資料速率GSM演進(EDGE)網路、寬頻分碼多重存取(WCDMA)網路、高速下行鏈路分組接入(HSDPA)網路、長期演進(LTE)網路、使用者資料元協定(UDP)網路、傳輸控制協定/網際網路協定(TCP/IP)網路、短訊息服務(SMS)網路、無線應用協定(WAP)網路、超寬頻(UWB)網路、紅外線或類似物或其任意組合。在一些實施例中,伺服器110可以包括一個或以上網路存取點。例如,伺服器110可以包括有線或無線網路存取點,例如基站及/或網際網路交換點120-1、120-2等,語音辨識系統100的一個或以上元件可以通過該網路存取點連接到網路120交換資料及/或資訊。
使用者終端130可以與使用者關聯。在一些實施例中,使用者終端130可以從使用者獲取語音資訊。使用者終端130可以將語音資訊傳輸到伺服器110(例如,處理引擎112)。在一些實施例中,使用者終端130可以執行前述處理引擎112的一個或以上功能,諸如候選辨識結果的產生、目標辨識結果的確定或類似物。在一些實施例中,使用者終端130可以執行與語音資訊有關的操作,諸如播放音樂、撥打號碼、確定從出發位置到目的地的導航路線、產生服務請求等。在一些實施例中,使用者終端130可以包括行動裝置130-1、平板電腦130-2、膝上型電腦130-3、桌面電腦130-4或類似物或其任意組合。在一些實施例中,行動裝置130-1可包括智慧居家裝置,可穿戴裝置、智慧行動裝置、虛擬實境裝置、擴增實境裝置或類似物或其任意組合。在一些實施例中,智慧居家裝置可包括智慧照明裝置、智慧電器控制裝置、智慧監測裝置、智慧電視、智慧視訊攝影機、對講機或類似物或其任意組合。在一些實施例中,該可穿戴裝置可包括智慧手鐲、智慧鞋襪、智慧眼鏡、智慧頭盔、智慧手錶、智慧衣服、智慧背包、智慧附件或類似物或其任意組合。在一些實施例中,該智慧行動裝置可包括智慧型電話、個人數位助理(PDA)、遊戲裝置、導航裝置、銷售點(POS)裝置或類似物或其任意組合。在一些實施例中,該虛擬實境裝置及/或擴增實境裝置可包括虛擬實境頭盔、虛擬實境眼鏡、虛擬實境眼罩、擴增實境頭盔、擴增實境眼鏡、擴增實境眼罩或類似物或其任意組合。例如,虛擬實境裝置及/或擴充實境裝置可以包括Google Glass、Oculus Rift、Hololens、Gear VR等。在一些實施例中,機動載具130-4中的內建裝置可以包括車載電腦、車載電視等。在一些實施例中,使用者終端130可以是具有用於定位使用者及/或使用者終端130的定位技術的無線裝置。
儲存器140可以儲存資料及/或指令。在一些實施例中,儲存器140可以儲存從使用者終端130獲得/獲取的資料。在一些實施例中,儲存器140可以儲存伺服器110用來執行或使用來完成本申請揭示的示例性方法的資料及/或指令。例如,儲存器140可以儲存用於辨識語音資訊的辨識模型。又例如,儲存器140可以儲存一個或以上資料庫,例如樣本關鍵字資料庫(在運輸服務中使用時也稱為POI資料庫)、熱門資訊資料庫、偏好資料庫、行進方式資料庫或類似物或其組合。在一些實施例中,儲存器140可包括大容量儲存器、可抽取式儲存器、揮發性讀寫記憶體、唯讀記憶體(ROM)或類似物或其任意組合。示例性抽取式儲存器可包括隨身碟、軟碟、光碟、記憶卡、壓縮碟、磁帶等。示例性的揮發性讀寫記憶體可包括隨機存取記憶體(RAM)。示例性的RAM可以包括動態RAM(DRAM)、雙倍資料速率同步動態RAM(DDR SDRAM)、靜態RAM(SRAM)、閘流體RAM(T-RAM)和零電容器RAM(Z-RAM)(ROM)、可程式設計ROM(PROM)、可抹除可程式設計ROM(PEROM)、電可抹除可程式設計ROM(EEPROM)、光碟ROM(CD-ROM)和數位多功能光碟(digital versatile disk)ROM等。在一些實施例中,儲存器140可以在雲平臺上實現。僅僅作為範例,該雲端平臺可以包括私有雲、公共雲、混合雲、社區雲、分散式雲、內部雲、多層雲或類似物或其任意組合。
在一些實施例中,儲存器140可連接到網路120以與語音辨識系統100中的一個或以上元件(例如,伺服器110、使用者終端130等)進行通訊。語音辨識系統100中的一個或以上元件可以經由網路120存取儲存在儲存器140中的資料或指令。在一些實施例中,儲存器140可以直接連接到語音辨識系統100中的一個或以上元件(例如,伺服器110、使用者終端130等)或與之通訊。在一些實施例中,儲存器140可以是伺服器110的一部分。
在一些實施例中,語音辨識系統100中的一個或以上元件(例如,伺服器110、使用者終端130等)可以具有存取儲存器140的許可。在一些實施例中,語音辨識系統100中的一個或以上元件可以在滿足一個或以上條件時讀取及/或修正與使用者有關的資訊。例如,伺服器110可以從儲存器140獲得包括樣本關鍵字、熱門資訊、與使用者終端130的使用者關聯的偏好資訊、與至少一個行進方式有關的統計資料(也被稱為行進方式資訊)或類似物或其組合。
本領域具有通常知識者將理解,當語音辨識系統100的組件執行時,組件可以通過電信號及/或電磁信號執行。例如,當使用者終端130處理諸如輸入語音資料,識別或選擇物件的任務時,使用者終端130可以操作其處理器中的邏輯電路來執行這樣的任務。當使用者終端130將語音資訊傳輸到伺服器110時,伺服器110的處理器可以產生編碼該語言資訊的電信號。伺服器110的處理器然後可以將電信號傳輸到輸出埠。如果使用者終端130經由有線網路與伺服器110通訊,則輸出埠可以物理連接到纜線,纜線進一步將電信號傳輸到伺服器110的輸入埠。如果使用者終端130經由無線網路與伺服器110通訊,則服務請求方終端130的輸出埠可以是一個或以上天線,其將電信號轉換為電磁信號。在諸如使用者終端130及/或伺服器110的電子裝置內,當其處理器處理指示、傳輸指令及/或執行操作時,指令及/或操作可以經由電信號而被指揮。例如,當處理器從儲存媒體中取回或儲保資料時,處理器可以將電信號傳輸到儲存媒體的讀/寫裝置,儲存媒體可以讀取或寫入儲存媒體中的結構化資料。結構化資料可以經由電子裝置的匯流排以電信號的形式傳輸到處理器。這裡,電信號可以指一個電信號、一系列電信號及/或複數個離散電信號。
圖2係根據本申請的一些實施例所示的計算裝置的示例性硬體及/或軟體組件的示意圖。在一些實施例中,伺服器110及/或使用者終端130可以在圖2所示的計算裝置200上實現。例如,處理引擎112可以在計算裝置200上實施並且用於執行本申請中揭露的處理引擎112的功能。
計算裝置200可以用於實施這裡描述的語音辨識系統100的任何元件。例如,處理引擎112可以通過其硬體、軟體程式、韌體或其組合在計算裝置200上實施。為了方便儘管僅示出了一個這樣的電腦,這裡描述的與語音辨識服務相關的電腦功能可以在多個類似平臺上以分散式方式實現,以分配處理負載。
例如,計算裝置200可以包括連接到與之連接的網路的通訊埠250,以便於資料通訊。計算裝置200進一步可以包括用於執行程式指令的一個或以上處理器(例如,邏輯電路)形式的處理器(例如,處理器220)。例如,處理器220可以包括其中的介面電路和處理電路。介面電路可以被配置為用於從匯流排210接收電子信號,其中電子信號對用於處理電路處理的結構化資料及/或指令進行編碼。處理電路可以進行邏輯計算,然後確定編碼為電子信號的結論、結果及/或指令結果及/或指令。然後,介面電路可以經由匯流排210從處理電路發出電子信號。
示例性計算裝置可以進一步包括不同形式的程式儲存器和資料儲存器,包括例如待由計算裝置處理及/或傳送之各種資料檔的磁碟270、唯讀記憶體(ROM)230或隨機存取記憶體(RAM)240。示例性計算裝置進一步可以包括儲存待由處理器220執行之在ROM 230、RAM 240及/或另一類型的非暫態儲存媒體中的程式指令。本申請的方法及/或過程可以作為程式指令來實現。計算裝置200進一步可以包括支援電腦和其他元件之間的輸入/輸出的元件260,而支援介於電腦和其它元件之間的輸入/輸出。計算裝置200也可以通過網路通訊接收程式和資料。
僅僅為了說明,在圖2中僅示出了一個處理器。也可以考慮多個處理器220;因此,由一個處理器220執行的操作及/或方法步驟也可以由多個處理器聯合或單獨執行。例如,如果在本申請中計算裝置200的處理器220執行步驟A和步驟B兩者,則應該理解,步驟A和步驟B也可以由計算裝置200中的兩個不同處理器220聯合或單獨執行(例如,第一處理器執行步驟A並且第二處理器執行步驟B,或者第一和第二處理器共同執行步驟A和B)。
圖3係根據本申請的一些實施例所示的終端裝置的示例性硬體及/或軟體組件的示意圖。在一些實施例中,使用者終端130可以在圖1所示的終端裝置300上實施。終端裝置300可以是行動裝置,諸如乘客或駕駛員的行動電話、由駕駛員駕駛的載具上的內建裝置。如圖3所示,終端裝置300可以包括通訊平臺310、顯示器320、圖形處理單元(GPU)330、中央處理單元(CPU)340、輸入/輸出350、記憶體360和儲存器390。在一些實施例中,包括但不限於系統匯流排或控制器(未示出)的任何其他合適的元件也可以包括在終端裝置300中。
在一些實施例中,可以從儲存器390將行動的作業系統370(例如,iOSTM 、AndroidTM 、Windows PhoneTM 等)和一個或以上APP(應用程式)380載入到記憶體360中以便被CPU 340執行。在一些實施例中,終端裝置300可以包括用於獲取語音資訊的麥克風315或類似物。麥克風315可以在終端裝置300工作時或者在語音相關應用程式380運行時連續獲取語音資訊。例如,與語音相關的應用程式380可以包括線上運輸服務App(例如滴滴計程車)、電子商務應用程式(例如,淘寶、電子灣、亞馬遜)、語音控制應用程式(例如,SiriTM )等,當使用者打開語音相關應用程式380時,麥克風315可以連續地獲取語音資訊。在一些實施例中,終端裝置300可以包括錄製按鈕,使得當使用者按下並保持錄製按鈕時,麥克風315可以開始獲取語音資訊。麥克風315可以連續獲取語音資訊,直到使用者釋放按鈕或達到預設的記錄時間長度。又例如,語音相關應用程式380可以經由顯示器320在終端裝置300的圖形使用者介面(GUI)上提供錄製圖示(icon),使得當使用者觸摸錄製圖示時,麥克風315開始獲取語音資訊。在一些實施例中,CPU340可以從儲存器390獲得資料並辨識語音資訊,以基於從儲存器390獲得的資料來確定目標辨識結果。可選地或附加地,終端裝置300可以將語音資訊傳輸到伺服器110或處理引擎112以被辨識。在一些實施例中,目標辨識結果可以經由顯示器320顯示在終端裝置300的GUI上。在一些實施例中,除了目標辨識結果之外,候選辨識結果也可以按照更新分數的降冪顯示在顯示器320上。在一些實施例中,使用者可以確認及/或修正與目標辨識結果或與目標辨識結果有關的服務請求。使用者互動可以經由I/O 350來實現,並且經由網路120被提供給語音辨識系統100的伺服器110及/或其它元件。終端裝置300可以經由通訊平臺310傳輸/接收與語音資訊有關的資料。例如,終端裝置300可以經由通訊平臺310將語音資訊傳輸到伺服器110。
圖4係根據本申請的一些實施例所示的示例性語音辨識裝置的方塊圖。語音辨識裝置400可以與儲存媒體(例如,語音辨識系統100的儲存器140及/或終端裝置300的儲存器390)通訊,並且可以執行儲存在儲存媒體中的指令。在一些實施例中,處理引擎400可以包括資訊獲取模組410、資訊擷取模組420和結果確定模組430。
資訊獲取模組410可以被配置為用於獲取與語音辨識相關的資料/資訊。例如,資訊獲取模組410可以從使用者終端(例如,使用者終端130或其麥克風)獲得語音資訊。使用者終端可以獲取使用者終端當前使用者發出的語音資訊。資訊獲取模組410進一步可以獲取與使用者終端關聯的資訊,例如使用者終端獲取語音資訊時的使用者終端的定位資訊,與使用者關聯的使用者標識(例如,使用者帳號名稱)等或類似物或其組合。又例如,資訊獲取模組410可獲得語音資訊的複數個候選辨識結果和複數個初步分數。
資訊擷取模組420可以被配置為用於從每一個候選辨識結果中擷取一個或以上關鍵字。資訊擷取模組420可以基於預定規則擷取一個或以上關鍵字。例如,當語音資訊被用於運輸服務時,資訊擷取模組420可以擷取目的地指示字(也稱為目的地資訊)之後的內容作為目的地的關鍵字,並且擷取出發位置指示字(也稱為出發地資訊)之後的內容作為出發位置的關鍵字。
結果確定模組430可以被配置為用於確定語音資訊的目標辨識結果。例如,結果確定模組430可以基於擷取的一個或以上關鍵字,來修正與複數個候選辨識結果中的每一個候選辨識結果相對應的初步分數,並且基於修正的結果來確定語音資訊的目標辨識結果。在一些實施例中,結果確定模組430可以包括更新係數確定子模組和資訊修正子模組。更新係數確定子模組可以被配置為用於基於一個或以上擷取的關鍵字與預設樣本資料庫中複數個樣本關鍵字中的每一個樣本關鍵字之間的相似度(也稱為「匹配度」),來為具有一個或以上擷取的關鍵字的複數個候選辨識結果中的每一個候選辨識結果確定更新係數。例如,更新係數確定子模組可以從複數個樣本關鍵字中選擇一個或以上樣本關鍵字作為目標樣本關鍵字(也稱為「選擇的樣本關鍵字」),其中一個或以上擷取的關鍵字與一個或以上目標樣本關鍵字的相似度大於相似度臨界值。更新係數確定子模組可以基於與一個或以上目標樣本關鍵字關聯的至少一個參數來確定,所述至少一個參數包括檢索參數、熱門參數、偏好參數、距離參數或類似物或其組合。在一些實施例中,更新係數確定子模組可以包括相似度確定單元、檢索參數確定單元、偏好參數確定單元、熱門參數確定單元以及更新係數確定單元。相似度確定單元可以被配置為用於確定一個或以上擷取的關鍵字與複數個樣本關鍵字之間的相似度。檢索參數確定單元可以被配置為用於根據相似度和檢索參數之間的第三轉換關係將相似度轉換為檢索參數。偏好參數確定單元可以被配置為用於確定一個或以上擷取的關鍵字與複數個樣本關鍵字之間的相似度,並根據相似度和偏好參數之間的第四轉換關係,將相似度轉換為偏好參數。熱門參數確定單元可以被配置為用於基於相似度、複數個樣本關鍵字的熱門資訊以及熱門資訊和熱門參數之間的第一轉換關係,來確定熱門參數。更新係數確定單元可以被配置為用於藉由例如將檢索參數加上或乘以偏好參數和熱門參數二者之間的較高值,來確定具有一個或以上擷取的關鍵字的複數個候選辨識結果中的每一個候選辨識結果的更新係數。資訊修正子模組可以被配置為用於基於更新係數,來更新與複數個候選辨識結果中的每一個候選辨識結果相對應的初步分數,以產生與複數個候選辨識結果中的每一個候選辨識結果相對應的更新分數。例如,資訊修正子模組可以藉由將更新係數乘以初步分數來更新初步分數。在一些實施例中,對應於候選辨識結果的每一個更新係數可以被正歸化,即被轉換為0和1之間的數位。資訊修正子模組可以藉由將正歸化的更新係數乘以初步分數來更新初步分數。
在一些實施例中,語音辨識裝置400進一步可以包括初步分數確定模組、擷取模組、第一參數分配模組、第二參數分配模組、修正模組和輸出模組(圖中未示出)。這些模組中的一些或全部可作為子模組整合到結果確定模組430中。
初步分數確定模組可用被配置為於接收並分析語音資訊,以產生語音資訊的複數個候選辨識結果和複數個初步分數,其中複數個初步分數中的每一個初步分數對應於複數個候選辨識結果中的一個候選辨識結果。例如,初步分數確定模組可基於辨識模型(例如,辨識模型500)辨識語音資料,以產生複數個候選辨識結果和對應的初步分數。
第一參數分配模組可以用於在資料庫中搜索與所述至少一個位置中的每一個位置匹配的一個或以上興趣點(POI),並且基於搜索到的一個或以上POI與所述至少一個位置中的每一個位置之間的匹配結果,來確定所述每一個位置的第一參數(例如,檢索參數)。例如,當在資料庫中找到與至少一個位置相匹配的POI時,第一參數分配模組可以將辨識結果的第一參數確定為1;當在所述資料庫中未找到與所述至少一個位置相匹配的POI時,所述第一參數分配模組可以確定所述資料庫中的所述一個或以上POI中的每一個POI與所述至少一個位置之間的匹配度。當所述一個或以上POI中的每一個POI與所述至少一個位置之間的匹配度小於或等於第一匹配度臨界值時,所述第一參數分配模組可以將所述辨識結果的第一參數確定為0;並且當所述一個或以上POI中的每一個POI與所述至少一個位置之間的匹配度大於所述第一匹配度臨界值時,所述第一參數分配模組可以基於所述匹配度確定所述辨識結果的所述第一參數,其中辨識結果的第一參數可以與匹配度正相關(例如,成正比)。
第二參數分配模組可以被配置為用於確定複數個候選辨識結果中的每一個候選辨識結果的至少一個位置中的每一個位置的位置類型,並且基於位置類型確定複數個候選辨識結果中的每一個候選辨識結果的第二參數(例如,距離參數)。在一些實施例中,第二參數分配模組進一步可以包括出發位置確定子模組、目的地確定子模組、距離確定子模組和機率確定子模組。出發位置確定子模組可以被配置為用於基於至少一個位置來確定出發位置。目的地確定子模組可以被配置為用於基於至少一個位置來確定目的地。距離確定子模組可以被配置為用於針對複數個候選辨識結果中的每一個候選辨識結果確定距離資訊(例如,從出發位置到目的地的道路距離)。機率確定子模組可以被配置為用於基於統計時間段中的與至少一個行進方式中的每一個行進方式對應的行進次數和行進總次數,來確定至少一個行進方式中的每一個行進方式的使用機率。所述使用機率可以被確定為或轉換為第二參數。
修正模組可以被配置為用於基於第一參數、第二參數和初步分數,來確定與複數個候選辨識結果中的每一個候選辨識結果相對應的更新分數。
輸出模組可以被配置為用於確定與複數個候選辨識結果對應的複數個更新分數中的最高更新分數,並且輸出與最高更新分數對應的辨識結果。
在一些實施例中,語音辨識裝置400可以進一步包括相關(correlation)模組。相關模組可以被配置為用於將與每一個POI有關的描述(例如,名稱或位址)與對應於所述POI的位置進行相關,並且將相關儲存到資料庫中。例如,從候選辨識結果中擷取的關鍵字可以是使用者使用的與POI有關的描述,並且可以與樣本關鍵字相同或不同。相關模組可以儲存使用者使用的每一個POI有關的描述與對應於POI的位置之間的相關以更新資料庫。
應該注意的是,上面的描述僅僅是為了說明的目的而提供的,並不意圖限制本申請的範圍。對於本領域具有通常知識者而言,可以在本申請的導引下進行多種變化和修正。然而,這些變化和修正不背離本申請的範圍。上述模組、子模組或單元可以通過有線連接或無線連接彼此連接或通訊。在一些實施例中,兩個或以上模組/子模組/單元可以分別組合成單個模組/子模組/單元,並且任何一個模組/子模組/單元可以分別分成兩個或以上模組/子模組/單元。
圖5係根據本申請的一些實施例所示的用於語音辨識的示例性過程的示意圖。在一些實施例中,語音資訊505可以被輸入到辨識模型500。辨識模型500可以由使用者終端130及/或處理引擎112實施或包括在使用者終端130及/或處理引擎112中。基於語音資訊的輸入,辨識模型500可以基於語音資訊的輸入產生複數個候選辨識結果和對應的初步分數565作為輸出。每一個初步分數可以對應於候選辨識結果中的一個候選辨識結果。在一些實施例中,候選辨識結果可以是與單字、短語、句子或字母相關的文字資訊。
在一些實施例中,辨識模型500可以儲存在儲存器(例如,語音辨識系統100的儲存器140或終端裝置300的儲存器390)中。如圖5所示,辨識模型500可以包括前置處理器510、特徵擷取器520、聲學模型530、解碼器540、發音模型550和語言模型560。
前置處理器510可以預處理語音資訊505。例如,待辨識的語音資訊505可以被前置處理器510預處理以被分成複數個音訊訊框。在一些實施例中,語音資訊505的預處理可以進一步包括雜訊濾波、增強、通道均衡、域轉換,例如,經由傅立葉轉換(Fourier Transform, FT)的時-頻域轉換,經由逆傅立葉變換(Inverse Fourier Transform, IFT)的頻-時域轉換或類似物或其任意組合。
特徵擷取器520可以從轉換的音訊訊框中的頻域中擷取適當的聲學特徵資訊。
聲學模型530可以基於聲學特徵資訊確定對應於音訊信號的發音資料。例如,可以根據來自發音資料庫(例如,儲存在儲存器140中的發音資料)的複數個樣本發音和對應的樣本聲學特徵資訊來訓練聲學模型530。聲學模型530可以使用聲學特徵資訊作為輸入,以將聲學特徵資訊映射到對應於音訊訊框的發音。聲學模型530可以確定將音訊訊框映射到每一個發音的第一機率。在一些實施例中,發音模型550可以確定與發音相對應的複數個單字(word)或字元以及與所述單字或字元有關的第二機率。在一些實施例中,語言模型560可以包括不同語言單元(例如,單字、字元或短語)之間的相關以及與這些相關相對應的機率。語言模型560可以估計基於語言單元構建的各種文字的第三機率。
解碼器540可以基於聲學模型530、語言模型560和發音模型550來構建辨識網路。辨識網路中的每條路徑(類似於神經網路中的分支節點)可對應於文字及/或文字有關的發音。然後,解碼器540可以基於由聲學模型輸出的發音來確定辨識網路的每一個路徑的初步分數,從而獲得初步辨識結果和相應的初步分數。
在一些實施例中,處理引擎112或終端裝置300可以基於初步辨識結果和對應的初步分數,來確定複數個候選辨識結果和對應的初步分數565。例如,處理引擎112或使用者終端130可以從所有初步辨識結果中,選擇具有相對高的初步分數的複數個初步辨識結果作為候選辨識結果。僅作為示例,具有高於預定分數臨界值的初步分數的初步辨識結果可以被確定為候選辨識結果。又例如,對應於前N個分數的初步辨識結果可以被確定為候選辨識結果,N可以是大於1的自然數,諸如5、10、20等。在一些實施例中,所有的初步辨識結果可以被確定為候選辨識結果。
在一些實施例中,可以從候選辨識結果確定與語音資訊相對應的目標辨識結果。例如,處理引擎112或使用者終端130可以將與最高初始分數相對應的候選辨識結果確定為目標辨識結果。又例如,處理引擎112或使用者終端130可基於更新係數,進一步更新與候選辨識結果對應的初步分數以產生更新分數,並基於更新分數確定目標辨識結果。例如,在本申請的其他位置可以找到關於基於候選辨識結果確定目標辨識結果的詳細描述,例如在圖6及其描述中。
應該注意的是,上面的描述僅僅是為了說明的目的而提供的,並不意圖限制本申請的範圍。對於本領域具有通常知識者而言,可以在本申請的教導下進行多種變化和修正。然而,這些變化和修正不背離本申請的範圍。例如,前置處理器510及/或特徵擷取器520可以在辨識模型500中被省略。又例如,辨識模型500可位於語音辨識系統100之外。更特別地,語音辨識系統100外部的辨識模型500可辨識語音資訊,以產生候選辨識結果和相應的初步分數,並且語音辨識系統100(例如,伺服器110、處理引擎112、使用者終端130)可以直接獲得並處理候選辨識結果和對應的初步分數。
圖6係根據本申請的一些實施例所示的用於確定語音資訊的目標辨識結果的示例性過程的流程圖。過程600可以由語音辨識系統100執行。例如,過程600可以被實施為儲存在儲存器(例如,圖1中的語音辨識系統100的儲存器140、圖3中的終端裝置300的儲存器390)中的一組指令(例如,應用程式)。圖4中的語音辨識裝置400的模組可以執行指令集,並且當執行指令時,模組可以被配置為用於執行過程600。在一些實施例中,語音辨識裝置400的至少一部分可以在處理引擎112及/或終端裝置300上實施。以下呈現的所示過程600的操作旨在說明。在一些實施例中,過程600可以利用未描述的一個或以上附加操作及/或不利用所討論的一個或以上操作來完成。另外,圖6所示和下面描述的過程600的操作順序不是限制性的。
在610中,語音辨識裝置400(例如,資訊獲取模組410)可從使用者終端(例如,使用者終端130或其麥克風、終端裝置300或其麥克風)獲得語音資訊。使用者終端可以獲取使用者終端的使用者發出的語音資訊。在一些實施例中,語音辨識裝置400進一步可以獲得與使用者終端關聯的資訊,例如使用者終端獲取語音資訊時的使用者終端的定位資訊,與使用者關聯的使用者標識(例如,使用者帳號名稱)或類似物或其組合。
在620中,語音辨識裝置400(例如,結果確定模組)可以確定語音資訊的複數個候選辨識結果以及與複數個候選辨識結果相對應的複數個初步分數。在一些實施例中,語音資訊可以由辨識模型(例如,辨識模型500)辨識,以基於語音辨識方法來產生複數個候選辨識結果。語音辨識方法可以包括但不限於特徵參數匹配演算法、隱藏馬可夫模型(Hidden Markov Model, HMM)演算法、類神經網路(Artificial Neural Network, ANN)演算法等。
在一些實施例中,候選辨識結果和對應的初步分數的確定可以由處理引擎112及/或使用者終端130執行。可以成對地確定候選辨識結果及其對應分數,例如(候選辨識結果1,初步分數1)、(候選辨識結果2,初步分數2)等。初步分數可以是任何數字,例如10、30、500等或者落在0-1的範圍內,例如0.3、0.5、0.8等等。
在630中,語音辨識裝置400(例如,資訊擷取模組420)可以基於預定的關鍵字擷取規則從複數個候選辨識結果中的每一個候選辨識結果中擷取一個或以上關鍵字。
當語音辨識裝置400用於汽車招呼服務或導航服務時,所擷取的一個或以上關鍵字可以包括興趣點(POI)、街道名稱等。當語音辨識裝置400用於電子商務服務時,所擷取的一個或以上關鍵字可以包括商家名、商品名稱、價格。可以從安裝在輸入語音資訊之語音辨識裝置400中的軟體或App中擷取一個或以上關鍵字。例如,如果語音資訊被輸入到汽車招呼應用程式App或導航服務App,則可以擷取諸如POI、街道名稱或類似物的關鍵字。如果將語音資訊輸入到電子商務App,則可以擷取諸如商家名稱、商品名稱、價格等關鍵字。
在一些實施例中,候選辨識結果可以是文字形式,術語「候選辨識結果」和術語「辨識文字」可以互換使用。在一些實施例中,候選辨識結果可以是包括主語(subject)、謂語(predicate)、賓語(object)、副詞(adverbial)等的句子。有時,主語和副詞可以被省略。例如,候選人的辨識結果可能是:「我要去數位谷」、「去數位谷」、或者「我想在今天下午3點從西直門去數位谷」等。
預定關鍵字擷取規則可以是用於從候選辨識結果中擷取關鍵字的預定規則。可以存在多個擷取規則,並且以下示例性描述與基於結構範本的擷取規則關聯。在一些實施例中,結構範本可以基於歷史候選辨識結果來確定或者由使用者手動設置。在一些實施例中,可以將候選辨識結果中與結構範本匹配的內容確定為關鍵字。
以交通場景為例,與目的地有關的結構範本可以是{目的地指示字(也稱為目的地資訊)+POI(或位置)}。目的地指示字可以包括諸如「我要去」、「目的地是」、「去」等的文字。可以擷取目的地指示字之後的內容作為目的地的關鍵字。又例如,與出發位置有關的結構範本可以是{出發位置指示字(也稱為出發位置資訊)+POI(或位置)}。出發位置指示字可以包括諸如「我在」、「我位於」、「從」等的文字。可以擷取出發位置指示字之後的內容作為出發位置的關鍵字。當語音資訊被用於運輸服務時,這樣擷取的關鍵字也可以被稱為「疑似POI」。目的地指示字和出發位置指示字也可以被稱為位置類型指示字。僅僅作為例子,對於候選辨識結果「我想從西直門去數位谷」,由於出發位置指示字「從」緊挨在「西直門」之前,所以可以擷取「西直門」作為出發位置的疑似POI。類似地,由於在「數位谷」之前存在目的地指示字「去」,因此可以擷取「數位谷」作為目的地的疑似POI。
在一些實施例中,如果從候選辨識結果中未擷取到滿足預設類型的關鍵字,則可以減少候選辨識結果的初步分數,或者可以刪除候選辨識結果。在一些實施例中,如果從所有候選辨識結果中都沒有擷取出滿足預設類型的關鍵字,則可以向使用者終端130傳輸提示訊息,以通知使用者所提供的語音資訊可能沒有被辨識或者不足以產生服務請求或語音命令。提示訊息進一步可以包括針對使用者再次提供語音資訊的建議及/或指令。例如,提示訊息可能是「對不起,我沒有辨識出來。請再說一遍。」
在640中,語音辨識裝置400(例如,資訊獲取模組410)可以獲得與語音辨識關聯的一個或以上資料庫。與語音辨識關聯的一個或以上資料庫可以儲存在儲存媒體(例如,圖1中的語音辨識系統100的儲存器140,圖3中的終端裝置300的儲存裝置390)中。在一些實施例中,與語音辨識關聯的一個或以上資料庫可以包括樣本關鍵字資料庫、熱門資料庫、偏好資料庫、行進方式資料庫或類似物或其任意組合。樣本關鍵字資料庫可以包括在不同場景中使用的複數個樣本關鍵字,例如POI、街道名稱、商家名稱、商品名稱、食物名稱、常用語音命令、App名稱等。熱門資料庫可以包括與複數個使用者使用的複數個樣本關鍵字中的每一個樣本關鍵字相對應的熱門資訊(熱門度)。例如,熱門度可以包括使用次數(例如,總使用次數或使用頻率)及/或使用複數個樣本關鍵字中的每一個樣本關鍵字作為與待辨識語音資訊關聯的應用的輸入的機率。在一些實施例中,複數個樣本關鍵字中的每一個樣本關鍵字可以對應於複數個週期性統計時間段及/或複數個地理區域相關的複數個熱門度。週期性統計時間段可以包括一周、一個月或一個季節(春季、夏季、秋季和冬季)。週期性統計時間段還可以包括高峰時段例如上班途中的時間段和下班回家途中的時間段(例如,上午8:00-9:30、下午5:00-6:30)和非高峰時段。週期性統計時間段還可以包括工作日、週末、假日等。地理區域可以包括街區、街道、城市、城鎮、縣、省、國家、洲等等。
偏好資料庫可以包括與終端裝置的使用者正在使用的複數個樣本關鍵字中的每一個樣本關鍵字相對應的偏好資訊(例如,偏好度)。610中的終端裝置的使用者可以通過從終端裝置130獲得的使用者標識來識別。例如,偏好度可以包括與使用者關聯的歷史資訊,例如使用者以前是否使用過樣本關鍵字,過去使用者的使用次數及/或使用樣本關鍵字的機率等。在一些實施例中,複數個樣本關鍵字中的每一個樣本關鍵字可以對應於關於複數個週期性統計時間段及/或複數個地理區域的複數個偏好度。在一些實施例中,偏好資訊可以被包括在熱門資料庫中的熱門資訊中。例如,可以搜索熱門資料庫以產生關於樣本關鍵字的使用者的偏好資訊。
行進方式資料庫可以包括與各種距離資訊有關的行進方式資訊。行進方式資訊可包括使用數量或使用與各種距離資訊(例如,不同道路距離)相對應的複數個行進方式中的每一個行進方式的機率。例如,行進方式可以包括步行、騎自行車、開車、坐計程車、坐公共汽車、坐列車、坐飛機等。僅作為示例,行進方式資料庫可以包括與對應於複數個行進方式中的每一個行進方式的不同距離資訊有關的機率分佈資料。在一些實施例中,機率分佈資料可被描繪為對應於複數個行進方式的複數個機率曲線。每條機率曲線都可以展現對不同道路距離使用不同行駛方式的機率趨勢。例如,在坐計程車對應的機率曲線中,當道路距離小於1公里時,機率可能相對較低,當道路距離從1公里增加到20公里時,機率逐漸增加到相對較高的值。當道路距離從20公里增加到200公里時,機率可能急劇下降。
在一些實施例中,一個或以上資料庫可以被整合到一個資料庫中。例如,偏好資料庫可以被整合到熱門資料庫中。又例如,熱門資訊資料庫和偏好資訊資料庫可以被整合到樣本資料庫中。
在650中,語音辨識裝置400(例如,結果確定模組430)可以基於一個或以上擷取的關鍵字和與語音辨識關聯的一個或以上資料庫,來確定與複數個候選辨識結果中的每一個候選辨識結果相對應的更新係數。可以基於一個或以上擷取的關鍵字和歷史資料確定的至少一個參數來確定更新係數。該至少一個參數可以包括檢索參數、熱門參數、偏好參數、距離參數或類似物或其組合。
在一些實施例中,語音辨識裝置400可以確定擷取的關鍵字與複數個樣本關鍵字中的每一個樣本關鍵字之間的匹配度(也被稱為「相似度」),並且從複數個樣本中確定一個或以上目標樣本關鍵字。一個或以上目標樣本關鍵字中的每一個樣本關鍵字與擷取的關鍵字之間的匹配度可以高於第一匹配度臨界值。語音辨識裝置400可以基於一個或以上目標樣本關鍵字來確定至少一個參數。例如,可以基於一個或以上目標樣本關鍵字與一個或以上擷取的關鍵字之間的匹配度來確定檢索參數。熱門參數可以基於與一個或以上目標樣本關鍵字關聯的熱門資訊來確定。偏好參數可以基於與一個或以上目標樣本關鍵字關聯的偏好資訊來確定。距離參數可以基於與一個或以上目標樣本關鍵字關聯的行進方式資訊來確定。在一些實施例中,術語「檢索參數」也可以被稱為第一參數,並且術語「距離參數」也可以被稱為第二參數。關於確定至少一個參數的細節可以在本揭露的其他位置找到,例如在圖7及其描述中。
在一些實施例中,語音辨識裝置400可以基於至少一個參數的平均值或加權平均值、總和或加權總和、乘積或其組合來確定更新係數。還可以使用基於至少一個參數確定更新係數的其他方法,這些方法也在本申請的保護範圍內。僅作為示例,語音辨識裝置400可以確定熱門參數和偏好參數之間的較高值,並且藉由將較高值與檢索參數相加來確定更新係數。又例如,語音辨識裝置400可以藉由將檢索參數乘以距離參數來確定更新係數。在一些實施例中,對應於候選辨識結果的每一個更新係數可以被正歸化,即被轉換為0和1之間的數字。每一個更新係數的正歸化可以包括將更新係數中的每一個更新係數除以更新係數中的最高更新係數。例如,三個更新係數20、40、50可分別正歸化為0.4(20/50)、0.8(40/50)和1.0(50/50)。
在660中,語音辨識裝置400(例如,結果確定模組430)可基於更新係數來更新與複數個候選辨識結果中的每一個候選辨識結果相對應的初步分數,以產生與複數個候選辨識結果中的每一個候選辨識結果相對應的更新分數辨識結果。例如,語音辨識裝置400可以藉由將更新係數乘以初步分數來更新初步分數。候選辨識結果的更新分數可以被表示為,其中可以是初步分數,可以是用於確定檢索參數的函數,可以表示目標樣本關鍵字的匹配度或多個目標樣本關鍵字的平均匹配度,可以表示出發位置,可以表示目的地,可以表示用於確定兩個地點之間的道路距離的函數,可以表示與不同道路距離有關的機率分佈資料,可以是用於確定距離參數的函數,並且可以是用於基於檢索參數和距離參數確定更新分數的函數。在一些實施例中,語音辨識裝置400可以使用至少一個參數直接更新初步分數。例如,可以使用檢索參數來更新與每一個候選辨識結果對應的初步分數以產生更新的初步分數。可以使用距離參數進一步更新初步分數以產生更新分數。其他更新初步分數的方法也可以使用,並且這些方法也在本申請的保護範圍內。
在670中,語音辨識裝置400(例如,結果確定模組430)可以基於更新分數來確定語音資訊的目標辨識結果。在一些實施例中,語音辨識裝置400可以按照對應的更新分數對候選辨識結果進行降冪排序。例如,可以將與最高分相對應的候選辨識結果確定為目標辨識結果。目標辨識結果可以被傳輸到使用者終端及/或處理引擎112。在一些實施例中,與目標辨識結果有關的資訊也可以被傳輸給使用者終端及/或處理引擎112。例如,與目標辨識結果有關的資訊可以包括目標樣本關鍵字。目標樣本關鍵字可用於後續操作,例如產生服務請求。例如,可以將諸如出發位置和目的地的目標樣本關鍵字傳輸到處理引擎112以產生運輸服務請求。
在一些實施例中,候選辨識結果可以對應於與複數個行進方式對應的複數個距離參數。因此,候選辨識結果可以包括與複數個行進方式對應的複數個更新分數。語音辨識裝置400可比較與複數個候選辨識結果對應的所有更新分數,並將與最高分數相對應的候選辨識結果確定為目標辨識結果。在一些實施例中,與目標辨識結果對應的行進方式可以作為推薦的行進方式被傳輸到使用者終端。例如,當行進方式是自行車時,語音辨識裝置400可能為與運輸服務關聯的語音資訊產生最高更新分數0.5,並且對於與運輸服務關聯的相同語音資訊,當行進方式是汽車時,最高更新分數為0.8。語音辨識裝置400可以將具有更新分數0.8的候選辨識結果確定為目標辨識結果,並將汽車推薦為使用者的行進方式。如果使用者選擇自行車作為行進方式,則具有0.5的更新分數的候選辨識結果可以被確定為目標辨識結果。
在一些實施例中,可以將具有相對高的更新分數的目標辨識結果和複數個候選辨識結果傳輸給使用者終端。例如,相對較高的更新分數可以指高於分數臨界值的分數,或前三個/五個/十個分數等。使用者可以通過使用者終端130確認及/或修正目標辨識結果。在一些實施例中,基於目標辨識結果(例如,由伺服器110或處理引擎112)產生的服務請求也可以被傳輸到使用者終端130。使用者可以通過使用者終端確認及/或修正服務請求。在一些實施例中,所確認的服務請求可以被遞送給諸如駕駛員之類的服務提供方。
圖7係根據本申請的一些實施例的用於確定更新係數的示例性過程的流程圖。過程700可以由語音辨識系統100執行。例如,過程700可以被實施為儲存在儲存器(例如,圖1中的語音辨識系統100的儲存器140、圖3中的終端裝置300的儲存器390)中的一組指令(例如,應用程式)。處理引擎112,終端裝置300及/或圖4中的模組可以執行該組指令,並且當執行指令時,處理引擎112、終端裝置300及/或模組可以被配置為用於執行處理700。以下呈現的所示過程700的操作旨在說明。在一些實施例中,過程700可以利用未描述的一個或以上附加操作及/或沒有所討論的一個或以上操作來完成。另外,圖7所示和下面描述的過程700的操作順序不是限制性的。
在710中,語音辨識裝置400(例如,資訊獲取模組410)可以獲得與複數個候選辨識結果中的每一個候選辨識結果相對應的一個或以上擷取的關鍵字。在一些實施例中,可以基於預定關鍵字擷取規則擷取一個或以上擷取的關鍵字。例如,可以擷取緊接於結構範本之後的關鍵字。有關擷取關鍵字的詳細資訊,請參見本申請的其他位置,例如在圖6中的操作630的描述中。在一些實施例中,所擷取的關鍵字可以包括字元、單字、短語、句子或類似物。
在720中,語音辨識裝置400(例如,資訊獲取模組410)可以從一個或以上資料庫獲得複數個樣本關鍵字。在一些實施例中,一個或以上資料庫可以包括樣本關鍵字資料庫(在運輸服務中使用時也被稱為POI資料庫)、熱門資料庫、偏好資料庫、行進方式資料庫或類似物或其任意組合。例如,可以在操作640的描述中找到關於一個或以上資料庫的細節。
在730中,語音辨識裝置400(例如,結果確定模組430)可以確定一個或以上擷取的關鍵字中的每一個關鍵字與複數個樣本關鍵字中的每一個樣本關鍵字之間的匹配度。在一些實施例中,匹配度可以基於編輯距離演算法來確定。如本文所使用的,第一文字與第二文字之間的術語「編輯距離(edit distance)」可以指將第一文字轉換為第二文字所需的最小數量的編輯操作。一種適用的編輯操作可以包括用另一個字元替換一個字元、插入一個字元或刪除一個字元等。編輯距離可以與第一文字和第二文字之間的相似度成反比。即,編輯距離越小,第一文字和第二文字的相似度就越大。匹配度可以基於擷取的一個或以上關鍵字中的每一個關鍵字與複數個樣本關鍵字中的每一個樣本關鍵字之間的編輯距離來確定。
在一些實施例中,匹配度可以根據匹配長度來確定。例如,匹配度可以等於匹配長度與樣本關鍵字的總長度之比率(ratio)。如這裡所使用的,術語「匹配長度」是指樣本關鍵字中也存在的擷取的關鍵字中的單字或字元的數量。術語「關鍵字的總長度」是指樣本關鍵字中的單字或字元的總數。僅作為示例,從候選辨識結果中擷取的關鍵字可能與位置有關並且可能被稱為疑似POI。對於疑似POI「數字谷」(例如,擷取的關鍵字),如果在樣本關鍵字資料庫(也稱為「POI資料庫」)中找到樣本POI「數位谷」(例如,樣本關鍵字),語音辨識裝置400可以確定疑似POI「數位谷」和樣本POI「數位谷」完全匹配,並且擷取的關鍵字與樣本關鍵字之間的匹配度可以是1。對於疑似POI「中關村大街」,如果在POI資料庫中沒有找到樣本POI「中關村大街」,但在POI資料庫中存在樣本POI「中關村大街1號」和其他類似樣本POI,那麼疑似POI「中關村大街」和樣本POI「中關村大街1號」之間的匹配度可以根據匹配長度與樣本POI總長度的比率確定為5/7≈0.71,其中5是疑似POI「中關村大街」與樣本POI之間完全匹配的字數,7是樣本POI「中關村大街1號」的總字數。需要說明的是,還可以使用其他方法來確定一個或以上擷取的關鍵字中的每一個關鍵字與複數個樣本關鍵字中的每一個樣本關鍵字之間的匹配度,這些方法均在本申請的保護範圍內。
在740中,語音辨識裝置400(例如,結果確定模組430)可以從複數個樣本關鍵字中確定一個或以上目標樣本關鍵字,其中所述一個或以上目標樣本關鍵字中的每一個目標樣本關鍵字與所述一個或以上擷取的關鍵字中的每一個擷取的關鍵字之間的匹配度高於第一匹配度臨界值。第一匹配度臨界值可以是預定值。例如,當基於匹配長度確定匹配度時,第一匹配度臨界值可以是0-1之間的預定值,諸如0.4、0.5等等。
在750中,語音辨識裝置400(例如,結果確定模組430)可以基於一個或以上目標樣本關鍵字的一個或以上匹配度來確定檢索參數。基於匹配度和檢索參數之間的第三轉換關係,可以將匹配度轉換為檢索參數。例如,檢索參數可以與匹配度正相關或成比例。在一些實施例中,匹配度可以乘以調整比率以產生檢索參數。調整比率可以小於或大於1。又例如,檢索參數可以與匹配度相同。在一些實施例中,針對匹配小於第一匹配度臨界值的度數,對應的檢索參數可以是0。可選地或附加地,可以刪除相應候選辨識結果。
在一些實施例中,可以為每一個候選辨識結果確定對應於複數個目標樣本關鍵字的複數個匹配度。例如,可以基於複數個匹配度中的最高匹配度來確定與每一個候選辨識結果對應的檢索參數。可選地或附加地,可以基於大於第一匹配度臨界值的匹配度的平均值來確定檢索參數。
在760中,語音辨識裝置400(例如,結果確定模組430)可以基於一個或以上目標樣本關鍵字的熱門資訊來確定熱門參數。例如,熱門參數可以被確定為,其中可以表示用於將熱門資訊或熱門值轉換為熱門參數的函數。可以表示一個或以上目標樣本關鍵字的熱門資訊或熱門值,並且可以表示熱門參數。更具體地,可以基於熱門資訊和熱門參數之間的第一轉換關係,將一個或以上目標樣本關鍵字的熱門資訊轉換為熱門參數。或者,可以基於熱門資訊來確定熱門值(也被稱為「熱門度」)。可基於熱門度和熱門參數之間的第二轉換關係將熱門值轉換為熱門參數。
在一些實施例中,每一個目標樣本關鍵字可以對應於複數個週期性統計時間段及/或複數個地理區域的熱門資訊。語音辨識裝置400可以確定當前時間點及/或當前地理區域的統計時間段,並根據統計時間段及/或當前地理區域對應的熱門值確定熱門參數。可以基於使用次數(例如,總使用次數或使用頻率)及/或使用複數個樣本關鍵字中的每一個樣本關鍵字的機率來確定熱門值。
在一些實施例中,可以為每一個候選辨識結果確定對應於複數個目標樣本關鍵字的複數個熱門度。可以基於來自複數個熱門度的最高熱門值來確定與每一個候選辨識結果相對應的熱門參數。可選地或附加地,可以基於複數個熱門度的平均值來確定熱門參數。
在770中,語音辨識裝置400(例如,結果確定模組430)可以基於與使用者關聯的一個或以上目標樣本關鍵字的偏好資訊來確定偏好參數。基於偏好資訊和偏好參數之間的第三轉換關係,可以將偏好資訊轉換為偏好參數。
在一些實施例中,每一個目標樣本關鍵字可以對應於複數個週期性統計時間段及/或複數個地理區域的偏好資訊。語音辨識裝置400可以確定當前時間點及/或當前地理區域的統計時間段,並基於統計時間段及/或當前地理區域對應的偏好資訊確定偏好參數。如果偏好資訊包括提供語音資訊的使用者是否已經使用樣本關鍵字,則可以基於與目標樣本關鍵字相對應的匹配度來確定偏好參數。如果偏好資訊包括與使用次數(例如,總使用次數或使用頻率)關聯的偏好值及/或使用者使用複數個樣本關鍵字中的每一個樣本關鍵字的機率,則偏好參數可以基於與目標樣本關鍵字對應的偏好值來確定。在一些實施例中,對於相同的匹配度,根據匹配度和偏好參數之間的第四轉換關係轉換的偏好參數,大於基於熱門資訊和熱門參數之間的第一轉換關係確定的熱門參數。
在一些實施例中,可以為每一個候選辨識結果確定對應於複數個目標樣本關鍵字的複數個偏好度。例如,可以基於複數個匹配度中的最高匹配度或基於複數個匹配度的平均匹配度來確定偏好參數。又例如,可以基於來自複數個偏好參數的最高偏好值或基於複數個偏好參數的平均偏好值來確定偏好參數。
在780中,語音辨識裝置400(例如,結果確定模組430)可以基於一個或以上目標樣本關鍵字來確定距離參數。僅作為示例,使用者可以在語音辨識裝置400中輸入語音資訊以請求運輸服務。所述一個或以上擷取的關鍵字可以包括至少一個位置,諸如街道名稱、商店名稱、地址、POI等。距離參數可以基於出發位置和目的地之間的距離資訊來確定。例如,距離資訊可以是出發位置和目的地之間的道路距離。
語音辨識裝置400可以確定一個或以上擷取的關鍵字的位置類型。位置類型可以包括出發位置類型和目的地類型。例如,如果候選辨識結果在擷取的關鍵字之前包括與出發位置關聯的位置類型指示字(即,出發位置指示字或出發位置資訊),則語音辨識裝置400可以確定擷取關鍵字的位置類型作為出發位置類型。類似地,如果候選辨識結果在擷取的關鍵字之前包括與目的地關聯的位置類型指示字(即,目的地指示字或目的地資訊),則語音辨識裝置400可以將擷取關鍵字的的位置類型確定為目的地類型。
僅作為示例,如果出發位置類型的擷取的關鍵字和從一個或以上目標樣本POI之第一POI完全匹配,則可以將與第一POI相對應的第一位置確定為出發位置。如果沒有目標樣本POI與出發位置類型的擷取的關鍵字完全匹配,則可以從一個或以上目標樣本POI中選擇與匹配度高於第二匹配度臨界值相對應的複數個目標樣本POI,並將其確定為第二POI。第二匹配度可以高於或等於第一匹配度。語音辨識裝置400可以確定與第二POI相對應的第二位置。語音辨識裝置400進一步可以基於第二位置確定平均位置作為出發位置。類似地,如果一個或以上的目的地類型的擷取的關鍵字和一個或以上的目標樣本POI中的第三POI完全匹配,則可以將與第三POI相對應的第三位置確定為目的地。如果沒有目標樣本POI與目的地類型的擷取的目標樣本關鍵字完全匹配,則可以從一個或以上目標樣本POI中選擇與匹配度高於第三匹配度臨界值相對應的複數個目標樣本POI,並將其確定為第三POI。第三匹配度可以高於或等於第一匹配度。第三匹配度可以與第二匹配度相同或不同。語音辨識裝置400可以確定對應於第二POI的第四位置。語音辨識裝置400可以進一步基於第四位置確定第二平均位置作為目的地。
在一些實施例中,當沒有擷取到出發位置類型的關鍵字時,語音辨識裝置400可以獲得語音資訊的使用者終端的定位資訊,並確定使用者終端的定位資訊作為出發位置。當沒有擷取到目的地類型的關鍵字時,語音辨識裝置400可以向使用者終端發送提示訊息,以通知使用者語音資訊可能沒有被辨識到或者資訊不足以例如產生服務請求或語音命令,並且使用者可能需要再次提供語音資訊。語音辨識裝置400可以獲得重新提供的語音資訊,並且基於重新提供的語音資訊確定出發位置和目的地。
在一些實施例中,語音辨識裝置400可以基於從使用者終端接收到的資訊來確定使用者可能使用的至少一個行進方式。例如,如果語音辨識裝置400確定可以使用與線上汽車招呼服務關聯的語音資訊,則該至少一個行進方式可以是乘坐計程車。又例如,如果語音辨識裝置400確定可以使用與導航服務相關的語音資訊,則該至少一個行進方式可以包括步行、騎自行車、乘坐公共汽車、乘坐地鐵、乘坐計程車或類似物或其組合。距離參數可以基於與對應於至少一個行進方式中的每一個行進方式的不同距離資訊有關的機率分佈資料來確定。對應於行進方式的距離參數可以與使用行進方式在出發位置與目的地之間的道路距離行進的機率正相關。例如,當道路距離為1.5公里時,1.5公里對應的步行機率可以為0.3,1.5公里對應的騎自行車的機率可以為0.5,並且乘坐計程車的機率可以為0.2。與步行、騎自行車和乘坐計程車相對應的距離參數可分別基於0.3、0.5和0.2來確定。針對1.5公里,與騎自行車相對應的距離參數高於對應於步行和乘坐計程車的距離參數。
在790中,語音辨識裝置400(例如,結果確定模組430)可以基於檢索參數、熱門參數、偏好參數或距離參數中的至少一個來確定更新係數。例如,語音辨識裝置400可以基於至少一個參數的平均值或加權平均值、總和或加權和、乘積或其組合來確定更新係數。還可以使用基於至少一個參數確定更新係數的其他方法,這些方法在本申請的保護範圍內。有關確定更新係數的詳細資訊,請參見本申請其他位置,例如,在圖6中的操作650的描述中。
應該注意的是,上面的描述僅僅是為了說明的目的而提供的,並不意圖限制本申請的範圍。對於本領域具有通常知識者而言,可以在本申請的教導下進行多種變化和修正。然而,這些變化和修正不背離本申請的範圍。
圖8係根據本申請的一些實施例的用於語音辨識的示例性過程的示意圖。僅作為示例,語音資料810可以用於運輸服務。從候選辨識結果擷取的關鍵字可能與位置(例如,出發位置或目的地)有關並被稱為疑似POI。在一些實施例中,語音辨識裝置400可以從使用者終端(例如,使用者終端130、終端裝置300)獲得語音資料810。語音辨識裝置400可以基於辨識模型500辨識語音資料810以產生複數個候選辨識結果和對應的初步分數。辨識語音資料810的這種方法可以在例如圖5和圖6中找到。
在820中,語音辨識裝置400可基於預定關鍵字擷取規則從複數個候選辨識結果中的每一個候選辨識結果擷取一個或以上疑似POI。語音辨識裝置400可以藉由將疑似POI(即,所擷取的關鍵字)與一個或以上資料庫(諸如POI資料庫860、POI熱門資料庫870、POI偏好資料庫880或類似物)中的樣本POI(即,樣本關鍵字)進行比較,來評估複數個候選辨識結果中的每一個候選辨識結果的準確性。
在830中,語音辨識裝置400可根據疑似POI與POI資料庫860中的樣本POI之間的匹配度,來確定複數個候選辨識結果中的每一個候選辨識結果的檢索參數。POI資料庫860可以包括複數個樣本POI。每一個樣本POI可以包括對應於位置(例如,地理座標)的至少一個描述。該描述可以包括名稱、位址或類似物或其組合。語音辨識裝置400可以從樣本POI中選擇一個或以上目標樣本POI,其中一個或以上目標樣本POI與疑似POI之間的一個或以上匹配度係高於第一匹配度臨界值。檢索參數可以基於目標樣本POI和疑似POI之間的匹配度而被確定。
在840中,語音辨識裝置400可以基於疑似POI來確定熱門參數和偏好參數。例如,熱門參數可以根據POI熱門資料庫870中的目標樣本POI對應的熱門資訊來確定。POI熱門資料庫870可以包括對應於複數個樣本POI中的每一個樣本POI的熱門資訊。可以根據POI偏好資料庫880中的目標樣本POI對應的熱門資訊獲取偏好參數。POI偏好資料庫可以包括對應於與提供語音資訊的當前使用者關聯的每一個樣本POI的偏好資訊。
在850中,語音辨識裝置400可以基於檢索參數、熱門參數和偏好參數來確定目標辨識結果890。由於熱門參數和偏好參數都可以指示疑似POI的使用資訊,因此可以在熱門參數和偏好參數選擇具有較高值的二者之一。語音辨識裝置400可以基於檢索參數,和熱門參數與偏好參數之間具有較高值的參數,來確定與候選辨識結果對應的更新係數。可以基於更新係數更新候選辨識結果的分數,以產生候選辨識結果的更新分數。目標辨識結果890可以基於更新分數來選擇。例如,可以將與最高更新分數相對應的候選辨識結果確定為目標辨識結果890。
應該注意的是,上面的描述僅僅是為了說明的目的而提供的,並不意圖限制本申請的範圍。對於本領域具有通常知識者而言,可以在本申請的教導下進行多種變化和修正。然而,這些變化和修正不背離本申請的範圍。例如,POI資料庫860、POI熱門資料庫870和POI偏好資料庫880中的一個或以上可以被整合到一個資料庫中。
圖9係示出根據本申請的一些實施例的用於語音辨識的示例性過程的示意圖。僅作為示例,語音資訊910可以用於運輸服務。從候選辨識結果中擷取的關鍵字可能涉及位置(例如,出發位置或目的地)並被稱為疑似POI。在一些實施例中,語音辨識裝置400可以從使用者終端(例如,使用者終端130、終端裝置300)獲得語音資訊910。語音辨識裝置400可以基於辨識模型500辨識語音資訊910,以產生複數個候選辨識結果和對應的初步分數。這種辨識語音資訊910的方法可以在例如圖5和圖6中找到。
在920中,語音辨識裝置400可以擷取一個或以上疑似POI。在一些實施例中,可以獲得n 個疑似POI。語音辨識裝置400可以藉由將疑似POI與一個或以上資料庫(比如POI資料庫970,行進方式資料庫980或類似物)中的樣本POI進行比較來確定更新係數。
在930中,語音辨識裝置400可根據一個或以上疑似POI與POI資料庫970中的樣本POI之間的匹配度,來確定複數個候選辨識結果中的每一個候選辨識結果的檢索參數。POI資料庫970可以包括複數個樣本POI。可以將與高於第一匹配度臨界值的匹配度對應的樣本POI確定為目標樣本POI。在一些實施例中,可基於檢索參數更新每一個疑似POI的初步分數。例如,對應於候選辨識結果的更新的初步分數可以被表達為,其中是用於基於檢索參數確定更新的初步分數的函數,可以表示與該候選辨識結果對應的初步分數,並且可以表示與候選辨識結果對應的檢索參數。例如,更新的初步分數可以藉由將初步分數乘以檢索參數來獲得,該動作可以表示為
在940中,語音辨識裝置400可以確定道路距離。道路距離可以基於出發位置和目的地的GPS資訊來確定。出發位置和目的地可以基於與一個或以上疑似POI匹配的樣本POI和疑似POI的位置類型(例如,它是出發位置還是目的地)來確定,例如在圖7的操作780中所描述的。如果沒有從候選辨識結果中擷取出發位置類型的疑似POI,則使用者終端的定位資訊可以由GPS確定。如果沒有擷取目的地類型的疑似POI,則可以向使用者終端傳輸提示訊息,以通知使用者語音資訊可能不被辨識或者資訊不足以例如產生服務請求或語音命令。在一些實施例中,如果疑似POI與POI資料庫中的目標樣本POI完全匹配(即,匹配度為1),則直接擷取目標樣本POI的位置資訊以確定出發位置或目的地。在一些實施例中,M 個目標樣本POI可以基於對應於目標樣本POI的匹配度以降冪排列。語音辨識裝置400可以基於與M 個目標樣本POI對應的GPS資訊確定平均位置作為出發位置或目的地。在一些實施例中,語音辨識裝置400可以獲得經由使用者終端提供語音資訊的使用者採用的至少一個行進方式。在一些實施例中,可以確定對應於至少一個行進方式中的每一個行進方式的道路距離。
在950中,語音辨識裝置400可以確定距離參數。距離參數可以根據與行進資料庫中的複數個行進方式中的每一個行進方式對應的不同距離資訊(例如,不同道路距離)有關的機率分佈資料來確定。可以針對至少一個行進方式中的每一個行進方式,確定與在操作940中確定的道路距離對應的機率,並將其確定為或轉換為距離參數。在一些實施例中,每一個候選辨識結果的更新分數可以表示為,其中可以表示基於檢索參數確定的更新的初步分數,可以表示出發位置,可以表示目的地,可以表示用於確定兩個位置之間的道路距離的函數,可以表示與不同道路距離有關的機率分佈資料,可以是用於確定與道路距離相對應的目標機率的函數,並且可以是用於基於更新的初步分數和距離參數來確定更新分數的函數。在一些實施例中,語音辨識裝置400可以基於檢索參數和距離參數來確定更新係數。可以使用更新係數來更新初步分數以產生更新分數。
在960中,語音辨識裝置400可以確定目標辨識結果990。在一些實施例中,每一個候選辨識結果可對應於與至少一個行進方式關聯的至少一個更新分數。例如,語音辨識裝置400可比較所有更新分數並將與最高的更新分數相對應的候選辨識結果確定為目標辨識結果。在一些實施例中,目標辨識結果和與目標辨識結果有關的資訊可以被傳輸到使用者終端130或處理引擎112。與目標辨識結果有關的資訊可以包括一個或以上目標樣本關鍵字及/或與目標辨識結果對應的行進方式。一個或以上目標樣本(例如,出發位置,目的地)可以用於後續操作,例如產生服務請求。與目標辨識結果對應的行進方式可以被確定針對使用者的推薦行進方式。僅作為示例,服務請求可以是線上汽車招呼服務的請求。服務請求可以被傳輸到與服務供應商關聯的使用者終端(例如,駕駛員)。
應該注意的是,上面的描述僅僅是為了說明的目的而提供的,並不意圖限制本申請的範圍。對於本領域具有通常知識者而言,可以在本申請的教導下進行多種變化和修正。然而,這些變化和修正不背離本申請的範圍。
圖10係根據本申請的一些實施例的用於基於語音資訊產生服務請求的示例性介面的示意圖。圖10中的介面1010-1040是與線上汽車招呼服務相關的示例性介面。例如,線上汽車招呼服務可以由諸如「滴滴計程車」之類的汽車招呼APP提供。
當使用者通過使用者終端(例如,使用者終端130、終端裝置300)請求服務時,使用者終端可以使用諸如GPS的定位技術來獲得使用者終端的當前位置,並且如介面1010所示,在使用者終端的顯示器上顯示使用者終端的當前位置周圍的地圖。可以在介面1010上顯示複數個街道的名稱,例如「同福街」、「永康街」等。滴滴計程車應用程式可以為使用者提供兩個選項,即現在提出服務請求,或為未來的服務請求預約。例如,使用者可以點選帶有文字「現在」的圖示來提出服務請求。
在介面1010中點選「現在」之後,介面1020可以顯示在使用者終端的螢幕上。顯示麥克風圖示以指示使用者可以說話以提供所需的資訊。在介面1020中顯示帶有文字「按住並說話」的圖示。使用者可以按下並保持按鈕圖示進行講話,使用者終端的麥克風可以獲取講話資訊。另外或可選地,使用者可以按下並保持終端裝置上用於說話的按鈕,諸如主頁按鈕、音量按鈕或其任何組合。例如,使用者可能會說,「我想去北大」。當使用者釋放圖示或者達到預設的記錄時間長度時,麥克風可以停止獲取語音資訊。在獲取語音資訊之後,使用者終端可以執行語音辨識操作。或者,使用者終端可以將語音資訊傳輸給伺服器(例如,圖1中的伺服器110),並且伺服器可以執行語音辨識操作。基於語音資訊可以產生複數個候選辨識結果,並且可以從複數個候選辨識結果中選擇目標辨識結果。這種方法可以在例如圖6-8中找到。如果語音辨識操作由伺服器執行,則可以向使用者終端傳輸多個候選辨識結果及/或目標辨識結果。
在介面1030中,在「辨識文字」下顯示「我要去北京大學」的目標辨識結果。四個候選辨識結果的列表(例如,「我想去北京動物園」等)在文字「候選文字」下顯示在介面1030中。使用者可以確認辨識的文字或者從清單中選擇候選文字,例如,通過點選辨識的文字或選擇的候選文字。如果辨識的文字和候選文字不準確,則使用者可以編輯辨識的文字或候選文字。或者,使用者可以再次錄製單字以更新辨識的文字。
在辨識的文字被確認之後,使用者終端可以在介面1040中產生服務請求。螢幕上可顯示服務請求的出發位置和目的地。例如,可以基於使用者終端的定位資訊來確定出發位置。目的地可以是與目標辨識結果對應的目的地類型的樣本關鍵字。在介面1040中,出發位置在文字「從」下顯示為「當前位置」,並且目的地在「到」文字下顯示為「北京大學」。如果需要,使用者也可以修正出發位置及/或目的地。使用者可以點選「確認」圖示來確認服務請求。否則,使用者可以點選「取消」圖示取消服務請求。如果使用者確認服務請求,則可以發起服務請求並將其傳輸給服務供應商(例如,駕駛員)。
應該注意的是,上面的描述僅僅是為了說明的目的而提供的,並不意圖限制本申請的範圍。對於本領域具有通常知識者而言,可以在本申請的教導下進行多種變化和修正。然而,這些變化和修正不背離本申請的範圍。例如,使用者終端介面上顯示的內容可以與介面1010-1040不同。
上文已對基本概念做了描述,顯然,對於已閱讀此詳細揭露的本領域具有通常知識者來講,上述詳細揭露僅作為示例,而並不構成對本申請的限制。雖然此處並沒有明確說明,本領域具有通常知識者可能會對本申請進行各種變更、改良和修改。該類變更、改良和修改在本申請中被建議,並且該類變更、改良、修改仍屬於本申請示範實施例的精神和範圍。
同時,本申請使用了特定術語來描述本申請的實施例。如「一個實施例」、「一實施例」、及/或「一些實施例」意指與本申請至少一個實施例相關所描述的一特定特徵、結構或特性。因此,應強調並注意的是,本說明書中在不同部分兩次或以上提到的「一實施例」或「一個實施例」或「一替代性實施例」並不一定是指同一實施例。此外,本申請的一個或以上實施例中的某些特徵、結構或特性可以進行適當的組合。
此外,本領域具有通常知識者可以理解,本申請的各個態樣可以通過若干具有可專利性的種類或情況進行說明和描述,包括任何新的和有用的過程、機器、產品或物質的組合,或對他們的任何新的和有用的改良。相應地,本申請的各個態樣可以完全由硬體執行、可以完全由軟體(包括韌體、常駐軟體、微代碼等)執行、也可以由硬體和軟體組合執行。以上硬體或軟體均可被稱為「單元」、「模組」或「系統」。此外,本申請的各態樣可以採取具體化為在一個或以上電腦可讀取媒體中的電腦程式產品的形式,其中具有電腦可讀取程式碼。
電腦可讀取訊號媒體可能包括一個內含有電腦程式編碼的傳播資料訊號,例如在基頻上或作為載波的一部分。這種傳播的信號可以採用多種形式中的任何形式,包括電磁、光學或類似物或其任何適當的組合。電腦可讀取訊號媒體可以是除電腦可讀取儲存媒體之外的任何電腦可讀取媒體,該媒體可以通過連接至一個指令執行系統、裝置或設備以實現通訊、傳播或傳輸供使用的程式。內含於電腦可讀取訊號媒體上的程式編碼可以通過任何合適的介質進行傳播,包括無線電、纜線、光纖電纜、RF、或類似介質、或任何上述介質的合適組合。
用於執行本申請的各個態樣的操作的電腦程式碼可以以一種或以上程式設計語言的組合來編寫,所述程式設計語言包括物件導向的程式設計語言,諸如Java、Scala、Smalltalk、Eiffel、JADE、Emerald、C++、C#、VB;常規流程程式設計語言,諸如「C」程式設計語言,Visual Basic、Fortran 2003、Perl、COBOL 2002、PHP、ABAP;動態程式設計語言(諸如Python、Ruby和Groovy);或其他程式設計語言。該程式碼可以完全在使用者電腦上運行、或作為獨立的套裝軟體在使用者電腦上運行、或部分在使用者電腦上運行部分在遠端電腦上運行、或完全在遠端電腦或伺服器上運行。在後種情況下,遠端電腦可以通過任何網路形式與使用者電腦連接,包括區域網路(LAN)或廣域網路(WAN)、或連接至外部電腦(例如,通過使用網路服務供應商之網際網路)、或在雲端計算環境中、或作為服務使用如軟體即服務(SaaS)。
此外,除非請求項中明確說明,本申請所述處理元素和序列的順序、數字字母的使用、或其他名稱的使用,並非意欲限定本申請過程和方法的順序。儘管上述揭露中通過各種示例討論了一些目前認為有用的發明實施例,但應當理解的是,該類細節僅起到說明的目的,附加的請求項並不僅限於揭露的實施例,相反,請求項意欲覆蓋所有符合本申請實施例精神和範圍的修正和均等組合。例如,雖然以上所描述的系統組件可以通過硬體裝置實現,但是也可以只通過軟體的解決方案得以實現,如在現有的伺服器或行動裝置上安裝所描述的系統。
同理,應當注意的是,為了簡化本申請揭示的表述,從而幫助對一個或以上發明實施例的理解,前文對本申請實施例的描述中,有時會將多種特徵歸併至一個實施例、附圖或對其的描述中。但是,這種揭示方法並不意味著本申請對象所需要的特徵比每一個請求項中涉及的特徵多。實際上,所要求保護的標的之特徵要少於上述揭露的單個實施例的全部特徵。
100‧‧‧語音辨識系統
110‧‧‧伺服器
112‧‧‧處理引擎
120‧‧‧網路
120-1‧‧‧網際網路交換點
120-2‧‧‧網際網路交換點
130‧‧‧使用者終端
130-1‧‧‧行動裝置
130-2‧‧‧平板電腦
130-3‧‧‧膝上型電腦
130-4‧‧‧桌面電腦
140‧‧‧儲存器
200‧‧‧計算裝置
210‧‧‧匯流排
220‧‧‧處理器
230‧‧‧唯讀記憶體
240‧‧‧隨機存取記憶體
250‧‧‧通訊埠
260‧‧‧輸入/輸出元件
270‧‧‧磁碟
300‧‧‧終端裝置
310‧‧‧通訊平臺
315‧‧‧麥克風
320‧‧‧顯示器
330‧‧‧圖形處理單元
340‧‧‧中央處理單元
350‧‧‧輸入/輸出
360‧‧‧記憶體
370‧‧‧行動作業系統
380‧‧‧應用程式
390‧‧‧儲存器
400‧‧‧語音辨識裝置
410‧‧‧資訊獲取模組
420‧‧‧資訊擷取模組
430‧‧‧結果確定模組
500‧‧‧辨識模型
505‧‧‧語音資訊
510‧‧‧前置處理器
520‧‧‧特徵擷取器
530‧‧‧聲學模型
540‧‧‧解碼器
550‧‧‧發音模型
560‧‧‧語言模型
565‧‧‧初步分數
600‧‧‧過程
610‧‧‧步驟
620‧‧‧步驟
630‧‧‧步驟
640‧‧‧步驟
650‧‧‧步驟
660‧‧‧步驟
670‧‧‧步驟
700‧‧‧過程
710‧‧‧步驟
720‧‧‧步驟
730‧‧‧步驟
740‧‧‧步驟
750‧‧‧步驟
760‧‧‧步驟
770‧‧‧步驟
780‧‧‧步驟
790‧‧‧步驟
810‧‧‧語音資料
820‧‧‧步驟
830‧‧‧步驟
840‧‧‧步驟
850‧‧‧步驟
860‧‧‧POI資料庫
870‧‧‧POI熱門資料庫
880‧‧‧POI偏好資料庫
890‧‧‧目標辨識結果
910‧‧‧語音資訊
920‧‧‧步驟
930‧‧‧步驟
940‧‧‧步驟
950‧‧‧步驟
960‧‧‧步驟
970‧‧‧POI資料庫
980‧‧‧行進方式資料庫
990‧‧‧目標辨識結果
1010‧‧‧介面
1020‧‧‧介面
1030‧‧‧介面
1040‧‧‧介面
本申請以示例性實施例的方式來進一步描述。這些示例性實施例參考至圖式而被詳細地描述。這些實施例是非限制性的示例性實施例,其中相同的元件符號代表整個圖式的數個視圖之相似結構,並且其中: 圖1係根據本申請的一些實施例的示例性語音辨識系統的示意圖; 圖2係根據本申請的一些實施例的示例性計算裝置的示例性硬體及/或軟體組件的示意圖; 圖3係根據本申請的一些實施例所示的示例性終端裝置的示意圖; 圖4係根據本申請的一些實施例所示的示例性語音辨識裝置的方塊圖; 圖5係根據本申請的一些實施例所示的用於語音辨識的示例性過程的示意圖; 圖6係根據本申請的一些實施例所示的用於確定語音資訊的目標辨識結果的示例性過程的流程圖; 圖7係根據本申請的一些實施例所示的確定更新係數的示例性過程的流程圖。 圖8係根據本申請的一些實施例所示的用於語音辨識的示例性過程的示意圖; 圖9係根據本申請的一些實施例所示的用於語音辨識的示例性過程的示意圖;以及 圖10係根據本申請的一些實施例所示的用於基於語音資訊產生服務請求的示例性介面的示意圖。

Claims (48)

  1. 一種在計算裝置上實施的方法,所述計算裝置具有至少一個儲存裝置、資料交換埠和至少一個處理器,所述儲存裝置儲存用於語音辨識的一組指令,所述資料交換埠以通訊方式連接到網路,所述至少一個處理器與所述至少一個儲存裝置和所述資料交換埠通訊,所述方法包括: 獲得由使用者發出的語音資訊的複數個候選辨識結果和與所述複數個候選辨識結果分別對應的複數個初步分數; 對於所述複數個候選辨識結果中的每一個候選辨識結果, 從所述候選辨識結果中擷取一個或以上關鍵字; 確定與所述一個或以上擷取的關鍵字關聯的至少一個參數; 基於所述至少一個參數產生更新係數;以及 基於所述更新係數更新所述初步分數以產生更新分數;以及 從所述複數個候選辨識結果中基於所述複數個更新分數確定目標辨識結果。
  2. 如申請專利範圍第1項之方法,其中確定與所述一個或以上擷取的關鍵字關聯的至少一個參數包括: 由資料交換埠從資料庫中獲得複數個樣本關鍵字; 對於所擷取的所述一個或以上關鍵字中的每一個關鍵字, 確定所述一個或以上擷取的關鍵字中的每一個關鍵字與所述複數個樣本關鍵字中的每一個樣本關鍵字之間的匹配度; 從所述複數個樣本關鍵字中確定一個或以上目標樣本關鍵字,其中所述一個或以上目標樣本關鍵字中的每一個目標樣本關鍵字與所述擷取的關鍵字之間的匹配度高於匹配度臨界值;以及 基於所述一個或以上目標樣本關鍵字確定與所述一個或以上擷取的關鍵字關聯的所述至少一個參數。
  3. 如申請專利範圍第2項之方法,其中所述至少一個參數包括檢索參數,並且基於所述一個或以上目標樣本關鍵字確定與所述一個或以上擷取的關鍵字關聯的所述至少一個參數包括: 基於所述一個或以上目標樣本關鍵字與所述一個或以上擷取的關鍵字之間的所述匹配度確定所述檢索參數。
  4. 如申請專利範圍第2項之方法,其中所述至少一個參數包括熱門參數,並且基於所述一個或以上目標樣本關鍵字來確定與所述一個或以上擷取的關鍵字關聯的所述至少一個參數包括: 獲得所述一個或以上目標樣本關鍵字的熱門度;以及 基於所述一個或以上目標樣本關鍵字的熱門度來確定所述熱門參數。
  5. 如申請專利範圍第2項之方法,其中所述至少一個參數包括偏好參數,並且基於所述一個或以上目標樣本關鍵字確定與所述一個或以上擷取的關鍵字關聯的所述至少一個參數包括: 獲得使用者關於所述一個或以上目標樣本關鍵字的偏好度;以及 基於所述一個或以上目標樣本關鍵字的所述偏好度確定所述偏好參數。
  6. 如申請專利範圍第2項之方法,其中所述至少一個參數包括距離參數,基於所述一個或以上目標樣本關鍵字確定與所述一個或以上擷取的關鍵字關聯的所述至少一個參數包括: 獲得與所述一個或以上目標樣本關鍵字關聯的位置資訊; 識別所述候選辨識結果中的一個或以上位置類型指示字; 對於緊接在所述一個或以上識別的位置類型指示字之後的所述一個或以上擷取的關鍵字中的每一個關鍵字,基於所述對應的位置類型指示字來確定所述擷取的關鍵字的位置類型; 基於與所述一個或以上目標樣本關鍵字關聯的所述位置資訊和所述一個或以上擷取的關鍵字中的每一個關鍵字的位置類型,確定與所述一個或以上擷取的關鍵字關聯的距離資訊;以及 基於所述距離資訊確定所述距離參數。
  7. 如申請專利範圍第6項之方法,進一步包括: 在統計時間段中獲得對應於至少一個行進方式中的每一個行進方式關聯的所述距離資訊的第一數量的行進次數; 確定在所述統計時間段中所有所述至少一個行進方式關聯的所述距離資訊相對應的的第二數量的行進次數; 對於所述至少一個行進方式中的每一個行進方式,基於所述第一數量的行進次數和所述第二數量的行進次數確定所述行進方式的使用機率; 獲得與語音資訊關聯的行進方式;以及 基於使用與所述語音資訊關聯的所述行進方式的所述機率來確定所述距離參數。
  8. 如申請專利範圍第1項之方法,其中所述至少一個參數包括熱門參數、偏好參數、檢索參數或距離參數中的至少一個,並且基於所述至少一個參數產生更新係數包括: 基於所述熱門參數、所述偏好參數和所述檢索參數產生所述更新係數;或者 基於所述距離參數和所述檢索參數產生所述更新係數。
  9. 如申請專利範圍第1項之方法,其中所述目標辨識結果包括出發位置或目的地,並且所述方法進一步包括: 基於所述目標辨識結果產生服務請求。
  10. 如申請專利範圍第9項之方法,進一步包括: 將所述服務請求傳輸到與服務供應商關聯的使用者終端。
  11. 一種語音辨識系統,包括: 至少一個儲存裝置,所述儲存裝置包括一組指令; 以通訊方式連接到網路的資料交換埠;以及 與所述至少一個儲存裝置和所述資料交換埠通訊的至少一個處理器,所述至少一個處理器被配置為執行所述指令集,並且導引使所述系統: 獲得由使用者發出的語音資訊的複數個候選辨識結果和與所述複數個候選辨識結果分別對應的複數個初步分數; 對於所述複數個候選辨識結果中的每一個候選辨識結果, 從所述候選辨識結果中擷取一個或以上關鍵字; 確定與所述一個或以上擷取的關鍵字關聯的至少一個參數; 基於所述至少一個參數產生更新係數;以及 基於所述更新係數更新所述初步分數以產生更新分數;以及 從所述複數個候選辨識結果中基於所述複數個更新分數確定目標辨識結果。
  12. 如申請專利範圍第11項之系統,其中為了確定與所述一個或以上擷取的關鍵字關聯的所述至少一個參數,所述至少一個處理器進一步導引為使所述系統: 由所述資料交換埠從資料庫獲得複數個樣本關鍵字; 對於所擷取的所述一個或以上關鍵字中的每一個關鍵字, 確定所述一個或以上擷取的關鍵字中的每一個關鍵字與所述複數個樣本關鍵字中的每一個樣本關鍵字之間的匹配度;以及 從所述複數個樣本關鍵字中確定一個或以上目標樣本關鍵字,所述一個或以上目標樣本關鍵字中的每一個目標樣本關鍵字與所述擷取的關鍵字之間的匹配度高於匹配度臨界值;以及 基於所述一個或以上目標樣本關鍵字確定與所述一個或以上擷取的關鍵字關聯的所述至少一個參數。
  13. 如申請專利範圍第12項之系統,其中所述至少一個參數包括檢索參數,並且基於所述一個或以上目標樣本關鍵字確定與所述一個或以上擷取的關鍵字關聯的所述至少一個參數,所述至少一個處理器進一步導引為使所述系統: 基於所述一個或以上目標樣本關鍵字和所述一個或以上擷取的關鍵字之間的所述匹配度確定所述檢索參數。
  14. 如申請專利範圍第12項之系統,其中所述至少一個參數包括熱門參數,並且基於所述一個或以上目標樣本關鍵字確定與所述一個或以上擷取的關鍵字關聯的所述至少一個參數,所述至少一個處理器進一步導引為使所述系統: 獲得所述一個或以上目標樣本關鍵字的熱門度;以及 基於所述一個或以上目標樣本關鍵字的所述熱門度來確定所述熱門參數。
  15. 如申請專利範圍第12項之系統,其中所述至少一個參數包括偏好參數,並且基於所述一個或以上目標樣本關鍵字確定與所述一個或以上擷取的關鍵字關聯的所述至少一個參數,所述至少一個處理器進一步導引為使所述系統: 獲得所述使用者對於所述一個或以上目標樣本關鍵字的偏好度;以及 基於所述一個或以上目標樣本關鍵字的所述偏好度確定所述偏好參數。
  16. 如申請專利範圍第12項之系統,其中所述至少一個參數包括距離參數,並且基於所述一個或以上目標樣本關鍵字確定與所述一個或以上擷取的關鍵字關聯的所述至少一個參數,所述至少一個處理器進一步導引為使所述系統: 獲得與所述一個或以上目標樣本關鍵字關聯的位置資訊; 識別所述候選辨識結果中一個或以上位置類型指示字; 對於緊接在所述一個或以上所識別的位置類型指示字之後的所述一個或以上擷取的關鍵字中的每一個關鍵字,基於所述對應的位置類型指示字來確定所述擷取的關鍵字的位置類型; 基於與所述一個或以上目標樣本關鍵字關聯的位置資訊以及所述一個或以上擷取的關鍵字中的每一個關鍵字的位置類型,確定與所述一個或以上擷取的關鍵字關聯的距離資訊;以及 基於所述距離資訊確定所述距離參數。
  17. 如申請專利範圍第16項之系統,其中所述至少一個處理器進一步導引為使所述系統: 在統計時間段中獲得對應於至少一個行進方式中的每一個行進方式關聯的所述距離資訊的第一數量的行進次數; 確定在所述統計時間段中所有所述至少一個行進方式關聯的所述距離資訊相對應的第二數量的行進次數; 對於所述至少一個行進方式中的每一個行進方式,基於所述第一數量的行進次數和所述第二數量的行進次數來確定所述行進方式的使用機率; 獲得與所述所述語音資訊關聯的行進方式;以及 基於使用與所述語音資訊關聯的所述行進方式的所述機率來確定所述距離參數。
  18. 如申請專利範圍第11項之系統,其中所述至少一個參數包括熱門參數、偏好參數、檢索參數或距離參數中的至少一個,並且基於所述至少一個參數產生更新係數,所述至少一個處理器進一步導引為使所述系統: 基於所述熱門參數、所述偏好參數和所述檢索參數產生所述更新係數;或者 基於所述距離參數和所述檢索參數產生所述更新係數。
  19. 如申請專利範圍第11項之系統,其中所述目標辨識結果包括出發位置或目的地,並且所述至少一個處理器進一步導引為使所述系統: 基於所述目標辨識結果產生服務請求。
  20. 如申請專利範圍第19項之系統,其中所述至少一個處理器進一步導引為使所述系統: 將所述服務請求傳輸到與服務供應商關聯的使用者終端。
  21. 一種非暫時性電腦可讀取媒體,所述非暫時性電腦可讀取媒體包括用於語音辨識的一組指令,當由至少一個處理器執行時,所述指令導引所述至少一個處理器實現一種方法,所述方法包括: 獲得由使用者發出的語音資訊的複數個候選辨識結果和與所述複數個候選辨識結果分別對應的複數個初步分數; 對於所述複數個候選辨識結果中的每一個候選辨識結果, 從所述候選辨識結果中擷取一個或以上關鍵字; 確定與所述一個或以上擷取的關鍵字關聯的至少一個參數; 基於所述至少一個參數產生更新係數;以及 基於所述更新係數更新所述初步分數以產生更新分數;以及 從所述複數個候選辨識結果中基於所述複數個更新分數確定目標辨識結果。
  22. 一種在計算裝置上實現的方法,所述計算裝置具有至少一個儲存裝置和至少一個處理器,至少一個儲存裝置儲存一組用於語音辨識的指令,所述至少一個處理器與所述至少一個儲存裝置通訊,所述方法包括: 獲得由當前使用者提供的語音資訊的複數個候選辨識結果和複數個初步分數,所述複數個初步分數中的每一個初步分數對應於所述候選辨識結果中的一個候選辨識結果; 基於預定關鍵字擷取規則從所述複數個候選辨識結果中的每一個候選辨識結果中擷取預設類型的一個或以上關鍵字; 基於所述擷取的一個或以上關鍵字修正與所述複數個候選辨識結果中的每一個候選辨識結果相對應的所述初步分數,並且基於修正的結果確定所述語音資訊的目標辨識結果。
  23. 如申請專利範圍第22項之方法,其中基於所述擷取的一個或以上關鍵字修正與所述複數個候選辨識結果中的每一個候選辨識結果相對應的所述初步分數包括: 基於所擷取所述一個或以上關鍵字與預設樣本資料庫中的複數個樣本關鍵字之間的相似度,確定具有擷取的所述一個或以上關鍵字的所述複數個候選辨識結果中的每一個候選辨識結果的更新係數;以及 基於所述更新係數更新與所述複數個候選辨識結果中的每一個候選辨識結果相對應的所述初步分數,以產生對應於所述複數個候選辨識結果中的每一個候選辨識結果的更新分數。
  24. 如申請專利範圍第23項之方法,其中所述預設樣本資料庫進一步包括所述複數個樣本關鍵字的熱門資訊或當前使用者使用所述複數個樣本關鍵字的歷史資訊中的至少一個。
  25. 如申請專利範圍第24項之方法,其中 所述預設樣本資料庫進一步包括所述複數個樣本關鍵字的所述熱門資訊,以及 基於擷取的所述一個或以上關鍵字與預設樣本資料庫中的複數個樣本關鍵字之間的相似度,確定具有所述一個或以上擷取的關鍵字的所述複數個候選辨識結果中的每一個候選辨識結果的更新係數包括: 確定所述一個或以上擷取的關鍵字和所述複數個樣本關鍵字之間的相似度; 從所述複數個樣本關鍵字中選擇一個或以上樣本關鍵字,其中所述一個或以上擷取的關鍵字與所述一個或以上選擇的樣本關鍵字之間的相似度大於相似度臨界值; 根據熱門資訊和熱門參數之間的第一轉換關係,將選擇的所述一個或以上樣本關鍵字的所述熱門資訊轉換為一個或以上熱門參數;以及 基於所述一個或以上熱門參數,確定具有所述一個或以上擷取的關鍵字的所述複數個候選辨識結果中的每一個候選辨識結果的更新係數。
  26. 如申請專利範圍第25項之方法,其中 所述複數個樣本關鍵字的所述熱門資訊包括對應於複數個週期性統計時間段相的所述複數個樣本關鍵字的複數個熱門度,以及 根據熱門資訊和熱門參數之間的第一轉換關係,將所選擇的一個或以上樣本關鍵字的所述熱門資訊轉換為一個或以上熱門參數包括: 確定當前時間所屬的統計時間段; 從與所述複數個週期性統計時間段對應的所述一個或以上選擇的樣本關鍵字的複數個熱門度中選擇與所述統計時間段對應的一個或以上熱門度;以及 根據所述熱門度和所述熱門參數之間的第二轉換關係,將所述一個或以上熱門度轉換為所述複數個候選辨識結果中的每一個候選辨識結果的一個或以上熱門參數。
  27. 如申請專利範圍第24項之方法,其中 預設樣本資料庫進一步包括所述複數個樣本關鍵字的所述熱門資訊和所述當前使用者使用所述複數個樣本關鍵字的所述歷史資訊;以及 基於所擷取的所述一個或以上關鍵字與預設樣本資料庫中的所述複數個樣本關鍵字之間的相似度,確定具有所述一個或以上擷取的關鍵字的所述複數個候選辨識結果中的每一個候選辨識結果的更新係數包括: 確定一個或以上擷取的關鍵字和所述複數個樣本關鍵字之間的相似度; 根據相似度與檢索參數之間的第三轉換關係將所述相似度轉換為檢索參數; 根據所述相似度與偏好參數之間的第四轉換關係,將所述相似度轉換為偏好參數; 基於所述相似度、所述複數個樣本關鍵字的所述熱門資訊以及熱門資訊與熱門參數之間的第一轉換關係來確定熱門參數;以及 藉由將所述檢索參數加上或乘以所述偏好參數和所述熱門參數之間的較高值,來確定具有所述一個或以上擷取的關鍵字的所述複數個候選辨識結果中的所述每一個候選辨識結果的所述更新係數, 對於相同的相似度,根據相似度和偏好參數之間的所述第四轉換關係轉換的偏好參數係大於基於熱門資訊和熱門參數之間的所述第一轉換關係確定的熱門參數。
  28. 一種用於語音辨識的裝置,包括: 至少一個儲存裝置,所述至少一個儲存裝置包括一組指令;以及 與所述至少一個儲存裝置通訊的至少一個處理器,其中所述至少一個處理器被配置為用於執行所述一組指令,所述至少一個處理器包括: 資訊獲取模組,被配置為用於獲得當前使用者提供的語音資訊的複數個候選辨識結果以及複數個初步分數,其中所述複數個初步分數中的每一個初步分數對應於所述候選辨識結果中的一個候選辨識結果; 資訊擷取模組,被配置為用於基於預定的關鍵字擷取規則從所述複數個候選辨識結果中的每一個候選辨識結果中擷取預設類型的一個或以上關鍵字;以及 結果確定模組,被配置為用於基於所擷取的所述一個或以上關鍵字修正與所述複數個候選辨識結果中的所述每一個候選辨識結果相對應的所述初步分數,並基於所述修正結果確定所述語音資訊的目標辨識結果。
  29. 如申請專利範圍第28項之裝置,其中所述結果確定模組包括: 更新係數確定子模組,被配置為用於基於所述一個或以上擷取的關鍵字與預設樣本資料庫中的複數個樣本關鍵字之間的相似度,確定具有所述一個或以上擷取的關鍵字的所述複數個候選辨識結果中的所述每一個候選辨識結果的更新係數;以及 資訊修正子模組,被配置為用於基於所述更新係數更新與所述複數個候選辨識結果中的所述每一個候選辨識結果相對應的所述初步分數,以產生與所述複數個候選辨識結果中的所述每一個候選辨識結果相對應的更新分數。
  30. 如申請專利範圍第29項之裝置,其中所述預設樣本資料庫進一步包括所述複數個樣本關鍵字的熱門資訊或所述當前使用者使用所述複數個樣本關鍵字的歷史資訊中的至少一個。
  31. 如申請專利範圍第30項之裝置,其中 所述預設樣本資料庫進一步包括所述複數個樣本關鍵字的所述熱門資訊,以及 所述更新係數確定子模組進一步被配置為用於: 確定所述一個或以上擷取的關鍵字與所述複數個樣本關鍵字之間的相似度; 從所述複數個樣本關鍵字中選擇一個或以上樣本關鍵字,其中所述一個或以上擷取的關鍵字與所述一個或以上選擇的樣本關鍵字之間的相似度大於相似度臨界值; 根據熱門資訊和熱門參數之間的第一轉換關係將所選擇的一個或以上樣本關鍵字的所述熱門資訊轉換為一個或以上熱門參數;以及 基於所述一個或以上熱門參數,確定具有所擷取的所述一個或以上關鍵字的所述複數個候選辨識結果中的所述每一個候選辨識結果的更新係數。
  32. 如申請專利範圍第31項之裝置,其中 所述複數個樣本關鍵字的所述熱門資訊包括與複數個週期性統計時間段相對應的所述複數個樣本關鍵字的複數個熱門度,以及 所述更新係數確定子模組進一步被配置為用於: 確定當前時間所屬統計時間段; 從與複數個週期性統計時間段相對應的所述一個或以上選擇的所述樣本關鍵字的所述複數個熱門度中,選擇與所述統計時間段相對應的一個或以上熱門度;以及 根據熱門度和熱門參數之間的第二轉換關係,將所述一個或以上熱門度轉換為所述複數個候選辨識結果中的所述每一個候選辨識結果的所述一個或以上熱門參數。
  33. 如申請專利範圍第30項之裝置,其中 所述預設樣本資料庫進一步包括所述複數個樣本關鍵字的所述熱門資訊和所述當前使用者使用所述複數個樣本關鍵字的所述歷史資訊;以及 所述更新係數確定子模組包括: 相似度確定單元,被配置為用於確定所述一個或以上擷取的關鍵字與所述複數個樣本關鍵字之間的相似度; 檢索參數確定單元,被配置為用於根據所述相似度與檢索參數之間的第三轉換關係,將所述相似度轉換為檢索參數; 偏好參數確定單元,被配置為用於確定所述一個或以上擷取的關鍵字與複數個樣本關鍵字之間的相似度,並根據相似度與偏好參數之間的第四轉換關係將所述相似度轉換為偏好參數; 熱門參數確定單元,被配置為用於基於所述相似度、所述複數個樣本關鍵字的所述熱門資訊以及熱門資訊與熱門參數之間的第一轉換關係確定熱門參數;以及 更新係數確定單元,被配置為用於藉由將所述檢索參數加上或乘以所述偏好參數和所述熱門參數二者之間的較高值,來確定具有一個或以上擷取的關鍵字的複數個候選辨識結果中的每一個候選辨識結果的更新係數, 其中對於相同的相似度,根據相似度和偏好參數之間的所述第四轉換關係轉換的所述偏好參數係大於基於熱門資訊和熱門參數之間的所述第一轉換關係確定的所述熱門參數。
  34. 一種非暫時性電腦可讀取媒體,包括用於語音辨識的一組指令,當由至少一個處理器執行時,所述指令引導所述至少一個處理器實現方法,所述方法包括: 獲得由當前使用者提供的語音資訊的複數個候選辨識結果和複數個初步分數,其中所述複數個初步分數中的每一個初步分數對應於所述候選辨識結果中的一個候選辨識結果; 基於預定關鍵字擷取規則從所述複數個候選辨識結果中的每一個候選辨識結果中擷取預設類型的一個或以上關鍵字; 基於擷取的所述一個或以上關鍵字來修正與所述複數個候選辨識結果中的所述每一個候選辨識結果相對應的所述初步分數,並且基於所述修正的結果來確定所述語音資訊的目標辨識結果。
  35. 一種在計算裝置上實施的方法,所述計算裝置具有至少一個儲存裝置和至少一個處理器,所述至少一個儲存裝置儲存用於運輸服務中的語音辨識的一組指令,所述至少一個處理器與所述至少一個儲存裝置通訊,所述方法包括: 接收並分析語音資訊以產生所述語音資訊的複數個候選辨識結果和複數個初步分數,其中所述複數個初步分數中的每一個初步分數對應於所述複數個候選辨識結果中的一個候選辨識結果; 從所述複數個候選辨識結果中的所述每一個候選辨識結果中擷取至少一個位置的資訊; 在資料庫中搜索與所述至少一個位置中的每一個位置匹配的一個或以上興趣點(POI),並且基於在搜索到的所述一個或以上興趣點(POI)和所述至少一個位置中的所述每一個位置之間的匹配結果,來確定所述複數個候選辨識結果中的所述每一個候選辨識結果的第一參數; 確定所述複數個候選辨識結果中的所述每一個候選辨識結果的所述至少一個位置中的所述每一個位置的位置類型,並且基於所述位置類型確定所述複數個候選辨識結果中的所述每一個候選辨識結果的第二參數; 基於對應於所述複數個辨識結果中的所述每一個辨識結果的所述初步分數、所述第一參數和所述第二參數,確定與所述複數個候選辨識結果中的所述每一個候選辨識結果相對應的更新分數; 確定與所述複數個候選辨識結果對應的複數個更新分數中的最高更新分數,並輸出與所述最高分數相對應的辨識結果。
  36. 如申請專利範圍第35項之方法,其中所述在資料庫中搜索與所述至少一個位置中的每一個位置匹配的一個或以上POI,並且基於搜索到的所述一個或以上POI和所述至少一個位置中的所述每一個位置的匹配結果確定所述複數個候選辨識結果中的所述每一個候選辨識結果的第一參數包括: 當在所述資料庫中找到與所述至少一個位置相匹配的POI時, 將所述辨識結果的所述第一個參數確定為1; 當在所述資料庫中未找到與所述至少一個位置相匹配的POI時, 確定所述資料庫中的所述一個或以上POI中的每一個POI與所述至少一個位置之間的匹配度; 當所述一個或以上POI中的所述每一個POI與所述至少一個位置之間的所述匹配度小於或等於第一匹配度臨界值時, 將所述辨識結果的所述第一參數確定為0;以及 當所述一個或以上POI中的所述每一個POI與所述至少一個位置之間的所述匹配度大於所述第一匹配度臨界值時, 基於所述匹配度確定所述辨識結果的所述第一參數,其中所述辨識結果的所述第一參數與所述匹配度成正比。
  37. 如申請專利範圍第35項之方法,其中所述確定與所述複數個候選辨識結果中的所述每一個候選辨識結果相對應的所述至少一個位置中的所述每一個位置的位置類型包括: 確定所述辨識結果是否在所述至少一個位置的資訊之前包括出發位置資訊; 回應於確定所述辨識結果在任何的所述至少一個位置的所述資訊之前不包括出發位置資訊, 確定與語音資訊關聯的位置資訊作為所述出發位置;以及 回應於確定所述辨識結果在所述至少一個位置的所述資訊之前包括出發位置資訊, 在所述資料庫中搜索與所述至少一個位置匹配的第一POI,並確定與所述第一POI對應的第一位置作為所述出發位置;或者 在所述資料庫中搜索複數個第二POI,所述複數個第二POI中的每一個第二POI與所述至少一個位置之間的匹配度大於第二匹配度臨界值,確定與所述複數個第二POI中的所述每一個第二POI對應的第二位置,以及基於與所述複數個第二POI對應的所述第二位置確定第一平均位置作為所述出發位置。
  38. 如申請專利範圍第37項之方法,其中所述確定與所述複數個候選辨識結果中的所述每一個候選辨識結果相對應的所述至少一個位置中的所述每一個位置的位置類型進一步包括: 確定所述辨識結果是否包括在所述至少一個位置的資訊之前包括目的地資訊; 回應於確定所述辨識結果在任何的所述至少一個位置的所述資訊之前不包括目的地資訊, 產生用於通知使用者提供目的地資訊的通知;以及 回應於確定所述辨識結果在所述至少一個位置的所述資訊之前包括目的地資訊, 在所述資料庫中搜索與所述至少一個位置的所述資訊匹配的第三POI,並確定與所述第三POI對應的第三位置作為所述目的地;或者 在所述資料庫中搜索複數個第四POI,其中所述複數個第四POI中的每一個與所述至少一個位置之間的匹配度大於第三匹配度臨界值,確定與所述複數個第四POI中的所述每一個第四POI對應的第四位置,以及基於與所述複數個第四POI對應的所述第二位置確定第二平均位置作為目的地。
  39. 如申請專利範圍第38項之方法,其中所述基於所述位置類型來確定所述複數個候選辨識結果中的所述每一個候選辨識結果的所述第二參數包括: 對於所述複數個候選辨識結果中的所述每一個候選辨識結果,確定從所述出發位置到所述目的地的距離資訊; 確定對應於所述距離資訊的至少一個行進方式; 確定在統計時間週期中與所述至少一個行進方式中的每一個行進方式的所述距離資訊對應的行進次數; 基於所述至少一個行進方式中的所述每一個行進方式相對應的所述行進次數與所述統計時間段中的行進總次數,來確定所述至少一個行進方式中的每一個行進方式的使用機率;以及 確定所述使用機率為第二參數。
  40. 根據專利申請範圍35-39中任一項所述的方法,進一步包括: 將與每一個POI有關的名稱與對應於所述POI的位置進行相關,並將所述相關儲存到資料庫中。
  41. 一種用於運輸服務中的語音辨識系統,包括: 至少一個儲存裝置,包括一組指令;以及 與所述至少一個儲存裝置通訊的至少一個處理器,其中所述至少一個處理器被配置為用於執行所述一組指令,所述至少一個處理器包括: 初步分數確定模組,被配置為用於接收並分析語音資訊以產生所述語音資訊的複數個候選辨識結果和複數個初步分數,其中所述複數個初步分數中的每一個初步分數對應於所述複數個候選辨識結果中的一個候選辨識結果; 擷取模組,被配置為用於從所述複數個候選辨識結果中的所述每一個候選辨識結果中擷取至少一個位置的資訊; 第一參數分配模組,被配置為用於在資料庫中搜索與所述至少一個位置中的所述每一個位置匹配的一個或以上興趣點(POI),並且基於搜索到的一個或以上POI與所述至少一個位置中的每一個位置的匹配結果來確定所述複數個候選辨識結果中的所述每一個候選辨識結果的第一參數; 第二參數分配模組,被配置為用於確定所述複數個候選辨識結果中的所述每一個候選辨識結果中的所述至少一個位置中的所述每一個位置的位置類型,以及基於位置類型確定所述複數個候選辨識結果中的所述每一個候選辨識結果的第二參數; 修正模組,被配置為用於基於所述第一參數和所述第二參數確定與所述複數個候選辨識結果中的所述每一個候選辨識結果相對應的更新分數;以及 輸出模組,被配置為用於確定與複數個候選辨識結果對應的複數個更新分數中的最高更新分數,並輸出與所述最高更新分數相對應的辨識結果。
  42. 如申請專利範圍第41項之系統,其中所述第一參數分配模組被配置為用於: 當在所述資料庫中找到所述與至少一個位置相匹配的POI時, 將辨識結果的第一個參數確定為1; 當在所述資料庫中未找到與所述至少一個位置匹配的POI時, 確定所述資料庫中的所述一個或以上POI中的每一個POI與所述至少一個位置之間的匹配度; 當所述一個或以上POI中的所述每一個POI與所述至少一個位置之間的所述匹配度小於或等於第一匹配度臨界值時, 將所述辨識結果的所述第一個參數確定為0;以及 當所述一個或以上POI中的所述每一個POI與所述至少一個位置之間的所述匹配度大於所述第一匹配度臨界值時, 基於所述匹配度確定所述辨識結果的第一參數,其中所述辨識結果的所述第一參數與所述匹配度成正比。
  43. 如申請專利範圍第41項之系統,其中所述第二參數分配模組包括出發位置確定子模組,被配置為用於: 確定所述辨識結果是否在所述至少一個位置的所述資訊之前包括出發位置資訊; 回應於確定所述辨識結果在任何的所述至少一個位置的所述資訊之前不包括出發位置資訊, 確定與所述語音資訊關聯的位置資訊作為所述出發位置;以及 回應於確定所述辨識結果在所述至少一個位置的的所述資訊之前包括出發位置資訊, 在所述資料庫中搜索與所述至少一個位置匹配的第一POI,並確定與所述第一POI對應的第一位置作為所述出發位置;或者 在所述資料庫中搜索複數個第二POI,所述複數個第二POI中的每一個第二POI與所述至少一個位置之間的匹配度大於第二匹配度臨界值,確定與所述複數個第二POI中的所述每一個第二POI對應的第二位置,並且基於與所述複數個第二POI相對應的所述第二位置確定第一平均位置作為所述出發位置。
  44. 如申請專利範圍第43項之系統,其中所述第二參數分配模組包括目的地確定子模組,被配置為用於: 確定所述辨識結果是否在所述至少一個位置的所述資訊之前包括目的地資訊; 回應於確定所述辨識結果在任何的所述至少一個位置的所述資訊之前不包括目的地資訊, 產生用於通知使用者提供目的地資訊的通知;以及 回應於確定所述辨識結果在所述至少一個位置的所述資訊之前包括目的地資訊, 在所述資料庫中搜索與所述至少一個位置的所述資訊匹配的第三POI,並確定與所述第三POI對應的第三位置作為所述目的地;或者 在所述資料庫中搜索複數個第四POI,其中所述複數個第四POI中的每一個第四POI與所述至少一個位置之間的匹配度大於第三匹配度臨界值,確定與所述複數個第四POI中的所述每一個第四POI對應的第四位置,以及基於與所述複數個第四POI對應的所述第二位置確定第二平均位置作為所述目的地。
  45. 如申請專利範圍第44項之系統,其中所述第二參數分配模組進一步包括: 距離確定子模組,被配置為用於針對所述複數個候選辨識結果中的所述每一個候選辨識結果,確定從所述出發位置到所述目的地的距離資訊; 機率確定子模組,被配置為用於 確定對應於所述距離資訊的至少一個行進方式; 確定在統計時間週期中與所述至少一個行進方式中的所述每一個行進方式的所述距離資訊相對應的行進次數; 基於所述統計時間段中的所述至少一個行進方式中的所述每一個行進方式相對應的所述行進次數與行程總次數,來確定所述至少一個行進方式中的每一個行進方式的使用機率;以及 確定所述使用機率作為所述第二參數。
  46. 根據專利申請範圍41-45中任一項所述的系統,進一步包括相關模組,被配置為用於: 將與每一個POI有關的名稱與對應於所述POI的位置進行相關,並將所述相關儲存到所述資料庫中。
  47. 一種計算裝置,包括儲存一組指令的至少一個儲存裝置以及與所述至少一個儲存裝置通訊的至少一個處理器,當執行所述指令時,所述至少一個處理器導引實施如專利申請範圍35-40中任一項所述的方法。
  48. 一種非暫時性電腦可讀取媒體,包括用於語音辨識的一組指令,當執行所述指令時,所述至少一個處理器導引實施專利申請範圍35-40中任一項所述的方法。
TW107120855A 2017-06-15 2018-06-15 用於語音辨識的系統和方法 TW201921336A (zh)

Applications Claiming Priority (6)

Application Number Priority Date Filing Date Title
CN201710451642.7 2017-06-15
CN201710451642.7A CN109145281B (zh) 2017-06-15 2017-06-15 语音识别方法、装置及存储介质
CN201710469290.8 2017-06-20
CN201710469290.8A CN109101475B (zh) 2017-06-20 2017-06-20 出行语音识别方法、系统和计算机设备
WOPCT/CN2018/091430 2018-06-15
PCT/CN2018/091430 WO2018228515A1 (en) 2017-06-15 2018-06-15 Systems and methods for speech recognition

Publications (1)

Publication Number Publication Date
TW201921336A true TW201921336A (zh) 2019-06-01

Family

ID=64660639

Family Applications (1)

Application Number Title Priority Date Filing Date
TW107120855A TW201921336A (zh) 2017-06-15 2018-06-15 用於語音辨識的系統和方法

Country Status (4)

Country Link
US (1) US11302313B2 (zh)
CN (1) CN110770819B (zh)
TW (1) TW201921336A (zh)
WO (1) WO2018228515A1 (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
TWI815658B (zh) * 2022-09-14 2023-09-11 仁寶電腦工業股份有限公司 語音辨識裝置、語音辨識方法及雲端辨識系統

Families Citing this family (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
RU2744063C1 (ru) * 2018-12-18 2021-03-02 Общество С Ограниченной Ответственностью "Яндекс" Способ и система определения говорящего пользователя управляемого голосом устройства
CN111538890B (zh) * 2020-04-02 2023-12-12 中国铁道科学研究院集团有限公司 一种基于语音识别的室内引导方法及系统
CN111845751B (zh) * 2020-07-28 2021-02-09 盐城工业职业技术学院 一种可切换控制多个农用拖拉机的控制终端
CN112163685A (zh) * 2020-09-11 2021-01-01 广州宸祺出行科技有限公司 一种基于语音ai的智能撮合行程的方法及系统
CN112151022A (zh) * 2020-09-25 2020-12-29 北京百度网讯科技有限公司 语音识别的优化方法、装置、设备以及存储介质
CN113658580A (zh) * 2021-06-24 2021-11-16 大众问问(北京)信息科技有限公司 语音提示方法、装置、计算机设备和存储介质

Family Cites Families (44)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP1430474B1 (en) 2001-09-17 2005-11-30 Koninklijke Philips Electronics N.V. Correcting a text recognized by speech recognition through comparison of phonetic sequences in the recognized text with a phonetic transcription of a manually input correction word
US7228275B1 (en) 2002-10-21 2007-06-05 Toyota Infotechnology Center Co., Ltd. Speech recognition system having multiple speech recognizers
JP4027357B2 (ja) 2004-10-08 2007-12-26 キヤノン株式会社 文字列入力装置およびその制御方法
JP4542974B2 (ja) * 2005-09-27 2010-09-15 株式会社東芝 音声認識装置、音声認識方法および音声認識プログラム
US20110060587A1 (en) * 2007-03-07 2011-03-10 Phillips Michael S Command and control utilizing ancillary information in a mobile voice-to-speech application
JP5282737B2 (ja) * 2007-08-22 2013-09-04 日本電気株式会社 音声認識装置および音声認識方法
US8140335B2 (en) 2007-12-11 2012-03-20 Voicebox Technologies, Inc. System and method for providing a natural language voice user interface in an integrated voice navigation services environment
JP5526396B2 (ja) * 2008-03-11 2014-06-18 クラリオン株式会社 情報検索装置、情報検索システム及び情報検索方法
US9478218B2 (en) 2008-10-24 2016-10-25 Adacel, Inc. Using word confidence score, insertion and substitution thresholds for selected words in speech recognition
US8880400B2 (en) 2009-03-03 2014-11-04 Mitsubishi Electric Corporation Voice recognition device
US8311812B2 (en) 2009-12-01 2012-11-13 Eliza Corporation Fast and accurate extraction of formants for speech recognition using a plurality of complex filters in parallel
JP5532880B2 (ja) 2009-12-07 2014-06-25 ヤマハ株式会社 音声認識装置
EP2388780A1 (en) 2010-05-19 2011-11-23 Fraunhofer-Gesellschaft zur Förderung der Angewandten Forschung e.V. Apparatus and method for extending or compressing time sections of an audio signal
KR101373053B1 (ko) 2010-07-06 2014-03-11 한국전자통신연구원 문장 번역 장치 및 그 방법
KR101122436B1 (ko) 2010-09-30 2012-03-09 엔에이치엔(주) 단어의 문서 관련도 점수 및 그래프 구조에 기반한 문서의 키워드 추출 방법 및 장치
CN102063901A (zh) 2010-12-02 2011-05-18 深圳市凯立德欣软件技术有限公司 位置服务设备的语音识别方法及位置服务设备
CN102110362B (zh) 2011-02-01 2013-05-29 北京汉风和科技发展有限公司 一种规划出行路线的处理方法及系统
US20130024448A1 (en) * 2011-07-21 2013-01-24 Microsoft Corporation Ranking search results using feature score distributions
WO2013069172A1 (ja) 2011-11-10 2013-05-16 三菱電機株式会社 ナビゲーション装置および方法
CN103020098A (zh) 2012-07-11 2013-04-03 腾讯科技(深圳)有限公司 提供具有语音识别功能的导航业务的搜索方法
CN103544140A (zh) * 2012-07-12 2014-01-29 国际商业机器公司 一种数据处理方法、展示方法和相应的装置
JP6051004B2 (ja) * 2012-10-10 2016-12-21 日本放送協会 音声認識装置、誤り修正モデル学習方法、及びプログラム
CN104737226B (zh) 2012-10-16 2017-06-06 奥迪股份公司 机动车中的语音识别
CN104756100B (zh) * 2012-11-30 2017-07-28 三菱电机株式会社 意图估计装置以及意图估计方法
CN103021403A (zh) 2012-12-31 2013-04-03 威盛电子股份有限公司 基于语音识别的选择方法及其移动终端装置及信息系统
CN104166645A (zh) * 2013-05-15 2014-11-26 大陆汽车投资(上海)有限公司 兴趣点及路径信息的获取方法和车载电子设备
US9159317B2 (en) * 2013-06-14 2015-10-13 Mitsubishi Electric Research Laboratories, Inc. System and method for recognizing speech
TWI518675B (zh) 2013-08-15 2016-01-21 中華電信股份有限公司 利用語者識別的切割音視訊片段的方法
CN103677729B (zh) 2013-12-18 2017-02-08 北京搜狗科技发展有限公司 一种语音输入方法和系统
CN104836720B (zh) * 2014-02-12 2022-02-25 北京三星通信技术研究有限公司 交互式通信中进行信息推荐的方法及装置
US9953632B2 (en) * 2014-04-17 2018-04-24 Qualcomm Incorporated Keyword model generation for detecting user-defined keyword
US9833174B2 (en) 2014-06-12 2017-12-05 Rochester Institute Of Technology Method for determining hearing thresholds in the absence of pure-tone testing
CN105448292B (zh) * 2014-08-19 2019-03-12 北京羽扇智信息科技有限公司 一种基于场景的实时语音识别系统和方法
CN105447019A (zh) * 2014-08-20 2016-03-30 北京羽扇智信息科技有限公司 一种基于用户使用场景的输入识别结果校正方法和系统
US9812128B2 (en) * 2014-10-09 2017-11-07 Google Inc. Device leadership negotiation among voice interface devices
KR102420450B1 (ko) 2015-09-23 2022-07-14 삼성전자주식회사 음성인식장치, 음성인식방법 및 컴퓨터 판독가능 기록매체
CN105702252B (zh) 2016-03-31 2019-09-17 海信集团有限公司 一种语音识别方法及装置
CN105931642B (zh) 2016-05-31 2020-11-10 北京京东尚科信息技术有限公司 语音识别方法、设备及系统
CN106128462A (zh) 2016-06-21 2016-11-16 东莞酷派软件技术有限公司 语音识别方法及系统
CN106205613B (zh) 2016-07-22 2019-09-06 广州市迈图信息科技有限公司 一种导航语音识别方法及系统
CN106448675B (zh) 2016-10-21 2020-05-01 科大讯飞股份有限公司 识别文本修正方法及系统
CN106776763B (zh) 2016-11-22 2019-12-06 北京云知声信息技术有限公司 目的地搜索方法及装置
CN106776900B (zh) 2016-11-30 2020-06-23 百度在线网络技术(北京)有限公司 出行方法和装置
CN106847288B (zh) 2017-02-17 2020-12-25 上海创米科技有限公司 语音识别文本的纠错方法与装置

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
TWI815658B (zh) * 2022-09-14 2023-09-11 仁寶電腦工業股份有限公司 語音辨識裝置、語音辨識方法及雲端辨識系統

Also Published As

Publication number Publication date
WO2018228515A1 (en) 2018-12-20
US11302313B2 (en) 2022-04-12
CN110770819B (zh) 2023-05-12
US20200118551A1 (en) 2020-04-16
CN110770819A (zh) 2020-02-07

Similar Documents

Publication Publication Date Title
TW201921336A (zh) 用於語音辨識的系統和方法
US11538459B2 (en) Voice recognition grammar selection based on context
US20200258508A1 (en) Interfacing between digital assistant applications and navigation applications
CN107430859B (zh) 将输入映射到表单域
EP3032532B1 (en) Disambiguating heteronyms in speech synthesis
KR102271264B1 (ko) 동적 언어 모델
US20190370398A1 (en) Method and apparatus for searching historical data
WO2022001902A1 (zh) 一种推荐上车点的方法和系统
US20150279354A1 (en) Personalization and Latency Reduction for Voice-Activated Commands
JP7071504B2 (ja) ネットワーク化されたシステムにおける分散型の識別
JP2017510104A (ja) ワイヤレスネットワークのアクセスポイントに関連したエンティティの識別
JP7176011B2 (ja) デジタルアシスタントアプリケーションとナビゲーションアプリケーションとの間のインターフェーシング
US20170249956A1 (en) Inferring User Intentions Based on User Conversation Data and Spatio-Temporal Data
US20140280053A1 (en) Contextual socially aware local search
US20220299335A1 (en) Content-aware navigation instructions
JP2021012194A (ja) 探索システム、探索方法、および探索プログラム
WO2020041945A1 (en) Artificial intelligent systems and methods for displaying destination on mobile device
CN115002675A (zh) 数据匹配方法、装置、可读介质及电子设备
US11651280B2 (en) Recording medium, information processing system, and information processing method
CN113515687A (zh) 物流信息的获取方法和装置
US20240067128A1 (en) Supporting multiple roles in voice-enabled navigation
EP4179277A1 (en) Navigation route sharing