TWM453219U - 語意辨識設備 - Google Patents
語意辨識設備 Download PDFInfo
- Publication number
- TWM453219U TWM453219U TW101221405U TW101221405U TWM453219U TW M453219 U TWM453219 U TW M453219U TW 101221405 U TW101221405 U TW 101221405U TW 101221405 U TW101221405 U TW 101221405U TW M453219 U TWM453219 U TW M453219U
- Authority
- TW
- Taiwan
- Prior art keywords
- transliteration
- group
- character
- processing unit
- voice
- Prior art date
Links
Landscapes
- Machine Translation (AREA)
Description
本創作係關於一種語音辨識設備之設計,特別是一種語意辨識設備。
早先,使用者與電子產品溝通的方式可以使用鍵盤、滑鼠或觸碰螢幕來輸入訊息,而隨著科技的進步,一種較為自然的溝通方式也發展出來,即為語音輸入。使用者利用語音輸入的方式以及電子產品的語音輸出而達到自然對話的效果。而語音輸入的過程大體上如下所述,當聲音藉由類比到數位的轉換而輸入至電腦的內部,並以數值方式儲存後,語音辨識程式將已事先儲存好的聲音樣本與輸入的測試聲音樣本進行比對。比對完成後輸入一個它認為最「像」的聲音樣本序列,就可以知道使用者剛剛唸進去的聲音代表何意,進而能夠控制電器設備作各種事情或其它用途。
語音辨識系統的性能受許多因素的影響,包括不同的人說出的話、說話方式、環境噪音及傳輸信道等等,因此辨識出來的往往會有錯誤,只有音對,而意不對,譬如,「髒話」和「彰化」、「市民大道」和「四名大盜」。甚至是音也不對,譬如,「姓胡」和「幸福」,所以辨識出來的通常只有音的轉譯,而不完全是語意的翻譯。如此一來,當辨識出來的結果已經有誤的情況下,利用文法結構校正的方式來作語意修正的效果是有限的,所以辨識出來的結果上總是會與實際輸入的語音有差。
以習知方式要達到高準確率地語音辨識,必須要建立大量的聲音樣本,譬如男生的聲音樣本、女性的聲音
樣本、同語言不同腔調的聲音樣本等等,而且聲音的檔案比文字的檔案大上許多,比對的過程更是繁雜,導致語音辨識須利用高階電腦比對才有較高的辨識率,也因此難以廣泛使用。
緣此,本創作之目的即是提供一種語意辨識設備,以改善語音辨識的正確率,使辨識音訊出來的語意更接近輸入音訊的原意。
本創作為解決習知技術之問題所採用之技術手段係提供一種語意辨識設備,語意辨識設備包含一行動電子裝置以及相互導接於行動電子裝置的一遠端伺服裝置,遠端伺服裝置具有一處理單元及一記憶單元。其中行動電子裝置包含一語音接收機構,用以接收一語音訊號;以及遠端伺服裝置包含:一音譯字元轉換機構、一拼音字母件組轉換機構、一相似度係數產生機構、以及一參考音譯字元組決定機構。音譯字元轉換機構,藉由處理單元導接於語音接收機構而將輸入的語音訊號轉換為一音譯字元序列,並將音譯字元序列儲存於記憶單元,音譯字元序列係包含有至少一個由一音譯字元所組成之音譯字元組。拼音字母件組轉換機構,導接於記憶單元且藉由處理單元將音譯字元序列之每一個音譯字元組之每一個音譯字元轉換為一拼音字母件組,並將拼音字母件組儲存於記憶單元。相似度係數產生機構,藉由處理單元導接於拼音字母件組轉換機構而將音譯字元組之每一個拼音字母件組相對於記憶單元之一資料
庫構件而比對產生音譯字元組與資料庫構件之一參考音譯字元組之相似度係數,並將相似度係數予以儲存於記憶單元。參考音譯字元組決定機構,藉由處理單元導接至相似度係數產生機構而依據分別所得之相似度係數決定音譯字元組於資料庫構件中所對應之參考音譯字元組,並將所對應之參考音譯字元組儲存於記憶單元。
在本創作的一實施例中,語音訊號係為以非拉丁字母為字母之語音訊號。
在本創作的一實施例中,拼音字母件組係為拉丁字母所拼音組成。
在本創作的一實施例中,語音接收機構更包括:一錄音取樣構件、一語音數位構件、以及一數位資料傳送構件。錄音取樣構件,具有一收音單元,收音單元接收語音訊號並且藉由行動電子裝置之一行動處理單元導接於語音接收機構而將語音訊號錄音並取樣且予以儲存於行動電子裝置之一行動記憶單元。語音數位構件,藉由行動處理單元導接於錄音取樣構件而將語音訊號之取樣轉換為一語音數位資料並予以儲存於行動記憶單元;以及數位資料傳送構件,藉由行動處理單元導接於語音數位構件而將語音數位資料傳送至遠端伺服裝置並予以儲存於遠端伺服裝置之記憶單元。
在本創作的一實施例中,音譯字元轉換機構更包括一分組構件,藉由處理單元導接於音譯字元轉換機構並將音譯字元序列之音譯字元組分組並將分組後之每一個組儲存於記憶單元。
在本創作的一實施例中,分組構件藉由處理單元將音譯字元序列之音譯字元組根據文法結構的分析來分
組。
在本創作的一實施例中,音譯字元轉換機構更包括:一對應詞性件,藉由處理單元而給予音譯字元序列之音譯字元組一對應詞性;以及一對應詞性分組件,藉由處理單元而依據對應詞性而分組音譯字元序列之音譯字元組。
在本創作的一實施例中,每一個組具有一預設之優先度。
在本創作的一實施例中,相似度係數產生機構係藉由處理單元而根據每一個組之優先度而從優先度高之組至優先度低之組進行比對。
在本創作的一實施例中,更包括一對應功能指令決定機構,其導接於參考音譯字元組決定機構,且藉由處理單元而依據音譯字元序列所對應之每一個參考音譯字元組而決定音譯字元序列之對應的功能指令並儲存於記憶單元。
在本創作的一實施例中,更包括一執行資訊輸出機構,導接於對應功能指令決定機構,並且藉由處理單元而依據功能指令而輸出一執行資訊。
在本創作的一實施例中,執行資訊輸出機構中之執行資訊係為一搜尋關鍵字串,藉由行動處理單元導接執行資訊輸出機構而使得搜尋關鍵字串係被輸出至一搜尋引擎進行搜尋。
在本創作的一實施例中,執行資訊係為一控制訊號,藉由行動處理單元導接一執行設備而使控制訊號係被輸出至執行設備執行作業。
經由本創作所採用之技術手段,可以提高語音辨識
的正確率,並且因為採用的拼音的比對是屬於文字的比對,所以是建立文字的資料庫來比對,而省去建立龐大的聲音樣本資料庫。以及決定音譯字元序列之對應的功能指令,並且依據功能指令而輸出一執行資訊,藉此,在語音輸入的語意若是控制執行設備或是想得到某種資訊時,使得語音輸入的語意被辨識出來而更準確執行。
此外,本創作將音譯字元組進行分組並給予優先度,以及給予對應詞性,在比對流程的執行更有效率。
本創作所採用的具體實施例,將藉由以下之實施例及附呈圖式作進一步之說明。
參閱第1圖及第3圖所示,第1圖係顯示本創作之一實施例之語意辨識設備之示意圖,第2圖係顯示本創作之一實施例之語意辨識設備之方塊圖,第3圖係顯示本創作之一實施例之語意辨識設備之操作流程圖。本創作之一實施例之語意辨識設備100包括一行動電子裝置1以及一遠端伺服裝置2。
行動電子裝置1在本實施例中是一智慧型行動電話,當然,本創作不限於此,行動電子裝置也可以是一平板電腦、一筆記型電腦等。行動電子裝置1包括一行動處理單元101、一行動記憶單元102以及一語音接收機構11。行動處理單元101是一中央處理器(CPU,central processing unit)用來運算軟體及指令而作各種步驟,而行動記憶單元102是一記憶體(memory),用來儲存各種資料。語音接收機構11接收一語音訊號,其包括一錄音取樣構件111、一語音數位構件112、一
數位資料傳送構件113、以及其他智慧型行動電話元件(圖未示)。錄音取樣構件111具有一收音單元103,收音單元103接收語音訊號,並且藉由行動處理單元101導接於語音接收機構11而將語音訊號錄音並取樣且予以儲存於行動記憶單元102。接著,語音數位構件112藉由行動處理單元101導接於錄音取樣構件111而將語音訊號之取樣轉換為一語音數位資料並予以儲存於行動記單元102。然後,數位資料傳送構件113藉由行動處理單元101導接於語音數位構件112而將語音數位資料傳送至遠端伺服裝置2。在本實施例中,行動電子裝置1與遠端伺服裝置2可以藉由電性連接來互相傳輸,例如,光纖網路等,或是藉由無線網路傳輸方式,例如,Wi-Fi、3G、4G、藍芽、以及紅外線等,只要行動電子裝置1與遠端伺服裝置2可以互相導接並且傳輸資訊即可。
遠端伺服裝置2在本實施例中是一伺服器,其包括一處理單元201、一記憶單元202、一音譯字元轉換機構21、一拼音字母件組轉換機構22、一相似度係數產生機構23、一參考音譯字元組決定機構24、一對應功能指令決定機構25、一執行資訊輸出機構26、以及其他伺服器元件(圖未示)。
音譯字元轉換機構21設置有一分組構件211、一對應詞性件212、一對應詞性分組件213。分組構件211藉由處理單元201導接於音譯字元轉換機構21並將音譯字元序列之音譯字元組分組並將分組後之每一個組儲存於記憶單元202,其中分組構件211是根據文法結構的分析來分組。進一步來說,分組構件211透過對應詞性件212藉由處理單元201而給予音譯字元序列之音
譯字元組一對應詞性,然後再透過對應詞性分組件213藉由處理單元201而依據對應詞性而分組音譯字元序列之音譯字元組。
拼音字母件組轉換機構22導接於記憶單元202,且藉由處理單元201將音譯字元序列之每一個音譯字元組之每一個音譯字元轉換為一拼音字母件組,並將拼音字母件組儲存於記憶單元202。
相似度係數產生機構23藉由處理單元201導接於拼音字母件組轉換機構22而將音譯字元組之每一個拼音字母件組相對於記憶單元202之一資料庫構件D而比對產生音譯字元組與資料庫構件D之一參考音譯字元組之相似度係數,並將相似度係數予以儲存於記憶單元202。
參考音譯字元組決定機構24藉由處理單元201導接至相似度係數產生機構23而依據分別所得之相似度係數決定音譯字元組於資料庫構件D中所對應之參考音譯字元組,並將所對應之參考音譯字元組儲存於記憶單元202。
對應功能指令決定機構25導接於參考音譯字元組決定機構24,且藉由處理單元201而依據音譯字元序列所對應之每一個參考音譯字元組而決定音譯字元序列之對應的功能指令並儲存於記憶單元202。
執行資訊輸出機構26導接於對應功能指令決定機構25,並且藉由處理單元201而依據功能指令而輸出一執行資訊。進一步而言,當執行資訊係為一搜尋關鍵字串時,藉由行動處理單元101導接執行資訊輸出機構26而使得搜尋關鍵字串係被輸出至一搜尋引擎進行搜尋。或是,當執行資訊為一控制訊號時,藉由行動處理
單元101導接一執行設備E而使控制訊號被輸出至執行設備E執行作業。接下來將進一步描述本創作之語意辨識設備的操作流程。
首先,對行動電子裝置1輸入語音訊號(步驟S110)。例如,錄音取樣構件111中的收音單元103接收使用者講的一段語音訊號,並且將語音訊號儲存至行動記憶單元102起來(步驟S111)。錄音取樣構件111藉由行動處理單元101將語音訊號的背景雜音刪除,而語音數位構件112藉由行動處理單元101將所取的樣本轉成語音數位資料(步驟S112)。然後數位資料傳送構件113將所取樣的語音數位資料傳送至遠端伺服裝置2(步驟S113)。其中,行動電子裝置1可為智慧型手機、個人電腦或智慧型電視等
當取樣的語音數位資料傳送至遠端伺服裝置2後,辨識裝置2運用語音識別技術(Automatic Speech Recognition,ASR)將取樣的語音數位資料與資料庫構件D中的參考語音數位資料進行比對,而得出最匹配的參考語音數位資料,並且根據所得的參考語音數位資料而取得取樣的語音數位資料所對應的音譯字元序列(步驟S120)。詳細而言,在本實施例中,音譯字元轉換機構21是利用隱藏式馬可夫模型(Hidden Markov Model,HMM)及類神經網路(Neural Network,N.N.)的方法將取樣的語音數位資料與資料庫構件D中的參考語音數位資料進行比對,而得到最合適的參考語音數位資料。然後再根據最匹配的參考語音數位資料對應的音譯字元而將步驟S110中輸入的語音訊號轉換為所對應的音譯字元序列,其中音譯字元序列包含有至少一個由一音譯字元所組成之音譯字元組。音譯字元主要是由
語音訊號的語言所使用的字元,舉例來說,漢語之音譯字元序列主要是由漢字所組成、日語之音譯字元序列主要是由假名與日本漢字所組成,以及韓語之音譯字元序列主要是由韓字所組成。
透過音譯字元轉換機構21運用語音識別技術辨識後而得到的音譯字元序列,會具有基本地字義分組,此分組即為音譯字元組,而不光只是純音譯。舉例來說,輸入的語音訊號為「花蓮的海洋公園」的情況下,其辨識出來的音譯字元序列可能由下列的音譯字元組所組成,「花蓮」、「華麗」、「的」、「海洋」、「公元」、「公園」。如此一來,音譯字元序列可能是「花蓮的海洋公園」、「華麗的海洋公園」或「華麗的海洋公元」等,而不會是「華憐的海楊供圓」等只有純音譯的情況。其中,音譯字元組由至少一個音譯字元所組成,譬如音譯字元組「花蓮」是由兩個音譯字元「花」及「蓮」所組成,而音譯字元組「的」是由一個音譯字元「的」所組成。
接下來,分組構件211將辨識出來的音譯字元序列之音譯字元組進行分組(步驟S122),而且每一個組分別給予一個預設的優先度,使得在比對時可以根據優先度的高低而決定比對的順序。較佳地,對應詞性件212在分組之前給予音譯字元序列之音譯字元組一對應詞性(步驟S121),譬如,本實施例中,中文的情況下,音譯字元組的詞性依照簡易中文分詞系統(Simple Chinese Words Segmentation,SCWS)來分組,並主要分成三大類,動詞類、名詞類及其他,而每個類別又包含許多組,例如名詞類又再細分為人名組、地名組、機構團體組、名詞性語素組及其他專名組。對應詞性分組件213再根據對應詞性而分組音譯字元序列之音譯字元
組。
此外,分組的時候,除了利用詞性分組外,還可以配合文法結構的分析,使得分組時的正確率更高。例如在中文的情況下,一個字元或一個字元組往往有兩種以上的詞性,會使得在步驟S122中依詞性而分組時容易分組錯誤。如此一來,配合文法結構的分析,分組的錯誤率能降低。在本實施例中,在中文的情況下,文法結構是利用中文句結構樹資料庫(Sinica Treebank)來分析。當然,本創作不限於此,詞性分組也可以使用其他資料庫或系統的分組方式,只要能分組即可,而文法結構也可以使用其他資料庫或系統來分析,只要能分析文法即可。
接著,拼音字母件組轉換機構22將音譯字元序列之音譯字元組之音譯字元轉換為一拼音字母件組(步驟S130)。詳細而言,在本實施例中,在中文的情況下,較佳地是使用英文字母來作拼音的拼音字母,以及使用漢語拼音系統(Hanyu Pinyin)來記寫中文字讀音。例如,音譯字元組「台北」藉由拼音轉換單元42而轉換成漢語拼音「tai2bei3」(數字代表聲調),其中「tai2」即為音譯字元「台」的拼音字母件組,「bei3」即為音譯字元「北」的拼音字母件組。當然,本創作不限於此,也可以使用拉丁字母或其他表音文字(Phonogram)來作拼音的拼音字母,或是採用通用拼音系統(Tongyong Pinyin)或其他拼音系統,只要能拼出音譯字元之音即可。
在步驟S130之後,相似度係數產生機構23將音譯字元組之每一個拼音字母件組予以依序比對於資料庫構件D中之參考音譯字元組之參考拼音字母件組而得
到音譯字元組與參考音譯字元組之相似度係數(步驟S140)。詳細而言,藉由相似度係數產生機構23將音譯字元組之每一個拼音字母件組和資料庫構件D中之參考音譯字元組之參考拼音字母件組進行比對,並且根據組的優先度而依序從優先度高的組比對至優先度低的組,舉例來說,「zhao3(找)」、「xiang3zhi1dao4(想知道)」等搜尋字的組的優先度在設定上高於地名或人名的組,在比對時會先將優先度高的組進行資料庫構件D比對,並在高優先度組比對完成後再進行優先度次高的組的資料庫構件D比對,然後依序比對至優先度最低的組,藉此使得比對更有效率。當然,本創作不限於此,在比對的過程中,若是已經比對至一個適當的結果而能進行下一個步驟,則不需要將音譯字元序列之所有音譯字元組去比對資料庫構件D中所有之參考音譯字元組,只要比對的結果可以進行下個步驟即可,譬如,被歸類至助詞組的音譯字元組「的」、「之」及「著」將不進行比對。
在本實施例中,進行比對的方式是計算兩者的編輯距離(Levenshtein distance),然後將得出的編輯距離(L)換算為相似度係數(S),換算的方式為相似度係數S=1/(1+L)。譬如「xing4hu2(姓胡)」和「xing4fu2(幸福)」,「xing4(姓)」和「xing4(幸)」的拼音字母件組完全一樣,則相似度係數S為1/(1+0)=1,而「hu2(胡)」和「fu2(福)」的編輯距離L為1,所以「hu2(胡)」和「fu2(福)」的相似度係數S為1/(1+1)=0.5。而若是比較一個音譯字元組,如「姓胡」和「幸福」,則是兩者的音譯字元組的拼音字母件組一起比對「xing4hu2(姓胡)」和「xing4fu2(幸福)」,其編輯距離L為1,
則兩者之相似度係數S為1/(1+1)=0.5。當然,本創作不限於此,也可以利用其他比對方式,或是相似度係數與編輯距離的關係為S=1/(1+2L),只要能求出兩者之相似度的相似度係數S即可。
然而,因為同一個音譯字元組有時候會具有多重的詞性而可以分配在不同的組進行比對,或是因為語音辨識出來的音譯字元組有誤,僅音譯正確但音譯字元錯誤而分配到錯誤的組,此情況下比對出來的結果得到的相似度係數S可能會不夠好。因此在步驟S140中,相似度係數產生機構23可以配合文法結構的分析,藉由處理單元201將每一個音譯字元組比對資料庫構件D中一個以上詞性的組,而得到在不同分組的比對下的相似度係數S,最後根據在不同分組情況下,綜合各個音譯字元組的相似度係數S之平均,從而得到最合適的分組方式,而得到音譯字元組之最合適的相似度係數S。舉例來說,輸入的語音訊號為「宜蘭的蜜餞」,而辨識出的音譯字元序列為「依然的密件」,則其音譯字元組的分組分別為「依然」是副詞組,「密件」是名詞組,在比對時會在副詞組中將音譯字元組「依然」之拼音字母件組「yi1ran2」與資料庫構件D中的參考音譯字元組「依然」之參考拼音字母件組「yi1ran2」比對而得到相似度係數S=1,在名詞組中將音譯字元組「密件」之拼音字母件組「mi4jian4」與資料庫構件D中的參考音譯字元組「密件」之參考拼音字母件組「mi4jian4」比對而得到相似度係數S=1,其相似度係數之平均為1。接著,將音譯字元組「依然」之拼音字母件組「yi1ran2」與資料庫構件D中的地名組比對,而得到與資料庫構件D中參考字元組「宜蘭」之參考拼音字母件組
「yi2lan2」的相似度係數S=1/3,然後將音譯字元組「密件」之拼音字母件組「mi4jian4」與資料庫構件D中的名詞組比對,而得到與資料庫構件D中參考字元組「蜜餞」之參考拼音字母件組「mi4jian4」的相似度係數S=1,其相似度係數之平均為2/3。雖然第二次用另一種分組去比對時的相似度係數S之平均較低,但配合文法結構的分析,以及綜合各種分組比對後的相似度係數S之平均,可以得到最合適的分組比對方式,將「依然」分配為地名組進行比對。
接著,參考音譯字元組決定機構24依據所得之相似度係數S決定音譯字元組於資料庫構件D中所對應之參考音譯字元組(步驟S150),詳細而言,在步驟S140中,相似度係數產生機構23將音譯字元組與資料庫構件D中參考音譯字元組進行比對的時候,音譯字元序列之各個音譯字元組依所對應的詞性分的組去比對於資料庫構件D中所對應的組後,得到各個音譯字元組與參考音譯字元組的相似度係數S,然後決定一個最合適之對應的參考音譯字元組,舉例來說,「依然」與地名組比對後得出與參考字元組「宜蘭」的相似度係數S為1/3,「密件」與名詞組比對後得出與參考字元組「蜜餞」的相似度係數S為1,決定音譯字元組依然所對應的參考音字字元組為「宜蘭」,以及決定音譯字元組「密件」所對應的參考音字字元組為「蜜餞」。如此一來,一般語音辨識所辨識的音譯字元序列之有誤的地方被修正改善了。
再者,對應功能指令決定機構25依據音譯字元序列所對應之每一個參考音譯字元組而決定音譯字元序列之對應的功能指令(步驟S160)。詳細而言,根據參考
音譯字元組所對應的預設指令而決定音譯字元序列之對應的功能指令。舉例來說,參考音譯字元組為「找」、「找尋」、「想知道」、「搜尋」等被歸類為查詢的功能指令,而參考音譯字元組為「開」、「打開」、「開啟」、「啟動」等歸類被為設備控制的功能指令。
進一步而言,在步驟S160後,對應功能指令決定機構25是否決定出對應的功能指令(步驟S170),若是決定出對應的功能指令,則執行資訊輸出機構26依據功能指令而輸出一執行資訊(步驟S180),譬如,當音譯字元組所對應的參考音譯字元組為「搜尋」時,則對應的功能指令即為一搜尋關鍵字串,並且透過行動電子裝置1輸出至執行設備E進行搜尋,並且將搜尋的資料回傳給使用者,舉例來說,使用者說「我想知道台中火車站的位置」,則執行資訊輸出機構26輸出關鍵字串「台中火車站」至電腦(如google map)進行搜尋,然後將搜尋的結果如台中地圖的資料回傳給使用者。或是,當音譯字元組所對應的參考音譯字元組為「打開」時,則對應的功能指令即為一控制訊號,並且透過執行資訊輸出機構26輸出至執行設備6執行作業,例如將控制訊號輸出至冷氣,然後將冷氣開啟。如此一來,將接收的語音訊號轉變成回應所搜尋資訊,或是轉變成控制一個電子設備等,即為辨識出語音訊號的語意。
當無法決定音譯字元序列之特定的功能指令時,則執行資訊輸出機構26輸出再確認要求至行動電子裝置1,再確認要求是對音譯字元序列之音譯字元組進行再確認之要求(步驟S171)。接著再接受回應於再確認要求之一再確認訊號(步驟S172)。然後依據音譯字元序列所對應之每一個參考音譯字元組及再確認訊號而決定音
譯字元序列之對應的功能指令(步驟S173)。詳細而言,執行資訊輸出機構26輸出再確認要求可以是透過螢幕顯示的方式顯示一段文字以向使用者確認功能指令,或是透過揚聲器發出一段音訊以向使用者確認功能指令,譬如,讓行動電子裝置1的螢幕顯示「請再次輸入語音訊號」、或顯示「請問所輸入的語音訊號是髒話還彰化」。當然,本創作不限於此,也可以是振動方式,只要能發出再確認要求即可。
然後使用者根據再確認要求而給予再確認訊號,舉例來說,行動電子裝置1的螢幕顯示「髒話」及「彰化」,讓使用者觸碰行動電子裝置1的螢幕去決定功能指令是要搜尋「髒話」的資訊還是「彰化」的資訊。再者,或是顯示「請再次輸入語音訊號」時,使用者重新輸入一次語音訊號。
接著,若使用者選擇「彰化」,則配合之前的參考音譯字元組,譬如「我想知道」,則決定出功能指令為查詢,而查詢的內容為彰化。若是請使用者再次輸入語音訊號的情況下,則使用者再次輸入語音訊號後進入步驟S110,並且經過上述之本創作之語意辨識設備之操作流程,而得到再次輸入之語音訊號之參考音譯字元組,並配合之前輸入之語音訊號所得到的參考音譯字元組,對應功能指令決定機構25決定出功能指令,然後再依據得到的功能指令而輸出一執行資訊。
在實際應用上,在語意辨識的過程中,其較佳地流程如下。首先,行動電子裝置1(如智慧型手機)接收並擷取語音訊號,然後傳輸至遠端伺服裝置2,音譯字元轉換機構21辨識為音譯字元序列。接著,拼音字母件組轉換機構22(如遠端伺服器)將音譯字元序列中
各個拼音字元組之拼音字元轉換成以拼音字母所組成的拼音字母件組,相似度係數產生機構23再與資料庫構件D中的資料比對而得到音譯字元組與參考音譯字元組的相似度係數S。接者,參考音譯字元組決定機構24根據得到的相似度係數S而決定出音譯字元組於資料庫構件D中所對應之參考音譯字元組。接者,對應功能指令決定機構25決定音譯字元序列之對應的功能指令,然後執行資訊輸出機構26根據得到功能指令輸出執行資訊至行動電子裝置1或執行設備E(如電器設備、網路搜尋引擎)。如圖2所示,輸出的執行資訊為打開電視,而使得執行設備E打開,當然,也可是調整音量,或是執行設備也可以是其他電器設備。
由以上之實施例可知,藉由本創作之語意辨識設備,能夠在語音辨識後改善辨識的正確率,以及配合音譯字元組所對應之參考音譯字元組的功能指令而去執行對應的動作,進一步的達到辨識出語意的效果。
惟以上之敘述僅為本創作之較佳實施例說明,凡精於此項技藝者當可依據上述之說明而作其它種種之改良,惟這些改變仍屬於本創作之創作精神及以下所界定之專利範圍中。
100‧‧‧語意辨識設備
1‧‧‧行動電子裝置
101‧‧‧行動處理單元
102‧‧‧行動記憶單元
103‧‧‧收音單元
11‧‧‧語音接收機構
111‧‧‧錄音取樣構件
112‧‧‧語音數位構件
113‧‧‧數位資料傳送構件
2‧‧‧遠端伺服裝置
201‧‧‧處理單元
202‧‧‧記憶單元
21‧‧‧音譯字元轉換機構
211‧‧‧分組構件
212‧‧‧對應詞性件
213‧‧‧對應詞性分組件
22‧‧‧拼音字母件組轉換機構
23‧‧‧相似度係數產生機構
24‧‧‧參考音譯字元組決定機構
25‧‧‧對應功能指令決定機構
26‧‧‧執行資訊輸出機構
D‧‧‧資料庫構件
E‧‧‧執行設備
第1圖係顯示本創作之一實施例之語意辨識設備之示意圖;第2圖係顯示本創作之一實施例之語意辨識設備之方塊圖;第3至第3B圖係顯示本創作之一實施例之語意辨識設備之操作流程圖。
100‧‧‧語意辨識設備
1‧‧‧行動電子裝置
101‧‧‧行動處理單元
102‧‧‧行動記憶單元
103‧‧‧收音單元
11‧‧‧語音接收機構
111‧‧‧錄音取樣構件
112‧‧‧語音數位構件
113‧‧‧數位資料傳送構件
2‧‧‧遠端伺服裝置
201‧‧‧處理單元
202‧‧‧記憶單元
21‧‧‧音譯字元轉換機構
211‧‧‧分組構件
212‧‧‧對應詞性件
213‧‧‧對應詞性分組件
22‧‧‧拼音字母件組轉換機構
23‧‧‧相似度係數產生機構
24‧‧‧參考音譯字元組決定機構
25‧‧‧對應功能指令決定機構
26‧‧‧執行資訊輸出機構
D‧‧‧資料庫構件
Claims (13)
- 一種語意辨識設備,該語意辨識設備包含一行動電子裝置以及相互導接於該行動電子裝置的一遠端伺服裝置,該遠端伺服裝置具有一處理單元及一記憶單元,其中該行動電子裝置包含:一語音接收機構,以接收一語音訊號,該遠端伺服裝置包含:一音譯字元轉換機構,藉由該處理單元導接於該語音接收機構而將輸入的該語音訊號轉換為一音譯字元序列,並將該音譯字元序列儲存於該記憶單元,該音譯字元序列係包含有至少一個由一音譯字元所組成之音譯字元組;一拼音字母件組轉換機構,導接於該記憶單元且藉由該處理單元將該音譯字元序列之每一個音譯字元組之每一個音譯字元轉換為一拼音字母件組,並將該拼音字母件組儲存於該記憶單元;一相似度係數產生機構,藉由該處理單元導接於該拼音字母件組轉換機構而將該音譯字元組之每一個拼音字母件組相對於該記憶單元之一資料庫構件而比對產生該音譯字元組與該資料庫構件之一參考音譯字元組之相似度係數,並將該相似度係數予以儲存於該記憶單元;以及一參考音譯字元組決定機構,藉由該處理單元導接至該相似度係數產生機構而依據分別所得之該相似度係數決定該音譯字元組於該資料庫構件中所對應之該參考音譯字元組,並將所對應之該參考音譯字元組儲存於該記 憶單元。
- 如申請專利範圍第1項所述之語意辨識設備,其中該語音訊號係為以非拉丁字母為字母之語音訊號。
- 如申請專利範圍第1項所述之語意辨識設備,其中該拼音字母件組係為拉丁字母所拼音組成。
- 如申請專利範圍第1項所述之語意辨識設備,其中該語音接收機構更包括:一錄音取樣構件,具有一收音單元,該收音單元接收該語音訊號並且藉由該行動電子裝置之一行動處理單元導接於該語音接收機構而將該語音訊號錄音並取樣且予以儲存於該行動電子裝置之一行動記憶單元;一語音數位構件,藉由該行動處理單元導接於該錄音取樣構件而將該語音訊號之取樣轉換為一語音數位資料並予以儲存於該行動記憶單元;以及一數位資料傳送構件,藉由該行動處理單元導接於該語音數位構件而將該語音數位資料傳送至該遠端伺服裝置並予以儲存於該遠端伺服裝置之記憶單元。
- 如申請專利範圍第1項所述之語意辨識設備,其中該音譯字元轉換機構更包括一分組構件,該分組構件藉由該處理單元導接於該音譯字元轉換機構並將該音譯字元序列之音譯字元組分組並將該分組後之每一個組儲存於該記憶單元。
- 如申請專利範圍第5項所述之語意辨識設備,其中該分組構件藉由該處理單元將該音譯字元序列之音譯字元組根據文法結構的分析來分組。
- 如申請專利範圍第5項所述之語意辨識設備,其中該音譯字元轉換機構更包括一對應詞性件,藉由該處理單元而給予該音譯字元序列之音譯字元組一對應詞性;以 及一對應詞性分組件,藉由該處理單元而依據該對應詞性而分組該音譯字元序列之音譯字元組。
- 如申請專利範圍第5項所述之語意辨識設備,其中該每一個組具有一預設之優先度。
- 如申請專利範圍第8項所述之語意辨識設備,其中該相似度係數產生機構係藉由該處理單元而根據該每一個組之優先度而從優先度高之組至優先度低之組進行比對。
- 如申請專利範圍第1項所述之語意辨識設備,更包括一對應功能指令決定機構,其係導接於該參考音譯字元組決定機構,且藉由該處理單元而依據該音譯字元序列所對應之每一個參考音譯字元組而決定該音譯字元序列之對應的功能指令並儲存於該記憶單元。
- 如申請專利範圍第10項所述之語意辨識設備,更包括一執行資訊輸出機構,導接於該對應功能指令決定機構,並且藉由該處理單元而依據該功能指令而輸出一執行資訊。
- 如申請專利範圍第11項所述之語意辨識設備,其中該執行資訊輸出機構中之該執行資訊係為一搜尋關鍵字串,藉由該行動處理單元導接該執行資訊輸出機構而使得該搜尋關鍵字串係被輸出至一搜尋引擎進行搜尋。
- 如申請專利範圍第11項所述之語意辨識設備,其中該執行資訊係為一控制訊號,藉由該行動處理單元導接一執行設備而使該控制訊號係被輸出至該執行設備執行作業。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
TW101221405U TWM453219U (zh) | 2012-11-05 | 2012-11-05 | 語意辨識設備 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
TW101221405U TWM453219U (zh) | 2012-11-05 | 2012-11-05 | 語意辨識設備 |
Publications (1)
Publication Number | Publication Date |
---|---|
TWM453219U true TWM453219U (zh) | 2013-05-11 |
Family
ID=49079635
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
TW101221405U TWM453219U (zh) | 2012-11-05 | 2012-11-05 | 語意辨識設備 |
Country Status (1)
Country | Link |
---|---|
TW (1) | TWM453219U (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10978060B2 (en) | 2014-01-31 | 2021-04-13 | Hewlett-Packard Development Company, L.P. | Voice input command |
-
2012
- 2012-11-05 TW TW101221405U patent/TWM453219U/zh not_active IP Right Cessation
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10978060B2 (en) | 2014-01-31 | 2021-04-13 | Hewlett-Packard Development Company, L.P. | Voice input command |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11914925B2 (en) | Multi-modal input on an electronic device | |
CN108304375B (zh) | 一种信息识别方法及其设备、存储介质、终端 | |
CN111968649B (zh) | 一种字幕纠正方法、字幕显示方法、装置、设备及介质 | |
CN111710333B (zh) | 用于生成语音转录的方法和系统 | |
US9805718B2 (en) | Clarifying natural language input using targeted questions | |
US10290299B2 (en) | Speech recognition using a foreign word grammar | |
US11416214B2 (en) | Multi-modal input on an electronic device | |
WO2021051514A1 (zh) | 一种语音识别方法、装置、计算机设备及非易失性存储介质 | |
US11257484B2 (en) | Data-driven and rule-based speech recognition output enhancement | |
CN109508441B (zh) | 通过自然语言实现数据统计分析的方法、装置及电子设备 | |
TW201409462A (zh) | 語意辨識方法 | |
CN107424612A (zh) | 处理方法、装置和机器可读介质 | |
JP2010048890A (ja) | クライアント装置、認識結果フィードバック方法、認識結果フィードバックプログラム、サーバ装置、音声認識のモデル更新方法、音声認識のモデル更新プログラム、音声認識システム、音声認識方法、音声認識プログラム | |
Sim | Haptic voice recognition: Augmenting speech modality with touch events for efficient speech recognition | |
TWM453219U (zh) | 語意辨識設備 | |
JP5936588B2 (ja) | 情報処理装置、制御方法、及びプログラム | |
Chien et al. | A spoken‐access approach for chinese text and speech information retrieval | |
JP7297266B2 (ja) | 検索支援サーバ、検索支援方法及びコンピュータプログラム | |
CN116956914A (zh) | 命名实体的识别方法、装置、设备、介质、程序产品 | |
Abbasi | Phonetic Analysis and Searching with Google Glass API | |
Khalil | Using automatic speech recognition to evaluate Arabic to English transliteration |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
MM4K | Annulment or lapse of a utility model due to non-payment of fees |