TWI752474B - 無障礙智能語音系統及其控制方法 - Google Patents

無障礙智能語音系統及其控制方法 Download PDF

Info

Publication number
TWI752474B
TWI752474B TW109113480A TW109113480A TWI752474B TW I752474 B TWI752474 B TW I752474B TW 109113480 A TW109113480 A TW 109113480A TW 109113480 A TW109113480 A TW 109113480A TW I752474 B TWI752474 B TW I752474B
Authority
TW
Taiwan
Prior art keywords
voice
audio
tag
database
mobile device
Prior art date
Application number
TW109113480A
Other languages
English (en)
Other versions
TW202141466A (zh
Inventor
莊連豪
Original Assignee
莊連豪
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 莊連豪 filed Critical 莊連豪
Priority to TW109113480A priority Critical patent/TWI752474B/zh
Priority to US17/236,366 priority patent/US11705126B2/en
Priority to JP2021072552A priority patent/JP7422702B2/ja
Publication of TW202141466A publication Critical patent/TW202141466A/zh
Application granted granted Critical
Publication of TWI752474B publication Critical patent/TWI752474B/zh

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F21/00Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F21/30Authentication, i.e. establishing the identity or authorisation of security principals
    • G06F21/31User authentication
    • G06F21/32User authentication using biometric data, e.g. fingerprints, iris scans or voiceprints
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/28Constructional details of speech recognition systems
    • G10L15/30Distributed recognition, e.g. in client-server systems, for mobile phones or network applications
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/02Feature extraction for speech recognition; Selection of recognition unit
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/22Interactive procedures; Man-machine interfaces
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L2015/088Word spotting

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Health & Medical Sciences (AREA)
  • Multimedia (AREA)
  • Computational Linguistics (AREA)
  • Computer Security & Cryptography (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Hardware Design (AREA)
  • Software Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Telephonic Communication Services (AREA)

Abstract

一種無障礙智能語音系統及其控制方法,可從一語音音頻辨識出可作為獨立語意單位的多個詞,並可接續判斷其是否為使用者創建的多個語音標籤的其中之一者,且語音標籤可進一步區分,以代表某標的物或資訊之名稱、名字、稱呼、代號、單一或組合指令、程式、語音訊息、錄音訊息等等,進而可依據成功被比對出的語音標籤組合,判斷語意標籤於資料庫所指向的目標對象、程式指令、及備註說明,並據此啟動對應程式、或觸發遠端裝置作動,本案可視為一種AI智能語音處理引擎,透過讓使用者自行定義不同種類的語音標籤組合,可毋須進行自然語言處理的語法及語意分析,排除不同語言間之語音翻譯差異與錯誤,有效減少運算量,增快系統處理速度,將系統判斷錯誤降到最低,同時可達成保密、防盜、無障礙使用、及不受語言種類限制的功效。

Description

無障礙智能語音系統及其控制方法
本發明涉及音頻辨識技術,尤指一種從一語音音頻辨識出多個獨立語意單位後,可接續比對其是否為使用者自行創建之多個語音標籤的其中一者,進而依據被比對出的語音標籤(其可代表某標的物或資訊之名稱、名字、稱呼、代號、單一或組合指令、程式、語音訊息、錄音訊息等等)組合,判斷語音音頻所對應的一語音指令(亦可稱一語音代號),以啟動對應程式、或觸發其它受控裝置作動的「無障礙智能語音系統及其控制方法」。
隨著科技發展,具有語音辨識系統的行動裝置已日漸普及,目前大多數的語音辨識系統係透過語言理解技術,讓使用者直接以自然語言(Natural Language)與行動裝置作溝通,例如使用者可對行動裝置發出「買張下周三去東京的機票,華航的」的連續語音命令,但如此一來,語音辨識系統若要達到口語理解(speech understanding)的層次,需要對該連續語音命令執行一語法分析(例如利用語法分析器syntax analyzer)、與一語意解讀(例如利用語意分析器semantic analyzer),以對連續語音命令的各個字詞進行詞性標註、提取詞幹(stemming)、組成結構樹(Parser tree)、以及對結構樹的每個詞彙賦予語意角色後,分析整句語音指令的語意,而會產生較大的運算量。
此外,通常此種連續語音命令的語法結構,會遵循特定文法規則(包括句法和詞法)的限制,且不同語言的文法結構也會有所不同,如此一來,若使用者發出的連續語音指令較為複雜,甚至有許多贅詞、稍微停頓不講話、或是使用者在表達文法結構上不夠正確時、或是可能因為個人口音差異、或是使用者依照不同單一語言及混合語言作使用時,都可能因此影響到語音辨識系統的辨識準確度,同時也對訓練自然語言處理模型(NLP),造成了一定的難度。
再者,若未採用聲紋辨識技術,現有的語音辨識系統並無法從使用者的聲音,辨別其是否有權限特定執行動作,是以,針對普遍採用語言理解技術的語音辨識系統,如何提出一種可減少語音辨識之運算量、降低文法結構對語音辨識系統的影響、可無障礙使用、可驗證使用權限與兼具保密、及具有防盜特性的音頻辨識技術,仍為有待解決之問題。
為達上述目的,本發明人基於多年從事於音頻辨識之研究、開發及實務經驗,提出一種無障礙智能語音系統的控制方法,包括: (1)       一分析語音音頻步驟:一語音識別單元連接至一語音資料庫,並對一語音接收單元所接收的一語音音頻,執行一語音分析,以從中辨識出多個語音,再對多個語音執行一構詞分析,以從中辨識出可作為獨立語意單位的多個詞; (2)       一比對語音標籤步驟:語音識別單元連接至一標籤資料庫,以判斷多個詞,是否為一行動裝置所定義之多個目標語音標籤的其中一者,以及是否為行動裝置所定義之多個指令語音標籤的其中一者; (3)       一執行對應語音指令步驟:行動裝置的一處理器依據被比對出的目標語音標籤於標籤資料庫所指向的一目標對象、及被比對出的指令語音標籤於標籤資料庫所指向的一程式指令,使行動裝置對該目標對象執行該程式指令。
為達上述目的,本發明人亦提出一種無障礙智能語音系統,適用於具有一處理器的一行動裝置,系統包含:一語音接收單元,其資訊連接於處理器,並供以接收一語音音頻;一通訊單元,其資訊連接於處理器;一語音資料庫,其儲存有多筆語音音頻樣本;一標籤資料庫,其儲存有多筆目標語音標籤、及多筆指令語音標籤;一語音識別單元,其分別與通訊單元、語音資料庫、及標籤資料庫資訊連接,並供以接收語音接收單元所發送的語音音頻,並對語音音頻執行一語音分析,以基於讀取語音資料庫的結果,從中辨識出多個語音,再對多個語音執行一構詞分析,以從中辨識出獨立的多個詞;語音識別單元亦供以基於讀取標籤資料庫的結果,判斷多個詞是否為行動裝置所定義之多個目標語音標籤的其中一者,以及多個詞是否為行動裝置所定義之多個指令語音標籤的其中一者;若判斷結果為符合,語音識別單元可藉由通訊單元,令處理器依據被比對出的目標語音標籤於標籤資料庫所指向的一目標對象、及被比對出的指令語音標籤於標籤資料庫所指向的一程式指令,使行動裝置對目標對象執行程式指令。
為使 貴審查委員得以清楚了解本發明之目的、技術特徵及其實施後之功效,茲以下列說明搭配圖示進行說明,敬請參閱。
請參閱「第1圖」,其為本發明之智能語音系統的方塊示意圖,並請參閱「第2圖」的資訊流示意圖,本實施例的無障礙智能語音系統10可包含: (1)       一語音接收單元1011,其資訊連接於一行動裝置101的一處理器1012,供以接收一語音音頻V,其中,語音接收單元1011可為行動裝置101的麥克風,或是通過無線通訊(例如藍芽)與行動裝置101連線的無線耳機(wireless earphone); (2)       一通訊單元1013,其可資訊連接於處理器1012; (3)       一語音資料庫1021,其可儲存多筆語音音頻樣本,且各語音音頻樣本中的各個/各組語音(phone),係對應至可作為獨立語意單位的詞(word),其中,前述的語音音頻樣本,可由語音識別單元1023依據語音音頻V的各種聲母(Initial)及各種韻母(Final),來辨識出語音音頻樣本中的一或多個音節(Syllable),並且,前述語音音頻樣本的語言,可為中文、英文、閩南語、粵語、日語、韓語等,但均不此為限; (4)       一標籤資料庫1022,其儲存有多筆目標語音標籤L1、及多筆指令語音標籤L2; (5)       一語音識別單元1023,其分別與通訊單元1013、語音資料庫1021、及標籤資料庫1022資訊連接,供以經由一網路N從語音接收單元1011接收其發送的語音音頻V,並對語音音頻V執行一語音分析(Phonetic Analysis),以基於讀取語音資料庫1021的結果,從中辨識出多個語音(phone),再對多個語音執行一構詞分析(morphological),以從中辨識出獨立的多個詞(Word);較佳地,本發明在辨識出前述的多個語音後,可同時對語音音頻V執行一音位分析(Phonological Analysis),以辨識出該語音在所屬語言的音位(Phoneme)歸屬,由於音位係一種具有辨義功能的最小語音單位,故藉此可有助於語音識別單元1023如何將多個語音辨別為詞; (6)       語音識別單元1023亦可基於讀取標籤資料庫1022的結果,判斷多個詞是否為行動裝置101所定義之多個目標語音標籤L1的其中一者,以及是否為行動裝置101所定義之多個指令語音標籤L2的其中一者; (7)       語音識別單元1023亦可藉由通訊單元1013,令行動裝置101之處理器1012依據被比對出的目標語音標籤L1於標籤資料庫1022所指向的一目標對象O、及被比對出的指令語音標籤L2於標籤資料庫1022所指向的一程式指令I,使行動裝置101可對目標對象O執行程式指令I; (8)       承上,語音接收單元1011、處理器1012、及通訊單元1013於本實施例中,皆可運行於行動裝置101。 (9)       承上,語音資料庫1021、標籤資料庫1022、及語音識別單元1023於本實施例中,皆可運行於一伺服裝置102,且伺服裝置102當然也可具有一第二處理器,於此不再贅述。
其中,作為示例,「第1圖」所例示的目標對象O可為行動裝置101所儲存的一聯絡人資訊(其可為聯絡人名稱、聯絡人代號、聯絡人稱呼)、一標的物資訊(其可為標的物名稱、標的物代號、標的物稱呼)、一行程資訊、一待辦事項資訊、一待辦清單資訊、一檔案位址資訊、一超連結,但均不以此為限,此外,目標對象O亦可為與行動裝置101的通訊單元1013藉由網路N通訊連接的一受控裝置(圖中未繪示)。
其中,作為示例,「第1圖」所例示的網路N可例如為公眾或私人網路,如無線網路(例如3G、4G LTE、Wi-Fi)、有線網路、區域網路(LAN)、廣域網路(WA)等,但不以此為限。
其中,作為示例,「第1圖」所例示的伺服裝置102可為提供連線服務之獨立伺服電腦、或裝設並運行於伺服電腦內之虛擬機器(VM)、或以虛擬專屬主機(Virtual Private Server)形式運行的伺服器、或一公有雲、或一私有雲、或一邊緣終端裝置(edge device) 等,但不以此為限。
其中,作為示例,「第1圖」所例示的處理器1012,其可為一中央處理器(CPU)、一微處理器(MPU)、一微控制器(MCU)、一應用處理器(AP)、一嵌入式處理器、或一特殊應用積體電路(ASIC),但均不以此為限。
其中,作為示例,「第1圖」所例示的語音資料庫1021及標籤資料庫1022,其本身可為一實體資料庫主機、一雲端資料庫,或以多個資料表(Table)形式儲存於伺服裝置102中,以作為一關聯式資料庫或一非關聯式資料庫,但不以此為限。
請參閱「第3圖」,其為本發明之智能語音系統的控制方法流程圖,並請搭配參閱「第1圖」~「第2圖」,本實施例的無障礙智能語音系統10適用於解析一語音音頻V,且包含一語音接收單元1011、一語音資料庫1021、一標籤資料庫1022、一語音識別單元1023、及一行動裝置101的一處理器1012,無障礙智能語音系統的控制方法S,可包括以下步驟: (1) 分析語音音頻(步驟S10):語音識別單元1023連接至語音資料庫1021,並對語音接收單元1011所接收的語音音頻V,執行一語音分析,以從中辨識出多個語音,再對多個語音執行一構詞分析,以從中辨識出可作為獨立語意單位的多個詞(word),例如「書」、「book」、「男生」、「boy」等皆可單獨成詞,有關此步驟,還請搭配參閱「第4圖」之分析語音音頻步驟示意圖,如「第4圖」所示,語音接收單元1011所接收的語音音頻V,無論其被辨識為「莊老闆打」、「打莊老闆」、「打莊老大」、「莊老闆Call」、「Call莊老闆」、「莊老大Call」、「莊頭家打(閩南語t'auˊ-ke)」、「打莊頭家」、或「莊頭家Call」的多個語音,且無論其實際表達是否違反文法限制,皆可進一步被辨識出其係由「莊老闆」與「打」組成、「莊頭家」與「打」組成、「莊老大」與「打」組成、「莊老闆」與「打電話」組成、「莊老大」與「Call」、「莊頭家」與「Call」、或「莊老闆」與「Call」組成的多個詞;同樣地,若以語音音頻V係被辨識為「莊老闆合照顯示」、「合照莊老闆顯示」、「莊頭家合照顯示」、「合照莊頭家顯示」、「合照莊老闆Show」、「Show合照莊老闆」、「莊頭家合照Show」、或「合照莊頭家Show」的多個語音為例,無論其實際表達是否違反文法規則,皆可進一步被辨識出其係由「莊老闆」、「合照」與「顯示」組成、「莊頭家」、「合照」與「顯示」組成、「莊老闆」、「合照」與「Show」、或「莊頭家」、「合照」與「Show」組成的多個詞,但此僅為舉例,並不以此為限; (2) 比對語音標籤(步驟S20):請搭配參閱「第4圖」之分析語音音頻步驟示意圖,如「第4圖」所示,語音識別單元1023可連接至標籤資料庫1022,以判斷該多個詞,是否為行動裝置101所定義之多個目標語音標籤L1的其中一者,以及是否為行動裝置101所定義之多個指令語音標籤L2的其中一者,更具體而言,若以語音音頻V係可被辨識出由「莊老闆」+「打」、「莊頭家」+「打」、「莊老闆」+「打電話」、「莊老闆」+「Call」、「莊頭家」+「Call」組成的多個詞為例,則語音識別單元1023在步驟S20中,語音識別單元1023係可比對出目標語音標籤L1「莊老闆」、及比對出指令語音標籤L2「Call」或「打」,或者是比對出另一目標語音標籤L1「莊頭家」、及比對出指令語音標籤L2「Call」或「打」;同樣地,若以語音音頻V係可被辨識出由「莊老闆」+「合照」+「顯示」、或「莊頭家」+「合照」+「顯示」、或「莊老闆」+「合照」+「Show」組成的多個詞為例,則語音識別單元1023係可比對出目標語音標籤L1「莊老闆合照」及比對出指令語音標籤L2「顯示」或「Show」,或者是比對出另一目標語音標籤L1「莊頭家合照」及比對出指令語音標籤L2「顯示」或「Show」,至此,如果語音識別單元1023對於目標語音標籤L1、及指令語音標籤L2的比對結果為符合,則續行步驟S30,如果不符合,則代表無法辨識音頻,並可再次執行步驟S10或步驟S20; (3) 執行對應語音指令(步驟S30):處理器1012依據被比對出的目標語音標籤L1於標籤資料庫1022所指向的一目標對象O、及被比對出的指令語音標籤L2於標籤資料庫1022所指向的一程式指令I,使行動裝置101對目標對象O執行程式指令I;更具體而言,若以語音音頻V係可被辨識出由「莊老闆」+「打」、「莊老闆」+「打電話」、或「莊老闆」+「Call」組成的多個詞為例,則語音識別單元1023在步驟S30中,語音識別單元1023係可依據被比對的目標語音標籤L1「莊老闆」,判斷出其是否可對應至行動裝置101中的目標對象O「莊小豪之聯絡電話」,同時可依據被比對出的指令語音標籤L2「Call」或「打」,判斷出其可對應至程式指令I「對目標對象執行行動裝置101所搭載的一電話應用程式(APP)」,並予以執行,至此,即如「第5A圖」的實施情境示意圖(一)所示;同樣地,若以語音音頻V係可被辨識出由「莊老闆」+「合照」+「顯示」、或「莊老闆」+「合照」+「Show」組成的多個詞為例,則語音識別單元1023係可依據被比對的目標語音標籤L1「莊老闆合照」,判斷出其是否可對應至行動裝置101中的目標對象O「與莊小豪合照的照片」,同時可依據被比對出的指令語音標籤L2「Show」或「顯示」,判斷出其可對應至程式指令I「執行行動裝置101所安裝的一相片檢視器程式」,並予以執行,至此,即如「第5B圖」的實施情境示意圖(二)所示。
請參閱「第6A圖」~「第6C圖」,其分別為本發明之另一實施例(一)的資訊流示意圖與實施情境示意圖(一)、(二),並請搭配參閱「第1圖」~「第3圖」,本實施例的語音識別單元1023在步驟S20(比對語音標籤)執行時,係可判斷由語音音頻V所辨識出的該多個詞,是否也包含由行動裝置101自行定義的一備註語音標籤L3,若有,則行動裝置101的處理器1012可依據備註語音標籤L3於標籤資料庫1022所指向的一備註說明R,調整程式指令I、或目標對象O的內容,更具體而言,若以語音音頻V係由「莊老闆」+「打」+「住家」、或「莊老闆」+「Call」+「住家」組成的多個詞為例,則語音識別單元1023在步驟S20(比對語音標籤)中,係可比對出目標語音標籤L1「莊老闆」、比對出指令語音標籤L2「打」或「Call」、及比對出備註語音標籤L3「住家」,藉此,語音識別單元1023在步驟S30(執行對應語音指令)執行時,語音識別單元1023係可依據被比對的目標語音標籤L1「莊老闆」、及備註語音標籤L3「住家」,判斷出其是否可對應至行動裝置101中的目標對象O「莊小豪之住家聯絡電話」,同時可依據被比對出的指令語音標籤L2「Call」或「打」,判斷出其可對應至程式指令I「對目標對象執行行動裝置101所搭載的一電話應用程式(APP)」,並予以執行,至此,即如「第6B圖」所示,意即「第6B」圖所示的實施例即為備註語音標籤L3可調整目標對象O之內容的示例;同樣地,若以「莊老闆」+「合照」+「顯示」+「說筆記」、或「莊老闆」+「合照」+「Show」+「說備註」所組成的多個詞為例,則語音識別單元1023在步驟S20(比對語音標籤)中,語音識別單元1023係可比對出目標語音標籤L1「莊老闆合照」、比對出指令語音標籤L2「顯示」或「Show」、及比對出備註語音標籤L3「說備註」或「說筆記」,藉此,語音識別單元1023在步驟S30(執行對應語音指令)執行時,語音識別單元1023係可依據被比對的目標語音標籤L1「莊老闆合照」,判斷出其是否可對應至行動裝置101中的目標對象O「與莊小豪合照的照片」,同時可依據被比對出的指令語音標籤L2「Show」或「顯示」,以及依據被比對出的備註語音標籤L3「說備註」或「說筆記」,判斷出其可對應至程式指令I「執行行動裝置101所安裝的一相片檢視器程式,並播放或呈現與目標對象關聯的備註資訊」,並予以執行,至此,即如「第6C圖」所示,意即「第6C」圖所示的實施例即為備註語音標籤L3可調整程式指令I之內容的示例。
請參閱「第7圖」,其為本發明之另一實施例(二)的方塊示意圖,本實施例與「第1圖」~「第3圖」所例示的技術類同,主要差異在於,本實施例的無障礙智能語音系統10更可包括一權限驗證單元1024,其可儲存有多個程式指令,並與語音識別單元1023資訊連接,權限驗證單元1024可基於被比對出的目標語音標籤L1、及被比對出的指令語音標籤L2,依據語音識別單元1023讀取標籤資料庫1022的結果,判斷語音音頻V所對應的一等級權限,以供語音識別單元1023判斷行動裝置101基於當前的等級權限是否可執行程式指令I;換言之,本實施例的無障礙智能語音系統的控制方法S,更可包括「驗證使用權限」(步驟S25)的步驟:一權限驗證單元1024基於被比對出的目標語音標籤L1、及被比對出的指令語音標籤L2,依據語音識別單元1023讀取標籤資料庫1022的結果,判斷語音音頻V所對應的一等級權限,以判斷處理器1012於步驟30(執行對應語音指令)執行時,基於行動裝置101當前的等級權限是否可執行程式指令I,舉例而言,例如權限驗證單元1024判斷語音音頻V所對應的目標語音標籤L1及指令語音標籤L2,在標籤資料庫1022所儲存的資料表中,係屬於第一層級(最高等級),則可判斷行動裝置101當前的等級權限為持有者,且當程式指令I的等級權限為第一層級時,則判斷行動裝置101當前有執行程式指令I的權限,至於第二層級、第三層級之等級權限,則可例如為家人使用者,其無法執行屬於第一層級的程式指令I;若權限驗證單元1024判斷語音音頻V所對應的目標語音標籤L1及指令語音標籤L2,在標籤資料庫1022所儲存的資料表中,係屬於第二層級時,且當程式指令I的等級權限為第三層級、或第二層級時,則判斷行動裝置101當前有執行程式指令I的權限;相對地,若權限驗證單元1024判斷語音音頻V所對應的目標語音標籤L1及指令語音標籤L2,在標籤資料庫1022所儲存的資料表中,係屬於第三層級時,且當程式指令I的等級權限為第二層級時,則可判斷行動裝置101當前並無執行程式指令I的權限,以此類推。
請參閱「第8圖」,其為本發明之另一實施例(三)的方法流程圖,本實施例與「第1圖」~「第3圖」所例示的技術類同,主要差異在於,本實施例的無障礙智能語音系統的控制方法S,可包含「偵測喚醒語音」(步驟S5)的步驟:語音識別單元1023先判斷語音接收單元1011是否有接收預定義的一喚醒音頻,例如接收「小白」、「秘書」等喚醒音頻,若有,將喚醒音頻視為一喚醒操作,並接續對語音音頻V執行步驟S10(分析語音音頻),以續行對語音音頻V執行語音分析及構詞分析;此外,本實施例的無障礙智能語音系統的控制方法S,更可包含「偵測休眠語音」(步驟S35)的步驟:語音識別單元1023判斷語音接收單元1011是否有接收預定義的一休眠音頻,例如接收「小白關閉」、「秘書休息」等休眠音頻,若有,可將休眠音頻視為一休眠操作,並停止再對語音音頻V執行步驟S10(分析語音音頻),意即暫停再對語音音頻V執行語音分析及構詞分析,僅能接續執行步驟S5,此外,但步驟S35,亦可接續於步驟S5、步驟S10或步驟S20之後執行,並不限於「第8圖」所例示之順序。
請參閱「第9圖」,其為本發明之另一實施例(四)的方塊示意圖,相較於「第1圖」~「第3圖」所例示的技術手段,在本實施例中的無障礙智能語音系統10,其語音資料庫1021、標籤資料庫1022、語音識別單元1023、及權限驗證單元1024皆可搭載於行動裝置101中,可毋須再由「第1圖」所示的通訊單元1013,通過「第1圖」所示的網路N,在處理器1012及語音識別單元1023之間,收發語音音頻V、目標對象O、程式指令I及備註說明R的資訊,換言之,本實施例的無障礙智能語音系統10,即便在沒有通訊網路的情況下,仍可讓使用者直接以行動裝置101,於當下完成語音命令的辨識與執行。
請參閱「第10圖」,其為本發明之另一實施例(五)的實施情境示意圖,並請搭配參閱「第1圖」~「第3圖」,本實施例的無障礙智能語音系統10,在語音識別單元1023使處理器1012依據被比對出的目標語音標籤L1於標籤資料庫1022所指向的目標對象O、及依據被比對出的指令語音標籤L2於標籤資料庫1022所指向的程式指令I,使得行動裝置101可對目標對象O執行程式指令I時,目標對象O可為一受控裝置103,例如除了行動裝置101以外的電動門、燈具、電視、電器等,舉例而言,使用者可操作行動裝置101,讓語音接收單元1011接收語音音頻V後,使得語音音頻V可被語音識別單元1023辨識出由「開」(可對應至指令語音標籤L2)+「電視TVS」(可對應至目標語音標籤L1)所組成的多個詞,且無論語音音頻V的文法結構是否正確,皆可進一步由語音識別單元1023比對出對應目標語音標籤L1的目標對象O「電視TVS新聞台」、及比對出對應指令語音標籤L2的程式指令I「由行動裝置101的通訊單元1013,以無線方式開啟智慧電視」,但此僅為舉例,並不以此為限。
承上,於本發明之一實施例中,本發明更提供一種可執行前述無障礙智能語音系統的控制方法S的一電腦程式產品,當電腦系統載入該電腦程式產品的多個程式指令後,係至少可完成如前述無障礙智能語音系統的控制方法S的步驟S5、步驟S10、步驟S20、步驟S25、步驟S30及步驟S35。
承上,本發明據以實施後,至少可達成以下的有利功效: (1) 無論語音音頻的文法規則是否正確,本發明透過比對出使用者自行創建的語音標籤組合(以代表某標的物或資訊之名稱、名字、稱呼、代號、單一或組合指令、程式、語音訊息、錄音訊息等等),即可辨識出是否能對應至特定的目標對象及程式指令,相較於習知的自然語言理解(NLU)或自然語言處理(NLP),可有效降低運算量,增快系統處理速度,將系統判斷錯誤降到最低,可排除不同語言間之語音翻譯差異與錯誤,同時不受語言、音調、音色限制,故本發明可辨識語音殘障人士的音頻,更可辨識小孩、一般成人、銀髮族等正常人的語音音頻,而能達到無障礙使用。 (2) 本發明透過比對出使用者自行創建的語音標籤組合,可同時判斷語音音頻於當前的等級權限,具有驗證及類同於音頻加密的技術,第三者若不知道使用者自行創建的語音標籤組合、及非出自於原使用者之語音音頻,將無法透過發出語音音頻,來驅動行動裝置執行特定功能、或啟動除了行動裝置以外的受控裝置。
唯,以上所述者,僅為本發明之較佳之實施例而已,並非用以限定本發明實施之範圍;任何熟習此技藝者,在不脫離本發明之精神與範圍下所作之均等變化與修飾,皆應涵蓋於本發明之專利範圍內。
綜上所述,本發明之功效,係具有發明之「產業可利用性」、「新穎性」與「進步性」等專利要件;申請人爰依專利法之規定,向 鈞局提起發明專利之申請。
10:無障礙智能語音系統 101:行動裝置 1011:語音接收單元 1012:處理器 1013:通訊單元 102:伺服裝置 1021:語音資料庫 1022:標籤資料庫 1023:語音識別單元 1024:權限驗證單元 103:受控裝置 V:語音音頻 Phone:語音 Word:詞 L1:目標語音標籤 O:目標對象 L2:指令語音標籤 I:程式指令 L3:備註語音標籤 R:備註說明 N:網路 S:無障礙智能語音系統的控制方法 S5:偵測喚醒語音 S10:分析語音音頻 S20:比對語音標籤 S25:驗證使用權限 S30:執行對應語音指令 S35:偵測休眠語音
第1圖,為本發明之智能語音系統的方塊示意圖。 第2圖,為本發明之智能語音系統的資訊流示意圖。 第3圖,為本發明之智能語音系統的控制方法流程圖。 第4圖,為本發明之分析語音音頻步驟示意圖。 第5A圖,為本發明之實施情境示意圖(一)。 第5B圖,為本發明之實施情境示意圖(二)。 第6A圖,為本發明之另一實施例(一)的資訊流示意圖。 第6B圖,為本發明之另一實施例(一)的實施情境示意圖(一)。 第6C圖,為本發明之另一實施例(一)的實施情境示意圖(二) 第7圖,為本發明之另一實施例(二)的方塊示意圖。 第8圖,為本發明之另一實施例(三)的方法流程圖。 第9圖,為本發明之另一實施例(四)的方塊示意圖。 第10圖,為本發明之另一實施例(五)的實施情境示意圖。
10:無障礙智能語音系統
101:行動裝置
1011:語音接收單元
1012:處理器
1013:通訊單元
102:伺服裝置
1021:語音資料庫
1022:標籤資料庫
1023:語音識別單元
V:語音音頻
Phone:語音
Word:詞
L1:目標語音標籤
O:目標對象
L2:指令語音標籤
I:程式指令

Claims (7)

  1. 一種無障礙智能語音系統的控制方法,該無障礙智能語音系統適用於解析一語音音頻,且包含一語音接收單元、一語音資料庫、一標籤資料庫、一語音識別單元、一權限驗證單元、及一行動裝置的一處理器,該控制方法包括:一分析語音音頻步驟:該語音識別單元連接至該語音資料庫,並對該語音接收單元所接收的該語音音頻,執行一語音分析,以從中辨識出多個語音,再對該多個語音執行一構詞分析,以從中辨識出可作為獨立語意單位的多個詞;一比對語音標籤步驟:該語音識別單元連接至該標籤資料庫,以判斷該多個詞,是否為該行動裝置所定義之多個目標語音標籤的其中之一者,以及是否為該行動裝置所定義之多個指令語音標籤的其中之一者;一執行對應語音指令步驟:該處理器依據被比對出的該目標語音標籤於該標籤資料庫所指向的一目標對象、及依據被比對出的該指令語音標籤於該標籤資料庫所指向的一程式指令,使該行動裝置對該目標對象執行該程式指令;以及一偵測喚醒語音步驟:該語音識別單元判斷該語音接收單元是否有接收預定義的一喚醒音頻,若有,將該喚醒音頻視為一喚醒操作,並接續對該語音音頻執行該分析音頻步驟。
  2. 如請求項1的無障礙智能語音系統的控制方法,其中,該比對語音標籤步驟執行時,該語音識別單元判斷由該語音音頻所辨識出的該多個詞,是否也包含由該行動裝置定義的一備註語音標籤,若有,則該處理器依 據該備註語音標籤於該標籤資料庫所指向的一備註說明,調整該程式指令、或該目標對象的內容。
  3. 如請求項1的無障礙智能語音系統的控制方法,更包含一驗證使用權限步驟:一權限驗證單元基於被比對出的該目標語音標籤、及被比對出的該指令語音標籤,判斷該語音音頻所對應的一等級權限,以決定該處理器於該執行對應語音指令步驟時,該行動裝置基於當前的該等級權限是否可執行該程式指令。
  4. 如請求項1的無障礙智能語音系統的控制方法,更包含一偵測休眠語音步驟:該語音識別單元判斷該語音接收單元是否有接收預定義的一休眠音頻,若有,將該休眠音頻視為一休眠操作,並停止再對該語音音頻執行該分析音頻步驟。
  5. 一種無障礙智能語音系統,包含:一語音接收單元,其資訊連接於一行動裝置的一處理器,供以接收一語音音頻;一通訊單元,資訊連接於該處理器;一語音資料庫,儲存有多筆語音音頻樣本;一標籤資料庫,儲存有多筆目標語音標籤、及多筆指令語音標籤;一語音識別單元,分別與該通訊單元、該語音資料庫、及該標籤資料庫資訊連接,供以接收該語音接收單元所發送的該語音音頻,並對該語音音頻執行 一語音分析,以基於讀取該語音資料庫的結果,從中辨識出多個語音,再對該多個語音執行一構詞分析,以從中辨識出獨立的多個詞;該語音識別單元亦供以基於讀取該標籤資料庫的結果,判斷該多個詞,是否為該行動裝置所定義之該多個目標語音標籤的其中一者,以及是否為該行動裝置所定義之該多個指令語音標籤的其中一者;該語音識別單元亦供以藉由該通訊單元,令該處理器依據被比對出的該目標語音標籤於該標籤資料庫所指向的一目標對象、及被比對出的該指令語音標籤於該標籤資料庫所指向的一程式指令,使該行動裝置對該目標對象執行該程式指令;以及該語音識別單元亦供以判斷該語音接收單元是否有接收預定義的一喚醒音頻及一休眠音頻,若有接收該喚醒音頻,則接續對該語音音頻執行該語音分析及該構詞分析,若有接收該休眠音頻,則停止再對該語音音頻執行該語音分析及該構詞分析。
  6. 如請求項6的無障礙智能語音系統,其中,該語音識別單元亦供以基於讀取該標籤資料庫的結果,判斷由該語音音頻所辨識出的該多個詞,是否也包含由該行動裝置定義的一備註語音標籤,若有,則令該處理器依據該備註語音標籤於該標籤資料庫所指向的一備註說明,調整該程式指令、或該目標對象的內容。
  7. 如請求項6的無障礙智能語音系統,更包括一權限驗證單元,其與該語音識別單元資訊連接,供以基於被比對出的該目標語音標籤、及被比 對出的指令語音標籤,判斷該語音音頻所對應的一等級權限,以供該語音識別單元決定該處理器,基於該行動裝置當前的該等級權限,是否可執行該程式指令。
TW109113480A 2020-04-22 2020-04-22 無障礙智能語音系統及其控制方法 TWI752474B (zh)

Priority Applications (3)

Application Number Priority Date Filing Date Title
TW109113480A TWI752474B (zh) 2020-04-22 2020-04-22 無障礙智能語音系統及其控制方法
US17/236,366 US11705126B2 (en) 2020-04-22 2021-04-21 Barrier-free intelligent voice system and control method thereof
JP2021072552A JP7422702B2 (ja) 2020-04-22 2021-04-22 バリアフリースマート音声システムとその制御方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
TW109113480A TWI752474B (zh) 2020-04-22 2020-04-22 無障礙智能語音系統及其控制方法

Publications (2)

Publication Number Publication Date
TW202141466A TW202141466A (zh) 2021-11-01
TWI752474B true TWI752474B (zh) 2022-01-11

Family

ID=78222657

Family Applications (1)

Application Number Title Priority Date Filing Date
TW109113480A TWI752474B (zh) 2020-04-22 2020-04-22 無障礙智能語音系統及其控制方法

Country Status (3)

Country Link
US (1) US11705126B2 (zh)
JP (1) JP7422702B2 (zh)
TW (1) TWI752474B (zh)

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
TW200412775A (en) * 2002-10-30 2004-07-16 Ibm Methods and apparatus for dynamic user authentication using customizable context-dependent interaction across multiple verification objects
US20100030693A1 (en) * 2001-07-10 2010-02-04 American Express Travel Related Services Company, Inc. Method and system for hand geometry recognition biometrics on a fob
CN104462262A (zh) * 2014-11-21 2015-03-25 北京奇虎科技有限公司 一种实现语音搜索的方法、装置和浏览器客户端
CN110750774A (zh) * 2019-10-21 2020-02-04 深圳众赢维融科技有限公司 身份识别的方法及装置
TWM601446U (zh) * 2020-04-22 2020-09-11 莊連豪 無障礙智能語音系統

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3581648B2 (ja) * 2000-11-27 2004-10-27 キヤノン株式会社 音声認識システム、情報処理装置及びそれらの制御方法、プログラム
JP2004301893A (ja) 2003-03-28 2004-10-28 Fuji Photo Film Co Ltd 音声認識装置の制御方法
JP2010055375A (ja) * 2008-08-28 2010-03-11 Toshiba Corp 電子機器操作指示装置およびその操作方法
JP6123121B2 (ja) * 2011-10-14 2017-05-10 ヴイアールアイ株式会社 音声制御システム及びプログラム
WO2017145373A1 (ja) * 2016-02-26 2017-08-31 三菱電機株式会社 音声認識装置
JP2020042420A (ja) * 2018-09-07 2020-03-19 株式会社牧野フライス製作所 工作機械の制御装置

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20100030693A1 (en) * 2001-07-10 2010-02-04 American Express Travel Related Services Company, Inc. Method and system for hand geometry recognition biometrics on a fob
TW200412775A (en) * 2002-10-30 2004-07-16 Ibm Methods and apparatus for dynamic user authentication using customizable context-dependent interaction across multiple verification objects
CN104462262A (zh) * 2014-11-21 2015-03-25 北京奇虎科技有限公司 一种实现语音搜索的方法、装置和浏览器客户端
CN110750774A (zh) * 2019-10-21 2020-02-04 深圳众赢维融科技有限公司 身份识别的方法及装置
TWM601446U (zh) * 2020-04-22 2020-09-11 莊連豪 無障礙智能語音系統

Also Published As

Publication number Publication date
US20210335359A1 (en) 2021-10-28
JP2021174005A (ja) 2021-11-01
US11705126B2 (en) 2023-07-18
TW202141466A (zh) 2021-11-01
JP7422702B2 (ja) 2024-01-26

Similar Documents

Publication Publication Date Title
US11600291B1 (en) Device selection from audio data
CN111261144B (zh) 一种语音识别的方法、装置、终端以及存储介质
JP6771805B2 (ja) 音声認識方法、電子機器、及びコンピュータ記憶媒体
US11763808B2 (en) Temporary account association with voice-enabled devices
US10714085B2 (en) Temporary account association with voice-enabled devices
WO2020253509A1 (zh) 面向情景及情感的中文语音合成方法、装置及存储介质
US10706848B1 (en) Anomaly detection for voice controlled devices
WO2019001194A1 (zh) 语音识别方法、装置、设备及存储介质
CN108735210A (zh) 一种语音控制方法及终端
US11276403B2 (en) Natural language speech processing application selection
TW201606750A (zh) 使用外國字文法的語音辨識
CN106649253B (zh) 基于后验证的辅助控制方法及系统
CN112669842A (zh) 人机对话控制方法、装置、计算机设备及存储介质
US10714087B2 (en) Speech control for complex commands
CN109462482A (zh) 声纹识别方法、装置、电子设备及计算机可读存储介质
JP2019124952A (ja) 情報処理装置、情報処理方法、およびプログラム
WO2015188454A1 (zh) 一种快速进入ivr菜单的方法及装置
US20240185846A1 (en) Multi-session context
US11626107B1 (en) Natural language processing
WO2021159756A1 (zh) 基于多模态的响应义务检测方法、系统及装置
TWI752474B (zh) 無障礙智能語音系統及其控制方法
TWM601446U (zh) 無障礙智能語音系統
CN109273004B (zh) 基于大数据的预测性语音识别方法及装置
US11551681B1 (en) Natural language processing routing
CN114596840A (zh) 语音识别方法、装置、设备及计算机可读存储介质