TWI730585B - 電腦輔助轉換可理解語言的測試系統及其方法 - Google Patents
電腦輔助轉換可理解語言的測試系統及其方法 Download PDFInfo
- Publication number
- TWI730585B TWI730585B TW109100730A TW109100730A TWI730585B TW I730585 B TWI730585 B TW I730585B TW 109100730 A TW109100730 A TW 109100730A TW 109100730 A TW109100730 A TW 109100730A TW I730585 B TWI730585 B TW I730585B
- Authority
- TW
- Taiwan
- Prior art keywords
- unit
- module
- receiving module
- cavity
- computer
- Prior art date
Links
- 238000012360 testing method Methods 0.000 title claims abstract description 52
- 238000006243 chemical reaction Methods 0.000 title claims abstract description 32
- 238000000034 method Methods 0.000 title abstract description 10
- 238000001228 spectrum Methods 0.000 claims abstract description 85
- 238000001514 detection method Methods 0.000 claims abstract description 49
- 238000012545 processing Methods 0.000 claims abstract description 33
- 238000010801 machine learning Methods 0.000 claims abstract description 12
- 210000003928 nasal cavity Anatomy 0.000 claims description 29
- 210000003800 pharynx Anatomy 0.000 claims description 27
- 210000000214 mouth Anatomy 0.000 claims description 14
- 238000010998 test method Methods 0.000 claims description 8
- 238000012549 training Methods 0.000 abstract description 4
- 238000010586 diagram Methods 0.000 description 5
- 230000005540 biological transmission Effects 0.000 description 4
- 210000001260 vocal cord Anatomy 0.000 description 3
- 206010023825 Laryngeal cancer Diseases 0.000 description 2
- 238000013528 artificial neural network Methods 0.000 description 2
- 230000004064 dysfunction Effects 0.000 description 2
- 206010023841 laryngeal neoplasm Diseases 0.000 description 2
- 208000027418 Wounds and injury Diseases 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000015572 biosynthetic process Effects 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 230000006378 damage Effects 0.000 description 1
- 201000010099 disease Diseases 0.000 description 1
- 208000037265 diseases, disorders, signs and symptoms Diseases 0.000 description 1
- 230000003631 expected effect Effects 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- 208000014674 injury Diseases 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000012552 review Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L13/00—Speech synthesis; Text to speech systems
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/48—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
- G10L25/51—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
- G10L25/66—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination for extracting parameters related to health condition
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F3/00—Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
- G06F3/16—Sound input; Sound output
- G06F3/167—Audio in a user interface, e.g. using voice commands for navigating, audio feedback
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/06—Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
- G10L15/063—Training
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/16—Speech classification or search using artificial neural networks
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
-
- A—HUMAN NECESSITIES
- A61—MEDICAL OR VETERINARY SCIENCE; HYGIENE
- A61F—FILTERS IMPLANTABLE INTO BLOOD VESSELS; PROSTHESES; DEVICES PROVIDING PATENCY TO, OR PREVENTING COLLAPSING OF, TUBULAR STRUCTURES OF THE BODY, e.g. STENTS; ORTHOPAEDIC, NURSING OR CONTRACEPTIVE DEVICES; FOMENTATION; TREATMENT OR PROTECTION OF EYES OR EARS; BANDAGES, DRESSINGS OR ABSORBENT PADS; FIRST-AID KITS
- A61F2/00—Filters implantable into blood vessels; Prostheses, i.e. artificial substitutes or replacements for parts of the body; Appliances for connecting them with the body; Devices providing patency to, or preventing collapsing of, tubular structures of the body, e.g. stents
- A61F2/02—Prostheses implantable into the body
- A61F2/20—Epiglottis; Larynxes; Tracheae combined with larynxes or for use therewith
- A61F2002/206—Speech aids with external actuators, e.g. electrical larynxes
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/48—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
- G10L25/51—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
Landscapes
- Engineering & Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Physics & Mathematics (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Multimedia (AREA)
- Computational Linguistics (AREA)
- Acoustics & Sound (AREA)
- Theoretical Computer Science (AREA)
- Artificial Intelligence (AREA)
- General Health & Medical Sciences (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Evolutionary Computation (AREA)
- Epidemiology (AREA)
- Public Health (AREA)
- Signal Processing (AREA)
- Software Systems (AREA)
- Data Mining & Analysis (AREA)
- Medical Informatics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Electrically Operated Instructional Devices (AREA)
- Measurement Of The Respiration, Hearing Ability, Form, And Blood Characteristics Of Living Organisms (AREA)
Abstract
本發明提供一種電腦輔助轉換可理解語言的測試系統及其方法,此測試系統包含一具一鼻咽喉道之聲學測試模組、一產生一探測訊號之發射模組、一第一接收模組、一第二接收模組以及一具複數第一聲學腔型頻譜之中央處理模組,藉由調整該發射模組、調整該第一接收模組或調整該第二接收模組使轉換的一第二聲學腔型頻譜被該中央運算單元正確比對與識別為對應的該等第一聲學腔型頻譜其中之一者。再透過測試方法進行測試、訓練與調整後,該發射模組發射的該探測訊號由該中央處理模組解析與辨識出來,增加其判讀準確性與縮短機器學習的時間。
Description
本發明提供一種電腦輔助轉換可理解語言的測試系統及其方法,尤指一種利用具仿使用者鼻咽喉道的聲學測試模組來測試聲帶無法發音患者其使用的電腦輔助轉換可理解語言的測試系統及方法。
喉癌是發音功能障礙常見的主因。罹患喉癌的患者,在經歷全喉切除術(total laryngectomy)後喪失了自然發音的能力。為克服此類患者的發音困擾,習用解決方案有:在患者臉部及頸部表面設置探測電極,依據其臉部及頸部的變化得知患者說話的意圖。另有電磁關節測知(permanent-magnetic articulography)技術,在患者的舌與唇上連接磁鐵,依據其磁場變化得知患者口內運動情形進而推斷患者的話語。
然而,前述的探測方法需要直接在患者的臉部設置探測電極,或者利用電磁關節測知技術時會需要設置較多的感測器在患者的舌與唇上,且在資料處理速度上稍嫌緩慢,因此,難以以攜帶型裝置的形成實現。又請參閱第1圖所示,其係美國臨時申請案第62/595013號所揭露的電腦輔助轉換可理解語言的裝置,其係在患者的鼻腔部份1設置一發射器2,並在患者的口唇前設置一接收器3,該接收器3可收集由該發射器2所發出的探測訊號,並利用一運算單元來分析與判斷該接收器3所接收到此探測訊號經該鼻腔部份1的共振後,此患者要表達的語言為何的一種電腦輔助轉換可理解語言的裝置。
是以,針對上述電腦輔助轉換可理解語言的裝置,如何提供一測試系統與方法,使得電腦輔助轉換可理解語言的裝置在使用者使用前就可以透過測試、訓練與調整,而達到產品化後此電腦輔助轉換可理解語言的裝置可準確的解析出患者要表達的語言。因此,如何克服習用技術之缺陷,實為重要之課題所在。
本發明之目的,在於提供一種用於測試、訓練與調整先前技術之電腦輔助轉換可理解語言的測試系統及其方法。
為達上述目的,本發明提供一種電腦輔助轉換可理解語言的測試系統,其包含:一聲學測試模組、一發射模組、一第一接收模組以及一中央處理模組。該聲學測試模組包含由具有二第一開口與外部連接之一鼻腔單元(Nasal Cavity)、具有一第二開口與外部連接之一口腔單元(Oral Cavity)、分別連接該鼻腔單元與該口腔單元之一咽部單元(Pharyngeal)及鄰接該咽部單元另端之一喉部單元(Laryngeal)所構成的一鼻咽喉道(Nasal-Genio-Oropharyngeal tract);該發射模組設置於該鼻腔單元的其中之一該第一開口處;該第一接收模組設置於該口腔單元的該第二開口處;該中央處理模組包含一用以控制該發射模組產生一探測訊號之發射運算單元、一用以解析該第一接收模組所接收到該探測訊號之接收運算單元、一存有複數第一聲學腔型(phonetically oral cavity shape)頻譜之資料庫及一具有機器學習(machine learning)的中央運算單元;其中,該中央運算單元電性連接該發射運算單元、該接收運算單元及該資料庫,並透過該接收運算單元轉換經該鼻咽喉道且被該第一接收模組所接收到的該探測訊號為一第二聲學腔型頻譜;而該中央運算單元進行分析與比較該接收運算單元所轉換的該第二聲學腔型頻譜與該資料庫的該第一聲學腔型頻譜;並透過調整該發射模組或調整該第一接收模組其中之一者,使該發射模組產生的該探測訊號經該第一接收模組接收後,該中央運算單元依該第二聲學腔型頻譜可正確比對與識別其對應於該資料庫所存的該等第一聲學腔型頻譜其中之一者。
進一步地,該喉部單元相對鄰接該咽部單元之另端設有一第三開口,該第三開口並設有一與該接收運算單元連接之一第二接收模組。
進一步地,調整該第二接收模組,使該發射模組產生的該探測訊號經該第二接收模組接收後,該中央運算單元依該第二聲學腔型頻譜可正確比對與識別其對應於該資料庫所存的該等第一聲學腔型頻譜其中之一者。
進一步地,該第一接收模組設置於該口腔單元之該第二開口處前3公分內之位置。
進一步地,該探測訊號被組態為16赫茲至22仟赫茲之聲波。
進一步地,本發明另一目的,在於提供一種電腦輔助轉換可理解語言的測試方法,其包含以下步驟:步驟S1:提供具有一鼻咽喉道之一聲學測試模組,該鼻咽喉道包含一具有二第一開口與外部連接之鼻腔單元、一具有一第二開口與外部連接之口腔單元、一分別連接該鼻腔單元與該口腔單元之咽部單元及一鄰接該咽部單元另端之喉部單元;步驟S2:提供一中央處理模組,該中央處理模組包含一發射運算單元、一接收運算單元、存有複數第一聲學腔型頻譜之資料庫及具有機器學習(machine learning)之中央運算單元;步驟S3:分別設置一發射模組於該鼻腔單元的其中之一該第一開口處及一第一接收模組於該口腔單元的該第二開口處;步驟S4:由該發射運算單元控制該發射模組產生一探測訊號,該探測訊號經該鼻咽喉道之反射後由該第一接收模組接收;步驟S5:該接收運算單元轉換該第一接收模組所接收到的該探測訊號為一第二聲學腔型頻譜;步驟S6:該中央運算單元解析該第一聲學腔型頻譜與該第二聲學腔型頻譜;步驟S7:決定是否需要調整該發射模組或調整該第一接收模組,若該中央運算單元依該第二聲學腔型頻譜可正確比對與識別對應於該資料庫所存的該等第一聲學腔型頻譜其中之一者則不需要調整,反之則調整後再由步驟4依序執行調整至可被識別出來。
進一步地,該步驟S3更包含將一第二接收模組設置於該喉部單元相對鄰接該咽部單元另端之一第三開口。
進一步地,該步驟S7更包含調整該第一接收模組使該中央運算單元依該第二聲學腔型頻譜可正確比對與識別對應於該資料庫所存的該等第一聲學腔型頻譜其中之一者。
進一步地,該步驟S3將該第一接收模組設置於該口腔單元之該第二開口處前3公分內之位置。
進一步地,該步驟S4其產生的該探測訊號被組態為16赫茲至22仟赫茲之聲波。
是以,本發明較先前技術具有以下有益功效:
1、本發明的測試系統係藉由在具仿使用者鼻咽喉道的聲學測試模組的鼻腔開口設置發射模組,使得設置於口腔單元的第一接收模組,或設置於喉部單元的第二接收模組可以在透過測試、訓練與調整後,該發射模組所發出的母音、子音、音節及混合連音可以被第一接收模組、第二接收模組或其組合所解析與辨識出來,增加其判讀準確性與縮短機器學習的時間。
2、本發明的測試方法系藉由具仿使用者鼻咽喉道的聲學測試模組來測試、訓練與調整發射模組、第一接收模組與第二接收模組,使發射模組發出的探測訊號經鼻咽喉道被該第一接收模組與該第二接收模組收後,中央運算單元依第二聲學腔型頻譜可正確比對與識別其對應於資料庫所存的複數第一聲學腔型頻譜其中之一者,讓使用者設置後能即時運行及判讀之優勢。
茲就本申請案的技術特徵暨操作方式舉數個較佳實施態樣,並配合圖示說明謹述於后,俾提供審查參閱。再者,本發明中之圖式,為便於說明其比例未必按實際比例繪製,圖式中之比例並不用以限制本發明所欲請求保護之範圍。
本發明係提供一種電腦輔助轉換可理解語言的測試系統100,用於測試、訓練與調整非源於使用者聲帶之言語使用的電腦輔助轉換可理解語言的裝置。而上述「非源於使用者聲帶之言語」係指該使用者雖因喉部疾患或損傷等因素,無法如正常人般正確說話,但該使用者在嘗試說話時,透過電腦輔助轉換可理解語言的裝置可以推斷該使用者所欲說話之原意。具體而言,請參照第2圖至第3圖所示,該電腦輔助轉換可理解語言的測試系統100包含有一聲學測試模組10、一發射模組20、一第一接收模組30以及一中央處理模組40,其中:
該聲學測試模組10,係包含有一具有一鼻咽喉道11,該鼻咽喉道11(Nasal-Genio-Oropharyngeal tract)係包含具有二第一開口111與外部連接之鼻腔單元112(Nasal Cavity)(圖僅示其中之一該第一開口111)、具有一第二開口113與外部連接之一口腔單元114(Oral Cavity)、一端分別連接該鼻腔單元112與該口腔單元114之一咽部單元115(Pharyngeal)及鄰接該咽部單元115另端之一喉部單元116(Laryngeal),其中,該喉部單元116相對鄰接該咽部單元115之另端設有一第三開口117;本發明第一實施例中,該聲學測試模組10可依使用者的該鼻咽喉道11設計,但不以此為限。
該發射模組20,設置於該鼻腔單元112的其中之一該第一開口111處,於本實施例中該發射模組20是設置於該鼻腔單元112的其中之一該第一開口111處而未設置該發射模組20之另一該第一開口111則可以為開收狀態(圖未示)或為封閉狀態(圖未示),也可以將該發射模組20各設置於二該第一開口111處,但不以此為限。
該第一接收模組30,設置於該口腔單元114的該第二開口113處,其中,本發明第一實施例進一步地在該喉部單元116的該第三開口117處並設有一第二接收模組31,且該第一接收模組30設置於該口腔單元114之該第二開口113處前3公分內之位置,但不以此為限。
該中央處理模組40,包含一用以控制該發射模組20產生一探測訊號21之發射運算單元41、一用以解析該第一接收模組30、該第二接收模組31或其組合所接收到該探測訊號21之接收運算單元42、一存有複數第一聲學腔型(phonetically oral cavity shape)頻譜之資料庫43及一具有機器學習(machine learning)的中央運算單元44,其中,該中央運算單元44電性連接該發射運算單元41、該接收運算單元42及該資料庫43,並透過該接收運算單元42轉換經過該鼻咽喉道11且被該第一接收模組30、該第二接收模組31所接收到該探測訊號21為一第二聲學腔型頻譜。而該探測訊號21被組態為16赫茲至22仟赫茲之聲波,其中,本實施進一步為20赫茲至20仟赫茲,不以此為限,該探測訊號21也可以為超聲波、電磁波、可視光波或不可視光波等波傳遞形成,而本實施例中所述的該機器學習可以是類神經網路(Artificial Neural Network, ANN),但不以此為限;
其中,該中央運算單元44進行分析與比較該接收運算單元42所轉換的該第二聲學腔型頻譜與該資料庫43的該第一聲學腔型頻譜;並可透過調整該發射模組20其發射音頻的頻譜參數、或調整該第一接收模組30其接收音頻的頻譜參數、或調整該第二接收模組31其接收音頻的頻譜參數,使該發射模組20產生的該探測訊號21經該第一接收模組30、該第二接收模組31或其組合的接收後,該中央運算單元44依該第二聲學腔型頻譜可正確比對與識別其對應於該資料庫43所存的該等第一聲學腔型頻譜其中之一者。
並請參閱第4圖所示,以下說明本發明電腦輔助轉換可理解語言的測試方法,雖然每個使用者所對應之聲學腔型有其特異性,透過本發明的測試方法可以讓使用者剛開始使用電腦輔助轉換可理解語言的裝置時其被判讀正確的準確性提升,其包含以下步驟:
步驟S1:提供具有該鼻咽喉道11之該聲學測試模組10;
步驟S2:提供該中央處理模組40;
步驟S3:分別設置該發射模組20於該鼻腔單元112的其中之一該第一開口111處、該第一接收模組30於該口腔單元114的該第二開口處113及該第二接收模組31於該喉部單元116的第三開口117處,其中,本發明第一實施例實施例會將該第一接收模組30設置於該口腔單元114之該第二開口113處前3公分內之位置,但不以此為限;
步驟S4:由該發射運算單元41控制該發射模組20產生該探測訊號21,該探測訊號21經該鼻咽喉道11之該鼻腔單元112、該咽部單元115、該喉部單元116及該口腔單元114之反射後,再由該第一接收模組30、該第二接收模組31或其組合所接收,其中,該探測訊號21被組態為16赫茲至22仟赫茲之聲波,本實施例進一步為20赫茲至20仟赫茲,但不以此為限;
步驟S5:該接收運算單元42轉換該第一接收模組30與該第二接收模組31所接收到的該探測訊號21為該第二聲學腔型頻譜;
步驟S6:該中央運算單元44解析該第一聲學腔型頻譜與該第二聲學腔型頻譜;
步驟S7:決定是否需要調整該發射模組20、調整該第一接收模組30或調整該第二接收模組31,若該中央運算單元44依該第二聲學腔型頻譜可正確比對與識別對應於該資料庫43所存的該等第一聲學腔型頻譜其中之一者則不需要調整,反之則調整後再由步驟4依序執行。
請參閱第5圖所示,該發射運算單元41控制該發射模組20發出”K”的聲音之該探測訊號21,並經由該第一接收模組30與該第二接收模組31將多次所截取到的該探測訊號21經該接收運算單元42轉換為多個該第二聲學腔型頻譜後則可取得該第二聲學腔型頻譜的平均值(即第5圖中較粗數線K-Avg),再經該中央運算單元44進行演算並將該第二聲學腔型頻譜的平均值與該資料庫43中的該等第一聲學腔型頻譜進行比較後,即能得知該第一接收模組30或該第二接收模組31所接收的聲音經該接收運算單元42其轉換的該第二聲學腔型頻譜的平均值是否為該第一聲學腔型頻譜的”K”聲音,若不是”K”聲音時,則可調整該第一接收模組30其接收音頻的頻譜參數與該第二接收模組31其接收音頻的頻譜參數使其轉換的第二聲學腔型頻譜的平均值大致上符合該第一聲學腔型頻譜的”K”聲音,反之也可以調整該發射模組20使其發射的”K”聲音由該接收運算單元42轉換該第一接收模組30與該第二接收模組31所接收的聲音為第二聲學腔型頻譜,並使第二聲學腔型頻譜的平均值大致上符合該第一聲學腔型頻譜的”K”聲音。
請參閱第6圖所示,該發射運算單元41控制該發射模組20發出”K”、 ”KA”、 ”G”、 ”GA”的聲音之該探測訊號21,並經由該第一接收模組30與該第二接收模組31將多次所截取到的多個該探測訊號21經該接收運算單元42轉換為多個該第二聲學腔型頻譜後則可取得此四種發音的該第二聲學腔型頻譜之平均值,再經該中央運算單元44進行演算並與該資料庫43中的該等第一聲學腔型頻譜進行比較後,即能得知該第一接收模組30或該第二接收模組31所接收的聲音經該接收運算單元42轉換的多個第二聲學腔型頻譜的平均值是否為該第一聲學腔型頻譜的”K”、 ”KA”、 ”G”、 ”GA”聲音,若不是”K”、 ”KA”、 ”G”、 ”GA”聲音時,則可調整該第一接收模組30其接收音頻的頻譜參數與該第二接收模組31其接收音頻的頻譜參數使經該接收運算單元42其轉換的第二聲學腔型頻譜的平均值大致上符合該第一聲學腔型頻譜的”K”、 ”KA”、 ”G”、 ”GA”聲音,反之也可以調整該發射模組20使其發射的”K”、 ”KA”、 ”G”、 ”GA” 的發射音頻的頻譜參數,使該發射模組20發出的聲音經該第一接收模組30與該第二接收模組31後,再由該接收運算單元42轉換的多個第二聲學腔型頻譜的平均值大致上符合該第一聲學腔型頻譜的”K”、 ”KA”、 ”G”、 ”GA”聲音。
請參閱第7圖所示,經本發明第一實施例之測試系統與其方法校正後的電腦輔助轉換可理解語言的裝置其再經一使用者進行各種母音、子音的發音嘗試,以及母音與子音連續音節的組合發音嘗試。經反覆實驗後,在區辨母音、子音、音節及其混合連音之準確性可達81.8%以上。將電腦輔助轉換可理解語言的裝置利用此測試系統及其方法後,不僅在判讀言語功能障礙者之說話意圖時,具有高度之可信賴性,更能縮短電腦輔助轉換可理解語言的裝置進行機器學習(Machine Learning)時間之目的。
請參閱第8圖所示,其係為本發明的測試系統之第二實施例,其主要特徵與第一實施例相同者則不再贅述,其差異係在於該口腔單元114的該第三開口117處不再設置該第二接收模組31,因此,該接收運算單元42僅需轉換該第一接收模組30所接收到的該探測訊號21,並將其轉換為該第二聲學腔型頻譜,其餘調整及測試方法與第一實施例相同。
茲,再將本發明之特徵及其可達成之預期功效陳述如下:
本發明之一種電腦輔助轉換可理解語言的測試系統及其方法,藉由在具仿使用者該鼻咽喉道11的該聲學測試模組10之該鼻腔單元112的該第一開口111設置該發射模組20,該發射模組20並發出該探測訊號21,使得該探測訊號21經該鼻咽喉道11的反射後,再由設置於該口腔單元114的該第二開口113之該第一接收模組30,或設置於該喉部單元116的該第三開口117之該第二接收模組31可以在透過測試、訓練與調整後,使得該發射模組20所發出的母音、子音、音節及混合連音的該探測訊號21可以被該第一接收模組30、該第二接收模組31或其組合所解析,並由該中央處理模組44所辨識出來,增加其判讀準確性與縮短機器學習的時間。
以上已詳細說明本發明之內容,惟以上所述者,僅為本發明之較佳實施例而已,當不能以此限定本發明實施之範圍,即凡依本發明申請專利範圍所作之均等變化與修飾,皆應仍屬本發明之專利涵蓋範圍內。
[習知]
1:鼻腔部份
2:發射器
3:接收器
[本發明]
100:電腦輔助轉換可理解語言的測試系統
10:聲學測試模組
11:鼻咽喉道
111:第一開口
112:鼻腔單元
113:第二開口
114:口腔單元
115:咽部單元
116:喉部單元
117:第三開口
20:發射模組
21:探測訊號
30:第一接收模組
31:第二接收模組
40:中央處理模組
41:發射運算單元
42:接收運算單元
43:資料庫
44:中央運算單元
第1圖:為使用者設置電腦輔助轉換可理解語言的裝置之使用示意圖。
第2圖:為本發明第一實施例之測試系統之使用示意圖。
第3圖:為本發明第一實施例之測試系統之方塊示意圖。
第4圖:為本發明第一實施例其測試方法之流程圖。
第5圖:為本發明使用者對應”K”發音之聲學腔型頻譜圖。
第6圖:為本發明使用者對應”K”、 ”KA”、 ”G”、 ”GA”發音之聲學腔型頻譜圖。
第7圖:為本發明之測試系統測試後之電腦輔助轉換可理解語言的裝置的準確性對照圖。
第8圖:為本發明第二實施例之測試系統之使用示意圖。
100:電腦輔助轉換可理解語言的測試系統
10:聲學測試模組
111:第一開口
112:鼻腔單元
113:第二開口
114:口腔單元
115:咽部單元
116:喉部單元
117:第三開口
20:發射模組
30:第一接收模組
31:第二接收模組
40:中央處理模組
41:發射運算單元
42:接收運算單元
43:資料庫
44:中央運算單元
Claims (10)
- 一種電腦輔助轉換可理解語言的測試系統,其包含:一聲學測試模組,包含由具有二第一開口與外部連接之一鼻腔單元(Nasal Cavity)、具有一第二開口與外部連接之一口腔單元(Oral Cavity)、一端分別連接該鼻腔單元與該口腔單元之一咽部單元(Pharyngeal)及鄰接該咽部單元另端之一喉部單元(Laryngeal)所構成的一鼻咽喉道(Nasal-Genio-Oropharyngeal tract);一發射模組,設置於該鼻腔單元的其中之一該第一開口處;一第一接收模組,設置於該口腔單元的該第二開口處;以及一中央處理模組,包含一用以控制該發射模組產生一探測訊號之發射運算單元、一用以解析該第一接收模組所接收到該探測訊號之接收運算單元、一存有複數第一聲學腔型(phonetically oral cavity shape)頻譜之資料庫及一具有機器學習(machine learning)的中央運算單元,其中,該中央運算單元電性連接該發射運算單元、該接收運算單元及該資料庫,並透過該接收運算單元轉換經該鼻咽喉道且被該第一接收模組所接收到的該探測訊號為一第二聲學腔型頻譜;其中,該中央運算單元進行分析與比較該接收運算單元所轉換的該第二聲學腔型頻譜與該資料庫的該第一聲學腔型頻譜;其中,可透過調整該發射模組其發射音頻的頻譜參數或調整該第一接收模組其接收音頻的頻譜參數其中之一者其音頻的頻譜參數,使該發射模組產生的該探測訊號經該第一接收模組接收後,該中央運算單元依該第二聲學腔型頻譜的平均值可正確比對與識別其對應於該資料庫所存的該等第一聲學腔型頻譜其中之一者。
- 如請求項1之電腦輔助轉換可理解語言的測試系統,其中,該喉部單元相對鄰接該咽部單元之另端設有一第三開口,該第三開口並設有一與該接收運算單元連接之一第二接收模組。
- 如請求項2之電腦輔助轉換可理解語言的測試系統,其中,調整該第二接收模組其接收音頻的頻譜參數,使該發射模組產生的該探測訊號經該第二接收模組接收後,該中央運算單元依該第二接收模組所接收之音頻而轉換之該第二聲學腔型頻譜的平均值可正確比對與識別其對應於該資料庫所存的該等第一聲學腔型頻譜其中之一者。
- 如請求項1之電腦輔助轉換可理解語言的測試系統,該第一接收模組設置於該口腔單元之該第二開口處前3公分內之位置。
- 如請求項1之電腦輔助轉換可理解語言的測試系統,其中,該探測訊號被組態為16赫茲至22仟赫茲之聲波。.
- 一種電腦輔助轉換可理解語言的測試方法,其包含以下步驟:步驟S1:提供具有一鼻咽喉道之一聲學測試模組,該鼻咽喉道包含一具有二第一開口與外部連接之鼻腔單元、一具有一第二開口與外部連接之口腔單元、一分別連接該鼻腔單元與該口腔單元之咽部單元及一鄰接該咽部單元另端之喉部單元;步驟S2:提供一中央處理模組,該中央處理模組包含一發射運算單元、一接收運算單元、存有複數第一聲學腔型頻譜之資料庫及具有機器學習(machine learning)之中央運算單元;步驟S3:分別設置一發射模組於該鼻腔單元的其中之一該第一開口處及一第一接收模組於該口腔單元的該第二開口處;步驟S4:由該發射運算單元控制該發射模組產生一探測訊號,該探測訊號經該鼻咽喉道之反射後由該第一接收模組接收; 步驟S5:該接收運算單元轉換該第一接收模組所接收到的該探測訊號為一第二聲學腔型頻譜;步驟S6:該中央運算單元解析該第一聲學腔型頻譜與該第二聲學腔型頻譜;步驟S7:決定是否需要調整該發射模組其發射音頻的頻譜參數或調整該第一接收模組其接收音頻的頻譜參數,若該中央運算單元依該第二聲學腔型頻譜的平均值可正確比對與識別對應於該資料庫所存的該等第一聲學腔型頻譜其中之一者則不需要調整,反之則調整後再由步驟4依序執行。
- 如請求項6之電腦輔助轉換可理解語言的測試方法,其中,該步驟S3更包含將一第二接收模組設置於該喉部單元相對鄰接該咽部單元另端之一第三開口。
- 如請求項6之電腦輔助轉換可理解語言的測試方法,其中,該步驟S7更包含調整該第一接收模組其接收音頻的頻譜參數使該中央運算單元依該第二聲學腔型頻譜的平均值可正確比對與識別對應於該資料庫所存的該等第一聲學腔型頻譜其中之一者。
- 如請求項6之電腦輔助轉換可理解語言的測試方法,其中,該步驟S3將該第一接收模組設置於該口腔單元之該第二開口處前3公分內之位置。
- 如請求項6之電腦輔助轉換可理解語言的測試方法,其中,該步驟S4其產生的該探測訊號被組態為16赫茲至22仟赫茲之聲波。
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US201962792932P | 2019-01-16 | 2019-01-16 | |
US62/792,932 | 2019-01-16 |
Publications (2)
Publication Number | Publication Date |
---|---|
TW202029187A TW202029187A (zh) | 2020-08-01 |
TWI730585B true TWI730585B (zh) | 2021-06-11 |
Family
ID=71516123
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
TW109100730A TWI730585B (zh) | 2019-01-16 | 2020-01-09 | 電腦輔助轉換可理解語言的測試系統及其方法 |
Country Status (2)
Country | Link |
---|---|
US (1) | US11361783B2 (zh) |
TW (1) | TWI730585B (zh) |
Families Citing this family (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
TWI741841B (zh) * | 2020-10-19 | 2021-10-01 | 財團法人國家實驗研究院 | 無線振動音頻轉換系統及其方法 |
US11699428B2 (en) | 2020-12-02 | 2023-07-11 | National Applied Research Laboratories | Method for converting vibration to voice frequency wirelessly |
US11363386B1 (en) | 2020-12-02 | 2022-06-14 | National Applied Research Laboratories | System for converting vibration to voice frequency wirelessly |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6022315A (en) * | 1993-12-29 | 2000-02-08 | First Opinion Corporation | Computerized medical diagnostic and treatment advice system including network access |
US20060129394A1 (en) * | 2004-12-09 | 2006-06-15 | International Business Machines Corporation | Method for communicating using synthesized speech |
CN101653354A (zh) * | 2001-02-23 | 2010-02-24 | 马尔西奥·马克·阿布雷乌 | 化学物质的无创测量 |
TW201735016A (zh) * | 2016-03-18 | 2017-10-01 | Teng-Yu Lin | 無線數位腸音監測系統 |
Family Cites Families (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US4586931A (en) * | 1981-12-11 | 1986-05-06 | Hansa Medical Products, Inc. | Auto actuatable switch, speech simulator and method for tracheotomized individuals |
US5828758A (en) * | 1995-10-03 | 1998-10-27 | Byce; Michael L. | System and method for monitoring the oral and nasal cavity |
US6006175A (en) * | 1996-02-06 | 1999-12-21 | The Regents Of The University Of California | Methods and apparatus for non-acoustic speech characterization and recognition |
WO2011025462A1 (en) * | 2009-08-25 | 2011-03-03 | Nanyang Technological University | A method and system for reconstructing speech from an input signal comprising whispers |
US9143106B1 (en) * | 2012-12-30 | 2015-09-22 | Grindstone Medical LLC | Method, device and system for providing speech |
-
2020
- 2020-01-09 TW TW109100730A patent/TWI730585B/zh active
- 2020-01-13 US US16/740,890 patent/US11361783B2/en active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6022315A (en) * | 1993-12-29 | 2000-02-08 | First Opinion Corporation | Computerized medical diagnostic and treatment advice system including network access |
CN101653354A (zh) * | 2001-02-23 | 2010-02-24 | 马尔西奥·马克·阿布雷乌 | 化学物质的无创测量 |
US20060129394A1 (en) * | 2004-12-09 | 2006-06-15 | International Business Machines Corporation | Method for communicating using synthesized speech |
TW201735016A (zh) * | 2016-03-18 | 2017-10-01 | Teng-Yu Lin | 無線數位腸音監測系統 |
Also Published As
Publication number | Publication date |
---|---|
US11361783B2 (en) | 2022-06-14 |
US20200227072A1 (en) | 2020-07-16 |
TW202029187A (zh) | 2020-08-01 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
TWI730585B (zh) | 電腦輔助轉換可理解語言的測試系統及其方法 | |
US7082395B2 (en) | Signal injection coupling into the human vocal tract for robust audible and inaudible voice recognition | |
Ainsworth | Mechanisms of Speech Recognition: International Series in Natural Philosophy | |
Russell et al. | Challenges for computer recognition of children2s speech. | |
US11207049B2 (en) | System and method for characterizing an upper airway using speech characteristics | |
JP2000504849A (ja) | 音響学および電磁波を用いた音声の符号化、再構成および認識 | |
EP2744408B1 (en) | A system for characterizing an upper airway using speech characteristics | |
CN107112029A (zh) | 用于检测言语模式和错误的方法和装置 | |
Blue et al. | Who are you (i really wanna know)? detecting audio {DeepFakes} through vocal tract reconstruction | |
Fernández Pozo et al. | Assessment of severe apnoea through voice analysis, automatic speech, and speaker recognition techniques | |
US8457965B2 (en) | Method for the correction of measured values of vowel nasalance | |
CN113496696A (zh) | 一种基于语音识别的言语功能自动评估系统和方法 | |
Ball et al. | Methods in clinical phonetics | |
Rudzicz | Production knowledge in the recognition of dysarthric speech | |
US20220036904A1 (en) | Detecting deep-fake audio through vocal tract reconstruction | |
Cao et al. | Recognizing whispered speech produced by an individual with surgically reconstructed larynx using articulatory movement data | |
CN117198340A (zh) | 一种基于优选声学参数的构音障碍矫正效果分析方法 | |
Salas | Acoustic coupling in phonation and its effect on inverse filtering of oral airflow and neck surface acceleration | |
CN212342269U (zh) | 一种基于声音频率分析的情绪监测系统 | |
Vojnović et al. | Transfer characteristics of vocal tract closed by mask cavity | |
US10388184B2 (en) | Computer implemented method and system for training a subject's articulation | |
CN116473521B (zh) | 疑似环杓关节脱位声音频谱识别方法及系统 | |
Stone | A silent-speech interface using electro-optical stomatography | |
Nataraj | Estimation of place of articulation of fricatives from spectral parameters using artificial neural network | |
Sivakumar et al. | Autoregressive Based Vocal Tract Shape Modelling of Vowels in Speech Processing |