TWI403304B - 隨身語能偵知方法及其裝置 - Google Patents
隨身語能偵知方法及其裝置 Download PDFInfo
- Publication number
- TWI403304B TWI403304B TW099128768A TW99128768A TWI403304B TW I403304 B TWI403304 B TW I403304B TW 099128768 A TW099128768 A TW 099128768A TW 99128768 A TW99128768 A TW 99128768A TW I403304 B TWI403304 B TW I403304B
- Authority
- TW
- Taiwan
- Prior art keywords
- segment
- repeated
- speech
- sound
- module
- Prior art date
Links
Classifications
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16H—HEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
- G16H50/00—ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
- G16H50/30—ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for calculating health indices; for individual health risk assessment
Landscapes
- Medical Informatics (AREA)
- Engineering & Computer Science (AREA)
- Public Health (AREA)
- Health & Medical Sciences (AREA)
- Pathology (AREA)
- Databases & Information Systems (AREA)
- Data Mining & Analysis (AREA)
- Biomedical Technology (AREA)
- Epidemiology (AREA)
- General Health & Medical Sciences (AREA)
- Primary Health Care (AREA)
- Machine Translation (AREA)
- Measurement Of The Respiration, Hearing Ability, Form, And Blood Characteristics Of Living Organisms (AREA)
Description
本發明與語能偵知有關,特別是關於一種隨身語能偵知方法及裝置。
統計資料顯示2010年全球老年失智症患者將超過三千五百萬人,失智症無疑地是一嚴重的社會問題;失智症並非無藥可救,失智病症的老人中,近10%的病況是可以治癒的;另有35%腦中風所引致的血管性失智症,也可經治療而遏止惡化或改善病情;其餘約55%阿滋海默氏病雖會不斷惡化,但仍然可以進行醫療。
失智症的症狀除了反映在遺忘、誤認、情緒轉變或迷路之外,亦會反映在語言表達的能力以及與他人互動的社群參與程度上;土耳其首都-安卡拉阿茲海默症治療中心主任醫師謝茲金(Gulay Sezgin)指出:『保持老人與外界接觸,進而增加腦力激盪機會,防止腦細胞停滯和老化。』
失智症的患者由於記憶力的退化,常會忘記已經做過的事或是已經說過的話,所以會做一些重覆性的動作或不斷重覆某些語句,「重覆相同的問題、故事和陳述」也列在極早期失智症篩檢量表(AD8)評估項目中。
失智症的評估多倚賴量表,如簡易心智量表MMSE(Mini-Mental Status Examination),常問的問題如:今天是哪一天?哪一年?你在那個縣市?或是關於數字認知方面的如請受試者由100開始往下遞減7,逐次唸出每個數字:100,93,86,79,72...。對於極早期失智的評估,有所謂極早期失智量表(AD8)的評估要項,其中對於1.)反覆述說:發生頻率,時間點,時間長,內容;2.)自言自語:發生頻率,時間點,時間長;3.)與多少人交談:對談者是否越來越少;以上這些評估項目不僅可由受試者平常談話的紀錄中分析得知,更是單純的量表評估難以表達的。
基於上述問題,發明人提出了一種隨身語能偵知方法及裝置,以克服現有技術的缺陷。
本發明在於提供一種隨身語能偵知方法及裝置,透過隨身語音的收集,進一步分析被觀察者的語能狀態,以提供語能相關症狀(包含失智症)的評估。
本發明在於提供一種隨身語能偵知方法及裝置,該裝置,包含:一分析平台;一聲音收集元件,係與該分析平台電性連接,用以收集所需的一聲音資料;以及一語能評估單元,係內嵌於該分析平台中,或與該分析平台電性連接;其中,該語能評估單元接收由該聲音收集元件所收集到的該聲音資料,進行一語言能力之評估計算,並輸出一評估結果。
而該方法包括一音訊處理步驟,聲音經一聲音收集元件接收進來之後,經由一語能評估單元中的一有聲段擷取模組,擷取出有講話聲響的一聲音段,再經由該語能評估單元中的一特徵參數擷取模組計算該聲音段的一特徵向量序列,亦即擷取出可供分析的一音段特徵向量;一重覆談話指標估算步驟,直接經由該語能評估單元中的一穩態音段偵測與量化模組,得到一字碼序列,再藉該語能評估單元中的一重覆片段偵測模組進行一重覆片段比對演算,以判別該字碼序列中是否包含一或至少一重覆片段,除了以一般日常用語之字碼建立一全域語言模型,也以最近發生之字碼建立一快取語言模型以供進行重覆片段比對使用,藉此以獲得一重覆談話指標;以及一社群互動指標估算步驟,係由該語能評估單元中的一語者歸群模組偵測出語者發話之一時間/次數比率、一談話時間長短,以及一語者交替次數等,甚至是是否有自言自語之現象,藉此以獲得一社群互動指標。
因此,透過隨身的聲音收集元件,接收使用者及與其談話者之語音,再分析使用者之『重覆談話指標』與『社群互動指標』;語能評估單元內嵌於分析平台中,或與分析平台電性連接,其中重覆談話指標可為重覆片段之比率、時間點、時間長;社群互動指標可為每時間區段內,與之談話者之人數、交談時間長度、或是否一個人獨自在講話(即自言自語)。
雖然本發明使用了幾個較佳實施例進行解釋,但是下列圖式及具體實施方式僅僅是本發明的較佳實施例;應說明的是,下面所揭示的具體實施方式僅僅是本發明的例子,並不表示本發明限於下列圖式及具體實施方式。
請參閱圖1,係表示本發明隨身語能偵知裝置的外觀圖;本發明隨身語能偵知裝置1具可調整收音位置的聲音收集元件4,如麥克風,且在一分析平台2中內建一語能評估單元3,可隨身攜帶以即時評估被偵測者的語能;透過上述麥克風之隨身的聲音收集元件4,接收使用者及與其談話者之一聲音資料,再分析使用者之『重覆談話指標』與『社群互動指標』;語能評估單元4內嵌於如嵌入式系統的分析平台2中,或可與如個人電腦分析平台2電性連接。
社群互動指標估算
社群互動指標可由以下一種或一種以上之特性計算而得:每時間區段內,與之談話者之人數、交談時間長度、或是否一個人獨自在講話。
土耳其首都-安卡拉阿茲海默症治療中心主任醫師謝茲金(Gulay Sezgin)指出:『保持老人與外界接觸,進而增加腦力激盪機會,防止腦細胞停滯和老化。』換言之,老年人之社群互動能力亦為預防或偵測失智的一個重要指標,藉由聲音感測器搭配語者歸群的技術,我們可以將老人所交談對象加以歸群,藉由其交談對象之數量來做他的社群互動關聯評估。
圖2為多人談話情境示意圖;使用者除了在室內公共空間內相互交談外,在戶外騎樓或可休憩的地方亦常會聚集聊天,可由此談話量的多寡,包含談話對象、人數、時間或時間長,以及參與的程度(發話的時間)等,評量可能的失智病患,其社會參與程度;另外亦有些退縮型失智病患,會有自言自語的症狀,除獨自坐在椅子上講話外,在廁所中亦可能會發生。
重覆談話指標估算
重覆談話指標可由以下一種或一種以上之特性計算而得:重覆片段之比率、時間點、時間長,或重覆之內容等。
方法流程
圖3為本發明之語能偵知方法的流程圖;本發明的語能偵知方法包括下列步驟:
步驟S1:音訊處理步驟。聲音接收進來之後,在進行後續的語能特性估算步驟(步驟S2及S3)之前,需先經過音訊處理步驟(步驟S1),係經由有聲段擷取(Voice Activity Detection)模組31,擷取出有講話聲響的段落,再經由特徵參數擷取模組(Feature Extraction)32計算聲音段的特徵向量序列,亦即擷取出可供分析的音段特徵向量;而最終分別由步驟S2及步驟S3產出的『重覆談話指標』與『社群互動指標』可分別由多種語能特性估算而得。
步驟S2:重覆談話指標估算步驟。本發明所提出之重覆談話指標估算方法可不透過習知的大詞彙語音辨識與關鍵詞彙辨識去分析語音文字內容,直接經由一穩態音段偵測與量化模組33將音段字碼(codeword)量化,得到字碼(codeword)序列,重覆片段比對部分使用具有機率式語言模型(Codeword Catching n-gram Model)之重覆片段偵測模組34判別字碼(codeword)序列中是否包含重覆片段,除了以一般日常用語之字碼(codeword)建立一全域語言模型FM,也以最近發生之字碼(codeword)建立一快取語言模型CM以供進行重覆片段比對使用,藉此以獲得一重覆談話指標A,而此一作法雖未能辨識出詞彙意義,但仍可評估談話重覆之比率、重覆之時間點與時間長度等訊息。
步驟S3:社群互動指標估算步驟。社群互動指標的估算可由習知的語者分群、語者辨識與語者識別,或由本發明基於母音三角之方法的語者歸群模組35,偵測出語者發話之時間/次數比率、談話時間長短,以及語者交替次數等,甚至是是否有自言自語之現象,藉此以獲得一社群互動指標B,其中,上述基於母音三角之語者歸群模組的歸群方法將於後詳述。
裝置架構
本發明提出之隨身語能偵知裝置1包括一分析平台2、一語能評估單元3及一聲音收集元件4,語能評估單元4內嵌於如嵌入式系統的分析平台2中,或可與如個人電腦分析平台2電性連接,圖4及圖5分別表示以個人電腦為分析平台及以嵌入式系統為分析平台時之裝置架構。
聲音收集元件4可感測配帶者本身及週遭之聲音訊號,聲音收集元件4可為隨身之裝置如:錄音筆、智慧型手機(Smart Phone)、個人數位助理(personal digital assistant,PDA)或其他手持式或配戴式之聲音收集裝置,收集到的聲音資料可經由分析平台2中之語能評估單元3分析後,藉由上述的本發明的語能偵知方法輸出社群互動指標A及重覆談話指標B。
語能評估單元3又包含一有聲段擷取模組31、一特徵參數擷取模組32、一穩態音段偵測與量化模組33、一重覆片段偵測模組34及一語者歸群模組35,其中,有聲段擷取模組31擷取出有講話聲響的段落,特徵參數擷取模組32接收聲音收集元件4輸入之聲音資料,並估算語音參數,包括倒頻譜係數、線頻譜對係數、音高、音強及音段長,穩態音段偵測與量化模組33將音段字碼量化,得到字碼序列,重複片段偵測模組34透過偵測聲音資料中之一重複片段,輸出重複片段之聲音、計算重複片段出現之比率、出現之時間點、重複之時間長度,或包含重複片段之字面內容,語者歸群模組35透過一語者歸群方法,分析一段談話語音資料中,出現之語者數目,每位語者發話之比率、時間長短,或包含語者交替之次序,而其間的相關作用係以於上述之語能偵知方法敘述,故不再在此贅述。
另,更可包括詞彙能力評估模組(圖未示),係可透過詞彙辨識或連續語音辨識,偵測並輸出詞彙之使用量、詞彙類型、重複片段之比率、時間點、時間長,或重複之內容。
使用語者歸群(Speaker Diarization)做社群互動指標估算
本發明之基於母音三角之方法以進行語者歸群的作法如下:在做語者聚類之前必須先找出語者聲音在時域(Time Domain)或頻域(Frequency Domain)上之特徵值,並根據此特徵值以高斯混和模型(Gaussian mixture model,GMM)等機率模型加以量化及模式化,再進行歸群,本發明採取共振峰估測及梅爾倒頻譜係數兩種語者特徵擷取方法,分述如後。
a. 共振峰估測(Formants Estimation)
聲音是從聲源經過聲道共振之後所產生的。聲道是指從聲帶以上至嘴唇之間(含鼻腔)的空腔,此區域乃聲音的共振腔,而人的聲音在頻率域上產生能量集中之位置稱做共振峰,不同的共振腔及母音的發聲皆會產生不一樣的共振峰,因此可以藉此歸納發話者間的差異並加以歸群。對於共振峰的估算是先採用全極點的訊號模型,透過L-D遞迴演算法(Levinson-Durbin recursion)估算其在極座標平面,單位圓上的極點座標,下式為全極點的訊號模型方程式:
單位圓上的極點座標以(cosω i
,i
sinω i
)表示,則對應的共振峰頻率F i
與頻寬FB i
則以式(2)與式(3)求得:
其中F s
表示聲音訊號的取樣頻率。
圖6為男女生語者於母音三角上呈現的差異,WM表示男生語者的母音共振峰散佈,WF表示女生語者的母音共振峰散佈。
b. 梅爾倒頻譜係數(Mel-Frequency Cesptrum Coefficients)
人耳聽覺在在低頻部分比起高頻的部靈敏許多,梅爾倒頻譜係數即是一種根據人耳聽覺刻度所設計出來的聲音特徵係數,為語音辨識最常見之特徵參數之一。
使用字碼比對做重覆談話萃取(Repeated Pattern Extraction)
失智症的患者由於記憶力的退化,常會忘記已經做過的事或是已經說過的話,所以會做一些重覆性的動作或者是重覆某些語句,而「重覆相同的問題、故事和陳述」也列在極早期失智症篩檢量表(AD8)評估項目中,故患者談話與敘事重覆片段之比率、時間點、時間長短,可作為失智症的評估指標。
a. 同質音段字碼化
基於設備造價與機器性能之間的考量,在重覆片段的比對演算法上,我們不採用複雜的大詞彙語音辨識技巧,取而代之的是建立於Semi-HMM(Semi-Hidden Markov Model,半隱藏式馬可夫模型)上的簡單聲學模型,直接針對在時間軸上的同質音段進行音段切割與字碼編碼,為避免語音片段辨識時費時的最佳路徑搜尋及解碼過程,本發明係將Semi-HMM的狀態(state)數目設為1,並以時間持續模型(duration model)描述音段長度的特徵,以單一狀態的設計,可以避免費時的隱藏式馬可夫模型解碼(HMM decoding),且透過時間持續模型(duration model)可保留音段長度的特性。
1.x t
,時間點t
時的語音特徵向量,單位為音框
2.x t -τ+1
:x t ,
時間點t
-τ+1到t
的語音特徵向量序列
3. τ,音段長度
4.P i
(x t -τ+1
:x t
,τ),長度為τ的語音特徵向量序列x t -τ+1
:x t
在第i
個狀態的觀測機率
5.d i
(τ),在第i
個狀態停留τ個音框的機率(duration probability)
6.O i
(x t -τ+1
:x t
;Λ i
),語音特徵向量x t -τ+1
,…,x t
在第i
個狀態的聯合觀測機率
7.d i
(τ)=N i
(τ;),以常態分佈表示duration probability,為在第i
個狀態停留長度的平均值,單位為音框,為其變異數
假設各語音特徵向量為獨立,可得聯合觀測機率為各自的觀測機率的乘積,如下式:
其中Λ i
,第i
個狀態的機率模型參數以高斯混和模型表示各語音特徵向量在第i
個狀態中的觀測機率
1.M
,為混和的高斯模型個數
2.μ i , j
,為第i
個狀態第j
個高斯的權重
3.ω i , j
,為第i
個狀態第j
個高斯的平均向量
4.Σ i , j
,為第i
個狀態第j
個高斯的共變異數矩陣
b. 字碼語言模型(Codeword Language Model)
針對不同的語音片段,可以比對出可能重覆的同質音段字碼,為了快速比對重覆片段,本發明並不採用語音辨識,更不處理詞彙或語意分析,本發明係關注在同質音段字碼的重覆出現,即相似字碼序列的粹取;因此本發明使用n個字碼相連字串模型(codeword n-gram model)加以描述字碼之間連結與組合狀況,本模型以音段字碼(segment codeword)作為基礎元素而非傳統的中文詞彙,可避免複雜的語音辨識,甚至是多語辨識所需的大量運算;為偵測病患最近常重覆述說的片段,本發明更引入快取模型(catching model),讓字碼語言模型具有時間記憶的效應。
1.V i
,表示第i
個音段量化後的codeword
2.P
(V i
|V i -2 V i -1
),表示給定V i -2 V i -1
後,接著出現V i
的機率,由兩部分機率組合而得
3. 其中(V i
|V i -2 V i -1
)表示由過去長時間累積的資料求得的機率,以bi-gram及uni-gram透過線性方式調整權重而得
4.C
(V i -2 V i -1 V i
),C
(V i -2 V i -1
),C
(V i -1
),分別表示codeword連三個出現,連兩個出現,以及單獨出現的次數;λ
則是線性調整用的權重
5.P catching
(V i
|V i -2 V i -1
),的計算方式相同於(V i
|V i -2 V i -1
),差別在用的是近期的資料
藉由上述的結構與方法,以聲音為基礎的語言能力監測,可彌補評估照護人力之不足,並可從談話者人數/時間評量社群互動狀況,及從重覆相似語音片段偵知語言能力,對於早發性失智患者,可用於評估是否已開始有重覆敘事或自言自語之語言行為特徵,不僅具有經濟效益,還可應用於老人醫療照護產業,並在家庭照護中,達到輔助評估老人是否患有失智症狀的功效。
雖然本發明以相關的較佳實施例進行解釋,但是這並不構成對本發明的限制。應說明的是,本領域的技術人員根據本發明的思想能夠構造出很多其他類似實施例,這些均在本發明的保護範圍之中。
1...隨身語能偵知裝置
2...分析平台
3...語能評估單元
31...有聲段擷取模組
32...特徵參數擷取模組
33...穩態音段偵測與量化模組
34...重覆片段偵測模組
35...語者歸群模組
4...聲音收集元件
A...社群互動指標
B...重覆談話指標
CM...快取語言模型
FM...全域語言模型
步驟S1~S3依據本發明語能偵知方法的步驟
圖1 係表示本發明隨身語能偵知裝置的外觀圖。
圖2 係表示多人談話情境示意圖。
圖3 係表示本發明之語能偵知方法的流程圖。
圖4 係表示本發明以個人電腦為分析平台時之裝置架構。
圖5 係表示本發明以嵌入式系統為分析平台時之裝置架構。
圖6 係表示本發明男女生語者於母音三角上呈現的差異。
1...隨身語能偵知裝置
2...分析平台
3...語能評估單元
31...有聲段擷取模組
32...特徵參數擷取模組
33...穩態音段偵測與量化模組
34...重覆片段偵測模組
35...語者歸群模組
4...聲音收集元件
Claims (8)
- 一種隨身語能偵知方法,包含:一音訊處理步驟,一聲音資料經一聲音收集元件接收進來之後,經由一語能評估單元中的一有聲段擷取模組,擷取出一聲音段,再經由該語能評估單元中的一語音特徵參數擷取模組計算該聲音段的一特徵向量序列,以取得一音段特徵向量,且更應用該語音特徵參數擷取模組估算該聲音段之一語音參數,該語音參數包含倒頻譜係數、線頻譜對係數、音高、音強及音段長;一重覆談話指標估算步驟,直接經由該語能評估單元中的一穩態音段偵測與量化模組,得到一字碼序列,再藉該語能評估單元中的一重覆片段偵測模組進行一重覆片段比對演算,以判別該字碼序列中是否包含至少一重覆片段,藉此以獲得一重覆談話指標,且更應用該重覆片段偵測模組偵測該重覆片段,以輸出該重覆片段之聲音與字面內容、計算該重覆片段出現之比率與時間點以及該重覆片段重覆之時間長度;以及一社群互動指標估算步驟,係由該語能評估單元中的一語者歸群模組偵測出一語音資料,藉此以獲得一社群互動指標,且更應用該語音歸群模組中之一歸群方法分析該語音資料中所出現之語者數目,每位語者發話之比率、時間長短以及語者交替之次序。
- 依據申請專利範圍第1項所述的隨身語能偵知方法,其中,該語者歸群模組的該歸群方法係包括下列方法至少其中之一:語者分群、語者辨識與語者識別,或基於母 音三角之方法。
- 依據申請專利範圍第2項所述的隨身語能偵知方法,其中,該基於母音三角之方法係在做語者聚類之前必須先找出語者聲音在時域或頻域上之一特徵值,並根據該特徵值以高斯混和模型的機率模型進行量化及模式化,再進行歸群。
- 依據申請專利範圍第1項所述的隨身語能偵知方法,其中,該特徵值係由利用一共振峰估測或一梅爾倒頻譜係數所獲得。
- 依據申請專利範圍第1項所述的隨身語能偵知方法,其中,該重覆片段比對演算的步驟包括一同質音段字碼化及一字碼語言模型,該同質音段字碼化係直接針對在一時間軸上的若干同質音段進行音段切割與字碼編碼,並將一Semi-HMM的狀態數目設定為1,並以一時間持續模型描述該等同質音段長度的特徵,透過該時間持續模型以保留該同質音段長度的特性。
- 一種隨身語能偵知裝置,包含:一分析平台;一聲音收集元件,係與該分析平台電性連接,用以收集所需的一聲音資料;以及一語能評估單元,係內嵌於該分析平台中,或與該分析平台電性連接,並由該聲音資料擷取出一聲音段;其中,該語能評估單元接收由該聲音收集元件所收集到的該聲音資料,進行一語言能力之評估計算,並輸出一評估結果; 其中該語能評估單元至少包含一特徵參數擷取模組、一重覆片段偵測模組、一語者歸群模組及一詞彙能力評估模組,且該特徵參數擷取模組計算該聲音段的一特徵向量序列,以取得一音段特徵向量,並估算該聲音段之一語音參數,該語音參數包含倒頻譜係數、線頻譜對係數、音高、音強及音段長,且該重覆片段偵測模組偵測該重覆片段,以輸出該重覆片段之聲音與字面內容、計算該重覆片段出現之比率與時間點以及該重覆片段重覆之時間長度,且該語音歸群模組中之一歸群方法分析該語音資料中所出現之語者數目,每位語者發話之比率、時間長短以及語者交替之次序,且該詞彙能力評估模組透過詞彙辨識與連續語音辨識之其中一者,以偵測並輸出詞彙之使用量、詞彙類型、該重覆片段之比率、時間點、時間長與重覆之內容。
- 依據申請專利範圍第6項所述的隨身語能偵知裝置,其中,該評估結果包括一重覆談話指標及一社群互動指標。
- 依據申請專利範圍第7項所述的隨身語能偵知裝置,其中,該重覆談話指標由以下一種或一種以上之特性評估計算而得:詞彙之使用量、詞彙類型、該重覆片段之比率、時間點、時間長,或重覆之內容,該社群互動指標由以下一種或一種以上之特性評估計算而得:每時間區段內與之談話者之人數、交談時間長度、或是否一個人獨自在講話。
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
TW099128768A TWI403304B (zh) | 2010-08-27 | 2010-08-27 | 隨身語能偵知方法及其裝置 |
US12/981,042 US8712760B2 (en) | 2010-08-27 | 2010-12-29 | Method and mobile device for awareness of language ability |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
TW099128768A TWI403304B (zh) | 2010-08-27 | 2010-08-27 | 隨身語能偵知方法及其裝置 |
Publications (2)
Publication Number | Publication Date |
---|---|
TW201208636A TW201208636A (en) | 2012-03-01 |
TWI403304B true TWI403304B (zh) | 2013-08-01 |
Family
ID=45698343
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
TW099128768A TWI403304B (zh) | 2010-08-27 | 2010-08-27 | 隨身語能偵知方法及其裝置 |
Country Status (2)
Country | Link |
---|---|
US (1) | US8712760B2 (zh) |
TW (1) | TWI403304B (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
TWI644283B (zh) * | 2017-03-01 | 2018-12-11 | 譚旦旭 | 知能障礙的治療方法與系統 |
Families Citing this family (21)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
TWI412019B (zh) * | 2010-12-03 | 2013-10-11 | Ind Tech Res Inst | 聲音事件偵測模組及其方法 |
KR101478459B1 (ko) * | 2013-09-05 | 2014-12-31 | 한국과학기술원 | 언어 지연 치료 시스템 및 그 시스템 제어 방법 |
US9570093B2 (en) * | 2013-09-09 | 2017-02-14 | Huawei Technologies Co., Ltd. | Unvoiced/voiced decision for speech processing |
US10141009B2 (en) | 2016-06-28 | 2018-11-27 | Pindrop Security, Inc. | System and method for cluster-based audio event detection |
US20180018963A1 (en) * | 2016-07-16 | 2018-01-18 | Ron Zass | System and method for detecting articulation errors |
US11195542B2 (en) | 2019-10-31 | 2021-12-07 | Ron Zass | Detecting repetitions in audio data |
US9824692B1 (en) | 2016-09-12 | 2017-11-21 | Pindrop Security, Inc. | End-to-end speaker recognition using deep neural network |
US10325601B2 (en) | 2016-09-19 | 2019-06-18 | Pindrop Security, Inc. | Speaker recognition in the call center |
CA3117645C (en) | 2016-09-19 | 2023-01-03 | Pindrop Security, Inc. | Channel-compensated low-level features for speaker recognition |
US10553218B2 (en) | 2016-09-19 | 2020-02-04 | Pindrop Security, Inc. | Dimensionality reduction of baum-welch statistics for speaker recognition |
US10397398B2 (en) | 2017-01-17 | 2019-08-27 | Pindrop Security, Inc. | Authentication using DTMF tones |
JP6312014B1 (ja) * | 2017-08-28 | 2018-04-18 | パナソニックIpマネジメント株式会社 | 認知機能評価装置、認知機能評価システム、認知機能評価方法及びプログラム |
JP6268628B1 (ja) * | 2017-11-02 | 2018-01-31 | パナソニックIpマネジメント株式会社 | 認知機能評価装置、認知機能評価システム、認知機能評価方法及びプログラム |
JP6733891B2 (ja) * | 2018-09-12 | 2020-08-05 | 株式会社Fronteo | 認知症予測装置、予測モデル生成装置および認知症予測用プログラム |
WO2020159917A1 (en) | 2019-01-28 | 2020-08-06 | Pindrop Security, Inc. | Unsupervised keyword spotting and word discovery for fraud analytics |
US11935539B1 (en) * | 2019-01-31 | 2024-03-19 | Alan AI, Inc. | Integrating voice controls into applications |
US11955120B1 (en) | 2019-01-31 | 2024-04-09 | Alan AI, Inc. | Systems and methods for integrating voice controls into applications |
WO2020163624A1 (en) | 2019-02-06 | 2020-08-13 | Pindrop Security, Inc. | Systems and methods of gateway detection in a telephone network |
WO2020198354A1 (en) | 2019-03-25 | 2020-10-01 | Pindrop Security, Inc. | Detection of calls from voice assistants |
US12015637B2 (en) | 2019-04-08 | 2024-06-18 | Pindrop Security, Inc. | Systems and methods for end-to-end architectures for voice spoofing detection |
KR20210014909A (ko) * | 2019-07-31 | 2021-02-10 | 삼성전자주식회사 | 대상의 언어 수준을 식별하는 전자 장치 및 방법 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1655235A (zh) * | 2004-02-12 | 2005-08-17 | 微软公司 | 基于话音特征自动标识电话呼叫者 |
US7337115B2 (en) * | 2002-07-03 | 2008-02-26 | Verizon Corporate Services Group Inc. | Systems and methods for providing acoustic classification |
US20090099848A1 (en) * | 2007-10-16 | 2009-04-16 | Moshe Lerner | Early diagnosis of dementia |
Family Cites Families (44)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US4284846A (en) | 1978-05-08 | 1981-08-18 | John Marley | System and method for sound recognition |
JPS58143394A (ja) | 1982-02-19 | 1983-08-25 | 株式会社日立製作所 | 音声区間の検出・分類方式 |
JPS6126584U (ja) | 1984-07-20 | 1986-02-17 | 有限会社 桜屋 | 音感知作動のメロデイ発生機構を備えた玩具 |
US4783807A (en) | 1984-08-27 | 1988-11-08 | John Marley | System and method for sound recognition with feature selection synchronized to voice pitch |
US5082446A (en) | 1990-06-12 | 1992-01-21 | Sclan Steven G | Method for the assessment of severe dementia |
US5230629A (en) | 1991-03-01 | 1993-07-27 | Albert Einstein College Of Medicine Of Yeshiva University | Device and method for assessing cognitive speed |
US5601432A (en) | 1995-01-20 | 1997-02-11 | Mastery Rehabilitation Systems, Inc. | Educational organizer |
JP3578587B2 (ja) | 1997-03-28 | 2004-10-20 | 株式会社リコー | 音声認識装置および音声認識方法 |
US5974413A (en) * | 1997-07-03 | 1999-10-26 | Activeword Systems, Inc. | Semantic user interface |
JP3899498B2 (ja) | 1997-11-12 | 2007-03-28 | 株式会社セガ | ゲーム機 |
DE60016842T2 (de) | 1999-07-23 | 2005-05-25 | Matsushita Electric Industrial Co., Ltd., Kadoma | Hausgebundenes Überwachungssystem für den Gesundheitszustand |
US6711541B1 (en) | 1999-09-07 | 2004-03-23 | Matsushita Electric Industrial Co., Ltd. | Technique for developing discriminative sound units for speech recognition and allophone modeling |
US6999923B1 (en) | 2000-06-23 | 2006-02-14 | International Business Machines Corporation | System and method for control of lights, signals, alarms using sound detection |
US6829582B1 (en) | 2000-10-10 | 2004-12-07 | International Business Machines Corporation | Controlled access to audio signals based on objectionable audio content detected via sound recognition |
US6820056B1 (en) | 2000-11-21 | 2004-11-16 | International Business Machines Corporation | Recognizing non-verbal sound commands in an interactive computer controlled speech word recognition display system |
US7143044B2 (en) * | 2000-12-29 | 2006-11-28 | International Business Machines Corporation | Translator for infants and toddlers |
US6996261B2 (en) | 2001-01-30 | 2006-02-07 | Decharms R Christopher | Methods for physiological monitoring, training, exercise and regulation |
JP2005509312A (ja) | 2001-03-30 | 2005-04-07 | ヒル−ロム サービシーズ,インコーポレイティド | 病院のベッドとネットワークシステム |
US7505911B2 (en) | 2001-09-05 | 2009-03-17 | Roth Daniel L | Combined speech recognition and sound recording |
JP3837061B2 (ja) | 2001-11-28 | 2006-10-25 | 富士通株式会社 | 音信号認識システムおよび音信号認識方法並びに当該音信号認識システムを用いた対話制御システムおよび対話制御方法 |
US7008378B2 (en) | 2002-03-07 | 2006-03-07 | Dean Melanie A | Patient conditional diagnosis assessment and symptom tracking system |
US7492908B2 (en) | 2002-05-03 | 2009-02-17 | Harman International Industries, Incorporated | Sound localization system based on analysis of the sound field |
US8947347B2 (en) | 2003-08-27 | 2015-02-03 | Sony Computer Entertainment Inc. | Controlling actions in a video game unit |
US20050076771A1 (en) * | 2002-12-05 | 2005-04-14 | Patricia Carlson | Method of conveying musical information |
US7187790B2 (en) | 2002-12-18 | 2007-03-06 | Ge Medical Systems Global Technology Company, Llc | Data processing and feedback method and system |
EP1683033A4 (en) | 2003-10-24 | 2008-05-07 | Caringfamily Llc | INFLUENCE OF COMMUNICATION BETWEEN A SOCIAL AID NETWORK |
FI20031566A (fi) * | 2003-10-27 | 2005-04-28 | Nokia Corp | Kielen valitseminen sanantunnistusta varten |
US20050108630A1 (en) * | 2003-11-19 | 2005-05-19 | Wasson Mark D. | Extraction of facts from text |
JP4035113B2 (ja) | 2004-03-11 | 2008-01-16 | リオン株式会社 | ボケ防止装置 |
CN100592386C (zh) | 2004-07-01 | 2010-02-24 | 日本电信电话株式会社 | 特定音响信号含有区间检测系统及其方法 |
US20060031071A1 (en) * | 2004-08-03 | 2006-02-09 | Sony Corporation | System and method for automatically implementing a finite state automaton for speech recognition |
US7684988B2 (en) * | 2004-10-15 | 2010-03-23 | Microsoft Corporation | Testing and tuning of automatic speech recognition systems using synthetic inputs generated from its acoustic models |
US7818179B2 (en) * | 2004-11-12 | 2010-10-19 | International Business Machines Corporation | Devices and methods providing automated assistance for verbal communication |
US7682308B2 (en) | 2005-02-16 | 2010-03-23 | Ahi Of Indiana, Inc. | Method and system for assessing fall risk |
US8152731B2 (en) | 2006-02-10 | 2012-04-10 | Inovise Medical, Inc. | Wavelet transform and pattern recognition method for heart sound analysis |
US20070256499A1 (en) | 2006-04-21 | 2007-11-08 | Pelecanos Jason W | Machine and operating environment diagnostics, detection and profiling using sound |
US8825149B2 (en) * | 2006-05-11 | 2014-09-02 | Northwestern University | Systems and methods for measuring complex auditory brainstem response |
US7825813B2 (en) | 2006-07-25 | 2010-11-02 | Intelehealth, Inc | Identifying activity in an area utilizing sound detection and comparison |
US8265724B2 (en) * | 2007-03-09 | 2012-09-11 | Nellcor Puritan Bennett Llc | Cancellation of light shunting |
US7820900B2 (en) | 2007-04-20 | 2010-10-26 | Master Key, Llc | System and method for sound recognition |
WO2009086033A1 (en) | 2007-12-20 | 2009-07-09 | Dean Enterprises, Llc | Detection of conditions from sound |
KR101496876B1 (ko) | 2008-02-19 | 2015-02-27 | 삼성전자주식회사 | 휴대 단말기의 소리 인식 방법 및 장치 |
US20100100036A1 (en) * | 2008-04-24 | 2010-04-22 | Searete Llc, A Limited Liability Corporation Of The State Of Delaware | Computational System and Method for Memory Modification |
WO2011105003A1 (ja) * | 2010-02-25 | 2011-09-01 | パナソニック株式会社 | 信号処理装置及び信号処理方法 |
-
2010
- 2010-08-27 TW TW099128768A patent/TWI403304B/zh active
- 2010-12-29 US US12/981,042 patent/US8712760B2/en active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7337115B2 (en) * | 2002-07-03 | 2008-02-26 | Verizon Corporate Services Group Inc. | Systems and methods for providing acoustic classification |
CN1655235A (zh) * | 2004-02-12 | 2005-08-17 | 微软公司 | 基于话音特征自动标识电话呼叫者 |
US20090099848A1 (en) * | 2007-10-16 | 2009-04-16 | Moshe Lerner | Early diagnosis of dementia |
Non-Patent Citations (1)
Title |
---|
夏啟峻,語音合成中合成單元選取及語音轉換之研究,國立成功大學,2007年12月 * |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
TWI644283B (zh) * | 2017-03-01 | 2018-12-11 | 譚旦旭 | 知能障礙的治療方法與系統 |
Also Published As
Publication number | Publication date |
---|---|
TW201208636A (en) | 2012-03-01 |
US8712760B2 (en) | 2014-04-29 |
US20120053929A1 (en) | 2012-03-01 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
TWI403304B (zh) | 隨身語能偵知方法及其裝置 | |
Ali et al. | An automatic health monitoring system for patients suffering from voice complications in smart cities | |
US10010288B2 (en) | Screening for neurological disease using speech articulation characteristics | |
Schuller et al. | Automatic recognition of physiological parameters in the human voice: Heart rate and skin conductance | |
Fletcher et al. | Assessing vowel centralization in dysarthria: A comparison of methods | |
Kalluri et al. | Automatic speaker profiling from short duration speech data | |
Yağanoğlu | Real time wearable speech recognition system for deaf persons | |
Qian et al. | Automatic detection, segmentation and classification of snore related signals from overnight audio recording | |
Hahm et al. | Parkinson's condition estimation using speech acoustic and inversely mapped articulatory data | |
Ding et al. | Deep connected attention (DCA) ResNet for robust voice pathology detection and classification | |
CN110070888A (zh) | 一种基于卷积神经网络的帕金森语音识别方法 | |
Usman et al. | Heart rate detection and classification from speech spectral features using machine learning | |
CN113782032B (zh) | 一种声纹识别方法及相关装置 | |
Usman | On the performance degradation of speaker recognition system due to variation in speech characteristics caused by physiological changes | |
Guo et al. | Robust speaker identification via fusion of subglottal resonances and cepstral features | |
Cheah et al. | A Wearable Silent Speech Interface based on Magnetic Sensors with Motion-Artefact Removal. | |
Aman et al. | Analyzing the performance of automatic speech recognition for ageing voice: Does it correlate with dependency level? | |
Vacher et al. | Speech and sound use in a remote monitoring system for health care | |
Khanna et al. | Application of vector quantization in emotion recognition from human speech | |
Mohamad Jamil et al. | A flexible speech recognition system for cerebral palsy disabled | |
Akafi et al. | Assessment of hypernasality for children with cleft palate based on cepstrum analysis | |
Akinrinmade et al. | Creation of a Nigerian voice corpus for indigenous speaker recognition | |
Kabir et al. | Vector quantization in text dependent automatic speaker recognition using mel-frequency cepstrum coefficient | |
Kandali et al. | Vocal emotion recognition in five languages of Assam using features based on MFCCs and Eigen Values of Autocorrelation Matrix in presence of babble noise | |
Kowalczyk et al. | Detecting changing emotions in natural speech |