TW202312186A - 用於確定用戶癡呆程度的方法及裝置 - Google Patents

用於確定用戶癡呆程度的方法及裝置 Download PDF

Info

Publication number
TW202312186A
TW202312186A TW111134144A TW111134144A TW202312186A TW 202312186 A TW202312186 A TW 202312186A TW 111134144 A TW111134144 A TW 111134144A TW 111134144 A TW111134144 A TW 111134144A TW 202312186 A TW202312186 A TW 202312186A
Authority
TW
Taiwan
Prior art keywords
dementia
user
test
degree
cnn
Prior art date
Application number
TW111134144A
Other languages
English (en)
Other versions
TWI811097B (zh
Inventor
金亨俊
林俊植
洪秀勳
白贊銀
Original Assignee
南韓商智聰醫治股份有限公司
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 南韓商智聰醫治股份有限公司 filed Critical 南韓商智聰醫治股份有限公司
Publication of TW202312186A publication Critical patent/TW202312186A/zh
Application granted granted Critical
Publication of TWI811097B publication Critical patent/TWI811097B/zh

Links

Images

Classifications

    • AHUMAN NECESSITIES
    • A61MEDICAL OR VETERINARY SCIENCE; HYGIENE
    • A61BDIAGNOSIS; SURGERY; IDENTIFICATION
    • A61B5/00Measuring for diagnostic purposes; Identification of persons
    • A61B5/40Detecting, measuring or recording for evaluating the nervous system
    • A61B5/4076Diagnosing or monitoring particular conditions of the nervous system
    • A61B5/4088Diagnosing of monitoring cognitive diseases, e.g. Alzheimer, prion diseases or dementia
    • AHUMAN NECESSITIES
    • A61MEDICAL OR VETERINARY SCIENCE; HYGIENE
    • A61BDIAGNOSIS; SURGERY; IDENTIFICATION
    • A61B5/00Measuring for diagnostic purposes; Identification of persons
    • A61B5/48Other medical applications
    • A61B5/4803Speech analysis specially adapted for diagnostic purposes
    • AHUMAN NECESSITIES
    • A61MEDICAL OR VETERINARY SCIENCE; HYGIENE
    • A61BDIAGNOSIS; SURGERY; IDENTIFICATION
    • A61B5/00Measuring for diagnostic purposes; Identification of persons
    • A61B5/48Other medical applications
    • A61B5/4842Monitoring progression or stage of a disease
    • AHUMAN NECESSITIES
    • A61MEDICAL OR VETERINARY SCIENCE; HYGIENE
    • A61BDIAGNOSIS; SURGERY; IDENTIFICATION
    • A61B5/00Measuring for diagnostic purposes; Identification of persons
    • A61B5/72Signal processing specially adapted for physiological signals or for diagnostic purposes
    • A61B5/7235Details of waveform analysis
    • A61B5/7264Classification of physiological signals or data, e.g. using neural networks, statistical classifiers, expert systems or fuzzy systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/0464Convolutional networks [CNN, ConvNet]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/047Probabilistic or stochastic networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/09Supervised learning
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H50/00ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
    • G16H50/20ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for computer-aided diagnosis, e.g. based on medical expert systems
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H50/00ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
    • G16H50/30ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for calculating health indices; for individual health risk assessment

Landscapes

  • Health & Medical Sciences (AREA)
  • Engineering & Computer Science (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Physics & Mathematics (AREA)
  • Biomedical Technology (AREA)
  • General Health & Medical Sciences (AREA)
  • Public Health (AREA)
  • Medical Informatics (AREA)
  • Molecular Biology (AREA)
  • Biophysics (AREA)
  • Theoretical Computer Science (AREA)
  • Pathology (AREA)
  • Artificial Intelligence (AREA)
  • Data Mining & Analysis (AREA)
  • Mathematical Physics (AREA)
  • Evolutionary Computation (AREA)
  • Heart & Thoracic Surgery (AREA)
  • Veterinary Medicine (AREA)
  • Animal Behavior & Ethology (AREA)
  • Surgery (AREA)
  • Computing Systems (AREA)
  • Software Systems (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Neurology (AREA)
  • Psychiatry (AREA)
  • Primary Health Care (AREA)
  • Physiology (AREA)
  • Databases & Information Systems (AREA)
  • Epidemiology (AREA)
  • Child & Adolescent Psychology (AREA)
  • Developmental Disabilities (AREA)
  • Hospice & Palliative Care (AREA)
  • Psychology (AREA)
  • Neurosurgery (AREA)
  • Fuzzy Systems (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Signal Processing (AREA)
  • Audiology, Speech & Language Pathology (AREA)

Abstract

為了確定用戶的癡呆程度,透過用戶終端輸出內容,並連續接收用戶對觀察內容的反應,並透過可視化反應來生成生物標記訊息,並基於生物標記訊息透過卷積神經網絡(CNN)和深度神經網絡(DNN)來確定用戶的癡呆程度。

Description

用於確定用戶癡呆程度的方法及裝置
本技術領域涉及用於確定用戶的癡呆程度的技術,更具體地,涉及用於向用戶提供內容,並基於用戶對所提供內容的反應來確定用戶的癡呆程度的裝置及方法。
隨著社會的老齡化,癡呆症成為老年人最嚴重的疾病之一,其近10年來呈快速上升趨勢,社會和經濟成本也在上升。此外,由於患者無法獨立生活,並且會導致失蹤或自身等,因此癡呆症不僅會給患者自身的生活帶來巨大痛苦,還給關心患者的家人帶來巨大痛苦。透過早期診斷和適當治療,可以預防或延遲進一步的認知能力下降,但現有的這種疾病的早期診斷仍存在一些問題。 過去,由於有必要到醫院等專業醫療機構就診,因此感到自己的健忘狀況惡化而前來就診的患者中已發展為輕度認知障礙(MCI)或阿爾茨海默病(AD)的患者諸多,用於診斷的神經認知功能測試(SNSB-II、CERAD-K等)只有透過具有足夠經驗和專門知識的醫務人員才能獲得高可靠性,並且,磁共振成像(MRI)、單光子發射成像(SPECT)、正電子斷層掃描(PET)及腦脊液檢測等的診斷費用非常昂貴,而且會給接受診斷的患者帶來許多不便。
技術課題
一實施例可以提供一種用於確定用戶的癡呆程度的裝置及方法。
一實施例可以提供一種用於基於用戶的語音來確定用戶的癡呆程度的裝置及方法。
技術方法
根據一實施例的由電子裝置執行的用於確定用戶癡呆程度的方法包括以下步驟:透過用戶終端輸出用於確定用戶的癡呆程度而預先製作的第一內容;
接收所述用戶針對透過所述用戶終端的麥克風獲取的所述第一內容的第一語音;透過所述用戶終端輸出預先製作的第二內容;接收所述用戶針對透過所述麥克風獲取的所述第二內容的第二語音;透過可視化所述第一語音的至少一個特徵來生成第一頻譜圖(spectrogram)圖像;透過可視化所述第二語音的至少一個特徵來生成第二頻譜圖圖像;透過將所述第一頻譜圖圖像輸入到預先更新的第一卷積神經網絡(CNN,convolutional neural network),為所述第一語音生成預設數量的第一特徵;透過將所述第二頻譜圖圖像輸入到預先更新的第二卷積神經網絡,為所述第二語音生成預設數量的第二特徵;在所述第一特徵和所述第二特徵中確定預設數量的目標特徵;以及透過將所述目標特徵輸入到預先更新的深度神經網絡(DNN,deep neural network),確定所述用戶的癡呆程度,並且,透過所述用戶終端可以輸出所述確定的癡呆程度。
所述第一內容可以包括用於接收所述第一語音的指令(instruction)。
所述第一內容可以是使用戶跟讀句子的內容、猜測輸出圖像的名稱的內容、描述輸出圖像的內容、用於語言流暢性的內容、用於數字運算的內容以及誘導講故事(story telling)的內容中的一個。
透過可視化所述第一語音的至少一個特徵來生成第一頻譜圖圖像的步驟,可以包括以下步驟:透過librosa工具生成所述第一語音的所述第一頻譜圖圖像。
所述第一頻譜圖圖像的大小和所述第二頻譜圖圖像的大小可以彼此相同。
可以基於VGG16模型來預先更新所述第一CNN。
所述第一CNN透過可以包括輸入層、5個預卷積層塊(pre-convolutional layer blocks)、完全連接層及2個後卷積層塊(post-convolutional layer blocks)並且不包括softmax來生成所述第一頻譜圖圖像的所述第一特徵。
確定用戶癡呆程度的方法還可以包括更新所述第一CNN的步驟。
更新所述第一CNN的步驟,可以包括以下步驟:接收針對所述第一內容的測試用戶的第一測試語音;透過可視化所述第一測試語音的至少一個特徵來生成第一測試頻譜圖圖像,其中所述第一測試頻譜圖圖像被標記為所述測試用戶的GT(ground truth)癡呆程度;透過將所述第一測試頻譜圖圖像輸入到第一完整的CNN中來確定所述測試用戶的第一測試癡呆程度,其中所述第一完整的CNN包括輸入層、一個以上的前卷積層塊、完全連接層、一個以上的後卷積層塊及softmax;以及基於所述第一測試癡呆程度及所述GT癡呆程度來更新所述完整的第一CNN,其中所述第一CNN在所述更新的完整的第一CNN的層中僅包括所述輸入層、所述一個以上的預卷積層塊、所述完全連接層以及所述一個以上的後卷積層塊。
確定用戶癡呆程度的方法還可以包括以下步驟:在完成包括所述第一CNN及所述第二CNN的多個CNN的更新之後,更新所述DNN。
更新所述DNN的步驟可以包括以下步驟:在基於第一測試頻譜圖圖像生成的預設數量的第一測試特徵和基於第二測試頻譜圖圖圖像生成的預設數量的第二測試特徵中,確定預設數量的測試目標特徵,其中所述測試目標特徵被標記為所述測試用戶的GT癡呆程度;透過將所述測試目標特徵輸入到所述DNN中來確定所述測試用戶的第二測試癡呆程度;以及基於所述第二測試癡呆程度及所述GT癡呆程度來更新所述DNN。
根據一實施例的用於確定用戶癡呆程度的裝置包括:存儲器,其記錄用於確定用戶癡呆程度的程序;以及處理器,其執行所述程序,其中所述程序執行以下步驟:透過用戶終端輸出用於確定用戶的癡呆程度而預先製作的第一內容;接收所述用戶針對透過所述用戶終端的麥克風獲取的所述第一內容的第一語音;透過所述用戶終端輸出預先製作的第二內容;接收所述用戶針對透過所述麥克風獲取的所述第二內容的第二語音;透過可視化所述第一語音的至少一個特徵來生成第一頻譜圖圖像;透過可視化所述第二語音的至少一個特徵來生成第二頻譜圖圖像;透過將所述第一頻譜圖圖像輸入到預先更新的第一卷積神經網絡(CNN),為所述第一語音生成預設數量的第一特徵;
透過將所述第二頻譜圖圖像輸入到預先更新的第二卷積神經網絡,為所述第二語音生成預設數量的第二特徵;在所述第一特徵和所述第二特徵中確定預設數量的目標特徵;以及透過將所述目標特徵輸入到預先更新的深度神經網絡(DNN),確定所述用戶的癡呆程度,並且,可以透過所述用戶終端輸出所述確定的癡呆程度。
根據一實施例的由電子裝置執行的更新用於確定用戶癡呆程度的卷積神經網絡的方法,包括以下步驟:透過用戶終端輸出用於確定用戶的癡呆程度而預先製作的第一內容;接收針對所述第一內容的測試用戶的第一測試語音;透過可視化所述第一測試語音的至少一個特徵來生成第一測試頻譜圖圖像,其中所述第一測試頻譜圖圖像被標記為所述測試用戶的GT癡呆程度;透過將所述第一測試頻譜圖圖像輸入到完整的CNN中來確定所述測試用戶的測試癡呆程度,其中所述完整的CNN包括輸入層、一個以上的前卷積層塊、完全連接層、一個以上的後卷積層塊及softmax;以及基於所述測試癡呆程度及所述GT癡呆程度來更新所述完整的CNN,並且,所述CNN在所述更新的完整的CNN的層中可以僅包括所述輸入層、所述一個以上的預卷積層塊、所述完全連接層以及所述一個以上的後卷積層塊。
根據一實施例的用於更新用於確定用戶癡呆程度的卷積神經網絡的電子裝置包括:存儲器,其記錄用於更新所述CNN的程序;以及執行所述程序的處理器,其中所述處理器執行以下步驟:透過用戶終端輸出用於確定用戶的癡呆程度而預先製作的第一內容;接收針對所述第一內容的測試用戶的第一測試語音;透過可視化所述第一測試語音的至少一個特徵來生成第一測試頻譜圖圖像,其中所述第一測試頻譜圖圖像被標記為所述測試用戶的GT癡呆程度;透過將所述第一測試頻譜圖圖像輸入到完整的CNN中來確定所述測試用戶的測試癡呆程度,其中所述完整的CNN包括輸入層、一個以上的前卷積層塊、完全連接層、一個以上的後卷積層塊及softmax;以及基於所述測試癡呆程度及所述GT癡呆程度來更新所述完整的CNN,並且,所述CNN在所述更新的完整的CNN的層中可以僅包括所述輸入層、所述一個以上的預卷積層塊、所述完全連接層以及所述一個以上的後卷積層塊。
技術效果
可以提供一種用於確定用戶的癡呆程度的裝置及方法。
可以提供一種用於基於用戶的語音來確定用戶的癡呆程度的裝置及方法。
以下,將參照圖式對實施例進行詳細說明。然而,本發明的權利範圍並非受到實施例的限制或限定。每個圖式中相同的圖式標記表示相同的元件。
能夠對以下實施例進行多種變更。應當理解,以下所描述的實施例並不旨在限制這些實施例,並且包括對其的所有修改、等同物和替代物。
實施例中使用的術語僅用於說明特定實施例,並非用於限定實施例。在內容中沒有特別說明的情況下,單數表達包括複數含義。在本說明書中,“包括”或者“具有”等術語用於表達存在說明書中所記載的特徵、數字、步驟、操作、構成要素、配件或其組合,並不排除還具有一個或以上的其他特徵、數字、步驟、操作、構成要素、配件或其組合,或者附加功能。
在沒有其他定義的情況下,包括技術或者科學術語在內的在此使用的全部術語,都具有本領域普通技術人員所理解的通常的含義。通常使用的與詞典定義相同的術語,應理解為與相關技術的通常的內容相一致的含義,在本申請中沒有明確言及的情況下,不能過度理想化或解釋為形式上的含義。
並且,在參照圖式進行說明的過程中,與圖式標記無關,相同的構成要素賦予相同的圖式標記,並省略對此的重複的說明。在說明實施例的過程中,當判斷對於相關公知技術的具體說明會不必要地混淆實施例時,省略對其詳細說明。
圖1為示出根據一示例的用於確定用戶癡呆程度的系統的框圖。
根據一側面,用於確定用戶的癡呆程度的系統可以包括用於確定用戶癡呆程度的電子裝置110、用於輸出內容的用戶終端120以及用於醫療機構的監控終端130。例如,電子裝置110可以是服務器。
電子裝置110可以向用戶終端120提供預先製作的內容,以確定用戶的癡呆程度。例如,內容可以是用於從用戶獲取語音的內容。下面將參照圖5詳細描述用於獲取用戶語音的內容。
用戶終端120可以離線或在線連接到電子裝置110以彼此通信。電子裝置110向用戶終端120提供內容,並且用戶終端120透過顯示器向用戶輸出內容。例如,用戶終端120可以透過麥克風獲取用戶的語音作為對內容的反應,並將所獲得的語音發送到電子裝置110。
電子裝置110可以基於用戶的語音來確定用戶的癡呆程度,並將所確定的癡呆程度發送到用戶終端120。
用戶終端120可以是平板電腦或智能電話等移動終端。當用戶終端120為移動終端時,用戶不受時間和地點的限制,可以以低成本測量癡呆程度。
在下文中,將參照圖2至圖17來詳細描述用於確定用戶的癡呆程度的方法。
圖2示出根據一示例的輸出到用戶終端以確定用戶癡呆程度的圖像。
下面的圖像(210至240)可以是用於確定癡呆程度的應用程序的圖像。例如,電子裝置110的用戶可以創建並分發應用程序,並且用戶可以透過用戶終端120執行應用程序。
第一圖像210為應用程序的開始屏幕。
第二圖像220指示應用程序所支持的功能。
第三圖像230為提供給用戶的內容的示例。可以向用戶提供多個內容。
第四圖像240表示所確定的用戶的癡呆程度。例如,可以輸出被確定為用戶癡呆程度的正常、輕度認知障礙(MCI)或阿爾茨海默病(AD)。除了對個別疾病的關注程度外,還可以一起輸出綜合判斷。
圖3為示出根據一實施例的用於確定用戶癡呆程度的電子裝置的框圖。
電子裝置300包括通信部310、處理器320及存儲器330。例如,電子裝置300可以是參照圖1描述的上述電子裝置110。
通信部310連接到處理器320和存儲器330,以發送和接收數據。通信部310可以連接到外部的另一裝置以發送/接收數據。在下文中,表達式“發送和接收A”可以表示發送和接收“表示A的訊息(information)或數據”。
通信部310可以實現為電子裝置300中的電路(circuitry)。例如,通信部310可以包括內部總線(internal bus)和外部總線(external bus)。作為另一示例,通信部310可以是連接電子裝置300和外部裝置的元件。通信部310可以是接口(interface)。通信部310可以從外部裝置接收數據,並將其發送到處理器320和存儲器330。
處理器320處理由通信部310接收的數據和存儲在存儲器330中的數據。“處理器”可以是以硬件實現的數據處理裝置,其具有用於執行期望操作(desired operations)的物理結構的電路。例如,期望操作可以包括程序中包括的代碼(code)或指令(instructions)。例如,實現為硬件的數據處理裝置可以包括微處理器(microprocessor)、中央處理單元(central processing unit)、處理器核(processor core)、多核處理器(multi-core processor)、多處理器(multiprocessor)、專用集成電路(ASIC,Application-Specific Integrated Circuit)及現場可編程門陣列(FPGA,Field Programmable Gate Array)。
處理器320執行存儲在存儲器(例如,存儲器330)中的計算機可讀代碼(例如,軟件)和由處理器320發出的指令。
存儲器330存儲由通信部310接收的數據和由處理器320處理的數據。例如,存儲器330可以存儲程序(或應用程序、軟件)。所存儲的程序可以是句法(syntax)的集合,其被編碼以確定用戶的癡呆程度並且可由處理器320執行。
根據一側面,存儲器330可以包括一個以上的易失性存儲器、非易失性存儲器和隨機存取存儲器(RAM)、閃存、硬盤驅動器及光盤驅動器。
存儲器330存儲用於操作電子裝置300的指令集(例如,軟件)。用於操作電子裝置300的指令集由處理器320執行。
下面將參照圖4至圖17來詳細描述通信部310、處理器320和存儲器330。
圖4為示出根據一實施例的用於確定用戶癡呆程度的方法的流程圖。
以下步驟410至440由參照圖3描述的上述電子裝置300執行。
在步驟410中,電子裝置300透過用戶終端(例如,用戶終端120)的顯示器輸出預先生成以確定用戶的癡呆程度的內容。內容被輸出到用戶終端,並且用戶對內容進行反應。
用戶終端可以透過使用攝像機接收用戶的語音作為上述反應。用戶終端可以透過使用麥克風生成作為反應的語音。所生成的語音可以是數據文件的形式。
可以向用戶提供多個內容,並且可以生成多個內容中的每一個內容的用戶語音。
根據一實施例,使用下面的[表1]來描述用於生成用戶語音的內容。
[表1]
語音任務 指令(instructions)
步驟1、 跟讀句子 現在請仔細聽我說的句子,並跟讀。 每一句結束後,請聽到嗶聲後開始。 院子裡,開滿了,玫瑰花。
步驟2、 跟讀句子 再次,請仔細聽我說的句子,並跟讀。 每一句結束後,請聽到嗶聲後開始。 昨天,下雨,我,宅在家。
步驟3、 跟讀句子 再次,請仔細聽我說的句子,並跟讀。 每一句結束後,請聽到嗶聲後開始。 牆有縫,壁有耳。
步驟4、 說出名字 接下來,請說出您所看到的動物的名字。 請聽到嗶聲後依次說出您所看到的動物的名字。
步驟5、 描述圖片 接下來請看圖片,請在1分鐘內盡可能詳細地描述圖片。 請盡可能詳細地描述這裡是哪裡、有什麼東西、動物或人正在做什麼,等等。 請聽到嗶聲後開始。
步驟6、 語言流暢性 (音位形式) 接下來,請說出以出現的字母開頭的單詞。 例如,如果您看到字母“a”,請盡可能多地說出以“a”開頭的單詞。 可以說蘋果、螞蟻、宇航員等單詞。 還有其他以“a”開頭的單詞嗎? 現在請說出以其他字母,即以“b”開頭的單詞。 您有一分鐘,請盡可能多地說以“b”開頭的單詞,準備好了嗎? 請聽到嗶聲後開始。
步驟7、 語言流暢性 (語義形式) 如果我們告訴您一個類型,請儘快告訴我們屬於該類型的名稱。 例如,如果我們說“動物類型”,您就可以說出狗、貓、獅子等的名字。 還有別的屬於動物類型的嗎? 現在請說出屬於其他類型,即屬於水果的所有名字。 您有一分鐘,請在一分鐘內說出您想到的水果,準備好了嗎? 請聽到嗶聲後開始。
步驟8、 減法 現在我們出一道簡單的計算問題。100減3是什麼? 100減去3,答案是97。 那麼,從那裡再減去3。 從97中減去3,所以答案是94。 請繼續減去3。 從100開始,繼續減去3,準備好了嗎? 請聽到嗶聲後開始。
步驟9、 說故事(正面) 迄今為止,您經歷過最快樂的事情是什麼? 請在一分鐘內盡可能詳細地告訴我們您經歷過最快樂的事情。 請聽到嗶聲後開始。
步驟10、 說故事(負面) 迄今為止,您經歷過最悲傷的事情是什麼?請在一分鐘內盡可能詳細地告訴我們您經歷過最悲傷的事情。 請聽到嗶聲後開始。
步驟11、 說故事(插敘) 昨天發生了什麼事? 請在一分鐘內盡可能詳細地告訴我們昨天發生的事情。 請聽到嗶聲後開始。
在步驟420中,電子裝置300從用戶終端連續接收用戶觀看內容的反應。例如,電子裝置300可以接收透過用戶終端的麥克風獲取的內容的用戶語音。
當製作多個內容時,可以反復地執行步驟410、420。反復執行步驟410、420以接收多個內容的用戶語音。例如,多個內容可以包括用於接收用戶語音的第一至第十一內容。可以接收第一至第十一內容的第一至第十一語音。
在步驟430中,電子裝置300基於接收到的反應來生成生物標記訊息。
根據一實施例,電子裝置300透過可視化所接收的語音的至少一個特徵來生成語音的頻譜圖(spectrogram)圖像作為生物標記訊息。例如,電子裝置300可以透過librosa工具來生成語音的頻譜圖圖像。頻譜圖圖像可以是梅爾(mel)頻譜圖圖像。
例如,可以生成第一至第十一語音中的每個語音的頻譜圖圖像。下面參照圖6詳細描述頻譜圖圖像。
在步驟440中,電子裝置300基於生物標記訊息來確定用戶的癡呆程度。
根據一實施例,電子裝置300可以透過將頻譜圖圖像作為生物標記訊息輸入預設的癡呆程度分類模型來確定用戶的癡呆程度。例如,癡呆程度分類模型可以基於神經網絡(neural network)進行預訓練。下面將參照圖7至圖12詳細描述基於癡呆程度分類模型來確定用戶癡呆程度的方法。
在執行步驟440之後,電子裝置300可以透過用戶終端輸出所確定的癡呆程度。
圖5示出根據一示例的預先製作以接收用戶語音的內容。
例如,提供給用戶的內容500可以是猜測所輸出的圖像520、530、540的名稱的內容。內容500可以包括除圖像520、520、540之外的用於內容500的用戶語音的指令510。可以以文本形式顯示指令510,也可以透過語音輸出指令510。用戶可以透過說出圖像520、530、540的名稱來生成語音。
儘管已參考圖5描述了用於接收用戶語音的內容的示例,但可以根據待測量的用戶語音以各種方式製作內容。例如,內容可以是使用戶說出從100中減去3獲得的值的內容、使用戶再次說出所輸出的聲音的內容、或使用戶在給定的時間內盡可能多地說出以“b”開頭的單詞的內容。
根據一實施例,可以透過用戶終端向用戶按順序提供預設數量(例如,11個)的內容。用戶終端可以透過記錄每個內容的用戶語音來生成多個語音數據文件,並將生成的語音數據文件發送到電子裝置300。
圖6示出根據一示例的為語音生成的原始頻譜圖圖像。
根據一側面,電子裝置300可以透過Librosa工具生成語音的原始頻譜圖圖像600。原始頻譜圖圖像600的水平軸可以是時間軸,垂直軸可以是頻率軸。原始頻譜圖圖像600表示根據時間軸和頻率軸的變化的振幅差異,作為打印密度/顯示顏色的差異。可以基於改變的振幅差的大小來確定對應位置的顯示顏色。例如,振幅差的大小的顯示顏色的圖例610可以與原始頻譜圖圖像600一起輸出。為了顯示所確定的顏色,可以確定對應坐標的像素的R、G、B通道的值。
根據一實施例,可以基於多個語音中的每個語音的多個原始頻譜圖圖像來生成待輸入到模型的多個頻譜圖圖像。例如,可以為第一語音生成第一頻譜圖圖像,並為第二語音生成第二頻譜圖圖像。原始頻譜圖圖像的時間軸和頻率軸的比例可以根據各個語音的總時間而不同,但最終生成的頻譜圖圖像的大小可以相同。
根據一實施例,電子裝置300可以將針對第一內容生成的第一原始頻譜圖圖像轉換為針對第一內容具有預設的第一時間範圍的第一調整頻譜圖圖像。例如,可以基於多個用戶對第一內容的平均響應時間來預設第一內容的第一時間範圍。例如,第一時間範圍可以是平均響應時間和響應時間的中間值(或響應時間的標準偏差)的總和。
根據一實施例,關於用戶對第一至第四內容的響應時間的統計數據在下面的[表2]中示出。
[表2]
  第一內容 第二內容 第三內容 第四內容
平均響應時間 6.423967571 6.517637474 7.738273502 10.29516905
標準偏差值 9.641737921 9.008077433 9.55999683 10.85853336
中間值 4.120746667 4.47616 5.258986667 6.893226667
最大值 60.78869333 60.74616889 60.76743111 59.97546667
最小值 1.3056 1.314133333 1.258666667 1.32096
例如,根據上面的[表2],當第一內容的第一時間範圍被確定為平均響應時間和中間值的總和時,其總和為10.544714238(秒),與10.5447 14238沒有顯著差異的9秒可以確定為第一時間範圍。
例如,當用戶針對第一內容的第一原始頻譜圖圖像的長度為10秒時,可以透過切割9秒或更長的部分來生成第一調整頻譜圖圖像。作為另一示例,當用戶針對第一內容的第一原始頻譜圖圖像的長度為8秒時,可以透過添加從8秒到9秒的靜音時間來生成第一調整頻譜圖圖像。
根據一實施例,可以生成用於第一至第十一內容的第一調整後的頻譜圖圖像至第十一頻譜圖圖像。例如,第一調整後的頻譜圖圖像至第十一調整後的頻譜圖圖像中的每一個可以表示不同的時間間隔。可以去除第一調整後的頻譜圖圖像與第十一調整後的頻譜圖圖像之間的差異不大的圖像上部的某些部分。基於去除某些部分的第一調整後的頻譜圖圖像至第十一調整後的頻譜圖圖像,可以對第一調整後的頻譜圖圖像至第十一調整後的頻譜圖圖像進行圖像處理,使得圖像具有相同的大小。經圖像處理的經調整的頻譜圖圖像可以被稱為頻譜圖圖像。例如,第一頻譜圖圖像的大小和第二頻譜圖圖像的大小可以為300x300,彼此相同。例如,頻譜圖圖像的大小可以以像素為單位。例如,像素的值可以由16位表示。
儘管已經參照圖5和圖6描述了用於接收用戶語音的內容的示例,但可以根據要測量的用戶的語音以各種方式製作內容。例如,內容可以包括描繪照片的內容和用於閱讀輸出句子的內容。
圖7為示出根據一示例的使用CNN和DNN來確定用戶癡呆程度的方法的流程圖。
根據一側面,參照圖4描述的上述步驟440可以包括以下步驟(710至730)。
在步驟710中,電子裝置300透過將頻譜圖圖像輸入到對應於頻譜圖圖像的預先更新的卷積神經網絡(CNN)來生成內容的預設數量的特徵。用於生成特徵的CNN可能因內容而異。例如,當存在11個內容時,存在對應於11個內容中的每一個的CNN,並且這11個CNN可以被稱為CNN集。下文中,“更新”一詞可以包括“訓練”一詞的含義,並且可以互換使用。
根據一側面,可以基於VGG16模型來預先更新CNN。CNN可以是完整的CNN的一部分,其包括輸入層、一個以上的預卷積層塊、完全連接層(fully connected layer)、一個以上的後卷積層及softmax。例如,CNN可以包括輸入層、預卷積層塊、完全連接層及後卷積層塊,但不包括softmax。由於CNN不包括softmax,因此可以輸出預設數量的特徵,該特徵用於計算癡呆程度而不是計算作為輸入的頻譜圖圖像的結果的癡呆程度。將參照圖8詳細描述完整的CNN和部分CNN。
例如,電子裝置300透過將第一頻譜圖圖像輸入到預先更新的第一CNN來為第一內容生成預設數量的第一特徵,並將第二頻譜圖圖像輸入到預先更新的第二CNN來為第二內容生成預設數量的第二特徵。作為一個具體示例,當接收到11個頻譜圖圖像並為一個頻譜圖生成256個特徵時,可以生成總共2816個特徵。
在步驟720中,電子裝置300確定多個內容(或多個對應的頻譜圖圖像)的特徵中的目標特徵。所確定的目標特徵可以是用於確定癡呆程度的標記。被確定為目標特徵的特徵可以被預定為標記。可以透過更新CNN和更新深度神經網絡(DNN)的步驟(稍後將參照圖12至圖16來描述)來預先確定標記。
圖8示出根據一示例的能夠確定用戶癡呆程度的完整的CNN和部分CNN。
根據一側面,完整的CNN 800包括輸入層810、第一卷積層塊820、第二卷積層塊830、第三卷積層塊840、第四卷積層塊840、第五卷積層塊850、完全連接層870、第六卷積層塊880、第七卷積層塊890及softmax895。為便於識別,可以將位於完全連接層879前面的第一卷積層塊820、第二卷積層塊830、第三卷積層塊840、第四卷積層塊850及第五卷積層塊860稱為預卷積層塊(pre-convolutional layer blocks),並將位於完全連接層879後面的第六卷積層塊880及第七卷積層塊890稱為後卷積層塊(post-convolutional layer blocks)。
根據一實施例,卷積層塊可以包括一個以上的卷積層和池層。此外,第六卷積層塊880和第七卷積層塊890中的每一個還可以包括丟棄(drop-out)層塊。
完整的CNN 800可以是透過完整的CNN更新方法(稍後將參考圖12進行描述)來更新的完整的CNN。可以預先更新對於每個內容不同的完整的CNN。
部分CNN 805可以僅包括輸入層810、第一卷積層塊820、第二卷積層塊830、第三卷積層塊840、第四卷積層塊850、第五卷積層塊860、完全連接層870、第六卷積層塊880及第七卷積層塊890,但不包括softmax 895。即,部分CNN 805可以是在完成完整的CNN 800的更新之後從完整的CNN 800中移除softmax 895的CNN。例如,在參照圖7描述的上述步驟710中使用的CNN可以是部分CNN 805。
由於部分CNN 805不包括softmax895,因此其可以輸出頻譜圖圖像的各種特徵。
圖9示出根據一示例的為多個用戶圖像集中的每一個生成的特徵和基於其確定的目標特徵。
根據一側面,透過對應於目標內容的目標CNN來生成目標語音的預設數量的特徵。例如,特徵的預設數量可以是256個。當根據多個內容的多個頻譜圖圖像的數量為n個時,生成的所有特徵900的數量可以為256xn個。
確定所有特徵900中的預設數量的目標特徵910。所確定的目標特徵910可以是用於確定癡呆程度的預設標記。下面參照圖13的步驟1310詳細描述將目標特徵910預先確定為標記的方法。
圖10示出根據一示例的用於確定用戶癡呆程度的DNN。
根據一側面,用於確定用戶癡呆程度的DNN可以包括輸入層1010、一個以上的隱藏層1020、1030、1040及輸出層1050。例如,DNN可以是透過更新DNN的方法(稍後將參照圖13描述)來更新的DNN。
DNN可以輸出用戶的癡呆程度作為輸入目標特徵910的輸出。DNN可以輸入多個預設癡呆程度中的任一個。例如,預設的多個癡呆程度可以包括確定的正常、輕度認知障礙(MCI)和阿爾茨海默病(AD)。
圖11示出根據一示例的為提高確定癡呆程度的準確性而執行的兩個步驟的分類。
與透過單個模型確定多個癡呆程度中任一個的方法不同,透過多個模型逐步確定癡呆程度的方法可以提高癡呆程度的確定精度。
例如,不是透過單個模型確定正常、輕度認知障礙(MCI)和阿爾茨海默病(AD)中任一個的方法,而是在分類的第一階段確定正常或異常(輕度認知障礙(MCI)和阿爾茨海默病(AD)),並在分類的第二階段確定輕度認知障礙(MIC)或阿爾茨海默病(AD)。
為了使用上述方法,分別預先準備分類第一階段中使用的第一CNN集和第一DNN以及分類第二階段中使用的第二CNN集與第二DNN。
例如,當針對第一分類階段執行參照圖4的上述步驟(410至440),並透過第一分類階段確定用戶的癡呆程度為異常時,可以執行針對第二分類階段的步驟440。當透過第一分類階段確定用戶的癡呆程度為正常時,可以不執行第二分類階段。用於第一分類階段的第一CNN集與第一DNN以及用於第二分類階段的第二CNN集與第二DNN分別彼此不同。
圖12示出根據另一示例的為提高確定癡呆程度的準確性而執行的兩個步驟的操作。
與透過單個模型確定多個癡呆程度中任一個的方法不同,透過多個模型確定癡呆程度的方法可以提高癡呆程度的確定精度。
根據一實施例,不採用透過一個模型確定正常、輕度認知障礙(MCI)及阿爾茨海默病(AD)中任一種的方法,而採用使用為不同分類目的訓練的多個模型來分別計算輕度認知障礙(MCI)和阿爾茨海默病(AD)的概率,並基於計算出的概率來確定癡呆程度的方法。
在步驟1210中,可以使用多個模型來計算用戶的正常、輕度認知障礙(MCI)和阿爾茨海默病(AD)中的每一個的部分概率。例如,當為11個頻譜圖圖像生成256個特徵時,可以生成總共2816個特徵,並且可以向多個模型中的每一個模型輸入2816個特徵。例如,多個模型可以包括:用於分類正常和輕度認知障礙(MCI)和阿爾茨海默病(AD)的第一模型、用於分類正常和阿爾茨海默病(AD)的第二模型、用於分類正常及輕度認知障礙(MCI)的第三模型、以及用於分類輕度認知障礙(MCI)和阿爾茨海默病(AD)的第四模型。
可以透過第一模型將第一正常概率P SCI1和第一輕度認知障礙(MCI)概率P MCI1計算為部分概率。第一阿爾茨海默病(AD)概率P AD1可以相同於第一輕度認知障礙(MCI)概率P MCI1。可以透過第二模型將第二正常概率P SCI2和第二阿爾茨海默病(AD)概率P AD2計算為部分概率。可以透過第三模型將第三正常概率P SCI3和第二輕度認知障礙(MCI)概率P MCI2計算為部分概率。可以透過第四模型將第三輕度認知障礙(MCI)概率P MCI3和第三阿爾茨海默病(AD)概率P AD3計算為部分概率。
為了使用上述方法,預先準備在第一模型中使用的第一CNN集和第一DNN、在第二模型中使用的第二CNN集和第二DNN、在第三模型中使用的第三CNN集及第三DNN、在第四模型中使用的第四CNN集及第四DNN。
在步驟1220中,可以基於透過多個模型計算的部分概率來確定正常的第一概率、輕度認知障礙(MCI)的第二概率和阿爾茨海默病(AD)的第三概率。
例如,第一正常概率P SCI1、第二正常概率P SCI2和第三正常概率P SCI3的總和可以被計算為正常的第一概率。第一輕度認知障礙(MCI)概率P MCI1、第二輕度認知障礙概率P MCI2和第三輕度認知障礙概率P MCI3的總和可以被確定為輕度認知障礙(MCI)的第二概率。第一阿爾茨海默病(AD)概率P AD1、第二阿爾茨海默病(AD)概率P AD2和第三阿爾茨海默病(AD)概率P AD3的總和可以被確定為阿爾茨海默病(AD)的第三概率。
在步驟1230中,可以將與第一概率、第二概率和第三概率中最大值相對應的分類確定為用戶的癡呆程度。例如,當第一概率、第二概率和第三概率中第二概率最大時,可以將用戶的癡呆程度確定為輕度認知障礙(MCI)。
根據一實施例,在參照圖12的描述中,已描述了四個模型用於確定用戶的癡呆程度,但是用於確定癡呆程度的模型的數量並不限於所公開的實施例。例如,為了確定癡呆的程度,可以使用兩個以上的模型。
圖13為示出根據一示例的用於更新完整的CNN的方法的流程圖。
根據一側面,在執行參照圖4描述的上述步驟410之前,預先執行下面的步驟1300。步驟1300涉及用於更新完整的CNN的方法,其可以包括以下步驟(1310至1350)。
在步驟1310中,電子裝置300向測試用戶輸出預先製作以確定用戶癡呆程度的內容。例如,電子裝置300可以透過測試用戶的用戶終端輸出內容。
測試用戶可以是透過醫生的專業診斷確定其癡呆程度的人。例如,測試用戶可以是正常、或患有輕度認知障礙(MCI)或阿爾茨海默病(AD)。
在步驟1320中,電子裝置300透過用戶終端的麥克風接收內容的測試用戶的測試語音。當提供多個內容時,可以接收多個測試語音。
在步驟1330中,電子裝置300透過可視化所接收的測試語音的至少一個特徵來生成測試語音的測試頻譜圖圖像。可以用測試用戶的GT癡呆程度來標記測試頻譜圖圖像。
在步驟1340中,電子裝置300透過將測試頻譜圖圖像輸入到完整的CNN來確定測試用戶的測試癡呆程度。由於完整的CNN包括softmax,因此完整的CNN可以確定測試癡呆程度。例如,確定的測試癡呆程度可以包括正常、患有輕度認知障礙(MCI)及阿爾茨海默病(AD)。
根據一實施例,對應於第一內容的第一完整的CNN僅基於第一測試頻譜圖圖像來確定測試用戶的測試癡呆程度,並且對應於第n內容的第n完整的CNN僅基於第n測試頻譜圖圖像來確定測試用戶的癡呆程度。
在步驟1350中,電子裝置300基於測試癡呆程度和GT癡呆程度來更新完整的CNN。例如,如果測試癡呆水平和GT癡呆水平之間存在差異,則可以使用該差異作為誤差值來執行反向傳播以更新完整的CNN。更新完整的CNN的方法可以是監督學習(supervised learning)。
在圖8的一實施例中,當完整的CNN 800包括輸入層810、第一卷積層塊820、第二卷積層塊830、第三卷積層塊840、第四卷積層塊850、第五卷積層塊860、完全連接層870、第六卷積層塊880、第七卷積層塊890以及softmax895時,只更新第五卷積層塊860,其餘層可以不被更新。
根據一實施例,可以透過大量測試用戶重複更新完整的CNN,並且當更新的完整的CNN的輸出精度變得大於預設閾值時,可以終止完整的CNN的更新。
根據一側面,當如參照圖11及圖12所述的方法所示透過多個模型逐步確定癡呆程度時,可以分別更新每個分類步驟中使用的第一完成CNN和第二完成CNN,以適應每個分類步驟。例如,第一完成CNN被更新以確定正常或異常(輕度認知障礙(MCI)和阿爾茨海默病(AD)),第二完成CNN被更新以確定輕度認知障礙(MCI)或阿爾茨海默病(AD)。
在步驟710中使用的CNN可以是神經網絡,其在完成完整的CNN的更新之後,從完整的CNN中移除softmax(例如,softmax895)。即,在步驟510中使用的CNN可以用作相應頻譜圖圖像的特徵提取器。
圖14為示出根據一示例的更新DNN的方法的流程圖。
根據一實施例,以下步驟1400涉及用於更新DNN的方法,在執行參照圖13描述的上述步驟1300之後以及在執行參照圖4描述的上步驟410之前,可以執行用於更新DNN的方法。例如,在完整的CNN(或CNN)的更新完成之後,可以執行步驟1400。
步驟1400可以包括以下步驟(1410至1440)。
在步驟1410中,電子裝置300基於根據第一測試頻譜圖圖像由第一CNN生成的預設數量的第一測試特徵及第二頻譜圖圖像,確定由第二CNN生成的預設數量的第二測試特徵中預設數量的測試目標特徵。儘管僅描述了第一測試特徵和第二測試特徵,但例如,當生成用於n個內容的n個測試頻譜圖圖像時,可以從第一測試特徵到第n個測試特徵中確定測試目標特徵。測試目標特徵可以是用於確定癡呆程度的標記。下面,將參照圖15及圖16來詳細描述確定測試目標特徵的方法。
可以用測試用戶的GT癡呆程度來標記測試目標特徵。
在步驟1420中,電子裝置300可以驗證所確定的測試目標特徵。例如,測試目標特徵可以透過K-折交叉驗證方法(k-fold cross validation)進行驗證。下面將參照圖17及圖18詳細描述驗證測試目標特徵的方法。根據實施例,當確定的測試目標特徵不需要驗證時,可以不執行步驟1420。
當測試目標特徵已被驗證(或不需要驗證)時,可以執行步驟1430。根據一示例,有必要驗證測試目標特徵,但如果未被驗證,則視為需要重新更新CNN,可以重新執行步驟1300。
在步驟1430中,電子裝置300透過將測試目標特徵輸入到DNN來確定測試用戶的測試癡呆程度。為了將其與在步驟1340中確定的測試癡呆程度區分開,將步驟1340的測試癡呆程度稱為第一測試癡呆程度,將步驟1430的測試癡呆程度稱為第二測試癡呆程度。當第一次執行步驟1430時,使用的DNN可以是初始DNN或基本DNN。
在步驟1440中,電子裝置300基於第二測試癡呆程度和GT癡呆程度來更新DNN。例如,當第二測試癡呆程度和GT癡呆程度之間存在差異時,可以使用該差異作為誤差值執行反向傳播以更新DNN。更新DNN的方法可以是監督學習。
根據一實施例,可以透過大量測試用戶來重複更新DNN,並且當更新的DNN的輸出精度變得大於或等於預設閾值時,可以終止DNN的更新。
根據一實施例,當如參照圖11及圖12所述的方法所示透過多個模型逐步確定癡呆程度時,可以分別更新每個分類步驟中使用的第一DNN和第二DNN,以適應每個分類步驟。例如,第一DNN被更新以確定正常或異常(輕度認知障礙(MCI)和阿爾茨海默病(AD)),第二DNN被更新以確定輕度認知障礙(MCI)或阿爾茨海默病(AD)。
圖15為示出根據一示例的用於確定測試目標特徵的方法的流程圖。
根據一側面,參照圖14描述的上述步驟1410可以包括以下步驟(1510至1550)。
在步驟1510中,可以將包括第一測試特徵和第二測試特徵的整體測試特徵劃分為多個子特徵集。例如,當整體測試特徵的數量為2816個時,可以生成為子特徵集的每一個包括200個測試特徵,並且第十五子特徵集可以包括16個測試特徵。整體測試特徵的每一個可以具有索引號,並且第一子特徵集包括測試特徵編號1至測試特徵編號200。
在步驟1520中,選擇多個子特徵集(15)中的一部分。例如,可以選擇第一子特徵集至第十五子特徵集中的五個集合。所選的5個子特徵集包括總共1000個測試特徵。下面將參照圖16詳細描述選擇子特徵集一部分的方法。
在步驟1530中,所選的子特徵(例如,1000個)被劃分為多個子特徵集。例如,如果所選的特徵為1000個,則可以生成為子特徵集(50)的每一個包括20個測試特徵。
在步驟1540中,選擇多個子特徵集(50)中的一部分。例如,可以選擇從第一子特徵集至第五十子特徵集中的十個集合。所選的10個子特徵集包括總共200個測試特徵。步驟1540的詳細描述可以類似地應用於下面針對步驟1520的圖15的描述。
在步驟1550中,被包括在所選子特徵集中的測試特徵被確定為測試目標特徵。可以識別每個確定的測試目標特徵的索引。
所確定的測試目標特徵可以用作確定用戶癡呆程度的標記。例如,當將第一特徵中的第4個特徵、第46個特徵及第89個特徵以及第二特徵中的第78個特徵及第157個特徵確定為測試目標特徵時,在參照圖7描述的上述步驟720中確定的目標特徵還包括第一特徵中的第4個特徵、第46個特徵及第89個特徵以及第二特徵中的第78個特徵及第157個特徵。
在參照圖15描述的實施例中所示的具體數字涉及示例,並且具體數字可以根據實際實現而改變。
圖16為示出根據一示例的選擇子特徵的方法的流程圖。
根據一側面,參照圖15描述的上述步驟1520可以包括以下步驟(1610至1640)。
需要大量用戶的數據來確定測試目標特徵。下面,將使用1000個用戶的數據作為示例來描述確定測試目標特徵的過程。一同設置正確值與1000個用戶的數據。
例如,1000個用戶可以被分類為600個訓練數據用戶、200個認證數據用戶及200個測試數據用戶。對於600中的每一個,可以為第一頻譜圖圖像至第十一頻譜圖圖像生成2816個特徵,並且可以生成具有特定索引(例如,1至200)的600個第一子特徵集。例如,生成用於訓練數據的600個第一子特徵集至第十五子特徵集。類似地,為認證數據生成200個第一子特徵集至第十五子特徵集,為測試數據生成200個第一子特徵集至第十五子特徵集。
作為另一示例,如果不需要驗證測試目標特徵,則1000個用戶可以被分類為800個訓練數據用戶和200個測試數據用戶。對於800中的每一個人的第一頻譜圖圖像到第十一頻譜圖圖像,可以生成2816個特徵,並且可以生成具有特定索引(例如,1至200)的800個第一子特徵集。例如,生成用於訓練數據的800個第一子特徵集至第十五子特徵集。類似地,生成用於測試數據的200個第一子特徵集至第十五子特徵集。
在步驟1610中,基於訓練數據的600個第一子特徵集(第一訓練數據)和認證數據的200個第一子特徵集(第一認證數據),執行初始DNN的1次的訓練週期(epoch)。如果不需要驗證測試目標特徵,則可以基於訓練數據的800個第一子特徵集來執行初始DNN的1次的訓練週期。基於600個(或800個)第一子特徵集來調整DNN中節點的邊緣或參數的權重。透過調整權重的DNN來輸出輸入的第一認證數據的結果。輸出結果的數量可以為200。管理員可以透過參考200個輸出結果來調整為學習而執行的預設週期的數量。
在步驟1620中,在DNN上執行預設數量的訓練週期。例如,可以執行30次的訓練週期。當執行預設數量的週期時,可以視為已完成一次學習(或訓練)。
在步驟1630中,可以基於測試數據的200個第一子特徵集(第一測試數據)來計算第一學習精度。例如,可以將第一測試數據輸入到學習的DNN,並且可以計算200個結果的精度作為第一學習精度。
可以透過重複步驟(1610至1630)預設次數來計算額外的學習精度。由於在步驟1610中提供的初始DNN不同,DNN學習的結果也可能不同,因此,多次學習的學習精度也會各不相同。當重複步驟(1610至1630)10次時,可以計算第一至第十學習精度。
在步驟1640中,計算第一訓練數據的第一平均學習精度。例如,可以計算第一至第十學習精度的平均值作為第一平均學習精度。
例如,如果對包括索引1至200的特徵的第一子特徵集執行步驟(1610至1640),則可以計算第一子特徵集的第一平均學習精度。
作為另一示例,當對包括索引201至400的特徵的第二子特徵集執行步驟(1610至1640)時,可以計算第二子特徵集的第二平均學習精度。
例如,可以計算15個子特徵集中的每一個的第一至第十五平均學習精度。在15個平均學習精度中,可以選擇前5個子特徵集。
作為另一示例,可以將15個子特徵集分類為預設數量的組,並且可以計算對應組的組平均學習精度。可以透過基於組平均學習精度從多個組中選擇一些組來選擇所選組中的子特徵集。
如果選擇了5個子特徵集,則選擇1000個索引。由於選擇了每個子特徵集,因此可以自動考慮由CNN基於頻譜圖圖像生成的特徵之間的地理特徵。
步驟(1610至1640)的描述可以類似地應用於步驟1540的詳細描述。
圖17為示出根據一示例的驗證測試目標特徵的方法的流程圖。
根據一側面,參照圖14描述的上述步驟1420可以包括以下步驟(1710至1730)。
在步驟1710中,電子裝置300將測試目標特徵集劃分為K個組。將針對每個測試用戶所確定的測試目標特徵定義為一個集合。例如,如果有1000個測試用戶,則有1000個測試目標特徵集,可以將1000個集合分為K個組。K是2以上的自然數。當K為5時,可以生成5個組,每個組包括200個集合。
在步驟1720中,電子裝置300透過基於K個組分別更新初始DNN來生成K個測試DNN。當生成第一組至第五組時,可以使用第二組至第五組來更新第一測試DNN;使用第一組、第三組至第五組來更新第二測試DNN;使用第一組、第二組、第四組及第五組來更新第三測試DNN;使用第一組至第三組及第五組來更新第四測試DNN;並使用第一組至第四組來更新第五測試DNN。
在步驟1730中,電子裝置300基於K個測試DNN的精度來驗證測試目標特徵。在上述實施例中,透過將第一組輸入到第一測試DNN,可以輸出第一組的結果,並且可以計算輸出結果的第一精度。類似地,可以為第二至第四測試DNN中的每一個計算第二至第四精度。
當計算出的第一至第五精度的平均值等於或大於預設閾值時,可以確定測試目標特徵已被驗證。當計算出的第一至第五精度的平均值小於預設閾值時,可以確定測試目標特徵未被驗證。如果未驗證測試目標特徵,則可以重新更新提取測試特徵的CNN。
圖18示出根據一示例的用於驗證目標特徵的K-折交叉驗證方法。
根據一示例,可以將測試目標特徵集1810分為第一組1801、第二組1802、第三組1803、第四組1804及第五組1805。當測試目標特徵集1810包括1000個集合時,組(1801至1805)中的每一個包括200個集合。每個集合包括特定測試用戶的測試目標特徵。
可以使用第二至第五組(1802到1805)來更新 第一測試DNN1820。例如, 可以基於800個集合來更新第一測試DNN1820 800次。
更新的第一測試DNN1820可以接收第一組1801作為輸入,以確定第一組1802的測試用戶的癡呆程度。例如,第一測試DNN1820可以確定200個集合的200個第二測試癡呆程度。
可以基於第一組1801的200個集合中的每一個的GT癡呆程度和200個第二測試癡呆程度來計算第一測試DNN 1820的精度。類似地,可以計算第二至第四測試DNN的精度。最後,可以基於第一至第五測試DNN的平均精度來驗證測試目標特徵。
以上說明的實施例能夠透過硬件構成要素、軟件構成要素,和/或硬件構成要素及軟件構成要素的組合實現。例如,實施例中說明的裝置及構成要素,能夠利用例如處理器、控制器、算術邏輯單元(arithmetic logic unit,ALU)、數字訊號處理器 (digital signal processor)、微型計算機、現場可編程陣列(field programmable array,FPA)、可編程邏輯單元(programmable logic unit,PLU)、微處理器、或能夠執行與應答指令(instruction)的任何其他裝置,能夠利用一個以上的通用計算機或特殊目的計算機進行體現。處理裝置能夠執行操作系統(OS)及在所述操作系統中執行的一個以上的應用軟件。並且,處理裝置應答軟件的執行,從而訪問、存儲、操作、處理及生成數據。為方便理解,說明為僅具有一個處理裝置的方式,但本領域普通技術人員應理解處理裝置能夠包括多個處理元件(processing element)和/或多個類型的處理要素。例如,處理裝置能夠包括多個處理器或一個處理器及一個控制器。並且,也能夠包括類似於並行處理器(parallel processor)的其他處理配置(processing configuration)。
軟件能夠包括計算機程序(computer program)、代碼(code)、指令(instruction),或其中的一個以上的組合,能夠使加工裝置按照所期待的方式操作,或者,單獨或共同(collectively)命令加工裝置。為透過加工裝置進行解釋或者向加工裝置提供命令或數據,軟件和/或數據能夠永久或臨時體現於(embody)任何類型的設備、構成要素(component)、物理裝置、虛擬裝置(virtual equipment)、計算機存儲介質或裝置,或者傳送的訊號波(signal wave)。軟件分佈於透過網絡連接的計算機系統上,能夠以分布式存儲或執行。軟件及數據能夠存儲於一個以上的計算機讀寫存儲介質中。
根據實施例的方法以能夠透過多種計算機手段執行的程序命令的形式體現,並記錄在計算機讀寫介質中。所述計算機讀寫介質能夠以單獨或者組合的形式包括程序命令、數據文件、數據結構等。記錄在所述介質的程序指令能夠是為實現實施例而特別設計與構成的指令,或者是計算機軟件領域普通技術人員能夠基於公知使用的指令。計算機讀寫記錄介質能夠包括硬盤、軟盤以及磁帶等磁性媒介(magnetic media);與CD-ROM、DVD等類似的光學媒介(optical media);與光磁軟盤(floptical disk)類似的磁光媒介(magneto-optical media),以及與只讀存儲器(ROM)、隨機存取存儲器(RAM)、閃存等類似的為存儲並執行程序命令而特別構成的硬件裝置。程序指令的例子不僅包括透過編譯器生成的機器語言代碼,還包括透過使用解釋器等能夠由計算機執行的高級語言代碼。為執行實施例的操作,所述硬件裝置能夠構成為以一個以上的軟件模塊實現操作的方式,反之亦然。
綜上,透過有限的實施例及圖式對實施例進行了說明,本領域的普通技術人員能夠對上述記載進行多種修改與變形。例如,所說明的技術以與所說明的方法不同的順序執行,和/或所說明的構成要素以與所說明的方法不同的形態結合或組合,或者,由其他構成要素或等同物進行替換或置換也能夠獲得相同的效果。
由此,其他體現、其他實施例及申請專利範圍的均等物全部屬於專利請求項的範圍。
110:電子裝置 120:用戶終端 130:監控終端 210:第一圖像 220:第二圖像 230:第三圖像 240:第四圖像 300:電子裝置 310:通信部 320:處理器 330:存儲器 410~440、710~730、800、805、810~890、895、1300、1310~1350、1400、1410~1440、1450、1510~1540、1610~1640、1710~1730:步驟 500:內容 510:語音輸出指令 520、530、540:圖像 600:原始頻譜圖圖像 610:圖例 900:所有特徵 910:目標特徵 1010:輸入層 1020、1030、1040:隱藏層 1050:輸出層 1210~1230:步驟 1810:測試目標特徵集 1820:第一測試DNN
圖1為示出根據一示例的用於確定用戶癡呆程度的系統的框圖。 圖2示出根據一示例的輸出到用戶終端以確定用戶癡呆程度的圖像。 圖3為示出根據一實施例的用於確定用戶癡呆程度的電子裝置的框圖。 圖4為示出根據一實施例的用於確定用戶癡呆程度的方法的流程圖。 圖5示出根據一示例的預先製作以接收用戶語音的內容。 圖6示出根據一示例的為語音生成的原始頻譜圖圖像。 圖7為示出根據一示例的使用CNN和DNN來確定用戶癡呆程度的方法的流程圖。 圖8示出根據一示例的能夠確定用戶癡呆程度的完整的CNN和部分CNN。 圖9示出根據一示例的為多個用戶圖像集中的每一個生成的特徵和基於其確定的目標特徵。 圖10示出根據一示例的用於確定用戶癡呆程度的DNN。 圖11示出根據一示例的為提高確定癡呆程度的準確性而執行的兩個步驟的分類。 圖12示出根據另一示例的為提高確定癡呆程度的準確性而執行的兩個步驟的操作。 圖13為示出根據一示例的用於更新完整的CNN的方法的流程圖。 圖14為示出根據一示例的更新DNN的方法的流程圖。 圖15為示出根據一示例的用於確定測試目標特徵的方法的流程圖。 圖16為示出根據一示例的選擇子特徵的方法的流程圖。 圖17為示出根據一示例的驗證測試目標特徵的方法的流程圖。 圖18示出根據一示例的用於驗證目標特徵的K-折交叉驗證方法。
410~440:步驟

Claims (15)

  1. 一種由電子裝置執行的用於確定用戶癡呆程度的方法,其中,包括以下步驟: 透過用戶終端輸出用於確定用戶的癡呆程度而預先製作的第一內容;接收所述用戶針對透過所述用戶終端的麥克風獲取的所述第一內容的第一語音;透過所述用戶終端輸出預先製作的第二內容;接收所述用戶針對透過所述麥克風獲取的所述第二內容的第二語音;透過可視化所述第一語音的至少一個特徵來生成第一頻譜圖圖像;透過可視化所述第二語音的至少一個特徵來生成第二頻譜圖圖像;透過將所述第一頻譜圖圖像輸入到預先更新的第一卷積神經網絡(CNN),為所述第一語音生成預設數量的第一特徵;透過將所述第二頻譜圖圖像輸入到預先更新的第二卷積神經網絡,為所述第二語音生成預設數量的第二特徵;在所述第一特徵和所述第二特徵中確定預設數量的目標特徵;以及透過將所述目標特徵輸入到預先更新的深度神經網絡(DNN),確定所述用戶的癡呆程度, 其中,透過所述用戶終端輸出所述確定的癡呆程度。
  2. 如請求項1之用於確定用戶癡呆程度的方法,其中, 所述第一內容包括用於接收所述第一語音的指令。
  3. 如請求項2之用於確定用戶癡呆程度的方法,其中, 所述第一內容包括使用戶跟讀句子的內容、猜測輸出圖像的名稱的內容、描述輸出圖像的內容、用於語言流暢性的內容、用於數字運算的內容以及誘導講故事的內容中的一個。
  4. 如請求項1之用於確定用戶癡呆程度的方法,其中, 透過可視化所述第一語音的至少一個特徵來生成第一頻譜圖圖像的步驟,包括以下步驟:透過librosa工具生成所述第一語音的所述第一頻譜圖圖像。
  5. 如請求項1之用於確定用戶癡呆程度的方法,其中, 所述第一頻譜圖圖像的大小和所述第二頻譜圖圖像的大小彼此相同。
  6. 如請求項1之用於確定用戶癡呆程度的方法,其中, 基於VGG16模型來預先更新所述第一CNN。
  7. 如請求項1之用於確定用戶癡呆程度的方法,其中, 所述第一CNN透過包括輸入層、5個預卷積層塊(pre-convolutional layer blocks)、完全連接層及2個後卷積層塊(post-convolutional layer blocks)並且不包括softmax來生成所述第一頻譜圖圖像的所述第一特徵。
  8. 如請求項1之用於確定用戶癡呆程度的方法,其中, 還包括更新所述第一CNN的步驟。
  9. 如請求項8之用於確預卷積層定用戶癡呆程度的方法,其中, 更新所述第一CNN的步驟,包括以下步驟:接收針對所述第一內容的測試用戶的第一測試語音;透過可視化所述第一測試語音的至少一個特徵來生成第一測試頻譜圖圖像,其中所述第一測試頻譜圖圖像被標記為所述測試用戶的GT(ground truth)癡呆程度;透過將所述第一測試頻譜圖圖像輸入到第一完整的CNN中來確定所述測試用戶的第一測試癡呆程度,其中所述第一完整的CNN包括輸入層、一個以上的前卷積層塊、完全連接層、一個以上的後卷積層塊及softmax;以及基於所述第一測試癡呆程度及所述GT癡呆程度來更新所述完整的第一CNN,其中所述第一CNN在所述更新的完整的第一CNN的層中僅包括所述輸入層、所述一個以上的預卷積層塊、所述完全連接層以及所述一個以上的後卷積層塊。
  10. 如請求項9之用於確定用戶癡呆程度的方法,其中, 還包括以下步驟:在完成包括所述第一CNN及所述第二CNN的多個CNN的更新之後,更新所述DNN。
  11. 如請求項10之用於確定用戶癡呆程度的方法,其中, 更新所述DNN的步驟,包括以下步驟:在基於第一測試頻譜圖圖像生成的預設數量的第一測試特徵和基於第二測試頻譜圖圖圖像生成的預設數量的第二測試特徵中,確定預設數量的測試目標特徵,其中所述測試目標特徵被標記為所述測試用戶的GT癡呆程度;透過將所述測試目標特徵輸入到所述DNN中來確定所述測試用戶的第二測試癡呆程度;以及基於所述第二測試癡呆程度及所述GT癡呆程度來更新所述DNN。
  12. 一種存儲用於執行請求項1至11中任一項的方法的程序的計算機可讀記錄介質。
  13. 一種用於確定用戶癡呆程度的裝置,其中,包括: 存儲器,其記錄用於確定用戶癡呆程度的程序;以及處理器,其執行所述程序,其中所述程序執行以下步驟:透過用戶終端輸出用於確定用戶的癡呆程度而預先製作的第一內容;接收所述用戶針對透過所述用戶終端的麥克風獲取的所述第一內容的第一語音;透過所述用戶終端輸出預先製作的第二內容;接收所述用戶針對透過所述麥克風獲取的所述第二內容的第二語音;透過可視化所述第一語音的至少一個特徵來生成第一頻譜圖圖像;透過可視化所述第二語音的至少一個特徵來生成第二頻譜圖圖像;透過將所述第一頻譜圖圖像輸入到預先更新的第一卷積神經網絡(CNN),為所述第一語音生成預設數量的第一特徵;透過將所述第二頻譜圖圖像輸入到預先更新的第二卷積神經網絡,為所述第二語音生成預設數量的第二特徵;在所述第一特徵和所述第二特徵中確定預設數量的目標特徵;以及透過將所述目標特徵輸入到預先更新的深度神經網絡(DNN),確定所述用戶的癡呆程度, 其中,透過所述用戶終端輸出所述確定的癡呆程度。
  14. 一種由電子裝置執行的更新用於確定用戶癡呆程度的卷積神經網絡的方法,其中, 包括以下步驟:透過用戶終端輸出用於確定用戶的癡呆程度而預先製作的第一內容;接收針對所述第一內容的測試用戶的第一測試語音;透過可視化所述第一測試語音的至少一個特徵來生成第一測試頻譜圖圖像,其中所述第一測試頻譜圖圖像被標記為所述測試用戶的GT癡呆程度;透過將所述第一測試頻譜圖圖像輸入到完整的CNN中來確定所述測試用戶的測試癡呆程度,其中所述完整的CNN包括輸入層、一個以上的前卷積層塊、完全連接層、一個以上的後卷積層塊及softmax;以及基於所述測試癡呆程度及所述GT癡呆程度來更新所述完整的CNN,其中所述CNN在所述更新的完整的CNN的層中僅包括所述輸入層、所述一個以上的預卷積層塊、所述完全連接層以及所述一個以上的後卷積層塊。
  15. 一種用於更新用於確定用戶癡呆程度的卷積神經網絡的電子裝置,其中,包括: 存儲器,其記錄用於更新所述CNN的程序;以及執行所述程序的處理器,其中所述處理器執行以下步驟:透過用戶終端輸出用於確定用戶的癡呆程度而預先製作的第一內容;接收針對所述第一內容的測試用戶的第一測試語音;透過可視化所述第一測試語音的至少一個特徵來生成第一測試頻譜圖圖像,其中所述第一測試頻譜圖圖像被標記為所述測試用戶的GT癡呆程度;透過將所述第一測試頻譜圖圖像輸入到完整的CNN中來確定所述測試用戶的測試癡呆程度,其中所述完整的CNN包括輸入層、一個以上的前卷積層塊、完全連接層、一個以上的後卷積層塊及softmax;以及基於所述測試癡呆程度及所述GT癡呆程度來更新所述完整的CNN,其中所述CNN在所述更新的完整的CNN的層中僅包括所述輸入層、所述一個以上的預卷積層塊、所述完全連接層以及所述一個以上的後卷積層塊。
TW111134144A 2021-09-09 2022-09-08 用於確定用戶癡呆程度的方法及裝置 TWI811097B (zh)

Applications Claiming Priority (4)

Application Number Priority Date Filing Date Title
KR10-2021-0120112 2021-09-09
KR1020210120112 2021-09-09
KR1020220076878A KR102526429B1 (ko) 2021-09-09 2022-06-23 사용자의 치매 정도 결정 방법 및 장치
KR10-2022-0076878 2022-06-23

Publications (2)

Publication Number Publication Date
TW202312186A true TW202312186A (zh) 2023-03-16
TWI811097B TWI811097B (zh) 2023-08-01

Family

ID=85985397

Family Applications (1)

Application Number Title Priority Date Filing Date
TW111134144A TWI811097B (zh) 2021-09-09 2022-09-08 用於確定用戶癡呆程度的方法及裝置

Country Status (2)

Country Link
KR (2) KR20230037432A (zh)
TW (1) TWI811097B (zh)

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
TWI644283B (zh) * 2017-03-01 2018-12-11 譚旦旭 知能障礙的治療方法與系統
EP3866172A4 (en) * 2018-10-12 2022-07-13 Sumitomo Pharma Co., Ltd. METHOD, DEVICE AND PROGRAM FOR ASSESSING THE RELEVANCE OF RELEVANT PREVENTIVE INTERVENTIONAL MEASURES TO HEALTH IN THE HEALTH AREA OF INTEREST
CN109754822A (zh) * 2019-01-22 2019-05-14 平安科技(深圳)有限公司 建立阿兹海默症检测模型的方法和装置
WO2021132284A1 (ja) * 2019-12-24 2021-07-01 株式会社生命科学インスティテュート 健康管理システム、健康管理装置、健康管理プログラムおよび健康管理方法
CN111738302B (zh) * 2020-05-28 2023-06-20 华南理工大学 一种基于多模态数据对阿尔茨海默病进行分类诊断的系统
KR102274072B1 (ko) * 2020-09-04 2021-07-08 김형준 사용자의 치매 정도 결정 방법 및 장치

Also Published As

Publication number Publication date
KR102526429B1 (ko) 2023-04-27
KR20230037433A (ko) 2023-03-16
KR20230037432A (ko) 2023-03-16
TWI811097B (zh) 2023-08-01

Similar Documents

Publication Publication Date Title
US10896763B2 (en) System and method for providing model-based treatment recommendation via individual-specific machine learning models
JP2020522817A (ja) 意味分析方法、装置、および記憶媒体
CN104115221B (zh) 基于文本到语音转换以及语义的音频人类交互证明
US11017693B2 (en) System for enhancing speech performance via pattern detection and learning
CN113519001A (zh) 利用语言模型生成常识解释
CN106548774A (zh) 语音识别的设备和方法以及训练变换参数的设备和方法
KR102274072B1 (ko) 사용자의 치매 정도 결정 방법 및 장치
US11557380B2 (en) Recurrent neural network to decode trial criteria
JP2020086436A (ja) 人工神経網における復号化方法、音声認識装置及び音声認識システム
KR20200097993A (ko) 전자 장치 및 이의 제어 방법
US11763690B2 (en) Electronic apparatus and controlling method thereof
EP3726435A1 (en) Deep neural network training method and apparatus, and computer device
CN113177572A (zh) 用于从传感器自动学习的方法和计算机可读介质
KR20210044559A (ko) 출력 토큰 결정 방법 및 장치
US11797080B2 (en) Health simulator
Laux et al. Two-stage visual speech recognition for intensive care patients
KR102021700B1 (ko) 사물인터넷 기반 환자 맞춤형 의사소통장애 재활 방법
Qian et al. A survey of automatic speech recognition for dysarthric speech
TWI811097B (zh) 用於確定用戶癡呆程度的方法及裝置
CN116628161A (zh) 答案生成方法、装置、设备及存储介质
Plummer et al. Computing low-dimensional representations of speech from socio-auditory structures for phonetic analyses
US20220015687A1 (en) Method for Screening Psychiatric Disorder Based On Conversation and Apparatus Therefor
US20230410814A1 (en) System and Method for Secure Training of Speech Processing Systems
Lavan et al. Listeners form average-based representations of individual voice identities-even when they have never heard the average.
US20240145056A1 (en) System and process for feature extraction from therapy notes