WO2021141085A1 - 音声を用いて、精神・神経系疾患を推定する装置 - Google Patents
音声を用いて、精神・神経系疾患を推定する装置 Download PDFInfo
- Publication number
- WO2021141085A1 WO2021141085A1 PCT/JP2021/000367 JP2021000367W WO2021141085A1 WO 2021141085 A1 WO2021141085 A1 WO 2021141085A1 JP 2021000367 W JP2021000367 W JP 2021000367W WO 2021141085 A1 WO2021141085 A1 WO 2021141085A1
- Authority
- WO
- WIPO (PCT)
- Prior art keywords
- disease
- voice
- acoustic
- feature amount
- estimation
- Prior art date
Links
- 208000012902 Nervous system disease Diseases 0.000 title claims abstract description 25
- 208000020016 psychiatric disease Diseases 0.000 title claims abstract description 24
- 230000003340 mental effect Effects 0.000 title abstract description 7
- 208000020925 Bipolar disease Diseases 0.000 claims abstract description 41
- 208000024714 major depressive disease Diseases 0.000 claims abstract description 37
- 238000000605 extraction Methods 0.000 claims abstract description 36
- 238000004458 analytical method Methods 0.000 claims abstract description 10
- 208000037265 diseases, disorders, signs and symptoms Diseases 0.000 claims description 82
- 201000010099 disease Diseases 0.000 claims description 80
- 238000004364 calculation method Methods 0.000 claims description 15
- 239000000284 extract Substances 0.000 claims description 5
- 238000000034 method Methods 0.000 abstract description 34
- 238000007427 paired t-test Methods 0.000 description 15
- 238000012545 processing Methods 0.000 description 12
- 238000012353 t test Methods 0.000 description 10
- 238000000692 Student's t-test Methods 0.000 description 9
- 239000011159 matrix material Substances 0.000 description 9
- 238000012360 testing method Methods 0.000 description 9
- 230000008569 process Effects 0.000 description 8
- 238000004891 communication Methods 0.000 description 7
- 230000006870 function Effects 0.000 description 7
- 206010026749 Mania Diseases 0.000 description 6
- 230000036528 appetite Effects 0.000 description 5
- 235000019789 appetite Nutrition 0.000 description 5
- 238000003745 diagnosis Methods 0.000 description 5
- 208000024827 Alzheimer disease Diseases 0.000 description 4
- 206010054089 Depressive symptom Diseases 0.000 description 4
- 208000009829 Lewy Body Disease Diseases 0.000 description 4
- 201000002832 Lewy body dementia Diseases 0.000 description 4
- 208000018737 Parkinson disease Diseases 0.000 description 4
- 208000025748 atypical depressive disease Diseases 0.000 description 4
- 230000008859 change Effects 0.000 description 4
- 238000010586 diagram Methods 0.000 description 4
- 238000011870 unpaired t-test Methods 0.000 description 4
- 238000013473 artificial intelligence Methods 0.000 description 3
- 238000004422 calculation algorithm Methods 0.000 description 3
- 238000010801 machine learning Methods 0.000 description 3
- 238000010606 normalization Methods 0.000 description 3
- 230000003287 optical effect Effects 0.000 description 3
- 238000001228 spectrum Methods 0.000 description 3
- 208000024891 symptom Diseases 0.000 description 3
- 206010012289 Dementia Diseases 0.000 description 2
- 208000020401 Depressive disease Diseases 0.000 description 2
- 239000000090 biomarker Substances 0.000 description 2
- 238000007635 classification algorithm Methods 0.000 description 2
- 230000003920 cognitive function Effects 0.000 description 2
- 238000009223 counseling Methods 0.000 description 2
- 230000003247 decreasing effect Effects 0.000 description 2
- 208000035475 disorder Diseases 0.000 description 2
- 230000002996 emotional effect Effects 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 208000035474 group of disease Diseases 0.000 description 2
- 238000007689 inspection Methods 0.000 description 2
- 238000002372 labelling Methods 0.000 description 2
- 238000007477 logistic regression Methods 0.000 description 2
- 238000005070 sampling Methods 0.000 description 2
- 239000004065 semiconductor Substances 0.000 description 2
- 201000011240 Frontotemporal dementia Diseases 0.000 description 1
- 208000019022 Mood disease Diseases 0.000 description 1
- 241001417093 Moridae Species 0.000 description 1
- 201000004810 Vascular dementia Diseases 0.000 description 1
- 238000013528 artificial neural network Methods 0.000 description 1
- 230000003727 cerebral blood flow Effects 0.000 description 1
- 238000007621 cluster analysis Methods 0.000 description 1
- 239000000470 constituent Substances 0.000 description 1
- 208000026725 cyclothymic disease Diseases 0.000 description 1
- 238000003066 decision tree Methods 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 230000001419 dependent effect Effects 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 239000003814 drug Substances 0.000 description 1
- 229940079593 drug Drugs 0.000 description 1
- 208000024732 dysthymic disease Diseases 0.000 description 1
- 238000005401 electroluminescence Methods 0.000 description 1
- 230000008451 emotion Effects 0.000 description 1
- 230000007613 environmental effect Effects 0.000 description 1
- 230000007717 exclusion Effects 0.000 description 1
- 230000008921 facial expression Effects 0.000 description 1
- 230000002068 genetic effect Effects 0.000 description 1
- 230000005484 gravity Effects 0.000 description 1
- 230000036541 health Effects 0.000 description 1
- 238000012074 hearing test Methods 0.000 description 1
- 238000012417 linear regression Methods 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 238000012806 monitoring device Methods 0.000 description 1
- 230000002107 myocardial effect Effects 0.000 description 1
- 230000002981 neuropathic effect Effects 0.000 description 1
- 230000008447 perception Effects 0.000 description 1
- 238000007781 pre-processing Methods 0.000 description 1
- 238000001671 psychotherapy Methods 0.000 description 1
- 238000000611 regression analysis Methods 0.000 description 1
- 230000002787 reinforcement Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 230000004044 response Effects 0.000 description 1
- 238000012216 screening Methods 0.000 description 1
- 230000035945 sensitivity Effects 0.000 description 1
- 238000002560 therapeutic procedure Methods 0.000 description 1
- 238000012876 topography Methods 0.000 description 1
- 238000012549 training Methods 0.000 description 1
- 238000012795 verification Methods 0.000 description 1
- 230000004304 visual acuity Effects 0.000 description 1
Images
Classifications
-
- A—HUMAN NECESSITIES
- A61—MEDICAL OR VETERINARY SCIENCE; HYGIENE
- A61B—DIAGNOSIS; SURGERY; IDENTIFICATION
- A61B5/00—Measuring for diagnostic purposes; Identification of persons
- A61B5/16—Devices for psychotechnics; Testing reaction times ; Devices for evaluating the psychological state
- A61B5/165—Evaluating the state of mind, e.g. depression, anxiety
-
- A—HUMAN NECESSITIES
- A61—MEDICAL OR VETERINARY SCIENCE; HYGIENE
- A61B—DIAGNOSIS; SURGERY; IDENTIFICATION
- A61B5/00—Measuring for diagnostic purposes; Identification of persons
- A61B5/40—Detecting, measuring or recording for evaluating the nervous system
- A61B5/4076—Diagnosing or monitoring particular conditions of the nervous system
-
- A—HUMAN NECESSITIES
- A61—MEDICAL OR VETERINARY SCIENCE; HYGIENE
- A61B—DIAGNOSIS; SURGERY; IDENTIFICATION
- A61B5/00—Measuring for diagnostic purposes; Identification of persons
- A61B5/40—Detecting, measuring or recording for evaluating the nervous system
- A61B5/4076—Diagnosing or monitoring particular conditions of the nervous system
- A61B5/4082—Diagnosing or monitoring movement diseases, e.g. Parkinson, Huntington or Tourette
-
- A—HUMAN NECESSITIES
- A61—MEDICAL OR VETERINARY SCIENCE; HYGIENE
- A61B—DIAGNOSIS; SURGERY; IDENTIFICATION
- A61B5/00—Measuring for diagnostic purposes; Identification of persons
- A61B5/40—Detecting, measuring or recording for evaluating the nervous system
- A61B5/4076—Diagnosing or monitoring particular conditions of the nervous system
- A61B5/4088—Diagnosing of monitoring cognitive diseases, e.g. Alzheimer, prion diseases or dementia
-
- A—HUMAN NECESSITIES
- A61—MEDICAL OR VETERINARY SCIENCE; HYGIENE
- A61B—DIAGNOSIS; SURGERY; IDENTIFICATION
- A61B5/00—Measuring for diagnostic purposes; Identification of persons
- A61B5/48—Other medical applications
- A61B5/4803—Speech analysis specially adapted for diagnostic purposes
-
- A—HUMAN NECESSITIES
- A61—MEDICAL OR VETERINARY SCIENCE; HYGIENE
- A61B—DIAGNOSIS; SURGERY; IDENTIFICATION
- A61B5/00—Measuring for diagnostic purposes; Identification of persons
- A61B5/68—Arrangements of detecting, measuring or recording means, e.g. sensors, in relation to patient
- A61B5/6887—Arrangements of detecting, measuring or recording means, e.g. sensors, in relation to patient mounted on external non-worn devices, e.g. non-medical devices
- A61B5/6898—Portable consumer electronic devices, e.g. music players, telephones, tablet computers
-
- A—HUMAN NECESSITIES
- A61—MEDICAL OR VETERINARY SCIENCE; HYGIENE
- A61B—DIAGNOSIS; SURGERY; IDENTIFICATION
- A61B5/00—Measuring for diagnostic purposes; Identification of persons
- A61B5/72—Signal processing specially adapted for physiological signals or for diagnostic purposes
- A61B5/7235—Details of waveform analysis
- A61B5/7264—Classification of physiological signals or data, e.g. using neural networks, statistical classifiers, expert systems or fuzzy systems
-
- A—HUMAN NECESSITIES
- A61—MEDICAL OR VETERINARY SCIENCE; HYGIENE
- A61B—DIAGNOSIS; SURGERY; IDENTIFICATION
- A61B5/00—Measuring for diagnostic purposes; Identification of persons
- A61B5/72—Signal processing specially adapted for physiological signals or for diagnostic purposes
- A61B5/7271—Specific aspects of physiological measurement analysis
- A61B5/7275—Determining trends in physiological measurement data; Predicting development of a medical condition based on physiological measurements, e.g. determining a risk factor
-
- A—HUMAN NECESSITIES
- A61—MEDICAL OR VETERINARY SCIENCE; HYGIENE
- A61B—DIAGNOSIS; SURGERY; IDENTIFICATION
- A61B2562/00—Details of sensors; Constructional details of sensor housings or probes; Accessories for sensors
- A61B2562/02—Details of sensors specially adapted for in-vivo measurements
- A61B2562/0204—Acoustic sensors
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/48—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
- G10L25/51—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
- G10L25/66—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination for extracting parameters related to health condition
Abstract
音声解析により複数の精神・神経系疾患を推定する装置であって、大うつ病と双極性障害とのいずれであるかを推定することが可能な装置を提供することを目的とする。更に、音声の取得場所による影響を受けない音響特徴量の抽出手段を備える推定装置、推定装置の作動方法を提供する。
Description
本発明は、音声を用いて、精神・神経系疾患を推定する装置に関する。更に詳しくは、疾患推定プログラムにおける環境に依存しない音響特徴量を抽出し、その音響特徴量を用いて精神・神経系疾患を推定する疾患推定装置および装置の作動方法に関する。
被験者の音声を分析して感情を推定する技術が普及しつつある。特許文献1は、被験者の音声を周波数スペクトルに変換して、周波数軸上でずらしながら自己相関波形を求め、そこからピッチ周波数を算出して感情状態を推定する技術を開示する。
Perceptions and impact of bipolar disorder in Japan: result of an Internet survey. Neuropsychiatric disease and treatment, 12: 2981-2987, 2016.10
しかし、利用者が自宅や医療施設等の室内で音声を入力する際、音声の取得場所によって、室内を構成する壁、床、天井等により反射音が発生するため音響障害が生じる。この音響障害により、入力された音声から抽出される音響特徴量が変質して疾患を推定する精度が落ちる恐れがあるが、特許文献1はこの問題に言及していない。
また、特許文献1の装置は利用者の感情状態を推定するに止まり、精神系疾患または神経系疾患(以下、精神・神経系疾患と言う場合がある。)を推定するプログラムには言及していない。一般に、複数の種類の精神・神経系疾患の中から疾患を推定することは、有効なバイオマーカーが無い等の理由から難しい。
例えば、大うつ病の診断は、米国精神医学会(APA)より刊行されたDSM-5マニュアルの診断基準によれば、症状のみで診断するほかなく、未だ有効なバイオマーカーが存在しない。
さらに、双極性障害の場合、躁状態とうつ状態を繰り返すが、躁状態の時は患者が「調子が良い」と感じるために、それが疾患の症状とは気づかず、うつ状態の時に医療機関へ受診するため、「うつ病」と誤って診断されることも多い。躁状態が出現しない段階で医療機関へ受診した場合は、当然のごとく「うつ病」と診断される。
例えば、インターネットを利用した調査により、1050の双極性障害の患者から回答を得た457名のうち、回答者の4分の1は最初に医療機関を訪れたときに双極性障害と判断されたが、65%の初期診断はうつ病/うつ症状であったという報告がなされている(非特許文献1参照)。大うつ病と双極性障害とでは、その原因や経過だけでなく治療法も異なることから、早い段階で判別することが求められている。
そこで、本発明は、音声解析により複数の精神・神経系疾患を推定する装置であって、大うつ病と双極性障害とのいずれであるかを推定することが可能な装置を提供することを目的とする。更に、音声の取得場所による影響を受けない音響特徴量の抽出手段を備える推定装置、推定装置の作動方法を提供することを目的とする。
本発明者は、上記課題を解決するために鋭意研究を重ねた結果、複数の精神・神経系疾患を推定する装置において、利用者の音声の取得場所による影響を受けない音響特徴量を抽出する手段を備える推定装置、推定装置の作動方法を見出し、本発明を完成させるに至った。
すなわち、本発明は、以下の態様を包含するものである。
[1]音声解析により、精神・神経系疾患を推定する推定装置であって、大うつ病と双極性障害を判別して推定することを特徴とする、精神・神経系疾患の推定装置。
[2]上記推定装置が、
録音環境で有意差の出ない音響特徴量(A)、および
各々の疾患に関連する音響特徴量(B)、に基づき、
上記音響特徴量(A)と上記音響特徴量(B)に共通する音響特徴量(C)を抽出する抽出部と、
上記音響特徴量(C)に基づき疾患の予測値を算出する算出部と、
上記疾患の予測値を入力として、疾患を推定する推定部と、
を備える、上記[1]に記載の精神・神経系疾患の推定装置。
[3]推定装置の抽出部において、録音環境で有意差の出ない音響特徴量(A)および各々の疾患に関連する音響特徴量(B)、に基づき、上記音響特徴量(A)と上記音響特徴量(B)に共通する音響特徴量(C)を抽出する工程と、
上記推定装置の算出部において、上記音響特徴量(C)に基づき疾患の予測値を算出する工程と、
上記推定装置の推定部において、上記疾患の予測値を入力として、疾患を推定する工程と、
を包含する推定装置の作動方法。
[1]音声解析により、精神・神経系疾患を推定する推定装置であって、大うつ病と双極性障害を判別して推定することを特徴とする、精神・神経系疾患の推定装置。
[2]上記推定装置が、
録音環境で有意差の出ない音響特徴量(A)、および
各々の疾患に関連する音響特徴量(B)、に基づき、
上記音響特徴量(A)と上記音響特徴量(B)に共通する音響特徴量(C)を抽出する抽出部と、
上記音響特徴量(C)に基づき疾患の予測値を算出する算出部と、
上記疾患の予測値を入力として、疾患を推定する推定部と、
を備える、上記[1]に記載の精神・神経系疾患の推定装置。
[3]推定装置の抽出部において、録音環境で有意差の出ない音響特徴量(A)および各々の疾患に関連する音響特徴量(B)、に基づき、上記音響特徴量(A)と上記音響特徴量(B)に共通する音響特徴量(C)を抽出する工程と、
上記推定装置の算出部において、上記音響特徴量(C)に基づき疾患の予測値を算出する工程と、
上記推定装置の推定部において、上記疾患の予測値を入力として、疾患を推定する工程と、
を包含する推定装置の作動方法。
本発明は、従来、抑うつ症状を示す初診の患者について判別が困難であった双極性障害と大うつ病とを、きわめて簡便な方法により判別を可能とする疾患の推定装置を提供することができる。
以下、本発明の複数の精神・神経系疾患を推定する装置について詳細に説明するが、以下に記載する構成要件の説明は、本発明の一実施態様としての一例であり、これらの内容に特定されるものではない。なお、以降の説明において疾患の予測値を「メンタル値」と称する場合がある。
<1.プログラム>
<1.プログラム>
実施形態に係る推定装置200は、例えば図1に示すような構成のコンピュータ100によって実現される。以下、例に挙げて説明する。図1は、推定装置200の機能を実現するコンピュータの一例を示すハードウェア構成図である。コンピュータ100は、CPU101、RAM102、ROM103、HDD104、通信インターフェイス(I/F)105、入出力インターフェイス(I/F)106、およびメディアインターフェイス(I/F)107を有する。
CPU101は、ROM103またはHDD104に格納されたプログラムに基づいて動作し、各部の制御を行う。ROM103は、コンピュータ100の起動時にCPU101によって実行されるブートプログラムや、コンピュータ100のハードウェアに依存するプログラム等を格納する。
HDD104は、CPU101によって実行されるプログラム、および、係るプログラムによって使用されるデータ等を格納する。通信インターフェイス105は、ネットワークNを介して他の機器からデータを受信してCPU101へ送り、CPU101が生成したデータを他の機器へ送信する。
CPU101は、入出力インターフェイス106を介して、ディスプレイ等の出力装置、および、マイク等の音声の入力装置、キーボードやマウス等の入力装置を制御する。CPU101は、入出力インターフェイス106を介して、入力装置から音声データを取得する。また、CPU101は、生成したデータを入出力インターフェイス106を介して出力装置へ出力する。
メディアインターフェイス107は、記録媒体108に格納されたプログラムまたはデータを読み取り、RAM102を介してCPU101に提供する。CPU101は、係るプログラムを、メディアインターフェイス107を介して記録媒体108からRAM102上にロードし、ロードしたプログラムを実行する。記録媒体108は、例えばDVD(Digital Versatile Disc)、PD(Phase change rewritable Disk)等の光学記録媒体、MO(Magneto-Optical disk)等の光磁気記録媒体、テープ媒体、磁気記録媒体、または半導体メモリ等である。
例えば、コンピュータ100が実施形態に係る推定装置200として機能する場合、コンピュータ100のCPU101は、RAM102上にロードされたプログラムを実行することにより、制御部の機能を実現する。また、HDD104には、記録部内のデータが格納される。コンピュータ100のCPU101は、これらのプログラムを記録媒体108から読み取って実行するが、他の例として、他の装置からこれらのプログラムを取得してもよい。
<2.推定装置の構成>
<2.推定装置の構成>
次に、実施形態に係る推定装置200の構成について図2を用いて説明する。図2に示すように、推定装置200は、ネットワークNを介して、利用者端末201と有線または無線により通信可能に接続される。なお、推定装置200は、他にも複数台の利用者端末201と接続されてもよい。
推定装置200は、図2に示すように、通信部202、第1の音響特徴量の抽出部204および第2の音響特徴量の抽出部205を有する音響特徴量の抽出部203、算出部206、推定部207、および記憶部208を備える。なお、音響特徴量の抽出部203、算出部206、および推定部207は演算処理装置(CPU)により実行されそれぞれが協働して制御部(不図示)として機能する。
通信部202は、例えば、NIC(Network Interface Card)等によって実現される。通信部202は、ネットワークNと有線または無線で接続され、利用者端末201との間で情報の送受信を行う。
制御部は、例えば、CPU(Central Processing Unit)やMPU(Micro Processing Unit)等によって、記録部207に記憶されている各種プログラムがRAMを作業領域として実行されることにより実現される。また、制御部は、例えば、ASIC(Application Specific Integrated Circuit)やFPGA(Field Programmable Gate Array)等の集積回路により実現される。
記録部208は、例えば、RAM(Random Access Memory)、フラッシュメモリ(Flash Memory)等の半導体メモリ素子、または、ハードディスク、光ディスク等の記憶装置によって実現される。
利用者端末201は音声の入力部および推定結果の出力部を備える。推定装置200は、入力部から利用者の音声を取得し、利用者の音声をアナログ信号からデジタル信号の音声データへ変換して、通信部202を介して音声データを記録部208に格納する。
利用者端末201は音声の入力部および推定結果の出力部を備える。推定装置200は、入力部から利用者の音声を取得し、利用者の音声をアナログ信号からデジタル信号の音声データへ変換して、通信部202を介して音声データを記録部208に格納する。
入力部は、マイクロホン等の音声の取得部を介して被験者が発話する音声信号を取得し、音声信号を所定のサンプリング周波数(例えば、11025ヘルツ等)でサンプリングすることでデジタル信号の音声データを生成する。入力部は、音声データを記録する記録部を推定装置200の記録部208とは別個に備えていてもよい。この場合、入力部はポータブルレコーダでもよい。入力部の記録部は、CD、DVD、USBメモリ、SDカード、ミニディスク等の記録媒体でもよい。
出力部は、推定結果等のデータを受信する受信部と、当該データを表示する表示部とを備える。表示部は、推定結果等のデータを表示するディスプレイである。ディスプレイは、有機EL(Organic Electro-Luminescence)や液晶等であってもよい。
<<抽出部203>>
<<抽出部203>>
抽出部203は、第1の音響特徴量の抽出部204および第2の音響特徴量の抽出部205を有する。ここで、第1の音響特徴量の抽出部204は、第1の音響特徴量のセットを作成する。第1の音響特徴量のセットは、複数の健常者が予め複数の施設間で同一の発話内容を発話して取得された発話音声をラベリングし、正規化処理を行った後に、音声解析を行って複数の特徴量を抽出し、その複数の特徴量に関し、対応のあるt検定(Paired t―test)による比較を行い、何れの施設間においても有意差がない音響特徴量のセットを、第1の音響特徴量のセットとして定義するものである。有意差がない音響特徴量のセットの一例としては、対応のあるt検定において、P値が、0.05を超える音響特徴量のセットであることが好ましく、0.1を超える音響特徴量のセットであることが更に好ましい。なお、P値の理論的な数値範囲は0~1であり、P値の有意水準は0.05に設定されるのが一般的である。
第1の音響特徴量のセットは、記憶部208に格納される。第1の音響特徴量のセットは、後述する第2の音響特徴量のセットと一緒に用いてもよいし、第1の音響特徴量のセットのみを環境に依存しない特徴量として用いてもよい。
第2の音響特徴量の抽出部205は、第2の音響特徴量のセットを作成する。第2の音響特徴量のセットは、複数の健常者が予め複数の施設間で異なる発話内容を発話して取得された発話音声をラベリングし、正規化処理を行った後に、音声解析を行って複数の特徴量を抽出し、その複数の特徴量に関し、t検定(Unpaired t―test)による比較を行い、いずれの施設間においても有意差がない音響特徴量のセットを、第2の音響特徴量のセットとして定義するものである。有意差がない音響特徴量のセットの一例としては、対応のあるt検定において、P値が、0.05を超える音響特徴量のセットであることが好ましく、0.1を超える音響特徴量のセットであることが更に好ましい。
第2の音響特徴量のセットは、記憶部208に格納される。第2の音響特徴量のセットは、第1の音響特徴量のセットと一緒に用いてもよいし、第2の音響特徴量のセットのみを環境に依存しない特徴量として用いてもよい。
P値の閾値設定の根拠について説明する。図5は、健常者の発話に基づき音声解析により音響特徴量を抽出し、Paired-t検定またはt検定において有意差がある場合の一例を示す図である。一方、図6は、健常者の発話に基づき音声解析により音響特徴量を抽出し、Paired-t検定またはt検定において有意差がない音響特徴量の一例を示す図である。健常者が異なる施設間で、同一の発話内容または異なる発話内容で、音声を発話して取得し、ある音響特徴量を比べた時に、図5に示すように有意差が出るということは、その音声の属性の違いは環境だけなので、環境に依存する音響特徴量である疑いが強い。従って、音響特徴量のセットがP値で0.05を超える場合には、図6に示すように有意差がなく、環境に依存しない音響特徴量であると選別することができる。
さらに、音響特徴量のセットがP値で0.1を超える場合には、健常者が各施設をまわる途中で、ちょっとした身体の調子に影響されず、かつ環境に依存しないであろう音響特徴量であると選別することができる。また、音響特徴量のセットがP値で0.1を超える場合には、疾患の推定に用いられる少なくとも1つ以上の音響特徴量(後に特徴量F(a)として説明する。)に影響を与え難いため、疾患推定プログラム作成の観点からも好ましい。
第1の音響特徴量のセットを作成する方法について更に具体的に説明する。ここでは、施設の環境による差異を排除する目的で、施設間の音響特徴量の有意差を測定する。例えば、7つの施設で(それぞれ施設1~施設7と称する)採取された音声については、施設1と施設2、施設1と施設3のように7C2通りのペアを作りいずれのペアにおいても有意差が無い音響特徴量を抽出する(Paired t-test)。このPaired t-testは、対象となる施設すべてにおいて、一人または複数の健常者によって発話された音声を取得する。ここで健常者とは、解析対象である疾患に罹患していないものを言う。
このPaired t-testに用いられる健常者は1人でもよいが、より信頼性を高めるには2人以上が好ましく、3人以上が更に好ましい。また、複数人の健常者により実施される場合は、同じ施設で取得された音声を複数人分まとめて処理してもよいし、個別に処理してもよい。個別に処理する場合は、このテストで調査されるペアの数は7C2×人数となる。
また、各施設で健常者が複数のフレーズを発話して音声を取得した場合には、それらのフレーズは纏めて処理しても良いし、個別に処理してもよい。個別に処理する場合には、フレーズ毎に有意差が無い音響特徴量のセットが抽出される。
次に第2の音響特徴量のセットを作成する方法について更に具体的に説明する。ここでは、患者群(および健常者群)による差異を排除する目的で、患者群による音響特徴量の有意差を測定する。例えば、ある期間に複数の大うつ病患者の音声(大うつ病A群)を取得し、同じ期間に複数の双極性障害の患者の音声(双極性障害A群)を取得し、そして、別の期間に複数の大うつ病患者の音声(大うつ病B群)を取得し、同じ期間に複数の双極性障害の患者の音声(健常者B群)を取得した場合、t検定(Unpaired t―test)は、同じ疾患(または健常)における各群同士(大うつ病A群と大うつ病B群、双極性障害A群と双極性障害B群)の音響特徴量の有意差を測定する。また、各群の患者が複数のフレーズを発話して音声を取得した場合、それらのフレーズは纏めて処理しても良いし、個別に処理してもよい。個別に処理する場合には、フレーズ毎に有意差が無い音響特徴量のセットが抽出される。
音響特徴量の抽出部203は、所望のP値を超える第1の音響特徴量のセットと第2の音響特徴量のセットを比較して、共通する音響特徴量のセットを、音声の取得場所による影響を受けない第3の音響特徴量のセットとして定義する。なお、第3の音響特徴量のセットは、所望のP値を超える第1の音響特徴量のセットのみに基づいて音声の取得場所による影響を受けない第3の音響特徴量のセットとして定義することもできる。
第3の音響特徴量のセットは、複数の疾患の予測値を算出するための少なくとも1つ以上の組の音響特徴量(特徴量F(a))の抽出の際に用いる。例えば、複数の疾患の予測値を算出するための少なくとも1つ以上の組の音響特徴量のセットと、上記第3の音響特徴量のセットの共通特徴量を、真の複数の疾患の予測値を算出するための少なくとも1つ以上の組の音響特徴量(特徴量F(a))として抽出する。
<<抽出部203での処理のフロー>>
<<抽出部203での処理のフロー>>
ここで、抽出部203における処理のフローに関して、図3を参照しつつ説明する。作業を開始すると、ステップS1001において、抽出部203は、予め音声取得後に記憶部208内に格納された音声データの発話ラベリング作業を行う。次に、ステップS1002において、抽出部203は、発話ラベリング作業が完了した音声データを正規化する処理を行う。正規化処理を行うことにより前処理の工程が完了する。次に、ステップS1003において、抽出部203は、前処理が完了した音声データから音響特徴量を抽出する。
次に、ステップS1004Aにおいて、抽出部203の第1の音響特徴量の抽出部204は、抽出された音響特徴量のうち、複数の健常者が予め複数の施設間で同一の発話内容を発話して取得された発話音声から作成された音響特徴量に関して、対応のあるt検定(Paired t―test)による比較を行う。次に、ステップS1005Aにおいて、第1の音響特徴量の抽出部204は、所望のP値の閾値から、何れの施設間においても有意差がない音響特徴量のセットを、第1の音響特徴量のセットとして定義する。
一方、ステップS1004Bでは、抽出部203の第2の音響特徴量の抽出部205は、抽出された音響特徴量のうち、複数の健常者が予め複数の施設間で異なる発話内容を発話して取得された発話音声から作成された音響特徴量に関して、t検定(Unpaired t―test)による比較を行う。次に、ステップS1005Bにおいて、第2の音響特徴量の抽出部205は、所望のP値の閾値から、何れの施設間においても有意差がない音響特徴量のセットを、第2の音響特徴量のセットとして定義する。
次に、ステップS1006において、音響特徴量の抽出部203は、所望のP値を超える第1の音響特徴量のセットと第2の音響特徴量のセットを比較して、共通する音響特徴量のセットを、音声の取得場所による影響を受けない第3の音響特徴量のセットとして定義して、作業を終了する。なお、第3の音響特徴量のセットを、所望のP値を超える第1の音響特徴量のセットのみに基づいて第3の音響特徴量のセットとして定義する場合には、ステップS1006を省略することができる。
以上のような処理を行うことにより、音声の取得場所による影響を受けない第3の音響特徴量のセットを、複数の疾患の予測値を算出するための少なくとも1つ以上の組の音響特徴量(特徴量F(a))と組合せて、より精度の高い疾患の推定を行うことができる。
<<算出部206・推定部207>>
<<算出部206・推定部207>>
算出部206は、後述する疾患の推論モデルに基づき、少なくとも1つの音響特徴量の組合せに基づき、複数の疾患の予測値を算出する。推定部207は、疾患の予測値を入力として複数の精神・神経系疾患を推定する。算出部206、推定部207については後で詳述する。
<<疾患の予測値の算出>>
<<疾患の予測値の算出>>
疾患の予測値の算出の概略を説明する。算出部206では、被験者の音声データから、複数の音響特徴量を抽出する段階を経る。音響特徴量は、患者の音声データから抽出される。音響特徴量は、音が伝わる際の特徴を特徴量化したものである。
なお、ここからは、疾患を推定するためのプログラムの説明に入るが、前述した第1ないし第3の音響特徴量のセットと便宜的に区別して音響特徴量の説明をする必要があるため、「音響特徴量」を「音響パラメータ」と称して説明する。但し、本願明細書において、本質的には音響特徴量と音響パラメータは同義であり、どちらも推論装置の入力として用いられ、エンティティの持つ特性を表現する列、程度の意味を有する。
疾患の推定装置に使用される音響パラメータには、第1の音響パラメータと第2の音響パラメータがある。第1の音響パラメータは、特定の疾患を推定すべき被験者の音声から抽出した音響のパラメータである。第2の音響パラメータは、予め記憶部208に格納されている音響のパラメータである。第2の音響パラメータは、アルツハイマー型認知症、レビー小体型認知症、パーキンソン病、大うつ病、非定型うつ病、または双極性障害の疾患を有する患者の音声データから抽出を行い、各音響パラメータと各疾患が予め紐付けされている。
本願発明で使用する音響パラメータには、以下のような項目がある。
1) 音量のエンベロープ(アタックタイム、ディケイタイム、サステインレベル、リリースタイム)
2) 波形の変動情報(Shimmer, Jitter)
3) ゼロ点交差率
4) ハースト指数
5) VOT(Voice Onset Time)
6) メル周波数ケプストラムのある係数に関する発話内分布の統計値(第1四分位点、中央値、第3四分位点、95パーセント点、算術平均、幾何平均、第3四分位点と中央値の差など)
7) 周波数スペクトラムの変化の速さにおける発話内分布の統計値(第1四分位点、中央値、第3四分位点、95パーセント点、算術平均、幾何平均、第3四分位点と中央値の差など)
8) メル周波数ケプストラムのある係数の時間変化に関する発話内分布の統計値(第1四分位点、中央値、第3四分位点、95パーセント点、算術平均、幾何平均、第3四分位点と中央値の差など)
9) メル周波数ケプストラムのある係数の時間変化の時間変化に関する発話内分布の統計値(第1四分位点、中央値、第3四分位点、95パーセント点、算術平均、幾何平均、第3四分位点と中央値の差など)
10) 周波数スペクトラム90%ロールオフの発話内時間変化における2次回帰近似に対する二乗誤差
11) 周波数スペクトラム重心の発話内時間変化における2次回帰近似に対する算術誤差
その他、ピッチレート、有声音である確率、任意範囲の周波数のパワー、音階、話速(一定時間におけるモーラ数)、ポーズ・間、音量などが挙げられる。
1) 音量のエンベロープ(アタックタイム、ディケイタイム、サステインレベル、リリースタイム)
2) 波形の変動情報(Shimmer, Jitter)
3) ゼロ点交差率
4) ハースト指数
5) VOT(Voice Onset Time)
6) メル周波数ケプストラムのある係数に関する発話内分布の統計値(第1四分位点、中央値、第3四分位点、95パーセント点、算術平均、幾何平均、第3四分位点と中央値の差など)
7) 周波数スペクトラムの変化の速さにおける発話内分布の統計値(第1四分位点、中央値、第3四分位点、95パーセント点、算術平均、幾何平均、第3四分位点と中央値の差など)
8) メル周波数ケプストラムのある係数の時間変化に関する発話内分布の統計値(第1四分位点、中央値、第3四分位点、95パーセント点、算術平均、幾何平均、第3四分位点と中央値の差など)
9) メル周波数ケプストラムのある係数の時間変化の時間変化に関する発話内分布の統計値(第1四分位点、中央値、第3四分位点、95パーセント点、算術平均、幾何平均、第3四分位点と中央値の差など)
10) 周波数スペクトラム90%ロールオフの発話内時間変化における2次回帰近似に対する二乗誤差
11) 周波数スペクトラム重心の発話内時間変化における2次回帰近似に対する算術誤差
その他、ピッチレート、有声音である確率、任意範囲の周波数のパワー、音階、話速(一定時間におけるモーラ数)、ポーズ・間、音量などが挙げられる。
推定プログラムは、人工知能による学習機能を有しその学習機能によって推定処理を行う。推論モデルには、線形モデルによる回帰、線形回帰、リッジ回帰、Lasso、ロジスティック回帰等の分類アルゴリズムを用いてもよい。ニューラルネットワーク型のディープラーニングが利用されてもよいし、部分的に学習分野を強化する強化学習等が利用されてもよいし、その他、遺伝的アルゴリズム、クラスタ分析、自己組織化マップ、アンサンブル学習、等が利用されてもよい。もちろん、これら以外の人工知能に関する技術が利用されてもよい。アンサンブル学習においては、ブースティングと決定木を併用した手法により分類アルゴリズムを作成してもよい。
推定プログラムの作成段階において、アルゴリズム作成者は、上記の第2の音響パラメータの項目の中から、変数f(n)として使用する任意の音響パラメータをより良い組合せとなるようにステップワイズ法により検討を行い、1つまたは複数選択する。次に、選択された任意の音響パラメータに対し係数を付し、1つまたは複数の音響パラメータを作成する。さらに、これらの音響パラメータを組合せて、パラメータF(a)を作成する。
ステップワイズ法には変数増加法、変数減少法、変数増減法の3種類があるがいずれを用いてもよい。ステップワイズ法で用いられる回帰分析には、線形判別式やロジスティック回帰分析等の線形分類の処理が含まれる。変数f(n)およびそれらの係数、すなわち以下の式で示される式F(a)の係数xnは回帰係数と呼ばれ、関数f(n)に付与される重みである。
回帰係数は、学習アルゴリズムの作成者が選択した後に、データベースに蓄積される疾患情報などから、推定精度を高めるための機械学習により品質の改善を行ってもよい。
被験者の疾患の予測値は、例えば以下の式F(a)に基づいて1つ以上の音響パラメータから算出される。
ここで、f(n)は、上記の音響パラメータの項目(1)ないし(11)の中からいずれか1つ以上の第2の音響パラメータを任意に選択したものである。xnは疾患に固有の回帰係数である。f(n)、xnは、予め推定プログラムの記録装置120に記録されていてもよい。推定プログラムの機械学習の過程でパラメータF(a)の回帰係数を改善してもよい。
図2の算出部206は、第2の音響パラメータの組合せに基づいて、健常者と疾患を有する被験者を区別する、あるいは疾患どうしを区別するためのパラメータを算出する。このパラメータから、基準範囲と、基準範囲から被験者の値がどの程度離れているのかを算出するためのスコアリングを行うことにより、被験者の疾患の予測値を算出する。
図7は、ある一つの音響パラメータの強度が、疾患毎に異なっていることを示すイメージ図である。被験者は疾患Aのスコアが最も高いことを示している。従って、被験者の疾患Aに対する予測値は、他の疾患群と比較して高く算出される。また、例えば、強度50を閾値と設定することにより、疾患A、疾患D、疾患Eの群と、疾患B、疾患Cの群とに分類できる。
図7は、1つの音響パラメータの強度を基に疾患の予測値を算出しているが、実際は一つの音響パラメータのみで疾患を分類できることは困難である。そのため、いくつかの音響パラメータの組み合わせにより求められるパラメータF(a)を算出して、疾患を分類しても良い。
このパラメータF(a)を基に、ラベル付けされた被験者の音声について疾患の予測値を計算し、疾患ごとの予測値の分布を求める。これにより、各疾患を分類することができる。
このようにして、アルツハイマー型認知症、レビー小体型認知症、パーキンソン病、大うつ病、非定型うつ病、双極性障害の6疾患を含む患者の音声、および健常者の音声から、それぞれの疾患に関連するパラメータF(a)を抽出し、それぞれの疾患の予測値を算出することができる。
特に、本推定システムは、うつ症状を呈する初診の患者に適用することで、患者が未だ躁病エピソードを経験していないか、患者が躁病エピソードを経験した自覚がない場合にも、双極性障害の可能性を推定でき、初期の段階で双極性障害としての治療を行うことができる。双極性障害は、それとわかるまでの期間が長いことが多く、早い段階で大うつ病と双極性障害を判別することは社会的、臨床的意義が非常に大きい。
<<推定装置の処理>>
<<推定装置の処理>>
図4は、図2に示した推定装置200の推定処理の一例を示す。図4は、推定装置200の演算処理装置(CPU)が推定装置200の記憶部208に記憶された推定プログラムを実行することにより実現される。
処理を開始すると、ステップS2001において、制御部が音声データを取得する。音声データは、利用者端末201の入力部から取得してもよいし、一度記憶部208に格納された後に制御部が読みだしてもよい。次に、ステップS2002において、音響特徴量の抽出部203が音声データから第1の音響パラメータを抽出する。次に、ステップS2003において、第1の音響パラメータから環境に依存する音響特徴量を除外して、加工済の第1の音響パラメータを抽出する。例えば、第1の音響パラメータと抽出部203で得た第3の音響特徴量のセットを比較して、共通しない部分が環境に依存する音響特徴量と判断できる。
次に、ステップS2004において、算出部206は、第2の音響パラメータから得たパラメータF(a)とステップS2003で得た加工済の第1の音響パラメータを比較して、各疾患の予測値を算出する。
次に、ステップS2005において、推定部207は、特定の疾患とその他を区別するための個々の閾値を設けることにより、疾患の予測値を算出した複数の患者を、特定すべき対象とその他に判別して、処理を終了する。後述する実施形態では、閾値を超えた場合とそうでない場合とに分類して判定している。
<3.プログラムの利用分野>
<3.プログラムの利用分野>
本発明の推定プログラムは、遠隔地からの音声であっても解析することが可能であるから、オンライン診療やオンラインカウンセリングの場面で用いることができる。精神・神経系疾患を診断する場合、医師は問診や面談によって、患者の表情、動き、会話の状況などを観察する。しかし、患者は、精神・神経系疾患に対する偏見を感じることがあるため、精神科の病院やクリニックに行くことが躊躇われることがある。
オンラインによる診療やカウンセリングは、施設に出向かなくとも医師やカウンセラと面談可能である。そのため、精神神経系疾患以外の他の病気と比して、精神・神経系疾患はオンライン診療に非常に親和性が高い。
医師、カウンセラ、および臨床心理士は、オンラインで患者(またはクライアント)と面談する場合に、本推定プログラムによる解析を行うことができる。これにより、非常に簡便に精神・神経系疾患に罹患しているかどうか、またその疾患の種類について推定することができる。なお、面談時には、MMSEやBDI、PHQ-9等、各種心理テストや認知機能テストを併せて行うことができる。
この場合、患者側に、音声を送信できるコンピュータハードウエアのほか、面談用のモニター画面、音声収録用のマイクが必要である。
患者の自宅にこれらの装置がない場合は、例えば、かかりつけの医院などに装置を備えることができる。患者はかかりつけの病院に通って、そこで装置を通して面談することができる。
また、例えば、患者が身体疾患の治療を目的としてかかりつけの病院に通う場合、かかりつけの医師が診断して精神・神経系疾患の疑いがあると判断すれば、その場で音声を取得して本発明のプログラムで解析することが可能である。
その他の場所でも、精神科医、神経内科医がオンライン診療可能な状態であれば、かかりつけの医師と精神科医、神経内科医がオンライン上で連携して診断を行うことが可能である。
本発明の推定プログラムは、特定の疾患を推定するための感度を上げる(この場合、特異度は一般に下がる)ことにより、スクリーニング装置として利用することができる。
会社や自治体などで行われている健康診断や、医療機関で行われている人間ドックなどの検査項目として利用することにより、これまで発見が困難で、簡便な検査法がなかった精神・神経科の疾患の早期発見に寄与することができる。
例えば、眼底検査、視力検査、聴力検査などと同様に、一連の検査の一つとして音声の取得を行い、その場で、あるいは他の検査結果と一緒にプログラムによる推定結果を通知することができる。
本発明の推定プログラムは、特別な装置を必要としないので、手軽にだれでも利用できる。一方で、利用場面が精神・神経系疾患に限定されるので、必ずしも利用頻度が高いものではない。そこで、高価な検査装置を備えた専門病院に本発明の推定装置一式を備えておき、かかりつけ医などが、対象患者が来院した時に、その専門病院に検査を依頼することができる。
精神・神経系疾患で使用される装置としては、光トポグラフィ、心筋シンチグラフィ、脳血流シンチグラフィ、CT、MRI、脳波等が挙げられる。これらは、疾患の推定や除外診断に用いられるが、本発明の推定装置は極めて侵襲性が低いので、これら検査と併せて、あるいはこれら検査に先駆けて用いることができる。
本発明の推定プログラムは、自宅でも簡便に利用できるので、診断後のモニタリング装置として利用することができる。例えば、気分障害群の疾患の場合、患者の疾患に応じて薬剤や心理療法が処置されるが、これら療法の効き具合を測定することができる。また、継続的に利用することにより、症状が安定しているか、再発の予兆が無いかなどを日々観察することができる。
本発明の推定プログラムは、発話による音声を解析するものであるので、高齢者の見守り装置としての適用が可能である。
一人暮らしの高齢者が、元気に過ごしているかどうかは近親者にとって気になるところである。電話やビデオ電話等の通信手段を用いた高齢者見守りシステムに、本発明の推定プログラムを実装することにより、生活反応を見るだけでなく、認知症やうつの傾向がないかどうかも測定することができ、一人暮らしであっても適宜対処することが可能となる。
これらさまざまな実施形態において、音声の取得方法としては特に制限はないが、(1)対象者のほうから、電話やインターネットを通じで録音した音声を送付する方法、(2)検査者のほうから対象者へ電話やインターネットを通じでコンタクトし、会話をすることにより音声を取得する方法、(3)対象者の住居に音声取得装置を備えておき、対象者がその装置に録音する方法、(4)音声取得装置が定期的に自動起動し、対象者へ会話を行うことにより、対象者の音声を取得する方法等が挙げられる。
音声を取得するにあたって、対象者がスムーズに発話できるように、推定装置に備えられたディスプレイに発話すべき文章を表示するか、またはスピーカーから発話すべき文章の音を再生するのが好ましい。
録音開始の機械音により録音が開始され、発話を終えたらスイッチにより録音を終了するなどして、文章毎に発話による音声を取得することができる。
<4.推定プログラムの作成>
<<複数の疾患と音声データとの関連付け作業-音声取得>>
録音開始の機械音により録音が開始され、発話を終えたらスイッチにより録音を終了するなどして、文章毎に発話による音声を取得することができる。
<4.推定プログラムの作成>
<<複数の疾患と音声データとの関連付け作業-音声取得>>
推定プログラム作成時の手順を記載する。複数の疾患と音声データとの付け作業を行うため、平成29年(2017年)12月25日から平成30年(2018年)5月30日の間に、以下の患者及び健常者の音声を取得した。
・アルツハイマー型認知症患者の音声 20例
・レビー小体型認知症患者の音声 20例
・パーキンソン病の患者の音声 20例
・大うつ病患者の音声 20例(大うつ病A群)
・双極性障害患者の音声 16例(双極性障害A群)
・非定型うつ病患者の音声 19例
・健常者の音声 20例
・レビー小体型認知症患者の音声 20例
・パーキンソン病の患者の音声 20例
・大うつ病患者の音声 20例(大うつ病A群)
・双極性障害患者の音声 16例(双極性障害A群)
・非定型うつ病患者の音声 19例
・健常者の音声 20例
また、令和元年(2019年)6月28日から令和元年(2019年)10月31日の間に、以下の患者及び健常者の音声を取得した。
・アルツハイマー型認知症患者の音声 37例
・レビー小体型認知症患者の音声 57例
・その他の認知症(血管性認知症、前頭側頭型認知症を含む)患者の音声 28例
・パーキンソン病の患者の音声 35例
・大うつ病患者の音声 57例(大うつ病B群)
・双極性障害患者の音声 34例(双極性障害B群)
・非定型うつ病患者の音声 30例
・その他のうつ病(気分変調症、気分循環症を含む)患者の音声 38例
・健常者の音声 60例+28例(4人が7つの異なる施設で音声を取得したもの:健常者B群)
・レビー小体型認知症患者の音声 57例
・その他の認知症(血管性認知症、前頭側頭型認知症を含む)患者の音声 28例
・パーキンソン病の患者の音声 35例
・大うつ病患者の音声 57例(大うつ病B群)
・双極性障害患者の音声 34例(双極性障害B群)
・非定型うつ病患者の音声 30例
・その他のうつ病(気分変調症、気分循環症を含む)患者の音声 38例
・健常者の音声 60例+28例(4人が7つの異なる施設で音声を取得したもの:健常者B群)
なお、これら患者は精神科、神経内科等、専門分野の医師により、DSM-5またはICD-10の基準によりそれぞれの疾患と認められた患者である。また、PHQ-9、MMSE等を行うことにより、他の精神・神経系疾患を合併していないことを医師が確認した。
健常者は、PHQ-9、MMSE等を行うことにより、抑うつ症状や認知機能の低下が認められないことを確認した。
音声取得には、オリンパス製ピンマイク、ローランド製ポータブルレコーダを用いた。音声データはSDカードに記録した。
発話内容は、図8に示す17の文章を被験者が、1~13まではそれぞれ2回ずつ、14~17までは1回ずつ読み上げた。
音声を取得するに当たって、被験者には、精神神経系の病気の患者の声と病気との関係性を解析する研究に用いること、発話の内容、音声取得の方法を説明し、書面による同意書にサインしていただいた。また、音声を含む取得したデータは、個人を特定できない形式に記号化して管理した。
被験者1人に付き、上記17種類の発話内容のうち、1~13までの発話(各2回で1例あたり26発話)、14~17までの発話(各1回で1例あたり4発話)の合計30発話について、長いものは2つに分解し、また不鮮明なものは除外することにより、各疾患の患者および健常者の音声を得た。
<<環境に依存しない音声特徴量の抽出>>
<<環境に依存しない音声特徴量の抽出>>
健常者B群の4人の健常者については、7つの異なる施設(病院の診察室、処置室)において音声を取得した。
これらの音声の正規化処理を行った後に、音声解析を行って7440個の音声特徴量を抽出した。その特徴量に関し、フレーズ毎に対応のあるt検定(Paired t―test)による比較を行った。その結果、「いろはにほへと」では、いずれの施設間においても有意差がない(P>0.5)音声特徴量として486個を得た。また、同様にして「本日は晴天なり」では573個、「食欲があります」では543個、「おこりっぽいです」では727個、「あいうえおかきくけこ」では466個、「上を向いてあるこう」では536個、「がんばるぞー」では525個の、いずれの施設間においても有意差がない音声特徴量を得た。
また、同じ特徴量に関し、双極性障害A群と双極性障害B群、及び大うつ病A群と大うつ病B群の音声についてt検定(Unpaired t―test)による比較を行った。また、双極性障害A群と大うつ病A群、及び双極性障害B群と大うつ病B群の音声についてt検定による比較を行った。その結果、「いろはにほへと」の発話による音声においては、いずれの同じ疾患群同士において有意差がなく(P>0.5)、且ついずれの異なる疾患群同士においては有意差がある(P<0.1)音声特徴量として50個を得た。
また、同様にして、「本日は晴天なり」では60個、「食欲があります」では232個、「おこりっぽいです」では75個、「あいうえおかきくけこ」では59個、「上を向いてあるこう」では64個、「がんばるぞー」では105個の、いずれの施設間においても有意差がない音声特徴量を得た。
そして、Paired t-test と Unpaired t-test の両方で選別された音声特徴量として、「いろはにほへと」では3個、「本日は晴天なり」では12個、「食欲があります」では23個、「おこりっぽいです」では6個、「あいうえおかきくけこ」では4個、「上を向いて歩こう」では7個、「がんばるぞー」では4個の音声特徴量を得た。これらを表に纏めたものを図9に示す。
<<推定プログラム1の作成(機械学習)>>
<<推定プログラム1の作成(機械学習)>>
次に、学習データとして、大うつ病患者15人、および双極性障害患者15人の「いろはにほへと」と発話した音声を用い、また3個の環境に依存しない音声特徴量(Paired t-testとUnpaired t-testのいずれにおいて有意差がない音声特徴量)を用いて、大うつ病と双極性障害とのいずれであるかを推定するための特徴量F(a)に基づく推定プログラム1を作成した。
<<推定プログラム1による疾患の推定>>
<<推定プログラム1による疾患の推定>>
検証データとして、前記学習データとして用いていない大うつ病患者30名、双極性障害患者16名の音声を用いた。結果(Youden Index における混同行列;以下同様)を図10に示す。
<<推定プログラム2>>
<<推定プログラム2>>
次に、「本日は晴天なり」と発話した音声を用い、また、前記23個の環境に依存しない音声特徴量を用いた以外は、推定プログラム1と同様にして推定プログラム2を作成し、検証した。結果を図11に示す。
<<推定プログラム3>>
<<推定プログラム3>>
次に、「食欲があります」と発話した音声を用い、また、前記3個の環境に依存しない音声特徴量を用いた以外は、推定プログラム1と同様にして推定プログラム3を作成し、検証した。結果を図12に示す。
<<推定プログラム4>>
<<推定プログラム4>>
次に、「おこりっぽいです」と発話した音声を用い、また、前記6個の環境に依存しない音声特徴量を用いた以外は、推定プログラム1と同様にして推定プログラム4を作成し、検証した。結果を図13に示す。
<<推定プログラム5>>
<<推定プログラム5>>
次に、「あいうえおかきくけこ」と発話した音声を用い、また、前記4個の環境に依存しない音声特徴量を用いた以外は、推定プログラム1と同様にして推定プログラム5を作成し、検証した。結果を図14に示す。
<<推定プログラム6>>
<<推定プログラム6>>
次に、「上を向いて歩こう」と発話した音声を用い、また、前記7個の環境に依存しない音声特徴量を用いた以外は、推定プログラム1と同様にして推定プログラム6を作成し、検証した。結果を図15に示す。
<<推定プログラム7>>
<<推定プログラム7>>
次に、「がんばるぞー」と発話した音声を用い、また、前記4個の環境に依存しない音声特徴量を用いた以外は、推定プログラム1と同様にして推定プログラム7を作成し、検証した。結果を図16に示す。
<<推定プログラム8>>
<<推定プログラム8>>
推定プログラム1~7の7つの推定プログラムを用いて、それぞれ対応する発話により大うつ病または双極性障害のいずれかを判定した。そして7つの判定の多数決により最終的に各人の推定結果とした。結果を図17に示す。
以上のように、本発明の推定システムは、被験者が大うつ病であるか、双極性障害であるかを推定することができる。
発話による音声から音響特徴量を抽出する方法としては、市販の特徴量抽出プログラムを用いることができる。具体的には例えば、openSMILE等が挙げられる。
なお、推定装置200は、例えば、ロボット、人工知能や自動車、あるいはコールセンター、インターネット、スマートフォンやタブレット型端末等の携帯端末装置アプリケーションやサービス、検索システムへ応用されてもよい。また、装置200は、診断装置、自動問診装置、災害トリアージ等に応用されてもよい。
以上の詳細な説明により、実施形態の特徴点および利点は明らかになるであろう。これは、特許請求の範囲がその精神および権利範囲を逸脱しない範囲で前述のような実施形態例の特徴点および利点にまで及ぶことを意図するものである。また、当該技術分野において通常の知識を有する者であれば、あらゆる改良および変更に容易に想到できるはずである。したがって、発明性を有する実施形態の範囲を前述したものに限定する意図はなく、実施形態に開示された範囲に含まれる適当な改良物および均等物に拠ることも可能である。
被験者が発話する音声を推定し、被験者が患っている病気を判別・推定し、病気の重症化を予防し、また病気の的確な判別に基づいて患者が適切な治療をうけることを可能にする推定システム、推定プログラムおよび推定方法を提供することができる。
本出願は、2020年1月9日に出願された日本出願である特願2020-2175号に基づく優先権を主張し、当該日本出願に記載された全ての記載内容を援用するものである。
203 抽出部
206 算出部
207 推定部
206 算出部
207 推定部
Claims (3)
- 音声解析により、精神・神経系疾患を推定する推定装置であって、大うつ病と双極性障害を判別して推定することを特徴とする、精神・神経系疾患の推定装置。
- 前記推定装置が、
録音環境で有意差の出ない音響特徴量(A)、および
各々の疾患に関連する音響特徴量(B)、に基づき、
前記音響特徴量(A)と前記音響特徴量(B)に共通する音響特徴量(C)を抽出する抽出部と、
前記音響特徴量(C)に基づき疾患の予測値を算出する算出部と、
前記疾患の予測値を入力として、疾患を推定する推定部と、
を備える、請求項1に記載の精神・神経系疾患の推定装置。 - 推定装置の抽出部において、録音環境で有意差の出ない音響特徴量(A)および各々の疾患に関連する音響特徴量(B)、に基づき、前記音響特徴量(A)と前記音響特徴量(B)に共通する音響特徴量(C)を抽出する工程と、
前記推定装置の算出部において、前記音響特徴量(C)に基づき疾患の予測値を算出する工程と、
前記推定装置の推定部において、前記疾患の予測値を入力として、疾患を推定する工程と、
を包含する推定装置の作動方法。
Priority Applications (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
EP21738407.2A EP4088666A4 (en) | 2020-01-09 | 2021-01-07 | APPARATUS FOR ESTIMATING MENTAL/NERVOUS SYSTEM DISEASES USING VOICE |
US17/789,372 US20230034517A1 (en) | 2020-01-09 | 2021-01-07 | Device for estimating mental/nervous system diseases using voice |
JP2021570086A JP7265293B2 (ja) | 2020-01-09 | 2021-01-07 | 音声を用いて、精神・神経系疾患を推定する装置 |
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2020002175 | 2020-01-09 | ||
JP2020-002175 | 2020-01-09 |
Publications (1)
Publication Number | Publication Date |
---|---|
WO2021141085A1 true WO2021141085A1 (ja) | 2021-07-15 |
Family
ID=76788610
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
PCT/JP2021/000367 WO2021141085A1 (ja) | 2020-01-09 | 2021-01-07 | 音声を用いて、精神・神経系疾患を推定する装置 |
Country Status (5)
Country | Link |
---|---|
US (1) | US20230034517A1 (ja) |
EP (1) | EP4088666A4 (ja) |
JP (1) | JP7265293B2 (ja) |
TW (1) | TW202142186A (ja) |
WO (1) | WO2021141085A1 (ja) |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2006132159A1 (ja) | 2005-06-09 | 2006-12-14 | A.G.I. Inc. | ピッチ周波数を検出する音声解析装置、音声解析方法、および音声解析プログラム |
JP2020002175A (ja) | 2017-07-13 | 2020-01-09 | 不二製油グループ本社株式会社 | ペプチド |
-
2021
- 2021-01-07 EP EP21738407.2A patent/EP4088666A4/en active Pending
- 2021-01-07 WO PCT/JP2021/000367 patent/WO2021141085A1/ja unknown
- 2021-01-07 US US17/789,372 patent/US20230034517A1/en active Pending
- 2021-01-07 JP JP2021570086A patent/JP7265293B2/ja active Active
- 2021-01-08 TW TW110100723A patent/TW202142186A/zh unknown
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2006132159A1 (ja) | 2005-06-09 | 2006-12-14 | A.G.I. Inc. | ピッチ周波数を検出する音声解析装置、音声解析方法、および音声解析プログラム |
JP2020002175A (ja) | 2017-07-13 | 2020-01-09 | 不二製油グループ本社株式会社 | ペプチド |
Non-Patent Citations (3)
Title |
---|
"Perceptions and impact of bipolar disorder in Japan: result of an Internet survey", NEUROPSYCHIATRIC DISEASE AND TREATMENT, vol. 12, 2016, pages 2981 - 2987 |
HIGUCHI, M. ET AL.: "CLASSIFICATION OF BIPOLAR DISORDER, MAJOR DEPRESSIVE DISORDER, AND HEALTHY STATE USING VOICE", ASIAN JOURNAL OF PHARMACEUTICAL AND CLINICAL RESEARCH, vol. 11, no. 15, October 2018 (2018-10-01), pages 89 - 93, XP055674862, DOI: 10.22159/ ajpcr.2018.v11s3.30042 * |
See also references of EP4088666A4 |
Also Published As
Publication number | Publication date |
---|---|
JPWO2021141085A1 (ja) | 2021-07-15 |
JP7265293B2 (ja) | 2023-04-26 |
TW202142186A (zh) | 2021-11-16 |
EP4088666A4 (en) | 2024-01-24 |
EP4088666A1 (en) | 2022-11-16 |
US20230034517A1 (en) | 2023-02-02 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Pulido et al. | Alzheimer's disease and automatic speech analysis: a review | |
Tracy et al. | Investigating voice as a biomarker: deep phenotyping methods for early detection of Parkinson's disease | |
Stipancic et al. | Minimally detectable change and minimal clinically important difference of a decline in sentence intelligibility and speaking rate for individuals with amyotrophic lateral sclerosis | |
Lopez-de-Ipiña et al. | On automatic diagnosis of Alzheimer’s disease based on spontaneous speech analysis and emotional temperature | |
WO2020013302A1 (ja) | 精神・神経系疾患の推定システム、推定プログラムおよび推定方法 | |
Roy et al. | Exploring the clinical utility of relative fundamental frequency as an objective measure of vocal hyperfunction | |
Espinola et al. | Vocal acoustic analysis and machine learning for the identification of schizophrenia | |
Kuresan et al. | Early diagnosis of Parkinson’s disease based on non-motor symptoms: a descriptive and factor analysis | |
Farrús et al. | Acoustic and prosodic information for home monitoring of bipolar disorder | |
Fu et al. | Predicting mini-mental status examination scores through paralinguistic acoustic features of spontaneous speech | |
EP4179961A1 (en) | Voice characteristic-based method and device for predicting alzheimer's disease | |
Guarin et al. | Video-based facial movement analysis in the assessment of bulbar amyotrophic lateral sclerosis: clinical validation | |
WO2021141085A1 (ja) | 音声を用いて、精神・神経系疾患を推定する装置 | |
Martínez-Nicolás et al. | Speech biomarkers of risk factors for vascular dementia in people with mild cognitive impairment | |
WO2021141088A1 (ja) | 疾患推定プログラムにおける音響特徴量の抽出方法、およびその音響特徴量を用いた疾患推定プログラム並びに装置 | |
López-de-Ipiña et al. | Feature extraction approach based on fractal dimension for spontaneous speech modelling oriented to Alzheimer disease diagnosis | |
Qian et al. | Detecting somatisation disorder via speech: introducing the shenzhen somatisation speech corpus | |
Wisler et al. | The effects of symptom onset location on automatic amyotrophic lateral sclerosis detection using the correlation structure of articulatory movements | |
Benham et al. | Acoustic and kinematic methods of indexing spatiotemporal stability in children with developmental language disorder | |
Alghifari et al. | Development of sorrow analysis dataset for speech depression prediction | |
Bowden et al. | A systematic review and narrative analysis of digital speech biomarkers in Motor Neuron Disease | |
Lech et al. | Detection and prediction of clinical depression | |
Luo et al. | Differentiation between depression and bipolar disorder in child and adolescents by voice features | |
Shabber et al. | Machine learning-assisted diagnosis of speech disorders: a review of dysarthric speech | |
Chau et al. | MCI Detection Based on Deep Learning with Voice Spectrogram |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
121 | Ep: the epo has been informed by wipo that ep was designated in this application |
Ref document number: 21738407 Country of ref document: EP Kind code of ref document: A1 |
|
ENP | Entry into the national phase |
Ref document number: 2021570086 Country of ref document: JP Kind code of ref document: A |
|
NENP | Non-entry into the national phase |
Ref country code: DE |
|
ENP | Entry into the national phase |
Ref document number: 2021738407 Country of ref document: EP Effective date: 20220809 |