WO2021141085A1

WO2021141085A1 - 音声を用いて、精神・神経系疾患を推定する装置

Info

Publication number: WO2021141085A1
Application number: PCT/JP2021/000367
Authority: WO
Inventors: 頼夫熊本; 康宏大宮
Original assignee: 株式会社生命科学インスティテュート; Ｐｓｔ株式会社
Priority date: 2020-01-09
Filing date: 2021-01-07
Publication date: 2021-07-15
Also published as: JPWO2021141085A1; JP7265293B2; TW202142186A; EP4088666A4; EP4088666A1; US20230034517A1

Abstract

音声解析により複数の精神・神経系疾患を推定する装置であって、大うつ病と双極性障害とのいずれであるかを推定することが可能な装置を提供することを目的とする。更に、音声の取得場所による影響を受けない音響特徴量の抽出手段を備える推定装置、推定装置の作動方法を提供する。

Description

音声を用いて、精神・神経系疾患を推定する装置

　本発明は、音声を用いて、精神・神経系疾患を推定する装置に関する。更に詳しくは、疾患推定プログラムにおける環境に依存しない音響特徴量を抽出し、その音響特徴量を用いて精神・神経系疾患を推定する疾患推定装置および装置の作動方法に関する。

　被験者の音声を分析して感情を推定する技術が普及しつつある。特許文献１は、被験者の音声を周波数スペクトルに変換して、周波数軸上でずらしながら自己相関波形を求め、そこからピッチ周波数を算出して感情状態を推定する技術を開示する。

国際公開第２００６／１３２１５９号

Ｐｅｒｃｅｐｔｉｏｎｓ　ａｎｄ　ｉｍｐａｃｔ　ｏｆ　ｂｉｐｏｌａｒ　ｄｉｓｏｒｄｅｒ　ｉｎ　Ｊａｐａｎ：　ｒｅｓｕｌｔ　ｏｆ　ａｎ　Ｉｎｔｅｒｎｅｔ　ｓｕｒｖｅｙ．　Ｎｅｕｒｏｐｓｙｃｈｉａｔｒｉｃ　ｄｉｓｅａｓｅ　ａｎｄ　ｔｒｅａｔｍｅｎｔ，　１２：　２９８１－２９８７，　２０１６．１０

　しかし、利用者が自宅や医療施設等の室内で音声を入力する際、音声の取得場所によって、室内を構成する壁、床、天井等により反射音が発生するため音響障害が生じる。この音響障害により、入力された音声から抽出される音響特徴量が変質して疾患を推定する精度が落ちる恐れがあるが、特許文献１はこの問題に言及していない。

　また、特許文献１の装置は利用者の感情状態を推定するに止まり、精神系疾患または神経系疾患（以下、精神・神経系疾患と言う場合がある。）を推定するプログラムには言及していない。一般に、複数の種類の精神・神経系疾患の中から疾患を推定することは、有効なバイオマーカーが無い等の理由から難しい。

　例えば、大うつ病の診断は、米国精神医学会（ＡＰＡ）より刊行されたＤＳＭ－５マニュアルの診断基準によれば、症状のみで診断するほかなく、未だ有効なバイオマーカーが存在しない。

　さらに、双極性障害の場合、躁状態とうつ状態を繰り返すが、躁状態の時は患者が「調子が良い」と感じるために、それが疾患の症状とは気づかず、うつ状態の時に医療機関へ受診するため、「うつ病」と誤って診断されることも多い。躁状態が出現しない段階で医療機関へ受診した場合は、当然のごとく「うつ病」と診断される。

　例えば、インターネットを利用した調査により、１０５０の双極性障害の患者から回答を得た４５７名のうち、回答者の４分の１は最初に医療機関を訪れたときに双極性障害と判断されたが、６５％の初期診断はうつ病／うつ症状であったという報告がなされている（非特許文献１参照）。大うつ病と双極性障害とでは、その原因や経過だけでなく治療法も異なることから、早い段階で判別することが求められている。

　そこで、本発明は、音声解析により複数の精神・神経系疾患を推定する装置であって、大うつ病と双極性障害とのいずれであるかを推定することが可能な装置を提供することを目的とする。更に、音声の取得場所による影響を受けない音響特徴量の抽出手段を備える推定装置、推定装置の作動方法を提供することを目的とする。

　本発明者は、上記課題を解決するために鋭意研究を重ねた結果、複数の精神・神経系疾患を推定する装置において、利用者の音声の取得場所による影響を受けない音響特徴量を抽出する手段を備える推定装置、推定装置の作動方法を見出し、本発明を完成させるに至った。

　すなわち、本発明は、以下の態様を包含するものである。
［１］音声解析により、精神・神経系疾患を推定する推定装置であって、大うつ病と双極性障害を判別して推定することを特徴とする、精神・神経系疾患の推定装置。
［２］上記推定装置が、
録音環境で有意差の出ない音響特徴量（Ａ）、および
各々の疾患に関連する音響特徴量（Ｂ）、に基づき、
上記音響特徴量（Ａ）と上記音響特徴量（Ｂ）に共通する音響特徴量（Ｃ）を抽出する抽出部と、
上記音響特徴量（Ｃ）に基づき疾患の予測値を算出する算出部と、
上記疾患の予測値を入力として、疾患を推定する推定部と、
を備える、上記［１］に記載の精神・神経系疾患の推定装置。
［３］推定装置の抽出部において、録音環境で有意差の出ない音響特徴量（Ａ）および各々の疾患に関連する音響特徴量（Ｂ）、に基づき、上記音響特徴量（Ａ）と上記音響特徴量（Ｂ）に共通する音響特徴量（Ｃ）を抽出する工程と、
上記推定装置の算出部において、上記音響特徴量（Ｃ）に基づき疾患の予測値を算出する工程と、
上記推定装置の推定部において、上記疾患の予測値を入力として、疾患を推定する工程と、
を包含する推定装置の作動方法。

　本発明は、従来、抑うつ症状を示す初診の患者について判別が困難であった双極性障害と大うつ病とを、きわめて簡便な方法により判別を可能とする疾患の推定装置を提供することができる。

本願発明のハードウェア構成の一例を示す図である。本願発明の構成の一例を示す図である。本願発明に係る音声の取得場所により影響を受けない音響特徴量の抽出を詳述したフローチャートである。本願発明のフローチャートである。Ｐａｉｒｅｄ－ｔ検定またはｔ検定において有意差がある音響特徴量の一例を示す図である。Ｐａｉｒｅｄ－ｔ検定またはｔ検定において有意差がない音響特徴量の一例を示す図である。疾患の予測値の一例を示す図である。被験者が読み上げる発話内容の一例を説明した図である。環境に依存しない音声特徴量の抽出の結果を示す表である。「いろはにほへと」という発話の音声を解析して、被験者が大うつ病であるか双極性障害であるかを推定した結果を示す混同行列である。「本日は晴天なり」という発話の音声を解析して、被験者が大うつ病であるか双極性障害であるかを推定した結果を示す混同行列である。「食欲があります」という発話の音声を解析して、被験者が大うつ病であるか双極性障害であるかを推定した結果を示す混同行列である。「おこりっぽいです」という発話の音声を解析して、被験者が大うつ病であるか双極性障害であるかを推定した結果を示す混同行列である。「あいうえおかきくけこ」という発話の音声を解析して、被験者が大うつ病であるか双極性障害であるかを推定した結果を示す混同行列である。「上を向いてあるこう」という発話の音声を解析して、被験者が大うつ病であるか双極性障害であるかを推定した結果を示す混同行列である。「がんばるぞー」という発話の音声を解析して、被験者が大うつ病であるか双極性障害であるかを推定した結果を示す混同行列である。７つの発話の音声を解析した結果の多数決により、被験者が大うつ病であるか双極性障害であるかを推定した結果を示す混同行列である。

　以下、本発明の複数の精神・神経系疾患を推定する装置について詳細に説明するが、以下に記載する構成要件の説明は、本発明の一実施態様としての一例であり、これらの内容に特定されるものではない。なお、以降の説明において疾患の予測値を「メンタル値」と称する場合がある。
＜１．プログラム＞

　実施形態に係る推定装置２００は、例えば図１に示すような構成のコンピュータ１００によって実現される。以下、例に挙げて説明する。図１は、推定装置２００の機能を実現するコンピュータの一例を示すハードウェア構成図である。コンピュータ１００は、ＣＰＵ１０１、ＲＡＭ１０２、ＲＯＭ１０３、ＨＤＤ１０４、通信インターフェイス（Ｉ／Ｆ）１０５、入出力インターフェイス（Ｉ／Ｆ）１０６、およびメディアインターフェイス（Ｉ／Ｆ）１０７を有する。

　ＣＰＵ１０１は、ＲＯＭ１０３またはＨＤＤ１０４に格納されたプログラムに基づいて動作し、各部の制御を行う。ＲＯＭ１０３は、コンピュータ１００の起動時にＣＰＵ１０１によって実行されるブートプログラムや、コンピュータ１００のハードウェアに依存するプログラム等を格納する。

　ＨＤＤ１０４は、ＣＰＵ１０１によって実行されるプログラム、および、係るプログラムによって使用されるデータ等を格納する。通信インターフェイス１０５は、ネットワークＮを介して他の機器からデータを受信してＣＰＵ１０１へ送り、ＣＰＵ１０１が生成したデータを他の機器へ送信する。

　ＣＰＵ１０１は、入出力インターフェイス１０６を介して、ディスプレイ等の出力装置、および、マイク等の音声の入力装置、キーボードやマウス等の入力装置を制御する。ＣＰＵ１０１は、入出力インターフェイス１０６を介して、入力装置から音声データを取得する。また、ＣＰＵ１０１は、生成したデータを入出力インターフェイス１０６を介して出力装置へ出力する。

　メディアインターフェイス１０７は、記録媒体１０８に格納されたプログラムまたはデータを読み取り、ＲＡＭ１０２を介してＣＰＵ１０１に提供する。ＣＰＵ１０１は、係るプログラムを、メディアインターフェイス１０７を介して記録媒体１０８からＲＡＭ１０２上にロードし、ロードしたプログラムを実行する。記録媒体１０８は、例えばＤＶＤ（Ｄｉｇｉｔａｌ　Ｖｅｒｓａｔｉｌｅ　Ｄｉｓｃ）、ＰＤ（Ｐｈａｓｅ　ｃｈａｎｇｅ　ｒｅｗｒｉｔａｂｌｅ　Ｄｉｓｋ）等の光学記録媒体、ＭＯ（Ｍａｇｎｅｔｏ－Ｏｐｔｉｃａｌ　ｄｉｓｋ）等の光磁気記録媒体、テープ媒体、磁気記録媒体、または半導体メモリ等である。

　例えば、コンピュータ１００が実施形態に係る推定装置２００として機能する場合、コンピュータ１００のＣＰＵ１０１は、ＲＡＭ１０２上にロードされたプログラムを実行することにより、制御部の機能を実現する。また、ＨＤＤ１０４には、記録部内のデータが格納される。コンピュータ１００のＣＰＵ１０１は、これらのプログラムを記録媒体１０８から読み取って実行するが、他の例として、他の装置からこれらのプログラムを取得してもよい。
＜２．推定装置の構成＞

　次に、実施形態に係る推定装置２００の構成について図２を用いて説明する。図２に示すように、推定装置２００は、ネットワークＮを介して、利用者端末２０１と有線または無線により通信可能に接続される。なお、推定装置２００は、他にも複数台の利用者端末２０１と接続されてもよい。

　推定装置２００は、図２に示すように、通信部２０２、第１の音響特徴量の抽出部２０４および第２の音響特徴量の抽出部２０５を有する音響特徴量の抽出部２０３、算出部２０６、推定部２０７、および記憶部２０８を備える。なお、音響特徴量の抽出部２０３、算出部２０６、および推定部２０７は演算処理装置（ＣＰＵ）により実行されそれぞれが協働して制御部（不図示）として機能する。

　通信部２０２は、例えば、ＮＩＣ（Ｎｅｔｗｏｒｋ　Ｉｎｔｅｒｆａｃｅ　Ｃａｒｄ）等によって実現される。通信部２０２は、ネットワークＮと有線または無線で接続され、利用者端末２０１との間で情報の送受信を行う。

　制御部は、例えば、ＣＰＵ（Ｃｅｎｔｒａｌ　Ｐｒｏｃｅｓｓｉｎｇ　Ｕｎｉｔ）やＭＰＵ（Ｍｉｃｒｏ　Ｐｒｏｃｅｓｓｉｎｇ　Ｕｎｉｔ）等によって、記録部２０７に記憶されている各種プログラムがＲＡＭを作業領域として実行されることにより実現される。また、制御部は、例えば、ＡＳＩＣ（Ａｐｐｌｉｃａｔｉｏｎ　Ｓｐｅｃｉｆｉｃ　Ｉｎｔｅｇｒａｔｅｄ　Ｃｉｒｃｕｉｔ）やＦＰＧＡ（Ｆｉｅｌｄ　Ｐｒｏｇｒａｍｍａｂｌｅ　Ｇａｔｅ　Ａｒｒａｙ）等の集積回路により実現される。

　記録部２０８は、例えば、ＲＡＭ（Ｒａｎｄｏｍ　Ａｃｃｅｓｓ　Ｍｅｍｏｒｙ）、フラッシュメモリ（Ｆｌａｓｈ　Ｍｅｍｏｒｙ）等の半導体メモリ素子、または、ハードディスク、光ディスク等の記憶装置によって実現される。
　利用者端末２０１は音声の入力部および推定結果の出力部を備える。推定装置２００は、入力部から利用者の音声を取得し、利用者の音声をアナログ信号からデジタル信号の音声データへ変換して、通信部２０２を介して音声データを記録部２０８に格納する。

　入力部は、マイクロホン等の音声の取得部を介して被験者が発話する音声信号を取得し、音声信号を所定のサンプリング周波数（例えば、１１０２５ヘルツ等）でサンプリングすることでデジタル信号の音声データを生成する。入力部は、音声データを記録する記録部を推定装置２００の記録部２０８とは別個に備えていてもよい。この場合、入力部はポータブルレコーダでもよい。入力部の記録部は、ＣＤ、ＤＶＤ、ＵＳＢメモリ、ＳＤカード、ミニディスク等の記録媒体でもよい。

　出力部は、推定結果等のデータを受信する受信部と、当該データを表示する表示部とを備える。表示部は、推定結果等のデータを表示するディスプレイである。ディスプレイは、有機ＥＬ（Ｏｒｇａｎｉｃ　Ｅｌｅｃｔｒｏ－Ｌｕｍｉｎｅｓｃｅｎｃｅ）や液晶等であってもよい。
＜＜抽出部２０３＞＞

　抽出部２０３は、第１の音響特徴量の抽出部２０４および第２の音響特徴量の抽出部２０５を有する。ここで、第１の音響特徴量の抽出部２０４は、第１の音響特徴量のセットを作成する。第１の音響特徴量のセットは、複数の健常者が予め複数の施設間で同一の発話内容を発話して取得された発話音声をラベリングし、正規化処理を行った後に、音声解析を行って複数の特徴量を抽出し、その複数の特徴量に関し、対応のあるｔ検定（Ｐａｉｒｅｄ　ｔ―ｔｅｓｔ）による比較を行い、何れの施設間においても有意差がない音響特徴量のセットを、第１の音響特徴量のセットとして定義するものである。有意差がない音響特徴量のセットの一例としては、対応のあるｔ検定において、Ｐ値が、０．０５を超える音響特徴量のセットであることが好ましく、０．１を超える音響特徴量のセットであることが更に好ましい。なお、Ｐ値の理論的な数値範囲は０～１であり、Ｐ値の有意水準は０．０５に設定されるのが一般的である。

　第１の音響特徴量のセットは、記憶部２０８に格納される。第１の音響特徴量のセットは、後述する第２の音響特徴量のセットと一緒に用いてもよいし、第１の音響特徴量のセットのみを環境に依存しない特徴量として用いてもよい。

　第２の音響特徴量の抽出部２０５は、第２の音響特徴量のセットを作成する。第２の音響特徴量のセットは、複数の健常者が予め複数の施設間で異なる発話内容を発話して取得された発話音声をラベリングし、正規化処理を行った後に、音声解析を行って複数の特徴量を抽出し、その複数の特徴量に関し、ｔ検定（Ｕｎｐａｉｒｅｄ　ｔ―ｔｅｓｔ）による比較を行い、いずれの施設間においても有意差がない音響特徴量のセットを、第２の音響特徴量のセットとして定義するものである。有意差がない音響特徴量のセットの一例としては、対応のあるｔ検定において、Ｐ値が、０．０５を超える音響特徴量のセットであることが好ましく、０．１を超える音響特徴量のセットであることが更に好ましい。

　第２の音響特徴量のセットは、記憶部２０８に格納される。第２の音響特徴量のセットは、第１の音響特徴量のセットと一緒に用いてもよいし、第２の音響特徴量のセットのみを環境に依存しない特徴量として用いてもよい。

　Ｐ値の閾値設定の根拠について説明する。図５は、健常者の発話に基づき音声解析により音響特徴量を抽出し、Ｐａｉｒｅｄ－ｔ検定またはｔ検定において有意差がある場合の一例を示す図である。一方、図６は、健常者の発話に基づき音声解析により音響特徴量を抽出し、Ｐａｉｒｅｄ－ｔ検定またはｔ検定において有意差がない音響特徴量の一例を示す図である。健常者が異なる施設間で、同一の発話内容または異なる発話内容で、音声を発話して取得し、ある音響特徴量を比べた時に、図５に示すように有意差が出るということは、その音声の属性の違いは環境だけなので、環境に依存する音響特徴量である疑いが強い。従って、音響特徴量のセットがＰ値で０．０５を超える場合には、図６に示すように有意差がなく、環境に依存しない音響特徴量であると選別することができる。

　さらに、音響特徴量のセットがＰ値で０．１を超える場合には、健常者が各施設をまわる途中で、ちょっとした身体の調子に影響されず、かつ環境に依存しないであろう音響特徴量であると選別することができる。また、音響特徴量のセットがＰ値で０．１を超える場合には、疾患の推定に用いられる少なくとも１つ以上の音響特徴量（後に特徴量Ｆ（ａ）として説明する。）に影響を与え難いため、疾患推定プログラム作成の観点からも好ましい。

　第１の音響特徴量のセットを作成する方法について更に具体的に説明する。ここでは、施設の環境による差異を排除する目的で、施設間の音響特徴量の有意差を測定する。例えば、７つの施設で（それぞれ施設１～施設７と称する）採取された音声については、施設１と施設２、施設１と施設３のように_７Ｃ_２通りのペアを作りいずれのペアにおいても有意差が無い音響特徴量を抽出する（Ｐａｉｒｅｄ　ｔ－ｔｅｓｔ）。このＰａｉｒｅｄ　ｔ－ｔｅｓｔは、対象となる施設すべてにおいて、一人または複数の健常者によって発話された音声を取得する。ここで健常者とは、解析対象である疾患に罹患していないものを言う。

　このＰａｉｒｅｄ　ｔ－ｔｅｓｔに用いられる健常者は１人でもよいが、より信頼性を高めるには２人以上が好ましく、３人以上が更に好ましい。また、複数人の健常者により実施される場合は、同じ施設で取得された音声を複数人分まとめて処理してもよいし、個別に処理してもよい。個別に処理する場合は、このテストで調査されるペアの数は_７Ｃ_２×人数となる。

　また、各施設で健常者が複数のフレーズを発話して音声を取得した場合には、それらのフレーズは纏めて処理しても良いし、個別に処理してもよい。個別に処理する場合には、フレーズ毎に有意差が無い音響特徴量のセットが抽出される。

　次に第２の音響特徴量のセットを作成する方法について更に具体的に説明する。ここでは、患者群（および健常者群）による差異を排除する目的で、患者群による音響特徴量の有意差を測定する。例えば、ある期間に複数の大うつ病患者の音声（大うつ病Ａ群）を取得し、同じ期間に複数の双極性障害の患者の音声（双極性障害Ａ群）を取得し、そして、別の期間に複数の大うつ病患者の音声（大うつ病Ｂ群）を取得し、同じ期間に複数の双極性障害の患者の音声（健常者Ｂ群）を取得した場合、ｔ検定（Ｕｎｐａｉｒｅｄ　ｔ―ｔｅｓｔ）は、同じ疾患（または健常）における各群同士（大うつ病Ａ群と大うつ病Ｂ群、双極性障害Ａ群と双極性障害Ｂ群）の音響特徴量の有意差を測定する。また、各群の患者が複数のフレーズを発話して音声を取得した場合、それらのフレーズは纏めて処理しても良いし、個別に処理してもよい。個別に処理する場合には、フレーズ毎に有意差が無い音響特徴量のセットが抽出される。

　音響特徴量の抽出部２０３は、所望のＰ値を超える第１の音響特徴量のセットと第２の音響特徴量のセットを比較して、共通する音響特徴量のセットを、音声の取得場所による影響を受けない第３の音響特徴量のセットとして定義する。なお、第３の音響特徴量のセットは、所望のＰ値を超える第１の音響特徴量のセットのみに基づいて音声の取得場所による影響を受けない第３の音響特徴量のセットとして定義することもできる。

　第３の音響特徴量のセットは、複数の疾患の予測値を算出するための少なくとも１つ以上の組の音響特徴量（特徴量Ｆ（ａ））の抽出の際に用いる。例えば、複数の疾患の予測値を算出するための少なくとも１つ以上の組の音響特徴量のセットと、上記第３の音響特徴量のセットの共通特徴量を、真の複数の疾患の予測値を算出するための少なくとも１つ以上の組の音響特徴量（特徴量Ｆ（ａ））として抽出する。
＜＜抽出部２０３での処理のフロー＞＞

　ここで、抽出部２０３における処理のフローに関して、図３を参照しつつ説明する。作業を開始すると、ステップＳ１００１において、抽出部２０３は、予め音声取得後に記憶部２０８内に格納された音声データの発話ラベリング作業を行う。次に、ステップＳ１００２において、抽出部２０３は、発話ラベリング作業が完了した音声データを正規化する処理を行う。正規化処理を行うことにより前処理の工程が完了する。次に、ステップＳ１００３において、抽出部２０３は、前処理が完了した音声データから音響特徴量を抽出する。

　次に、ステップＳ１００４Ａにおいて、抽出部２０３の第１の音響特徴量の抽出部２０４は、抽出された音響特徴量のうち、複数の健常者が予め複数の施設間で同一の発話内容を発話して取得された発話音声から作成された音響特徴量に関して、対応のあるｔ検定（Ｐａｉｒｅｄ　ｔ―ｔｅｓｔ）による比較を行う。次に、ステップＳ１００５Ａにおいて、第１の音響特徴量の抽出部２０４は、所望のＰ値の閾値から、何れの施設間においても有意差がない音響特徴量のセットを、第１の音響特徴量のセットとして定義する。

　一方、ステップＳ１００４Ｂでは、抽出部２０３の第２の音響特徴量の抽出部２０５は、抽出された音響特徴量のうち、複数の健常者が予め複数の施設間で異なる発話内容を発話して取得された発話音声から作成された音響特徴量に関して、ｔ検定（Ｕｎｐａｉｒｅｄ　ｔ―ｔｅｓｔ）による比較を行う。次に、ステップＳ１００５Ｂにおいて、第２の音響特徴量の抽出部２０５は、所望のＰ値の閾値から、何れの施設間においても有意差がない音響特徴量のセットを、第２の音響特徴量のセットとして定義する。

　次に、ステップＳ１００６において、音響特徴量の抽出部２０３は、所望のＰ値を超える第１の音響特徴量のセットと第２の音響特徴量のセットを比較して、共通する音響特徴量のセットを、音声の取得場所による影響を受けない第３の音響特徴量のセットとして定義して、作業を終了する。なお、第３の音響特徴量のセットを、所望のＰ値を超える第１の音響特徴量のセットのみに基づいて第３の音響特徴量のセットとして定義する場合には、ステップＳ１００６を省略することができる。

　以上のような処理を行うことにより、音声の取得場所による影響を受けない第３の音響特徴量のセットを、複数の疾患の予測値を算出するための少なくとも１つ以上の組の音響特徴量（特徴量Ｆ（ａ））と組合せて、より精度の高い疾患の推定を行うことができる。
＜＜算出部２０６・推定部２０７＞＞

　算出部２０６は、後述する疾患の推論モデルに基づき、少なくとも１つの音響特徴量の組合せに基づき、複数の疾患の予測値を算出する。推定部２０７は、疾患の予測値を入力として複数の精神・神経系疾患を推定する。算出部２０６、推定部２０７については後で詳述する。
＜＜疾患の予測値の算出＞＞

　疾患の予測値の算出の概略を説明する。算出部２０６では、被験者の音声データから、複数の音響特徴量を抽出する段階を経る。音響特徴量は、患者の音声データから抽出される。音響特徴量は、音が伝わる際の特徴を特徴量化したものである。

　なお、ここからは、疾患を推定するためのプログラムの説明に入るが、前述した第１ないし第３の音響特徴量のセットと便宜的に区別して音響特徴量の説明をする必要があるため、「音響特徴量」を「音響パラメータ」と称して説明する。但し、本願明細書において、本質的には音響特徴量と音響パラメータは同義であり、どちらも推論装置の入力として用いられ、エンティティの持つ特性を表現する列、程度の意味を有する。

　疾患の推定装置に使用される音響パラメータには、第１の音響パラメータと第２の音響パラメータがある。第１の音響パラメータは、特定の疾患を推定すべき被験者の音声から抽出した音響のパラメータである。第２の音響パラメータは、予め記憶部２０８に格納されている音響のパラメータである。第２の音響パラメータは、アルツハイマー型認知症、レビー小体型認知症、パーキンソン病、大うつ病、非定型うつ病、または双極性障害の疾患を有する患者の音声データから抽出を行い、各音響パラメータと各疾患が予め紐付けされている。

　本願発明で使用する音響パラメータには、以下のような項目がある。
１）       音量のエンベロープ（アタックタイム、ディケイタイム、サステインレベル、リリースタイム）
２）       波形の変動情報（Ｓｈｉｍｍｅｒ，　Ｊｉｔｔｅｒ）
３）       ゼロ点交差率
４）       ハースト指数
５）       ＶＯＴ（Ｖｏｉｃｅ　Ｏｎｓｅｔ　Ｔｉｍｅ）
６）       メル周波数ケプストラムのある係数に関する発話内分布の統計値（第１四分位点、中央値、第３四分位点、９５パーセント点、算術平均、幾何平均、第３四分位点と中央値の差など）
７）       周波数スペクトラムの変化の速さにおける発話内分布の統計値（第１四分位点、中央値、第３四分位点、９５パーセント点、算術平均、幾何平均、第３四分位点と中央値の差など）
８）       メル周波数ケプストラムのある係数の時間変化に関する発話内分布の統計値（第１四分位点、中央値、第３四分位点、９５パーセント点、算術平均、幾何平均、第３四分位点と中央値の差など）
９）       メル周波数ケプストラムのある係数の時間変化の時間変化に関する発話内分布の統計値（第１四分位点、中央値、第３四分位点、９５パーセント点、算術平均、幾何平均、第３四分位点と中央値の差など）
１０）    周波数スペクトラム９０％ロールオフの発話内時間変化における２次回帰近似に対する二乗誤差
１１）    周波数スペクトラム重心の発話内時間変化における２次回帰近似に対する算術誤差
その他、ピッチレート、有声音である確率、任意範囲の周波数のパワー、音階、話速（一定時間におけるモーラ数）、ポーズ・間、音量などが挙げられる。

　推定プログラムは、人工知能による学習機能を有しその学習機能によって推定処理を行う。推論モデルには、線形モデルによる回帰、線形回帰、リッジ回帰、Ｌａｓｓｏ、ロジスティック回帰等の分類アルゴリズムを用いてもよい。ニューラルネットワーク型のディープラーニングが利用されてもよいし、部分的に学習分野を強化する強化学習等が利用されてもよいし、その他、遺伝的アルゴリズム、クラスタ分析、自己組織化マップ、アンサンブル学習、等が利用されてもよい。もちろん、これら以外の人工知能に関する技術が利用されてもよい。アンサンブル学習においては、ブースティングと決定木を併用した手法により分類アルゴリズムを作成してもよい。

　推定プログラムの作成段階において、アルゴリズム作成者は、上記の第２の音響パラメータの項目の中から、変数ｆ（ｎ）として使用する任意の音響パラメータをより良い組合せとなるようにステップワイズ法により検討を行い、１つまたは複数選択する。次に、選択された任意の音響パラメータに対し係数を付し、１つまたは複数の音響パラメータを作成する。さらに、これらの音響パラメータを組合せて、パラメータＦ（ａ）を作成する。

　ステップワイズ法には変数増加法、変数減少法、変数増減法の３種類があるがいずれを用いてもよい。ステップワイズ法で用いられる回帰分析には、線形判別式やロジスティック回帰分析等の線形分類の処理が含まれる。変数ｆ（ｎ）およびそれらの係数、すなわち以下の式で示される式Ｆ（ａ）の係数ｘｎは回帰係数と呼ばれ、関数ｆ（ｎ）に付与される重みである。

　回帰係数は、学習アルゴリズムの作成者が選択した後に、データベースに蓄積される疾患情報などから、推定精度を高めるための機械学習により品質の改善を行ってもよい。

　被験者の疾患の予測値は、例えば以下の式Ｆ（ａ）に基づいて１つ以上の音響パラメータから算出される。

　ここで、ｆ（ｎ）は、上記の音響パラメータの項目（１）ないし（１１）の中からいずれか１つ以上の第２の音響パラメータを任意に選択したものである。ｘｎは疾患に固有の回帰係数である。ｆ（ｎ）、ｘｎは、予め推定プログラムの記録装置１２０に記録されていてもよい。推定プログラムの機械学習の過程でパラメータＦ（ａ）の回帰係数を改善してもよい。

　図２の算出部２０６は、第２の音響パラメータの組合せに基づいて、健常者と疾患を有する被験者を区別する、あるいは疾患どうしを区別するためのパラメータを算出する。このパラメータから、基準範囲と、基準範囲から被験者の値がどの程度離れているのかを算出するためのスコアリングを行うことにより、被験者の疾患の予測値を算出する。

　図７は、ある一つの音響パラメータの強度が、疾患毎に異なっていることを示すイメージ図である。被験者は疾患Ａのスコアが最も高いことを示している。従って、被験者の疾患Ａに対する予測値は、他の疾患群と比較して高く算出される。また、例えば、強度５０を閾値と設定することにより、疾患Ａ、疾患Ｄ、疾患Ｅの群と、疾患Ｂ、疾患Ｃの群とに分類できる。

　図７は、１つの音響パラメータの強度を基に疾患の予測値を算出しているが、実際は一つの音響パラメータのみで疾患を分類できることは困難である。そのため、いくつかの音響パラメータの組み合わせにより求められるパラメータＦ（ａ）を算出して、疾患を分類しても良い。

　このパラメータＦ（ａ）を基に、ラベル付けされた被験者の音声について疾患の予測値を計算し、疾患ごとの予測値の分布を求める。これにより、各疾患を分類することができる。

　このようにして、アルツハイマー型認知症、レビー小体型認知症、パーキンソン病、大うつ病、非定型うつ病、双極性障害の６疾患を含む患者の音声、および健常者の音声から、それぞれの疾患に関連するパラメータＦ（ａ）を抽出し、それぞれの疾患の予測値を算出することができる。

　特に、本推定システムは、うつ症状を呈する初診の患者に適用することで、患者が未だ躁病エピソードを経験していないか、患者が躁病エピソードを経験した自覚がない場合にも、双極性障害の可能性を推定でき、初期の段階で双極性障害としての治療を行うことができる。双極性障害は、それとわかるまでの期間が長いことが多く、早い段階で大うつ病と双極性障害を判別することは社会的、臨床的意義が非常に大きい。
＜＜推定装置の処理＞＞

　図４は、図２に示した推定装置２００の推定処理の一例を示す。図４は、推定装置２００の演算処理装置（ＣＰＵ）が推定装置２００の記憶部２０８に記憶された推定プログラムを実行することにより実現される。

　処理を開始すると、ステップＳ２００１において、制御部が音声データを取得する。音声データは、利用者端末２０１の入力部から取得してもよいし、一度記憶部２０８に格納された後に制御部が読みだしてもよい。次に、ステップＳ２００２において、音響特徴量の抽出部２０３が音声データから第１の音響パラメータを抽出する。次に、ステップＳ２００３において、第１の音響パラメータから環境に依存する音響特徴量を除外して、加工済の第１の音響パラメータを抽出する。例えば、第１の音響パラメータと抽出部２０３で得た第３の音響特徴量のセットを比較して、共通しない部分が環境に依存する音響特徴量と判断できる。

　次に、ステップＳ２００４において、算出部２０６は、第２の音響パラメータから得たパラメータＦ（ａ）とステップＳ２００３で得た加工済の第１の音響パラメータを比較して、各疾患の予測値を算出する。

　次に、ステップＳ２００５において、推定部２０７は、特定の疾患とその他を区別するための個々の閾値を設けることにより、疾患の予測値を算出した複数の患者を、特定すべき対象とその他に判別して、処理を終了する。後述する実施形態では、閾値を超えた場合とそうでない場合とに分類して判定している。
＜３．プログラムの利用分野＞

　本発明の推定プログラムは、遠隔地からの音声であっても解析することが可能であるから、オンライン診療やオンラインカウンセリングの場面で用いることができる。精神・神経系疾患を診断する場合、医師は問診や面談によって、患者の表情、動き、会話の状況などを観察する。しかし、患者は、精神・神経系疾患に対する偏見を感じることがあるため、精神科の病院やクリニックに行くことが躊躇われることがある。

　オンラインによる診療やカウンセリングは、施設に出向かなくとも医師やカウンセラと面談可能である。そのため、精神神経系疾患以外の他の病気と比して、精神・神経系疾患はオンライン診療に非常に親和性が高い。

　医師、カウンセラ、および臨床心理士は、オンラインで患者（またはクライアント）と面談する場合に、本推定プログラムによる解析を行うことができる。これにより、非常に簡便に精神・神経系疾患に罹患しているかどうか、またその疾患の種類について推定することができる。なお、面談時には、ＭＭＳＥやＢＤＩ、ＰＨＱ－９等、各種心理テストや認知機能テストを併せて行うことができる。

　この場合、患者側に、音声を送信できるコンピュータハードウエアのほか、面談用のモニター画面、音声収録用のマイクが必要である。

　患者の自宅にこれらの装置がない場合は、例えば、かかりつけの医院などに装置を備えることができる。患者はかかりつけの病院に通って、そこで装置を通して面談することができる。

　また、例えば、患者が身体疾患の治療を目的としてかかりつけの病院に通う場合、かかりつけの医師が診断して精神・神経系疾患の疑いがあると判断すれば、その場で音声を取得して本発明のプログラムで解析することが可能である。

　その他の場所でも、精神科医、神経内科医がオンライン診療可能な状態であれば、かかりつけの医師と精神科医、神経内科医がオンライン上で連携して診断を行うことが可能である。

　本発明の推定プログラムは、特定の疾患を推定するための感度を上げる（この場合、特異度は一般に下がる）ことにより、スクリーニング装置として利用することができる。

　会社や自治体などで行われている健康診断や、医療機関で行われている人間ドックなどの検査項目として利用することにより、これまで発見が困難で、簡便な検査法がなかった精神・神経科の疾患の早期発見に寄与することができる。

　例えば、眼底検査、視力検査、聴力検査などと同様に、一連の検査の一つとして音声の取得を行い、その場で、あるいは他の検査結果と一緒にプログラムによる推定結果を通知することができる。

　本発明の推定プログラムは、特別な装置を必要としないので、手軽にだれでも利用できる。一方で、利用場面が精神・神経系疾患に限定されるので、必ずしも利用頻度が高いものではない。そこで、高価な検査装置を備えた専門病院に本発明の推定装置一式を備えておき、かかりつけ医などが、対象患者が来院した時に、その専門病院に検査を依頼することができる。

　精神・神経系疾患で使用される装置としては、光トポグラフィ、心筋シンチグラフィ、脳血流シンチグラフィ、ＣＴ、ＭＲＩ、脳波等が挙げられる。これらは、疾患の推定や除外診断に用いられるが、本発明の推定装置は極めて侵襲性が低いので、これら検査と併せて、あるいはこれら検査に先駆けて用いることができる。

　本発明の推定プログラムは、自宅でも簡便に利用できるので、診断後のモニタリング装置として利用することができる。例えば、気分障害群の疾患の場合、患者の疾患に応じて薬剤や心理療法が処置されるが、これら療法の効き具合を測定することができる。また、継続的に利用することにより、症状が安定しているか、再発の予兆が無いかなどを日々観察することができる。

　本発明の推定プログラムは、発話による音声を解析するものであるので、高齢者の見守り装置としての適用が可能である。

　一人暮らしの高齢者が、元気に過ごしているかどうかは近親者にとって気になるところである。電話やビデオ電話等の通信手段を用いた高齢者見守りシステムに、本発明の推定プログラムを実装することにより、生活反応を見るだけでなく、認知症やうつの傾向がないかどうかも測定することができ、一人暮らしであっても適宜対処することが可能となる。

　これらさまざまな実施形態において、音声の取得方法としては特に制限はないが、（１）対象者のほうから、電話やインターネットを通じで録音した音声を送付する方法、（２）検査者のほうから対象者へ電話やインターネットを通じでコンタクトし、会話をすることにより音声を取得する方法、（３）対象者の住居に音声取得装置を備えておき、対象者がその装置に録音する方法、（４）音声取得装置が定期的に自動起動し、対象者へ会話を行うことにより、対象者の音声を取得する方法等が挙げられる。

　音声を取得するにあたって、対象者がスムーズに発話できるように、推定装置に備えられたディスプレイに発話すべき文章を表示するか、またはスピーカーから発話すべき文章の音を再生するのが好ましい。
　録音開始の機械音により録音が開始され、発話を終えたらスイッチにより録音を終了するなどして、文章毎に発話による音声を取得することができる。
＜４．推定プログラムの作成＞
＜＜複数の疾患と音声データとの関連付け作業－音声取得＞＞

　推定プログラム作成時の手順を記載する。複数の疾患と音声データとの付け作業を行うため、平成２９年（２０１７年）１２月２５日から平成３０年（２０１８年）５月３０日の間に、以下の患者及び健常者の音声を取得した。

　・アルツハイマー型認知症患者の音声　２０例
・レビー小体型認知症患者の音声　２０例
・パーキンソン病の患者の音声　２０例
・大うつ病患者の音声　２０例（大うつ病Ａ群）
・双極性障害患者の音声　１６例（双極性障害Ａ群）
・非定型うつ病患者の音声　１９例
・健常者の音声　２０例

　また、令和元年（２０１９年）６月２８日から令和元年（２０１９年）１０月３１日の間に、以下の患者及び健常者の音声を取得した。

　・アルツハイマー型認知症患者の音声　３７例
・レビー小体型認知症患者の音声　５７例
・その他の認知症（血管性認知症、前頭側頭型認知症を含む）患者の音声　２８例
・パーキンソン病の患者の音声　３５例
・大うつ病患者の音声　５７例（大うつ病Ｂ群）
・双極性障害患者の音声　３４例（双極性障害Ｂ群）
・非定型うつ病患者の音声　３０例
・その他のうつ病（気分変調症、気分循環症を含む）患者の音声　３８例
・健常者の音声　６０例＋２８例（４人が７つの異なる施設で音声を取得したもの：健常者Ｂ群）

　なお、これら患者は精神科、神経内科等、専門分野の医師により、ＤＳＭ－５またはＩＣＤ－１０の基準によりそれぞれの疾患と認められた患者である。また、ＰＨＱ－９、ＭＭＳＥ等を行うことにより、他の精神・神経系疾患を合併していないことを医師が確認した。

　健常者は、ＰＨＱ－９、ＭＭＳＥ等を行うことにより、抑うつ症状や認知機能の低下が認められないことを確認した。

　音声取得には、オリンパス製ピンマイク、ローランド製ポータブルレコーダを用いた。音声データはＳＤカードに記録した。

　発話内容は、図８に示す１７の文章を被験者が、１～１３まではそれぞれ２回ずつ、１４～１７までは１回ずつ読み上げた。

　音声を取得するに当たって、被験者には、精神神経系の病気の患者の声と病気との関係性を解析する研究に用いること、発話の内容、音声取得の方法を説明し、書面による同意書にサインしていただいた。また、音声を含む取得したデータは、個人を特定できない形式に記号化して管理した。

　被験者１人に付き、上記１７種類の発話内容のうち、１～１３までの発話（各２回で１例あたり２６発話）、１４～１７までの発話（各１回で１例あたり４発話）の合計３０発話について、長いものは２つに分解し、また不鮮明なものは除外することにより、各疾患の患者および健常者の音声を得た。
＜＜環境に依存しない音声特徴量の抽出＞＞

　健常者Ｂ群の４人の健常者については、７つの異なる施設（病院の診察室、処置室）において音声を取得した。

　これらの音声の正規化処理を行った後に、音声解析を行って７４４０個の音声特徴量を抽出した。その特徴量に関し、フレーズ毎に対応のあるｔ検定（Ｐａｉｒｅｄ　ｔ―ｔｅｓｔ）による比較を行った。その結果、「いろはにほへと」では、いずれの施設間においても有意差がない（Ｐ＞０．５）音声特徴量として４８６個を得た。また、同様にして「本日は晴天なり」では５７３個、「食欲があります」では５４３個、「おこりっぽいです」では７２７個、「あいうえおかきくけこ」では４６６個、「上を向いてあるこう」では５３６個、「がんばるぞー」では５２５個の、いずれの施設間においても有意差がない音声特徴量を得た。

　また、同じ特徴量に関し、双極性障害Ａ群と双極性障害Ｂ群、及び大うつ病Ａ群と大うつ病Ｂ群の音声についてｔ検定（Ｕｎｐａｉｒｅｄ　ｔ―ｔｅｓｔ）による比較を行った。また、双極性障害Ａ群と大うつ病Ａ群、及び双極性障害Ｂ群と大うつ病Ｂ群の音声についてｔ検定による比較を行った。その結果、「いろはにほへと」の発話による音声においては、いずれの同じ疾患群同士において有意差がなく（Ｐ＞０．５）、且ついずれの異なる疾患群同士においては有意差がある（Ｐ＜０．１）音声特徴量として５０個を得た。

　また、同様にして、「本日は晴天なり」では６０個、「食欲があります」では２３２個、「おこりっぽいです」では７５個、「あいうえおかきくけこ」では５９個、「上を向いてあるこう」では６４個、「がんばるぞー」では１０５個の、いずれの施設間においても有意差がない音声特徴量を得た。

　そして、Ｐａｉｒｅｄ　ｔ－ｔｅｓｔ　と　Ｕｎｐａｉｒｅｄ　ｔ－ｔｅｓｔ　の両方で選別された音声特徴量として、「いろはにほへと」では３個、「本日は晴天なり」では１２個、「食欲があります」では２３個、「おこりっぽいです」では６個、「あいうえおかきくけこ」では４個、「上を向いて歩こう」では７個、「がんばるぞー」では４個の音声特徴量を得た。これらを表に纏めたものを図９に示す。
＜＜推定プログラム１の作成（機械学習）＞＞

　次に、学習データとして、大うつ病患者１５人、および双極性障害患者１５人の「いろはにほへと」と発話した音声を用い、また３個の環境に依存しない音声特徴量（Ｐａｉｒｅｄ　ｔ－ｔｅｓｔとＵｎｐａｉｒｅｄ　ｔ－ｔｅｓｔのいずれにおいて有意差がない音声特徴量）を用いて、大うつ病と双極性障害とのいずれであるかを推定するための特徴量Ｆ（ａ）に基づく推定プログラム１を作成した。
＜＜推定プログラム１による疾患の推定＞＞

　検証データとして、前記学習データとして用いていない大うつ病患者３０名、双極性障害患者１６名の音声を用いた。結果（Ｙｏｕｄｅｎ　Ｉｎｄｅｘ　における混同行列；以下同様）を図１０に示す。
＜＜推定プログラム２＞＞

　次に、「本日は晴天なり」と発話した音声を用い、また、前記２３個の環境に依存しない音声特徴量を用いた以外は、推定プログラム１と同様にして推定プログラム２を作成し、検証した。結果を図１１に示す。
＜＜推定プログラム３＞＞

　次に、「食欲があります」と発話した音声を用い、また、前記３個の環境に依存しない音声特徴量を用いた以外は、推定プログラム１と同様にして推定プログラム３を作成し、検証した。結果を図１２に示す。
＜＜推定プログラム４＞＞

　次に、「おこりっぽいです」と発話した音声を用い、また、前記６個の環境に依存しない音声特徴量を用いた以外は、推定プログラム１と同様にして推定プログラム４を作成し、検証した。結果を図１３に示す。
＜＜推定プログラム５＞＞

　次に、「あいうえおかきくけこ」と発話した音声を用い、また、前記４個の環境に依存しない音声特徴量を用いた以外は、推定プログラム１と同様にして推定プログラム５を作成し、検証した。結果を図１４に示す。
＜＜推定プログラム６＞＞

　次に、「上を向いて歩こう」と発話した音声を用い、また、前記７個の環境に依存しない音声特徴量を用いた以外は、推定プログラム１と同様にして推定プログラム６を作成し、検証した。結果を図１５に示す。
＜＜推定プログラム７＞＞

　次に、「がんばるぞー」と発話した音声を用い、また、前記４個の環境に依存しない音声特徴量を用いた以外は、推定プログラム１と同様にして推定プログラム７を作成し、検証した。結果を図１６に示す。
＜＜推定プログラム８＞＞

　推定プログラム１～７の７つの推定プログラムを用いて、それぞれ対応する発話により大うつ病または双極性障害のいずれかを判定した。そして７つの判定の多数決により最終的に各人の推定結果とした。結果を図１７に示す。

　以上のように、本発明の推定システムは、被験者が大うつ病であるか、双極性障害であるかを推定することができる。

　発話による音声から音響特徴量を抽出する方法としては、市販の特徴量抽出プログラムを用いることができる。具体的には例えば、ｏｐｅｎＳＭＩＬＥ等が挙げられる。

　なお、推定装置２００は、例えば、ロボット、人工知能や自動車、あるいはコールセンター、インターネット、スマートフォンやタブレット型端末等の携帯端末装置アプリケーションやサービス、検索システムへ応用されてもよい。また、装置２００は、診断装置、自動問診装置、災害トリアージ等に応用されてもよい。

　以上の詳細な説明により、実施形態の特徴点および利点は明らかになるであろう。これは、特許請求の範囲がその精神および権利範囲を逸脱しない範囲で前述のような実施形態例の特徴点および利点にまで及ぶことを意図するものである。また、当該技術分野において通常の知識を有する者であれば、あらゆる改良および変更に容易に想到できるはずである。したがって、発明性を有する実施形態の範囲を前述したものに限定する意図はなく、実施形態に開示された範囲に含まれる適当な改良物および均等物に拠ることも可能である。

　被験者が発話する音声を推定し、被験者が患っている病気を判別・推定し、病気の重症化を予防し、また病気の的確な判別に基づいて患者が適切な治療をうけることを可能にする推定システム、推定プログラムおよび推定方法を提供することができる。

　本出願は、２０２０年１月９日に出願された日本出願である特願２０２０－２１７５号に基づく優先権を主張し、当該日本出願に記載された全ての記載内容を援用するものである。

２０３　　　抽出部
２０６　　　算出部
２０７　　　推定部

Claims

　音声解析により、精神・神経系疾患を推定する推定装置であって、大うつ病と双極性障害を判別して推定することを特徴とする、精神・神経系疾患の推定装置。
　前記推定装置が、
録音環境で有意差の出ない音響特徴量（Ａ）、および
各々の疾患に関連する音響特徴量（Ｂ）、に基づき、
前記音響特徴量（Ａ）と前記音響特徴量（Ｂ）に共通する音響特徴量（Ｃ）を抽出する抽出部と、
前記音響特徴量（Ｃ）に基づき疾患の予測値を算出する算出部と、
前記疾患の予測値を入力として、疾患を推定する推定部と、
を備える、請求項１に記載の精神・神経系疾患の推定装置。
　推定装置の抽出部において、録音環境で有意差の出ない音響特徴量（Ａ）および各々の疾患に関連する音響特徴量（Ｂ）、に基づき、前記音響特徴量（Ａ）と前記音響特徴量（Ｂ）に共通する音響特徴量（Ｃ）を抽出する工程と、
前記推定装置の算出部において、前記音響特徴量（Ｃ）に基づき疾患の予測値を算出する工程と、
前記推定装置の推定部において、前記疾患の予測値を入力として、疾患を推定する工程と、
を包含する推定装置の作動方法。