WO2020013296A1

WO2020013296A1 - 精神・神経系疾患を推定する装置

Info

Publication number: WO2020013296A1
Application number: PCT/JP2019/027587
Authority: WO
Inventors: 慎一徳野; 修二篠原; 光晃中村; 康宏大宮
Original assignee: Ｐｓｔ株式会社; 国立大学法人東京大学
Priority date: 2018-07-13
Filing date: 2019-07-11
Publication date: 2020-01-16
Also published as: GB2590201A8; JPWO2020013296A1; JP7389421B2; JP7563683B2; US20210121125A1; GB2590201A; US12029579B2; JP2024020321A; SG11202100147VA; GB2590201B; GB202100152D0

Abstract

精神・神経系疾患を高い精度で推定する医療装置を提供する。本医療装置は、演算処理装置と、演算処理装置が処理を実行するための推定プログラムを記録した記録装置、を備え、さらに被験者のスコアを算出する算出部と、スコアが基準範囲を超える疾患を検出する検出部と、精神・神経系の疾患を推定する推定部、を備える。

Description

精神・神経系疾患を推定する装置

　関連出願の相互参照
　本出願は、平成３０年７月１３日に出願された特願２０１８－１３３３３３の優先権を主張する。

　本発明は、精神・神経系疾患を推定する装置に関する。

　被験者の音声を分析して感情を推定する技術が普及しつつある。特許文献１は、被験者の音声を周波数スペクトルに変換して、周波数軸上でずらしながら自己相関波形を求め、そこからピッチ周波数を算出して感情状態を推定する技術を開示する。

国際公開第２００６／１３２１５９号

　しかしながら、上記の技術で推定可能な範囲は、怒り、喜び、緊張、悲しみ、または抑うつ症状など人の「感情」の状態を推定する範囲に止まり、疾患を推定する精度は高くなかった。

　本発明は、このような状況を鑑みてなされたものであり、精神・神経系疾患を高い精度で推定する医療装置を提供することを目的とする。

　上記課題を解決するために、本発明は、被験者が発話した音声データから精神・神経系の疾患を推定する装置であって、演算処理装置と、演算処理装置が処理を実行するための推定プログラムを記録した記録装置、を備え、被験者から取得した音声データから第１の音響パラメータを算出するとともに、予め疾患と関連付けされた第２の音響パラメータにより特徴量を算出して、被験者のスコアを算出する、算出部と、特徴量に基づき基準範囲を設定して、スコアが基準範囲を超える疾患を検出する、検出部と、検出部で１つ以上の疾患が検出された場合に、精神・神経系の疾患を推定する、推定部、を備えることを特徴とする。

　本発明によれば、精神・神経系疾患を高い精度で推定する医療装置を提供することができる。

本願発明の構成図である。本願発明の構成図である。第２の音響パラメータの説明図である。第２の音響パラメータの説明図である。第２の音響パラメータの説明図である。第２の音響パラメータの説明図である。第２の音響パラメータの説明図である。第２の音響パラメータの説明図である。スコアリングの一例を示す図である。本願発明のフローチャートである。本願発明のフローチャートである。本願発明のフローチャートである。本願発明の推定の精度を示すＲＯＣ曲線である。本願発明の推定の精度を示すＲＯＣ曲線である。第２の音響パラメータの説明図である。本願発明の回帰分析の図である。本願発明の回帰分析の図である。

（実施形態）

　以下、本発明を実施するための形態について図面などを参照して説明する。

　図１は、本願発明の推定装置１００の構成図を示す。

　図１の推定装置１００は、演算処理装置１１０（ＣＰＵ）と、演算処理装置１１０が処理を実行するための推定プログラムを記録したハードディスク等の記録装置１２０を備えるコンピュータである。演算処理装置１１０は、算出部１１１と、検出部１１２と、推定部１１３の各機能部を備える。推定装置１００は、有線または無線を介して通信端末２００に接続される。通信端末２００は、マイクロホン等の音声入力部２０１と、推定結果を表示する映像出力部２０２を備える。なお、算出部１１１、検出部１１２および推定部１１３は、ハードウェアにより実現されてもよい。

　図２は、ネットワークＮＷを介した推定装置１００の一実施形態を示す。推定装置１００は、演算処理機能を有し、かつ推定プログラムを記録する記録機能を有するサーバＡと、疾患別に分類された音声データが保存されるデータベース（ＤＢ）サーバＢにより実現される。サーバＡが単独でデータベース（ＤＢ）サーバＢの処理を行ってもよい。図２に示す推定装置１００の場合、通信端末２００はネットワークＮＷを介してサーバＡと接続され、さらにサーバＡはデータベース（ＤＢ）サーバＢと有線または無線を介して接続される。

　推定装置１００は、通信端末２００により実現されてもよい。この場合には、ネットワークＮＷを介してサーバＡに格納される推定プログラムがダウンロードされ、通信端末２００の記録装置１２０に記録される。通信端末２００に含まれるＣＰＵが、通信端末２００の記録装置１２０に記録されるアプリケーションを実行することにより、通信端末２００が算出部１１１、検出部１１２および推定部１１３として機能してもよい。

　推定プログラムは、ＤＶＤ等の光ディスクやＵＳＢメモリ等の可搬型記録媒体に記録して頒布されてもよい。

　通信端末２００は、音声の入力部２０１と、映像の出力部２０２を備える装置である。例えば、スマートフォン、タブレット型の端末、またはマイクロホンを備えるノートパソコンやデスクトップパソコン等である。通信端末２００は、通信端末２００のマイクロホンを介して被験者が発話する音声信号を取得し、音声信号を所定のサンプリング周波数（例えば、１１キロヘルツ等）でサンプリングすることでデジタル信号の音声データを生成する。生成した音声データは、推定装置１００に送信される。

　通信端末２００は、推定装置１００により推定された結果を、映像の出力部２０２であるディスプレイに表示する。ディスプレイは、有機ＥＬ（Ｏｒｇａｎｉｃ　Ｅｌｅｃｔｒｏ－Ｌｕｍｉｎｅｓｃｅｎｃｅ）や液晶等である。

　なお、マイクロホンは有線または無線を介して推定装置１００に直接接続されてもよい。この場合、推定装置１００はマイクロホンからの音声の信号を、所定のサンプリング周波数でサンプリングし、デジタル信号の音声データを取得してもよい。

　（第１実施形態）
　図１０は、図１に示した推定装置１００における推定処理の一例を示す。図１０に示す処理は、推定装置１００の演算処理装置１１０が推定装置１００の記録装置１２０に記録された推定プログラムを実行することにより実現される。図１０を用いて、演算処理装置１１０の算出部１１１、検出部１１２および推定部１１３の各機能についてそれぞれ説明する。

　（算出部１１１）
　処理を開始すると、ステップＳ１０１において、算出部１１１は音声データが取得済みであるか否かを判定する。音声データには２種類のデータがあり、１つは対象とする被験者から取得する第１の音声データである。もう１つは、図２のデータベース（ＤＢ）サーバＢ等から取得する第２の音声データである。第２の音声データは、各疾患と予め関連付けがされている。第２の音声データは、推定プログラムと一緒に推定装置１００の記録装置１２０に予め記録されていてもよい。

　音声データが取得済みである場合には、ステップＳ１０３へ進む。音声データが未だ取得されていない場合には、ステップＳ１０２において、通信端末２００およびデータベース（ＤＢ）サーバＢ等を介して音声データを取得する。

　次に、ステップＳ１０３において、算出部１１１は取得した２種類の音声データから第１の音響パラメータおよび第２の音響パラメータを算出する。音響パラメータは、音が伝わる際の特徴をパラメータ化したものであり、以降に登場する特徴量の変数ｆ（ｎ）として使用される。第１の音響パラメータは、疾患を推定する対象である被験者の第１の音声データから算出する。

　第２の音響パラメータは、データベース（ＤＢ）サーバＢ等から取得する第２の音声データから算出する。第２の音声データは、各疾患と予め関連付けがされているため、算出後の第２の音響パラメータにおいても、各疾患と音響パラメータが関連付けされている。第２の音響パラメータについては、推定プログラムと一緒に推定装置１００の記録装置１２０に予め記録されていてもよい。

　推定装置１００を用いて推定可能な疾患群、すなわち、第２の音声データと予め関連付けがされている疾患群は、レビー小体型認知症、アルツハイマー型認知症、パーキンソン病、大うつ病、双極性障害、または非特定うつ病を含む。但し、疾患群はこれに限定されるものではない。

　音響パラメータには、以下のような項目がある。

　上記の音響パラメータの項目の中から、変数ｆ（ｎ）として使用する任意の音響パラメータを１つまたは複数選択し、選択された任意の音響パラメータに対し係数を付すことにより特徴量Ｆ（ａ）が作成される。使用される任意の音響パラメータは、推定を行うべき特定の疾患と相関性を有する音響パラメータが選択される。変数ｆ（ｎ）およびそれらの係数については、ユーザが選択した後に、データベースに蓄積される情報などから機械学習により推定プログラムが特徴量の品質の改善を行ってもよい。

　音響パラメータは、数値に大きな開きがあるためそれぞれを正規化してもよい。また、２つ以上の疾患で共通項が存在する場合には、特徴量を２つ以上に正規化してもよい。

　次に、ステップＳ１０４において、算出部１１１は疾患に固有の線形モデルが作成済みであるか否かを判定する。既に線形モデルが作成済みである場合には、ステップＳ１０６へ進む。未だ線形モデルが作成されていない場合には、ステップＳ１０５において、各疾患と音響パラメータが関連付けされている第２の音響パラメータに基づいて、線形モデルを作成する。

　次に、ステップＳ１０６において、作成された線形モデルに基づいて特徴量を作成する。特徴量は、以下の式Ｆ（ａ）で示すことができる。次の検出部１１２において用いられる被験者のスコアは、特徴量Ｆ（ａ）に基づいて第１の音響パラメータから算出される。

　ここで、ｆ（ｎ）は、上記の音響パラメータの項目（１）ないし（１１）の中からいずれか１つ以上の第２の音響パラメータを任意に選択したものである。ｘｎは疾患に固有の係数である。ｆ（ｎ）、ｘｎは、予め推定プログラムの記録装置１２０に記録されていてもよい。また、推定プログラムの機械学習の過程で特徴量を改善してもよい。

　推定プログラムは、人工知能による学習機能を有しその学習機能によって推定処理を行う。ニューラルネットワーク型のディープラーニングが利用されてもよいし、部分的に学習分野を強化する強化学習等が利用されてもよいし、その他、遺伝的アルゴリズム、クラスタ分析、自己組織化マップ、アンサンブル学習、等が利用されてもよい。もちろん、これら以外の人工知能に関する技術が利用されてもよい。アンサンブル学習においては、ブースティングと決定木を併用した手法により分類アルゴリズムを作成してもよい。

　２つ以上の疾患に共通項が存在する場合は、特徴量を２つ以上に分割してもよい。例えば、次式のような分割が可能である。

　ここで、音響パラメータの詳細について説明する。
（１．音量のエンベロープ）

　図３は、音量のエンベロープに関する説明図である。横軸は時間ｔを示し、縦軸は正規化したパワースペクトル密度を示す。

　音量のエンベロープは、アタックタイム、ディケイタイム、サステインレベル、リリースタイムから構成される。アタックタイム（「Ａｔｔａｃｋ」）は、音の立ち上がりから最大音量になるまでの時間である。ディケイタイム（「Ｄｅｃａｙ」）は、発音してからある一定の音量（サステインレベル）に落ちつくまでの減衰時間である。リリースタイムは、発音してから音が完全に無くなるまでの消失時間である。

　（２．波形の波動情報）
　図４は、波形の波動情報に関する説明図である。横軸は時間ｔを示し、縦軸は音圧を示す。

　波形の波動情報には、ジッター（Ｊｉｔｔｅｒ）やシマー（Ｓｈｉｍｍｅｒ）が含まれる。ジッター（Ｊｉｔｔｅｒ）とは、一周期当たりの時間をＴｉとした場合の時間軸における周期の乱れを示し、以下の式で説明することができる。

　シマー（Ｓｈｉｍｍｅｒ）とは、一振幅当たりの音圧をＡｉとした場合の音圧に対する振幅の乱れを示し、以下の式で説明することができる。

　（３．ゼロ点交差率）
　図５は、ゼロ点交差率に関する説明図である。ゼロ点交差率は、音声の音圧の波形が基準圧力を横切る単位時間あたりの回数を、音声における波形の変化の激しさの度合いとして算出したものである。ゼロ点交差率に関しては、後に詳述する。

　（４．ハースト指数）
　図６は、ハースト指数に関する説明図である。ハースト指数は、音声の波形における変化の相関性を示す。ハースト指数に関しては、後に詳述する。

　（５．ＶＯＴ（Ｖｏｉｃｅ　Ｏｎｓｅｔ　Ｔｉｍｅ））
　図７は、ＶＯＴ（Ｖｏｉｃｅ　Ｏｎｓｅｔ　Ｔｉｍｅ）に関する説明図である。ＶＯＴとは、空気が流れだしてから（Ｓｔａｒｔ　ｏｆ　Ｖｏｉｃｉｎｇ）、声帯が振動を始めるまで（Ｓｔｏｐ　Ｒｅｌｅａｓｅ）の時間、すなわち有声開始時間（ＶＯＴ）を意味する。図７では、横軸に時間ｔを示し、縦軸に音圧を示す。

　（６．ないし１１．発話データ内の各種統計量）
　図８は、発話データ内の統計量に関する各種説明図である。上段は、ある周波数成分の音声の強度について、横軸を時間ｔとして示し、縦軸を周波数軸としてグラフを示す。上段のグラフでは、音声の強度の高低を色の濃淡で示している。上段のグラフのうち、処理対象とする周波数の領域をトリミングして、トリミングされた領域における各点の周波数スペクトルを中段に示す。

　中段のグラフは、上段のグラフの時間軸上の各点における周波数スペクトルを示しているため、上段の濃色で示す部分は音声強度が高く描かれ、淡色で示す部分は音声強度が低く描かれる。さらに、中段の周波数スペクトルをスペクトル解析し、縦軸をパワースペクトル密度、横軸を時間軸として示したのが下段のグラフである。

　下段のグラフより、メル周波数ケプストラムのある係数に関する発話内分布の統計値（第１四分位点、中央値、第３四分位点、９５パーセント点、算術平均、幾何平均、第３四分位点と中央値の差など）、周波数スペクトラムの変化の速さにおける発話内分布の統計値（第１四分位点、中央値、第３四分位点、９５パーセント点、算術平均、幾何平均、第３四分位点と中央値の差など）、メル周波数ケプストラムのある係数の時間変化に関する発話内分布の統計値（第１四分位点、中央値、第３四分位点、９５パーセント点、算術平均、幾何平均、第３四分位点と中央値の差など）、メル周波数ケプストラムのある係数の時間変化の時間変化に関する発話内分布の統計値（第１四分位点、中央値、第３四分位点、９５パーセント点、算術平均、幾何平均、第３四分位点と中央値の差など）、周波数スペクトラム９０％ロールオフの発話内時間変化における２次回帰近似に対する二乗誤差、または周波数スペクトラム重心の発話内時間変化における２次回帰近似に対する算術誤差を算出する。

　次に、図１０のステップＳ１０６において、特徴量が設定された後に被験者のスコアリングが行われる。スコアリングは、疾患に固有の特徴量Ｆ（ａ）と、第１の音響パラメータに基づき、被験者のスコアを算出する処理である。スコアリングによって取得された被験者のスコアは、検出部１１２と推定部１１３に送信される。

　（検出部１１２）
　次に、ステップＳ１０７において、検出部１１２は特徴量を基に作成された健康の基準範囲が設定されているか否かを判定する。健康の基準範囲とは、特徴量Ｆ（ａ）により作成される回帰直線から、健常な被験者と個々の疾患を有する被験者とを区別する領域である。

　検出部１１２は、ステップＳ１０７で健康の基準範囲が設定されていると判定した場合にはステップＳ１０９へ進む。健康の基準範囲が設定されてないと判定した場合には、ステップＳ１０８において、特徴量に基づいて健康の基準範囲を設定する。基準範囲の情報は、推定部１１３へ送信される。

　次に、ステップＳ１０９において、検出部１１２は算出部１１１で算出した被験者のスコアの中から健康の基準範囲を超える疾患を検出する。

　次に、ステップＳ１１０において、検出部１１２は検出された疾患が複数あるか否かを判定する。検出された疾患が無かった場合、あるいは検出された疾患が１つであった場合には、ステップＳ１１２へ進む。

　ステップＳ１１０で検出された疾患が複数あると判定された場合には、ステップＳ１１１において、検出された疾患どうしの特徴量の共通項、係数を比較して、特徴量の改善を行う。特徴量の改善の結果は、機械学習のためにデータベース（ＤＢ）サーバＢまたは推定プログラムを記録する記録装置１２０に出力されてもよい。特徴量の改善は、複数の特徴量に有意な差が生じるまで比較・検証されてもよい。検出された疾患の特徴量どうしに共通項がある場合には、まず共通項における差異を比較し、次いで個々の特徴量の比較をおこなってもよい。

　また、比較の方法には乗算による比較の他、レンジ計算による比較を行っても良い。例えば、疾患固有の特徴量を比較し最大値を選ぶ、あるいはそれらを加算することで、疾患固有の特徴量を改善してもよい。

　また、検出された複数の疾患が健康の基準範囲と十分な差が確認される場合には、複数の疾患を最終的な候補として検出してもよい。また、特徴量の改善はユーザが手動で調整を行ってもよい。

　特徴量が改善された後は、必要であればステップＳ１０６で取得した被験者のスコアを再計算する。改善された特徴量および再計算されたスコア結果は、推定部１１３に送信される。検出部１１２における全ての処理が終了した後、ステップＳ１１２へ進む。

　（推定部１１３）
　次に、ステップＳ１１２において、推定部１１３は算出部１１１および検出部１１２で取得した特徴量およびそれに基づく被験者のスコアから、疾患の推定を行う。

　次に、ステップＳ１１３において、推定部１１３は通信端末２００に推定結果を出力する。疾患の推定方法としては、被験者のスコアと健康の基準範囲との差の中で最も大きな値を持つ疾患を選択し、疾患を推定してもよい。また、検出された複数の疾患のうち十分な差が認められる場合には、図９に示す様に複数の疾患のスコアを示し、最終的な判断をユーザに委ねてもよい。

　推定部１１３は、ステップＳ１０６で算出された被験者のスコアと、ステップＳ１０８で設定された基準範囲の境界線との間の距離に応じて、被験者の健康の度合いを推定してもよい。そして、推定部１１３は、推定した被験者の健康状態と健康の度合いとを示す情報を、通信端末２００に出力してもよい。

　最後に、推定装置１００は、推定処理を終了する。推定装置１００は、通信端末２００から被験者の音声データを受信する度に、ステップＳ１０１ないしステップＳ１１３の処理を繰り返し実行する。

　なお、図１０に示した処理において、基準範囲の情報が、推定装置１００または外部のコンピュータ装置により予め決定され、推定装置１００の記録装置１２０に記録されている場合、ステップＳ１０４、ステップＳ１０５、ステップＳ１０７およびステップＳ１０８の処理は、省略されてもよい。

　以上、実施形態１では、算出部１１１は、通信端末２００から取得した被験者の音声データを用いて、特徴量に基づき被験者のスコアを算出する。推定部１１３は、算出された被験者のスコアと、検出部１１２により設定された基準範囲との比較に基づいて被験者の健康状態または疾患を推定する。

　以上のステップＳ１０１ないしステップＳ１１３によって推定された結果の一例を図１３に示す。図１３は、健常者または特定疾患と、それ以外の分離性能を示すＲＯＣ曲線のグラフである。横軸が特異度を示し、縦軸が感度を示す。言い換えると、横軸が偽陽性率を示し、縦軸が真陽性率を示す。図１３のＲＯＣ曲線は、いずれも偽陽性立が低い時点で真陽性率が高い値を示した。

　また、ＡＵＣ（Ａｒｅａ　ｕｎｄｅｒ　ａｎ　ＲＯＣ　ｃｕｒｖｅ）はいずれも０．５より高く、ランダムに識別した場合と有意な差が確認できた。分離性能の検証が行われた疾患は、レビー小体型認知症、アルツハイマー型認知症、パーキンソン病、大うつ病、双極性障害、非特定うつ病である。それぞれのＲＯＣ曲線におけるＡＵＣは、レビー小体型認知症が０．７９４、アルツハイマー型認知症が０．７９９、パーキンソン病が０．７７１、大うつ病が０．８６９、双極性障害が０．８６、非特定うつ病が０．８６であった。なお、本願発明を用いて推定可能な疾患は上記のものに限定されない。

　以上に示す様に、図１０に示すステップＳ１０１ないしステップＳ１１３を行うことにより、推定装置１００は、複数の精神・神経系疾患の中から特定の疾患を高度・専門的に高精度で推定することができる。

　（第２実施形態）
　次に、第２の音響パラメータとして、ゼロ点交差率、ハースト指数を選択した場合の一実施例について詳述する。

　算出部１１１は、音声における波形の変化の激しさの度合いとしてゼロ点交差率を算出する。また、算出部１１１は、音声の波形における変化の相関性を示すハースト指数を算出する。算出部１１１は、算出した被験者のゼロ点交差率およびハースト指数を、検出部１１２および推定部１１３に出力する。

　検出部１１２は、算出部１１１が算出した被験者のゼロ点交差率およびハースト指数から被験者の健康状態を推定部１１３が推定するために、うつ病等の病を患っていない健康な状態を示す健康の基準範囲を設定する。

　例えば、算出部１１１は、うつ病等の病を患っているか否かの健康状態が既知である複数の人の音声データをデータベースまたは推定装置１００の記録装置１２０から読み出し、読み出した音声データから複数の人の各々のゼロ点交差率およびハースト指数を含む第２の音響パラメータを算出する。

　さらに、算出部１１１は、ゼロ点交差率とハースト指数との２次元空間において、算出部１１１により算出された複数の人のゼロ点交差率およびハースト指数の分布に対して、線形判別式やロジスティック回帰分析等の線形分類の処理を実行して、これらの線形モデルを基にして特徴量を作成する。

　次に、検出部１１２は、算出部１１１で作成した特徴量に基づいてうつ病等を患っている人の領域と、うつ病等を患っていない健康な人の基準範囲とを分ける境界線を設定する。検出部１１２は、決定した境界線を含む基準範囲を示す情報を推定部１１３に出力する。

　なお、特徴量が作成済みであって、疾患どうしの区別をする必要がなく、健康の基準範囲を示す情報が、推定装置１００または外部のコンピュータ装置により予め設定され、推定装置１００の記録装置１２０に記録されている場合、検出部１１２は省略されてもよい。

　推定部１１３は、算出部１１１により算出された被験者のゼロ点交差率およびハースト指数のスコアと、検出部１１２により設定された基準範囲とに基づいて被験者における健康状態（例えば、うつ状態等か否か）を推定する。そして、推定部１１３は、推定した健康状態を示す情報を通信端末２００に出力する。

　図１４は、図１に示した通信端末２００を介して取得した音声データの一例を示す。図１４は、通信端末２００を介して取得した被験者が発話した音声の音圧の時間変化を示す。図１４の横軸は時刻ｔを示し、縦軸は音圧を示す。

　図１４では、被験者による発話の音声データのうち、“ありがとう”と発話した発話単位のデータを示す。時刻ｔ０、ｔ１、ｔ２、ｔ３、ｔ４は、発話単位に含まれる“あ”、“り”、“が”、“と”、“う”の各語が発話された開始の時刻を示す。なお、“ありがとう”の発話単位のうち、“り”の語が発話された音声データに対する算出部１１１の算出処理について説明するが、算出部１１１は、“ありがとう”の他の語および他の発話単位に対しても、同一または同様に算出処理を実行する。

　算出部１１１は、通信端末２００から取得した音声データを用いて、ゼロ点交差率およびハースト指数を、５１２等のサンプル数のウィンドウＷＤ毎に算出する。図１４に示すように、音圧は各語の発話において大きく変化するため、例えば、算出部１１１は、ゼロ点交差率を算出するために、ウィンドウＷＤより小さい３０等のサンプル数のウィンドウＷＤ１毎に音圧の平均値を算出し、各ウィンドウＷＤ１で算出した平均値を各ウィンドウＷＤ１の基準圧力とする。算出部１１１は、各ウィンドウＷＤ１において、算出した基準圧力（平均値）を被験者の音圧が横切る回数を計測し、ゼロ点交差率を算出する。

　算出部１１１は、各ウィンドウＷＤ１で算出したゼロ点交差率の平均値をウィンドウＷＤのゼロ点交差率ＺＣＲとして算出する。

　一方、時刻ｔの音圧ｘ（ｔ）と時刻ｔから時間τ離れた音圧ｘ（ｔ＋τ）との差分の標準偏差σ（τ）は、式（１）に示すように関係付けられる。また、時間間隔τと標準偏差σ（τ）の間には、式（２）に示すようなべき則の関係があることが知られている。そして、式（２）におけるＨがハースト指数である。

　例えば、ホワイトノイズのような音声データの場合、音声データの各データ間において互いに時間的な相関がないため、ハースト指数Ｈは“０”となる。また、音声データがホワイトノイズからピンクノイズやブラウンノイズになるに従い、すなわち音声の波形が時間的な相関性を有するに従い、ハースト指数Ｈは“０”より大きな値を示す。

　例えば、音声データがブラウンノイズの場合、ハースト指数Ｈは０．５となる。さらに、音声データがブラウンノイズより強い相関性を有する、すなわち音声データが過去の状態に依存する度合いが増すに従い、ハースト指数Ｈは、０．５から１の間の値を示す。

　算出部１１１は、例えば、ウィンドウＷＤにおいて、時間間隔τが１から１５の間の各τに対して音声データの標準偏差σ（τ）を求め、求めた各時間間隔τの標準偏差σ（τ）に対して回帰分析を実行することによりハースト指数Ｈを算出する。

　算出部１１１は、ウィンドウＷＤの幅の４分の１等の所定の間隔でウィンドウＷＤを移動させて、各ウィンドウＷＤにおけるゼロ点交差率ＺＣＲおよびハースト指数Ｈを算出する。そして、算出部１１１は、算出した全てのウィンドウＷＤのゼロ点交差率ＺＣＲおよびハースト指数Ｈを平均し、平均したゼロ点交差率ＺＣＲおよびハースト指数Ｈを被験者ＰＡのゼロ点交差率およびハースト指数として推定部１１３に出力する。

　図１５は、図１に示した算出部１１１により算出された複数の人のゼロ点交差率ＺＣＲおよびハースト指数Ｈの分布の一例を示す。図１５では、縦軸はゼロ点交差率ＺＣＲを示し、横軸はハースト指数Ｈを示す。

　また、図１５では、うつ病等の病を患っている人のゼロ点交差率ＺＣＲおよびハースト指数Ｈをバツ印で示し、健康な人のゼロ点交差率ＺＣＲおよびハースト指数Ｈを丸印で示す。なお、図１５に示したゼロ点交差率ＺＣＲおよびハースト指数Ｈの分布は、１２１８人の音声データを用いて生成されている。そして、のべ１２１８人のうち、うつ病等の病を患っている人は６９７人であり、健康な人は５２１人である。

　算出部１１１は、図１５に示した複数の人のゼロ点交差率ＺＣＲおよびハースト指数Ｈの分布に対して、線形判別式やロジスティック回帰分析等の線形分類の処理を実行する。検出部１１２は、うつ病等の病を患っている人と、健康な人とを分ける破線で示した境界線を決定する。

　図１５の場合、破線で示した境界線は、ＺＣＲ＝－０．２９９Ｈ＋０．２９９と表される。検出部１１２は、破線で示した境界線より下側の領域を基準範囲として、決定した境界線を含む基準範囲の情報を推定部１１３に出力し、推定部１１３に基準範囲を設定する。

　なお、図１５では、ゼロ点交差率ＺＣＲの縦軸およびハースト指数Ｈの横軸は、線形軸としたが、破線で示した境界線が指数関数やべき関数等で表される場合、境界線を直線で示すために対数軸にするのが好ましい。

　図１６は、音声データの取得環境に応じたゼロ点交差率ＺＣＲおよびハースト指数Ｈの分布の一例を示す。図１６では、図１５と同様に、縦軸はゼロ点交差率ＺＣＲを示し、横軸はハースト指数Ｈを示す。また、図１６は、図１５に示したゼロ点交差率ＺＣＲおよびハースト指数Ｈの分布から検出部１１２により決定された境界線を破線で示す。

　図１６は、例えば、通信端末２００が被験者の音声を１１キロヘルツのサンプリング周波数でサンプリングした音声データを用いて算出されたゼロ点交差率ＺＣＲおよびハースト指数Ｈの分布を黒色の三角で示す。

　一方、通信端末２００は、例えば、ネットワークＮＷを介して音声データを推定装置１００に送信するために、１１キロヘルツでサンプリングした被験者ＰＡの音声データを、８キロヘルツのサンプリング周波数でダウンサンプリングする。図１６は、８キロヘルツにダウンサンプリングされた音声データを用いて算出されたゼロ点交差率ＺＣＲおよびハースト指数Ｈの分布を白色の矩形で示す。

　図１６に示すように、被験者ＰＡのゼロ点交差率ＺＣＲおよびハースト指数Ｈは、ダウンサンプリングによる音質の劣化（ノイズの増加）による影響を受けている。すなわち、ダウンサンプリングされた音声データのゼロ点交差率ＺＣＲは、ノイズが増加し、音声の音圧が基準圧力を横切る回数が増加するため、１１キロヘルツでサンプリングされた音声データのゼロ点交差率ＺＣＲと比べて大きな値を示す。

　一方、ダウンサンプリングされた音声のハースト指数Ｈは、ノイズが増加することにより音声データがホワイトノイズに近づくため、１１キロヘルツでサンプリングされた音声データのハースト指数Ｈと比べて小さな値を示す。

　しかしながら、ゼロ点交差率ＺＣＲおよびハースト指数Ｈは、ダウンサンプリングによる影響を受けるが、互いに独立に変化するのではなく、関係性を有して変化する。すなわち、図１６に示すように、ゼロ点交差率ＺＣＲおよびハースト指数Ｈは、ダウンサンプリング等による音質の劣化に対して、互いの相関性を有しつつ破線で示した境界線に沿って変化する。

　このため、ダウンサンプリング等による音質の劣化は、被験者のゼロ点交差率ＺＣＲおよびハースト指数Ｈが基準範囲に含まれるか否かを判定する推定部１１３の動作に影響を与えない。すなわち、ゼロ点交差率ＺＣＲおよびハースト指数Ｈは、ダウンサンプリング等の音質の劣化に対してロバスト性を有する。そして、推定装置１００は、音声データの取得環境に拘わらず、従来と比べて精度良く被験者の健康状態を推定できる。

　図１１は、図１に示した推定装置１００における推定処理の一例を示す。図１１に示す処理は、推定装置１００の演算処理装置１１０が推定装置１００の記録装置１２０に記録された推定プログラムを実行することにより実現される。

　処理を開始すると、ステップＳ２０１において、算出部１１１は音声データが取得済みであるか否かを判定する。音声データには２種類のデータがあり、１つは対象とする被験者から取得する第１の音声データである。もう１つは、図２のデータベース（ＤＢ）サーバＢ等から取得する第２の音声データである。第２の音声データは、実施形態２の場合には、大うつ病と予め関連付けがされている。第２の音声データは、推定プログラムと一緒に推定装置１００の記録装置１２０に予め記録されていてもよい。

　音声データが取得済みである場合には、ステップＳ２０３へ進む。音声データが未だ取得されていない場合には、ステップＳ２０２において、通信端末２００およびデータベース（ＤＢ）サーバＢ等を介して音声データを取得する。

　次に、ステップＳ２０３において、算出部１１１は取得した２種類の音声データから第１の音響パラメータおよび第２の音響パラメータ、すなわちゼロ点交差率ＺＣＲおよびハースト指数Ｈを算出する。第２の音響パラメータについては、推定プログラムと一緒に推定装置１００の記録装置１２０に予め記録されていてもよい。

　次に、ステップＳ２０４において、算出部１１１は疾患に固有の特徴量が作成済みであるか否かを判定する。既に特徴量が作成済みである場合には、ステップＳ２０６へ進む。未だ特徴量が作成されていない場合には、ステップＳ２０５において、大うつ病と関連付けされているゼロ点交差率ＺＣＲおよびハースト指数Ｈに基づいて、特徴量を作成する。具体的にはゼロ点交差率ＺＣＲおよびハースト指数Ｈの分布に対して、線形判別式やロジスティック回帰分析等の線形分類の処理を実行する。

　次に、ステップＳ２０６において、被験者のスコアリングが行われる。スコアリングは、疾患に固有の特徴量と、第１の音響パラメータに基づき、被験者のスコアを算出する処理である。スコアリングによって取得された被験者のスコアは、検出部１１２と推定部１１３に送信される。

　次に、ステップＳ２０７において、検出部１１２は特徴量を基に作成された健康の基準範囲が設定されているか否かを判定する。

　検出部１１２は、ステップＳ２０７で健康の基準範囲が設定されていると判定した場合にはステップＳ２０９へ進む。健康の基準範囲が設定されてないと判定した場合には、ステップＳ２０８において、特徴量に基づいて健康の基準範囲を設定する。

　次に、ステップＳ２０９において、検出部１１２は算出部１１１で算出した被験者のゼロ点交差率ＺＣＲおよびハースト指数Ｈに関連するスコアが健康の基準範囲内に位置するか否かを検出する。

　次に、ステップＳ２１２において、推定部１１３は、検出部１１２で被験者のスコアが基準範囲を超えた場合には、疾患を大うつ病を患っていると推定する。被験者のゼロ点交差率ＺＣＲおよびハースト指数Ｈに関連するスコアが健康の基準範囲内に位置する場合には、推定部１１３は被験者が健康であると推定する。推定部１１３は、推定した被験者の健康状態を示す情報を、通信端末２００へ出力する。

　なお、推定部１１３は、例えば、ステップＳ２０６で検出された被験者のゼロ点交差率ＺＣＲおよびハースト指数Ｈに関連するスコアと、ステップＳ２０８で設定された基準範囲の境界線との間の距離に応じて、被験者の健康の度合いを推定してもよい。そして、推定部１１３は、推定した被験者の健康状態と健康の度合いとを示す情報を、通信端末２００に出力してもよい。

　そして、推定装置１００は、推定処理を終了する。推定装置１００は、通信端末２００から被験者の音声データを受信する度に、ステップＳ２０１からステップＳ２１３の処理を繰り返し実行する。

　なお、図１１に示した処理において、基準範囲の情報が、推定装置１００または外部のコンピュータ装置により予め決定され、推定装置１００の記録装置１２０に記録されている場合、ステップＳ２０４、ステップＳ２０５、ステップＳ２０７およびステップＳ２０８の処理は、省略されてもよい。

　以上、実施形態２では、算出部１１１は、通信端末２００から取得した被験者の音声データを用いて、被験者のゼロ点交差率ＺＣＲおよびハースト指数Ｈに関連する特徴量のスコアを算出する。推定部１１３は、算出された被験者のゼロ点交差率ＺＣＲおよびハースト指数Ｈの位置と、検出部１１２により設定された基準範囲との比較に基づいて被験者の健康状態を推定する。

　さらに、図１６に示すように、ゼロ点交差率ＺＣＲおよびハースト指数Ｈは、ダウンサンプリング等による音質の劣化の影響を受けるが、互いに独立に変化するのではなく、関係性を有して変化する。このため、ダウンサンプリング等による音質の劣化は、被験者のゼロ点交差率ＺＣＲおよびハースト指数Ｈに関連するスコアが基準範囲に含まれるか否かを判定する推定部１１３の動作に影響を与えない。すなわち、推定装置１００は、音声データの取得環境に拘わらず、従来と比べて精度良く被験者の健康状態を推定できる。

　また、推定装置１００は、大うつ病等を患っている被験者の音声データや、長母音等を含む音声データ等からゼロ点交差率ＺＣＲおよびハースト指数Ｈを求めることができる。このため、推定装置１００は、音声のパラメータと感情状態との対応関係を示す情報を用いる従来と比べて、被験者の健康状態を精度良く推定できる。

　（実施形態３）
　図１に示す推定装置１００において、算出部１１１は、例えば、式（３）に示される音声の波形モデルを用い、音声に含まれるノイズの割合に応じて変化するゼロ点交差率ＺＣＲとハースト指数Ｈとの関係性に基づいて特徴量を作成して、基準範囲の境界線を設定することができる。

　ここで、ｘ（ｔ－１）、ｘ（ｔ）、ｘ（ｔ＋１）は、時刻ｔ－１、ｔ、ｔ＋１にサンプリングされた音声データを示す。αは、音声データｘ（ｔ）が過去の状態に依存する度合いを示す。例えば、αが０の場合、音声データｘ（ｔ）は、過去の状態に依存することなく独立した値を示し、ホワイトノイズであることを示す。

　ｒａｎｄ１、ｒａｎｄ２は、０から１の間の一様乱数を示す。ｓｃａｌｅは、ｒａｎｄ１の一様乱数に応じて音声データｘ（ｔ）の波形が変動する変動量を調整し、例えば、０．１や０．２等の値に設定される。ＳＩＧＮは、式（４）に示す関数であり、音声データｘ（ｔ）の変動を決定する。

　音声データｘ（ｔ）は、ｐ＞ｑの場合、増加または減少する状態を維持し、ｐ＜ｑの場合、増加から減少または減少から増加に状態を変化させる。また、音声データｘ（ｔ）は、ｐ＝ｑの場合、現在と同じ状態を維持し変化しない。βは、関数ＳＩＧＮを介して、ｒａｎｄ２の一様乱数に応じて音声データｘ（ｔ）の変動を調整する。例えば、αが１且つβが０．５に設定される場合、音声データｘ（ｔ）は、ブラウンノイズと同様の波形が再現される。なお、式（３）に示した音声の波形モデルは、一例であり、他の関数を用いて表されてもよい。

　算出部１１１は、例えば、αが１に設定された式（３）の音声の波形モデルを用いて、βを０から１の間で変化させ、各βの値における音声データｘ（ｔ）からゼロ点交差率ＺＣＲおよびハースト指数Ｈを算出する。そして、算出部１１１は、算出した各βの値におけるゼロ点交差率ＺＣＲとハースト指数Ｈとの分布に対して最小二乗法等の回帰分析の処理を実行する。算出部１１１は、各βの値のゼロ点交差率ＺＣＲとハースト指数Ｈとを通る直線を、境界線として決定する。式（３）に示した音声の波形モデルの場合、算出部１１１により決定された境界線は、ＺＣＲ＝－０．２９９Ｈ＋０．３０５で表され、波線で示した図１５の境界線と類似する直線となる。これにより、推定装置１００は、基準範囲の境界線を決定するために複数の人の音声データを取得することなく、容易に基準範囲の境界線を設定できる。

　そして、算出部１１１は、決定した境界線を含む基準範囲の情報を推定部１１３に出力し、推定部１１３に基準範囲を設定する。

　なお、基準範囲の情報が、推定装置１００または外部のコンピュータ装置により予め決定され、推定装置１００の記録装置１２０に記録されている場合、算出部１１１は省略されてもよい。

　図１２は、図１に示した推定装置１００における推定処理の一例を示す。

　図１２に示した処理は、推定装置１００の演算処理装置１１０が推定装置１００の記録装置１２０に記録された推定プログラムを実行することにより実現される。すなわち、図１２に示した処理は、推定方法および推定プログラムの別の実施形態を示す。

　処理を開始すると、ステップＳ３０１において、算出部１１１は音声データが取得済みであるか否かを判定する。そして、音声データが取得済みである場合には、ステップＳ３０３へ進む。音声データが未だ取得されていない場合には、ステップＳ３０２において、通信端末２００等を介して音声データを取得する。

　次に、ステップＳ３０３において、算出部１１１は取得した音声データから第１の音響パラメータ、すなわちゼロ点交差率ＺＣＲおよびハースト指数Ｈを算出する。

　次に、ステップＳ３０７において、算出部１１１は健康の基準範囲が設定されているか否かを判定する。健康の基準範囲が設定されている場合、算出部１１１はステップＳ３０８ａに進む。基準範囲が設定されていない場合、算出部１１１はステップＳ３０８に進む。

　ステップＳ３０８では、算出部１１１はαが１に設定された式（３）の音声の波形モデルを用いて、βを０から１の間で変化させ、各βの値における音声データｘ（ｔ）からゼロ点交差率ＺＣＲおよびハースト指数Ｈを算出する。そして、検出部１１２は、算出した各βの値におけるゼロ点交差率ＺＣＲとハースト指数Ｈとの分布に対して最小二乗法等の回帰分析の処理を実行し、各βの値のゼロ点交差率ＺＣＲとハースト指数Ｈとを通る直線を境界線として設定する。

　次に、ステップＳ３０８ａでは、検出部１１２は、ステップＳ３０８で設定した境界線を含む基準範囲の情報を推定部１１３に出力し、基準範囲を設定する。

　次に、ステップＳ３０８ａにおいて、被験者のスコアリングが行われる。実施形態３におけるスコアリングは、被験者の第１の音響パラメータ、すなわち被験者のゼロ点交差率ＺＣＲおよびハースト指数Ｈが用いられる。スコアリングの結果は、検出部１１２および推定部１１３に出力される。

　次に、ステップＳ３０９において、検出部１１２はステップＳ３０８ａで算出された被験者のゼロ点交差率ＺＣＲおよびハースト指数Ｈが、ステップＳ３０８で設定された基準範囲内に位置するか否か検出する。

　次に、ステップＳ３１２において、推定部１１３は検出部１１２で被験者のスコアが基準範囲を超えた場合には、疾患を大うつ病を患っていると推定する。被験者のゼロ点交差率ＺＣＲおよびハースト指数Ｈに関連するスコアが健康の基準範囲内に位置する場合には、推定部１１３は被験者が健康であると推定する。推定部１１３は、推定した被験者の健康状態を示す情報を、通信端末２００へ出力する。

　なお、推定部１１３は、例えば、ステップＳ３０８ａで算出された被験者のゼロ点交差率ＺＣＲおよびハースト指数Ｈに関連するスコアと、ステップＳ３０８で設定された基準範囲の境界線との間の距離に応じて、被験者の健康の度合いを推定してもよい。そして、推定部１１３は、推定した被験者の健康状態と健康の度合いとを示す情報を、通信端末２００に出力してもよい。

　そして、推定装置１００は、推定処理を終了する。推定装置１００は、通信端末２００から被験者の音声データを受信する度に、ステップＳ３０１からステップＳ３１３の処理を繰り返し実行する。

　なお、図１２に示した処理において、基準範囲の情報が、推定装置１００または外部のコンピュータ装置により予め決定され、推定装置１００の記録装置１２０に記録されている場合、ステップＳ３０７、ステップＳ３０８の処理は、省略されてもよい。

　以上、実施形態３では、算出部１１１は、通信端末２００を介して取得した被験者の音声データを用いて、被験者のゼロ点交差率ＺＣＲおよびハースト指数Ｈを算出する。推定部１１３は、算出された被験者のゼロ点交差率ＺＣＲおよびハースト指数Ｈの位置と、検出部１１２により設定された基準範囲との比較に基づいて被験者ＰＡの健康状態を推定する。

　そして、図１６に示すように、ゼロ点交差率ＺＣＲおよびハースト指数Ｈは、ダウンサンプリング等による音質の劣化の影響を受けるが、互いに独立に変化するのではなく、関係性を有して変化する。このため、ダウンサンプリング等による音質の劣化は、被験者のゼロ点交差率ＺＣＲおよびハースト指数Ｈが基準範囲に含まれるか否かを判定する推定部１１３の動作に影響を与えない。すなわち、推定装置１００は、音声データの取得環境に拘わらず、従来と比べて精度良く被験者の健康状態を推定できる。

　なお、推定装置は、例えば、ロボット、人工知能や自動車、あるいはコールセンター、インターネット、スマートフォンやタブレット型端末等の携帯端末装置アプリケーションやサービス、検索システムへ応用されてもよい。また、推定装置は、診断装置、自動問診装置、災害トリアージ等に応用されてもよい。

　なお、これまで主として推定装置について説明したが、推定装置を備える医療装置を上述したように作動させる医療装置の作動方法であっても良いし、コンピュータに医療装置と同様の処理を行わせるための推定プログラム、該推定プログラムを記録するコンピュータにより読み取り可能な一時的でない記録媒体、等であっても構わない。

　以上の詳細な説明により、実施形態の特徴点および利点は明らかになるであろう。これは、特許請求の範囲がその精神および権利範囲を逸脱しない範囲で前述のような実施形態の特徴点および利点にまで及ぶことを意図するものである。また、当該技術分野において通常の知識を有する者であれば、あらゆる改良および変更に容易に想到できるはずである。したがって、発明性を有する実施形態の範囲を前述したものに限定する意図はなく、実施形態に開示された範囲に含まれる適当な改良物および均等物に拠ることも可能である。

　精神・神経系疾患を高い精度で推定する医療装置を提供することができる。

１１１…算出部
１１２…検出部
１１３…推定部
１００…推定装置
２００…通信端末

Claims

　被験者が発話した音声データから精神・神経系の疾患を推定する装置であって、演算処理装置と、前記演算処理装置が処理を実行するための推定プログラムを記録した記録装置、を備え、
　前記被験者から取得した前記音声データから第１の音響パラメータを算出するとともに、予め疾患と関連付けされた第２の音響パラメータにより特徴量を算出して、前記被験者のスコアを算出する、算出部と、
　前記特徴量に基づき基準範囲を設定して、前記スコアが前記基準範囲を超える疾患を検出する、検出部と、
　前記検出部で１つ以上の疾患が検出された場合に、前記精神・神経系の疾患を推定する、推定部、
を備える、
装置。
　前記精神・神経系の疾患の候補は、アルツハイマー型認知症、レビー小体型認知症、パーキンソン病、大うつ病、非定型うつ病、および双極性障害からなる群から１つ以上が選択され、前記第２の音響パラメータは、選択された前記疾患の候補と相関性を有する、
請求項１に記載の装置。
　前記基準範囲を超えて検出された前記疾患が１つ以下である場合は、検出する作業を終了し、
　前記基準範囲を超えて検出された前記疾患が２つ以上ある場合は、検出された前記疾患どうしの前記特徴量を比較して、前記特徴量を改善する、
請求項１または請求項２に記載の装置。
　請求項１～３のいずれか一項に記載の医療装置を実行させるための推定プログラムが記録された記録媒体。
　被験者が発話した音声データから精神・神経系の疾患を推定するための、医療装置の作動方法であって、前記医療装置は、演算処理装置と、前記演算処理装置が処理を実行するための推定プログラムを記録した記録装置と、を備え、
　前記演算処理装置の算出部が、前記被験者から取得した前記音声データから第１の音響パラメータを算出するとともに、予め疾患と関連付けされた第２の音響パラメータに基づき特徴量を算出して、前記被験者のスコアを算出する、ステップと、
　前記演算処理装置の検出部が、前記特徴量に基づき健康の基準範囲を設定して、前記スコアが前記基準範囲を超える疾患を検出する、ステップと、
　前記演算処理装置の推定部が、前記検出部で１つ以上の疾患が検出された場合に、前記精神・神経系の疾患を推定する、ステップと、
を備える、
医療装置の作動方法。