WO2022054687A1

WO2022054687A1 - プログラム、情報処理装置及び情報処理方法

Info

Publication number: WO2022054687A1
Application number: PCT/JP2021/032289
Authority: WO
Inventors: 康之本間; 直之前田; 貴之内田
Original assignee: テルモ株式会社
Priority date: 2020-09-08
Filing date: 2021-09-02
Publication date: 2022-03-17
Also published as: US20230207073A1; EP4205666A4; JPWO2022054687A1; CN116096301A; EP4205666A1

Abstract

プログラムは、音声による第１の問いかけを出力し、前記第１の問いかけに対する回答を対象者から受け付け、テキストによる第２の問いかけを出力し、前記第２の問いかけに対する回答を前記対象者から受け付け、前記第１及び第２の問いかけへの回答が正答であるか否かを判定し、前記第１及び第２の問いかけへの回答の正誤に基づき、前記対象者の脳機能障害の可能性を推定する処理をコンピュータに実行させる。

Description

プログラム、情報処理装置及び情報処理方法

　本発明は、プログラム、情報処理装置及び情報処理方法に関する。

　認知症等の脳機能障害の診断を支援する技術がある。例えば特許文献１では、所定の質問に対して対象者が回答した発話音声をテキストデータに変換し、比較用テキストデータとの編集距離を算出して、対象者が認知症を発症している可能性があるか否かを判定する認知症診断装置が開示されている。

特開２０２０－４８３号公報

　しかしながら、特許文献１に係る発明は、認知症、失語症等の種々の脳機能障害の症状の違いを考慮して脳機能障害の可能性を推定するに至っていない。

　一つの側面では、脳機能障害の可能性を好適に推定することができるプログラム等を提供することを目的とする。

　一つの側面に係るプログラムは、音声による第１の問いかけを出力し、前記第１の問いかけに対する回答を対象者から受け付け、テキストによる第２の問いかけを出力し、前記第２の問いかけに対する回答を前記対象者から受け付け、前記第１及び第２の問いかけへの回答が正答であるか否かを判定し、前記第１及び第２の問いかけへの回答の正誤に基づき、前記対象者の脳機能障害の可能性を推定する処理をコンピュータに実行させる。

　一つの側面では、脳機能障害の可能性を好適に推定することができる。

対話システムの構成例を示す説明図である。サーバの構成例を示すブロック図である。携帯端末の構成例を示すブロック図である。スピーカ端末の構成例を示すブロック図である。実施の形態１の概要を示す説明図である。メッセージの表示画面例を示す説明図である。サーバが実行する処理手順を示すフローチャートである。実施の形態２に係るサーバの構成例を示すブロック図である。回答履歴ＤＢのレコードレイアウトの一例を示す説明図である。スピーカ端末の表示画面例を示す説明図である。スピーカ端末の表示画面例を示す説明図である。実施の形態２に係るメッセージの表示画面例を示す説明図である。実施の形態２に係るメッセージの表示画面例を示す説明図である。推定結果表示時のチャット画面の他例を示す説明図である。履歴画面の一例を示す説明図である。実施の形態２に係るサーバが実行する処理手順の一例を示すフローチャートである。実施の形態２に係るサーバが実行する処理手順の一例を示すフローチャートである。

　以下、本発明をその実施の形態を示す図面に基づいて詳述する。
（実施の形態１）
　図１は、対話システムの構成例を示す説明図である。本実施の形態では、対象者が入力する発話音声に基づき、対象者の異常、好適には脳機能障害の有無を判定する対話システムについて説明する。対話システムは、情報処理装置１、携帯端末２、スピーカ端末３を含む。各装置は、インターネット等のネットワークＮに通信接続されている。

　情報処理装置１は、種々の情報処理、情報の送受信が可能な情報処理装置であり、例えばサーバコンピュータ、パーソナルコンピュータ等である。本実施の形態では情報処理装置１がサーバコンピュータであるものとし、以下では簡潔のためサーバ１と読み替える。サーバ１は、対象者が入力した発話音声から、脳機能障害の可能性があるか否かを判定する。具体的には後述の如く、サーバ１は、対象者を含む複数のユーザが参加するチャットグループへのメッセージとして対象者が入力する発話音声、あるいは所定の対話エンジンに基づいて動作するチャットボットシステムに対象者が入力する発話音声などから、脳機能障害の可能性が疑われる異常箇所を検出する。

　対象とする脳機能障害は特に限定されないが、例えば認知症、失語症などが挙げられる。サーバ１は、認知症、失語症などに起因して生じる異常な発話（不明瞭な単語、言い間違いなど）を検知し、他のユーザ（例えば対象者の家族、対象者を診療する医療従事者など、対象者に関係するユーザ）に異常箇所を提示する。

　携帯端末２は、対象者を含む各ユーザが使用する情報処理端末であり、例えばスマートフォン、タブレット端末等である。なお、図１では携帯端末２を一台のみ図示してあるが、対象者及び他のユーザそれぞれの携帯端末２がサーバ１に接続されているものとする。サーバ１は、チャットグループへのメッセージ等として対象者が入力した発話音声を携帯端末２から取得し、テキストに変換する。そしてサーバ１は、変換したテキストから異常箇所を検出する。

　スピーカ端末３は、対象者の自宅等に設置された音声入出力端末であり、いわゆるスマートスピーカである。なお、スピーカ端末３はスマートスピーカと呼ばれるものに限定されず、音声の入出力機能と、画像表示機能とを備えていればよい。また、スピーカ端末３の設置場所は対象者の自宅に限定されず、自宅以外の施設（例えば介護施設）などであってもよい。スピーカ端末３はチャットボットシステムの端末装置として機能し、対象者との対話を行う。後述のように、サーバ１は、スピーカ端末３から対象者の発話音声を取得して異常箇所を検出してもよい。

　なお、本実施の形態ではサーバ１と協働する端末装置として携帯端末２、スピーカ端末３を挙げるが、その他の形態の端末装置（例えばロボット型の装置）であってもよい。端末装置は音声入出力機能、画像表示機能等を備えたローカル端末であればよく、その形態は特に限定されない。

　図２は、サーバ１の構成例を示すブロック図である。サーバ１は、制御部１１、主記憶部１２、通信部１３、及び補助記憶部１４を備える。
　制御部１１は、一又は複数のＣＰＵ（Central Processing Unit）、ＭＰＵ（Micro-Processing Unit）、ＧＰＵ（Graphics Processing Unit）等の演算処理装置を有し、補助記憶部１４に記憶されたプログラムＰ１を読み出して実行することにより、種々の情報処理、制御処理等を行う。主記憶部１２は、ＳＲＡＭ（Static Random Access Memory）、ＤＲＡＭ（Dynamic Random Access Memory）、フラッシュメモリ等の一時記憶領域であり、制御部１１が演算処理を実行するために必要なデータを一時的に記憶する。通信部１３は、通信に関する処理を行うための通信モジュールであり、外部と情報の送受信を行う。補助記憶部１４は、大容量メモリ、ハードディスク等の不揮発性記憶領域であり、制御部１１が処理を実行するために必要なプログラムＰ１、その他のデータを記憶している。

　なお、補助記憶部１４はサーバ１に接続された外部記憶装置であってもよい。また、サーバ１は複数のコンピュータからなるマルチコンピュータであっても良く、ソフトウェアによって仮想的に構築された仮想マシンであってもよい。

　また、本実施の形態においてサーバ１は上記の構成に限られず、例えば操作入力を受け付ける入力部、画像を表示する表示部等を含んでもよい。また、サーバ１は、ＣＤ（Compact Disk）－ＲＯＭ、ＤＶＤ（Digital Versatile Disc）－ＲＯＭ等の可搬型記憶媒体１ａを読み取る読取部を備え、可搬型記憶媒体１ａからプログラムＰ１を読み取って実行するようにしても良い。あるいはサーバ１は、半導体メモリ１ｂからプログラムＰ１を読み込んでも良い。

　図３は、携帯端末２の構成例を示すブロック図である。携帯端末２は、制御部２１、主記憶部２２、通信部２３、表示部２４、入力部２５、音声出力部２６、音声入力部２７、撮像部２８、補助記憶部２９を備える。
　制御部２１は、一又は複数のＣＰＵ、ＭＰＵ等の演算処理装置を有し、補助記憶部２９に記憶されたプログラムＰ２を読み出して実行することにより、種々の情報処理、制御処理等を行う。主記憶部２２は、ＲＡＭ等の一時記憶領域であり、制御部２１が演算処理を実行するために必要なデータを一時的に記憶する。通信部２３は、通信に関する処理を行うための通信モジュールであり、外部と情報の送受信を行う。表示部２４は、液晶ディスプレイ等の表示画面であり、画像を表示する。

　入力部２５は、タッチパネル等の操作インターフェイスであり、ユーザから操作入力を受け付ける。音声出力部２６はスピーカであり、音声を出力する。音声入力部２７はマイクであり、ユーザから音声の入力を受け付ける。撮像部２８は、ＣＭＯＳ（Complementary MOS）等の撮像素子を備えたカメラであり、画像を撮像する。補助記憶部２９は、ハードディスク、大容量メモリ等の不揮発性記憶領域であり、制御部２１が処理を実行するために必要なプログラムＰ２、その他のデータを記憶している。

　なお、携帯端末２は、ＣＤ－ＲＯＭ等の可搬型記憶媒体２ａを読み取る読取部を備え、可搬型記憶媒体２ａからプログラムＰ２を読み取って実行するようにしても良い。あるいは携帯端末２は、半導体メモリ２ｂからプログラムＰ２を読み込んでも良い。

　図４は、スピーカ端末３の構成例を示すブロック図である。スピーカ端末３は、制御部３１、主記憶部３２、通信部３３、表示部３４、入力部３５、音声出力部３６、音声入力部３７、撮像部３８、補助記憶部３９を備える。
　制御部３１は、一又は複数のＣＰＵ、ＭＰＵ等の演算処理装置を有し、補助記憶部３９に記憶されたプログラムＰ３を読み出して実行することにより、種々の情報処理、制御処理等を行う。主記憶部３２は、ＲＡＭ等の一時記憶領域であり、制御部３１が演算処理を実行するために必要なデータを一時的に記憶する。通信部３３は、通信に関する処理を行うための通信モジュールであり、外部と情報の送受信を行う。表示部３４は、液晶ディスプレイ等の表示画面であり、画像を表示する。

　入力部３５は、タッチパネル等の操作インターフェイスであり、ユーザから操作入力を受け付ける。音声出力部３６はスピーカであり、音声を出力する。音声入力部３７はマイクであり、ユーザから音声の入力を受け付ける。撮像部３８は、ＣＭＯＳ等の撮像素子を備えたカメラであり、画像を撮像する。補助記憶部３９は、ハードディスク、大容量メモリ等の不揮発性記憶領域であり、制御部３１が処理を実行するために必要なプログラムＰ３、その他のデータを記憶している。

　なお、スピーカ端末３は、ＣＤ－ＲＯＭ等の可搬型記憶媒体２ａを読み取る読取部を備え、可搬型記憶媒体３ａからプログラムＰ３を読み取って実行するようにしても良い。あるいはスピーカ端末３は、半導体メモリ３ｂからプログラムＰ３を読み込んでも良い。

　図５は、実施の形態１の概要を示す説明図である。図５に基づき、本実施の形態の概要を説明する。

　上述の如く、サーバ１は、対象者を含む複数のユーザが参加するチャットグループへのメッセージ等から、対象者の状態が異常であるか否かを判定する。図５では、チャットグループにおける対話イメージを図示している。図５の右側は対象者からのメッセージを表し、左側は他のユーザ（例えば家族）及びシステム（サーバ１）からのメッセージを表す。なお、対象者はテキスト入力、または音声認識機能を利用して、音声によりメッセージを入力することもできる。

　サーバ１は、対象者が入力した音声をテキストに変換し、変換したテキストから異常箇所を検出する。図５の例では、他のユーザからのメッセージ「今日はどこに行ったの？」に対し、サーバ１が対象者の発話音声をテキスト「今日はとうえんに行ったよ」に変換した場合を図示している。この場合、サーバ１は、当該テキストから異常箇所「とうえん」を検出する。

　具体的な異常箇所の検出方法は特に限定されないが、例えばサーバ１は、形態素解析を行ってテキストを複数の文字列（単語）に分割し、多数の単語を格納した単語辞書（データベース不図示）を参照して、各文字列を単語辞書の各単語と比較する。なお、本実施の形態ではテキストの分割単位を単語とするが、単語よりも長い単位（例えば文節）で分割してもよく、単語よりも短い単位で分割してもよい。サーバ１は、単語辞書に格納されていない文字列を異常箇所として検出する。なお、例えばサーバ１は、出現頻度が低い単語（例えば常用語以外の単語）を単語辞書で規定しておき、出現頻度が低い単語を異常箇所として検出するなどしてもよい。

　また、サーバ１は、対象者が入力した音声に係るテキストを記憶しておき、過去のテキストに基づいて異常箇所を検出してもよい。例えばサーバ１は、形態素解析によりテキストを分割して得た文字列を新たな単語として単語辞書に格納（登録）し、対象者毎に単語辞書を構築する。そしてサーバ１は、対象者から音声の入力を受け付けてテキストに変換した場合に、当該対象者に対応する単語辞書を参照して異常箇所を検出する。これにより、対象者の発言の傾向を考慮して、異常箇所の検出精度を向上させることができる。

　なお、上記では単語辞書を用いて異常箇所を検出したが、異常箇所の検出方法はこれに限定されるものではない。例えばサーバ１は、テキストの構文解析、意味解析等も行って異常箇所を検出してもよい。また、検出方法はルールベースに限定されず、例えばサーバ１は、テキストを入力した場合に異常箇所を検出するよう学習済みの機械学習モデル（例えばニューラルネットワーク）を用意しておき、発話音声を変換したテキストを当該モデルに入力して異常箇所を検出してもよい。このように、異常箇所の検出方法は特に限定されない。

　異常箇所を検出した場合、サーバ１は、異常箇所を聞き返す疑問文を生成して対象者の携帯端末２に出力する。当該疑問文は、６Ｗ３Ｈ（Ｗｈｏ、Ｗｈｏｍ、Ｗｈｅｎ、Ｗｈｅｒｅ、Ｗｈａｔ、Ｗｈｙ、Ｈｏｗ、Ｈｏｗ　ｍａｎｙ、Ｈｏｗ　Ｍｕｃｈ）のいずれかの形式とすると好適である。サーバ１は、異常箇所に対応する文字列を６Ｗ３Ｈのいずれかの形式の疑問文のテンプレートに当てはめて、疑問文を生成する。サーバ１は、チャットグループ内のメッセージとして疑問文を出力し、携帯端末２に表示させる。なお、例えばサーバ１は、疑問文を音声に変換して携帯端末２に出力してもよい。

　サーバ１は、上記の疑問文に対する回答の入力を対象者から受け付ける。当該回答はメッセージの入力時と同様に、音声で入力を受け付ける。サーバ１は、入力された回答音声をテキストに変換し、対象者の状態が異常であるか否か、具体的には脳機能障害の可能性があるか否かを判定する。

　図５では回答例としてパターン１～３を図示している。パターン１の場合、正しい単語「公園（こうえん）」を音声から認識したため、サーバ１は、対象者の状態が正常であるものと判定する。一方、パターン２の場合、異常箇所「とうえん」を音声から再度認識したため、サーバ１は、対象者の状態が異常であると判定する。また、パターン３の場合、「とうえん（桃園）」という文字列が含まれるものの、前後の文脈から見て正しい文章を音声から認識したため、サーバ１は、対象者の状態が正常であるものと判定する。

　このように、サーバ１は、疑問文への回答から対象者の状態を判定する。この場合にサーバ１は、音声以外のデータから対象者の状態を判定してもよい。例えば携帯端末２は、上記の疑問文に対する回答入力時の対象者を撮像し、サーバ１は、撮像画像（例えば動画像）から対象者の状態を判定する。

　具体的には、サーバ１は、画像から対象者の顔を認識し、顔の左右の非対称性から対象者の状態を判定する。例えば脳梗塞、脳出血等によって脳機能障害が生じた場合、顔の左右で動きが異なる、片側が下がる、片側に歪みが生じるなど、顔の左右で非対称な状態及び動きが観察される。サーバ１は、画像中の顔領域を左右の２つの領域に分割し、各領域の状態（目、口の端などの各特徴点の座標）及び動き（特徴点の移動）を特定して、顔の左右の状態及び／又は動きが非対称であるか否かを判定する。非対称であると判定した場合、サーバ１は、対象者の状態が異常と判定する。

　なお、上記では疑問文に対する回答入力時に対象者を撮像するものとしたが、当初のメッセージ（異常箇所を検出したメッセージ）の音声入力時に対象者を撮像し、当該メッセージ（音声）の入力時の画像から顔の左右の非対称性を判定してもよい。すなわち、画像の撮像時点は疑問文への回答入力時に限定されず、メッセージの音声入力時であってもよい。

　また、本実施の形態では画像及び音声を組み合わせて対象者の異常を判定するものとするが、音声（テキスト）のみから対象者の異常を判定してもよい。

　上述の如く、サーバ１は、対象者がチャットグループへのメッセージとして入力した音声のテキストから、脳機能障害の可能性が疑われる異常箇所を検出し、異常箇所を聞き返して、疑問文への回答音声、及び／又は回答入力時の画像から対象者の状態を判定する。

　なお、上記では対象者が他のユーザとグループチャットを行う場合を一例に説明を行ったが、本実施の形態はこれに限定されるものではない。例えばサーバ１は、所定の対話エンジンに基づいて実現されるチャットボットと対象者が対話する際の入力音声から異常箇所を検出してもよい。

　チャットボットは、スマートフォン等の携帯端末２で音声の入出力を行うものであってもよいが、対象者の自宅等に設置されているスピーカ端末３（スマートスピーカ）で音声の入出力を行うものであってもよい。ここではスピーカ端末３が対象者から音声の入力を受け付け、応答音声を出力するものとして説明する。

　スピーカ端末３は、例えば日々の挨拶（「おはよう」等）、情報の出力要求（例えば今日の天気、予定等）、デバイス（家電等）の操作要求など、種々の音声の入力を受け付ける。スピーカ端末３は、これらの入力音声に対し種々の情報処理（例えば挨拶が入力されたら挨拶の応答音声を出力する、デバイス操作の音声が入力されたらデバイスの操作信号を出力する、など）を行う。サーバ１は、スピーカ端末３に入力された音声を取得してテキストに変換し、異常箇所を検出する。異常箇所の検出方法は上記と同様である。

　また、サーバ１は、スピーカ端末３を介してシステム側から対象者に呼びかけを行い、音声の入力を受け付けるようにしてもよい。例えばサーバ１は、所定の事項を問いかける音声（「今日の天気は？」など）を一定期間毎にスピーカ端末３に出力し、対象者から回答の音声入力を受け付ける。これにより、例えば対象者が独居高齢者である場合に、定期的に会話するよう促すことができると同時に、会話内容から対象者の異常を検知することができる。

　このように、サーバ１は、チャットボットとの対話音声から異常箇所を検出してもよい。すなわち、異常箇所の検出対象とする音声は他のユーザへのメッセージに限定されず、任意の発話音声であってよい。

　図６は、メッセージの表示画面例を示す説明図である。図６では、異常箇所が検出されたメッセージ（テキスト）がグループチャットに表示される様子を図示している。具体的には、図６では、対象者とメッセージを交換する他のユーザ（家族等）の携帯端末２が表示するチャット画面を図示している。図６では、対象者及びシステムからのメッセージを左側に、他のユーザからのメッセージを右側に図示している。

　サーバ１は、対象者のメッセージから異常箇所を検出した場合、異常箇所に対応する文字列を、他の文字列と異なる表示態様で表示させる。例えばサーバ１は、異常箇所に対応する文字列の表示色を変更すると共に、当該異常箇所の背景色を変更（ハイライト）する。なお、図６では図示の便宜上、文字列の表示色が変更されている様子を太字で、背景色が変更されている様子をハッチングで図示している。また、サーバ１は、システム側（サーバ１）から出力した疑問文と、当該疑問文に対する対象者の回答とを併せて表示させる。

　また、サーバ１は、対象者のメッセージ中の異常箇所に対応してオブジェクト６１を表示させる。オブジェクト６１は、異常箇所に対応する文字列を示す表示態様の一例であってもよく、対象者が入力した音声を再生させるためのアイコンであってもよい。オブジェクト６１への操作入力を受け付けた場合、サーバ１は、入力音声を携帯端末２に出力し、再生させる。これにより、他のユーザ（家族等）は入力音声を聞いて対象者の状態を確認することができる。なお、サーバ１は、異常箇所を検出した当初の音声だけでなく、その後の疑問文に対する回答音声も再生可能としてもよい。

　さらにサーバ１は、対象者に脳機能障害の可能性があると判定した場合、判定結果を他のユーザに通知する。例えば図６に示すように、サーバ１は、対象者に脳機能障害の可能性がある旨のコメント（情報）を出力して携帯端末２に表示させる。具体的には、サーバ１は、医療機関での受診を促すと共に、脳機能障害であるか否かを検査するためのテストの実施を促すコメントを表示させる。例えばサーバ１は、当該コメント中にテストの実施又は不実施を選択するためのボタンを表示させ、「テストする」のボタンへの操作入力を受け付けた場合、対象者の携帯端末２（あるいは他のユーザの携帯端末２）にテストデータを出力する。テストデータは、例えば足し算、引き算などの計算テスト、写真に写っている物体を当てるテストなどであるが、特に限定されない。

　なお、サーバ１は、対象者に関係する他のユーザ（家族等）だけでなく、対象者本人に脳機能障害の可能性がある旨の判定結果を通知してもよいことは勿論である。

　以上より、対象者の普段の対話音声（チャットグループへのメッセージ、チャットボットへの入力音声など）から異常箇所を検出することで、対象者の異常を簡易に検知して医療機関での受診等を促すことができる。

　なお、サーバ１は、異常箇所を検出したメッセージを表示させる際に、疑問文への回答、及び／又は回答入力時の画像から判定した対象者の状態に応じて、異常箇所の表示態様を変更してもよい。例えばサーバ１は、疑問文への回答音声から対象者の状態が異常と判定した場合、異常箇所に対応する文字列を赤色で表示させる。一方、メッセージから異常箇所を検出したものの、疑問文への回答音声から対象者の状態が正常と判定した場合、サーバ１は、異常箇所に対応する文字列を青色で表示させる。これにより、単純な言い間違いをした場合など、異常度合いに軽重を付けて他のユーザに異常箇所を提示することができる。

　図７は、サーバ１が実行する処理手順を示すフローチャートである。図７に基づき、サーバ１が実行する処理内容について説明する。
　サーバ１の制御部１１は、対象者から音声の入力を受け付ける（ステップＳ１１）。上述の如く、当該音声は例えば対象者を含む複数のユーザが参加するチャットグループへのメッセージであるが、所定の対話エンジンに基づくチャットボットへの入力音声であってもよい。制御部１１は、入力された音声をテキストに変換する（ステップＳ１２）。制御部１１は、変換したテキストから異常箇所を検出する（ステップＳ１３）。例えば制御部１１は、テキストの形態素解析を行って複数の文字列に分割し、所定の単語辞書に格納されている各単語と各文字列を比較して、異常箇所に対応する文字列を検出する。

　制御部１１は、テキストから異常箇所が検出された否かを判定する（ステップＳ１４）。異常箇所が検出されなかったと判定した場合（Ｓ１４：ＮＯ）、制御部１１は、変換したテキストを対象者のメッセージとして他のユーザの携帯端末２に出力し、表示させる（ステップＳ１５）。異常箇所が検出されたと判定した場合（Ｓ１４：ＹＥＳ）、制御部１１は、異常箇所に対応する文字列を聞き返す疑問文を対象者の携帯端末２に出力する（ステップＳ１６）。制御部１１は、疑問文に対する回答の音声入力を対象者から受け付ける（ステップＳ１７）。また、制御部１１は、回答の入力時の対象者を撮像した画像を携帯端末２から取得する（ステップＳ１８）。

　制御部１１は、ステップＳ１７で入力された音声、及び／又はステップＳ１８で取得した画像に基づき、対象者の状態が異常であるか否かを判定する（ステップＳ１９）。具体的には、制御部１１は、対象者に脳機能障害の可能性があるか否かを判定する。例えば制御部１１は、ステップＳ１４と同じく入力音声をテキストに変換して複数の文字列に分割し、単語辞書の各単語と比較して、異常箇所に対応する文字列があるか否かを判定する。また、制御部１１は、ステップＳ１８で撮像した画像から対象者の顔を認識し、顔の左右の状態及び／又は動きが非対称であるか否かを判定する。異常でないと判定した場合（Ｓ１９：ＮＯ）、制御部１１は処理をステップＳ１５に移行する。

　異常であると判定した場合（Ｓ１９：ＹＥＳ）、制御部１１は、異常箇所に対応する文字列を他の文字列と異なる表示態様で示すメッセージ（テキスト）を、他のユーザの携帯端末２に表示させる（ステップＳ２０）。具体的には上述の如く、制御部１１は、異常箇所に対応する文字列の表示色を変更し、かつ、当該文字列の背景色を変更して表示させる。また、制御部１１は、対象者が入力した音声を再生させるためのオブジェクト６１を表示させる。

　制御部１１は、オブジェクト６１への操作入力に応じて、入力音声を再生させるか否かを判定する（ステップＳ２１）。入力音声を再生させると判定した場合（Ｓ２１：ＹＥＳ）、制御部１１は、対象者が入力した音声を他のユーザの携帯端末２に再生させる（ステップＳ２２）。ステップＳ２２の処理を実行後、又はステップＳ２１でＮＯの場合、制御部１１は一連の処理を終了する。

　なお、本実施の形態では説明の便宜上、入力音声のテキスト変換、異常箇所の検出等の処理をサーバ１が実行するものとしたが、一部又は全部の処理をローカルの携帯端末２（又はスピーカ端末３）が実行してもよい。例えば携帯端末２がテキスト変換を行い、サーバ１が異常箇所の検出を行うようにしてもよい。このように、一連の処理の処理主体は特に限定されない。

　以上より、本実施の形態１によれば、対象者が入力した音声をテキストに変換して異常箇所を検出し、異常箇所に対応する文字列を他の文字列と異なる表示態様で表示し、他のユーザに提示する。これにより、他のユーザは対象者の異常を容易に把握することができる。

　また、本実施の形態１によれば、チャットグループでの対話メッセージ、チャットボットへの入力音声など、対象者の普段の対話音声から対象者の異常を検知することができる。

　また、本実施の形態１によれば、対象者の過去の入力音声に係るテキストを参照することで、異常箇所の検出精度を向上させることができる。

　また、本実施の形態１によれば、異常箇所を検出した場合に異常箇所を聞き返す疑問文を出力して回答の入力を受け付けることで、対象者の状態が異常であるか否か、より好適に判定することができる。

　また、本実施の形態１によれば、回答入力時の対象者を撮像した画像から顔の左右の非対称性を判定することで、脳機能障害に関わる対象者の異常をより好適に判定することができる。

　また、本実施の形態１によれば、疑問文への回答、及び／又は対象者を撮像した画像から判定される対象者の状態に応じて、異常箇所に対応する文字列の表示態様を変更することで、異常度合いに軽重を付けて他のユーザに異常箇所を提示することができる。

　また、本実施の形態１によれば、対象者が入力した音声を再生することで、他のユーザは対象者の状態を容易に把握することができる。

（実施の形態２）
　実施の形態１では、対象者が入力した音声から異常箇所を検出する形態について説明した。本実施の形態では、異常箇所が検出された場合に、音声及びテキストによる問いかけを行って脳機能障害の可能性を推定する形態について述べる。なお、実施の形態１と重複する内容については同一の符号を付して説明を省略する。

　図８は、実施の形態２に係るサーバ１の構成例を示すブロック図である。本実施の形態に係るサーバ１の補助記憶部１４は、回答履歴ＤＢ１４１を記憶している。回答履歴ＤＢ１４１は、後述する問いかけへの対象者の回答と、当該回答に基づく脳機能障害の可能性の推定結果とを格納するデータベースである。

　図９は、回答履歴ＤＢ１４１のレコードレイアウトの一例を示す説明図である。回答履歴ＤＢ１４１は、日時列、対象者列、音声列、テキスト列、反応列、推定結果列、画像列を含む。日時列は、問いかけに対して対象者が回答した回答日時を記憶している。対象者列、音声列、テキスト列、反応列、推定結果列、及び画像列はそれぞれ、回答日時と対応付けて、回答した対象者名、音声による問いかけ（後述の第１の問いかけ）への回答の正誤、テキストによる問いかけ（後述の第２の問いかけ）への回答の正誤、問いかけに対する対象者の反応、回答に基づいて推定した脳機能障害の可能性の推定結果、及び回答時に対象者を撮像した撮像画像（例えば動画）を記憶している。反応列には、後述するように対象者の撮像画像から判定される顔の左右の対称性、指又は視線方向の動き、表情などの判定結果のほか、問いかけを出力してから回答が入力されるまでの回答時間などが記憶されている。

　図１０Ａ及び図１０Ｂは、スピーカ端末３の表示画面例を示す説明図である。図１１Ａ及び図１１Ｂは、実施の形態２に係るメッセージの表示画面例を示す説明図である。図１０Ａ、図１０Ｂ、図１１Ａ及び図１１Ｂに基づき、本実施の形態の概要を説明する。

　実施の形態１で説明したように、サーバ１は、対象者が入力した音声から異常箇所を検出し、他のユーザに提示する。本実施の形態でサーバ１は、異常箇所が検出された場合に、音声及びテキストによる問いかけを対象者に行う。そしてサーバ１は、問いかけに対する対象者の回答に基づき、脳機能障害の可能性を推定する。

　具体的には、サーバ１は、音声による第１の問いかけと、テキストによる第２の問いかけとをスピーカ端末３に出力し、各問いかけに対応する音声出力、及び画像表示を行わせる。図１０Ａ、Ｂではそれぞれ、第１の問いかけを行う場合の画面例と、第２の問いかけを行う場合の画面例とを図示している。サーバ１は、各問いかけについて回答の選択肢をスピーカ端末３に表示させ、表示された選択肢からいずれかを選択する画面操作を受け付けることで、回答の入力を受け付ける。

　なお、本実施の形態ではスピーカ端末３を介して問いかけを行うものとするが、携帯端末２を介して問いかけを行ってもよい。

　図１０Ａ及び図１０Ｂについて説明する前に、図１１Ａに基づいて説明を行う。図１１Ａでは図６と同様に、他のユーザの携帯端末２が表示するチャット画面を図示している。対象者が入力した音声に係るテキストから異常箇所が検出された場合、携帯端末２は実施の形態１と同様に、異常箇所が検出された対象者のメッセージを表示する。

　本実施の形態でサーバ１は、異常箇所を検出した場合、当該画面を介して対象者へのメッセージの入力を他のユーザから受け付ける。メッセージ内容は特に限定されないが、好適には画像を含むメッセージの入力を受け付けると好適である。図１１Ａの例では、対象者へのメッセージとして、対象者の近親者（例えば孫）の画像を含むメッセージが入力されている。

　サーバ１は、他のユーザから入力されたメッセージを解析し、第１及び第２の問いかけを生成するためのデータを抽出する。例えばサーバ１は、テキスト中の固有名詞（例えば人名、図１１Ａ及び図１１Ｂの例では孫の氏名「太郎」）、及び画像を抽出する。サーバ１は、抽出したデータに基づいて第１及び第２の問いかけを生成し、スピーカ端末３に出力する。

　図１０Ａ及び図１０Ｂに戻って説明を続ける。サーバ１はまず、音声による第１の問いかけを生成してスピーカ端末３に出力する。例えばサーバ１は、図１０Ａに示すように、他のユーザのメッセージから抽出した画像と、当該画像と異なる別の画像とをスピーカ端末３に出力して表示させると共に、いずれかの画像を選択する画面操作を促す音声を出力する。

　例えばサーバ１は、メッセージから抽出した画像から人物（孫）が写る画像領域を抽出してサムネイル画像を生成し、スピーカ端末３に表示させる。また、サーバ１は、予め用意されている無関係の画像を別の選択肢として表示させる。なお、図１０Ａの例では表示画像が２つであるが、３つ以上であってもよい。また、本実施の形態では他のユーザが入力した画像を表示させるものとするが、例えば対象者毎に予め画像をデータベースに用意（登録）しておき、データベースに用意された画像を表示させてもよい。サーバ１は、メッセージから抽出した固有名詞（孫の氏名）をテンプレートの質問文に当てはめて、固有名詞に対応する人物の画像の選択を促す音声を生成し、スピーカ端末３に出力する。

　サーバ１は、第１の問いかけに対する回答の入力を受け付ける。具体的には、サーバ１は、スピーカ端末３に表示されている複数の画像からいずれかを選択する画面操作を受け付ける。なお、回答の入力は音声等で受け付けてもよい。

　第１の問いかけへの回答の入力を受け付けた場合、サーバ１は、テキストによる第２の問いかけを出力する。例えばサーバ１は、図１０Ｂに示すように、画像（写真）を閲覧するか否かを問う質問文を表示させると共に、閲覧するか否かを選択するためのオブジェクト（ボタン）を表示させる。なお、図１０Ｂでは図１０Ａの画面において正解の画像（孫の画像）が選択された場合を図示しており、この場合は質問文として「写真を見ますか？」が表示されるが、図１０Ａの画面において不正解の画像が選択された場合、質問文として「写真を見ませんか？」と表示される。

　サーバ１は、「写真を見る」又は「写真を見ない」の２つの選択肢からいずれかを選択する画面操作を受け付ける。「写真を見る」が選択された場合、サーバ１は、他のユーザのメッセージをスピーカ端末３に出力する。具体的には、サーバ１は、他のユーザが入力した画像をスピーカ端末３に表示させる。なお、画像以外のテキストも表示してもよいことは勿論である。「写真を見ない」が選択された場合（又はいずれのボタンも操作されない場合）、サーバ１は所定時間処理を待機し、所定時間が経過した場合はメッセージを表示せずに一連の処理を終了する。

　サーバ１は、第１及び第２の問いかけへの回答が正答であるか否かを判定する。そしてサーバ１は、第１及び第２の問いかけへの回答の正誤に基づき、脳機能障害の可能性を推定する。具体的には、サーバ１は、各回答の正誤の組み合わせに基づき、脳機能障害の可能性があるか否かを推定すると共に、可能性がある脳機能障害の種類を推定する。

　推定対象とする脳機能障害は特に限定されないが、本実施の形態では、失語症と認知症（又は脳梗塞等による一過性の認知機能の低下）とを推定対象とする。サーバ１は、各回答の正誤の組み合わせに基づき、失語症の可能性があるか否か、及び認知症の可能性があるか否かを推定する。

　具体的には、サーバ１は、音声による第１の問いかけへの回答が誤答であり、かつ、テキストによる第２の問いかけへの回答が正答である場合、失語症の可能性があると推定する。また、サーバ１は、第１及び第２の問いかけへの回答が双方とも誤答である場合、認知症の可能性があると推定する。なお、第１及び第２の問いかけの双方が正答である場合は正常であると推定し、第２の問いかけのみ誤答である場合は偶発的な回答ミスとして処理する。

　失語症及び認知症は混同されることが多いが、失語症は言語能力に支障を来たす障害であり、認知症は非言語能力を含む認知能力一般に支障を来たす障害である。いずれの症状であるかに応じて、音声及びテキストへの反応が異なる。そこで本実施の形態では、音声による第１の問いかけと、テキストによる第２の問いかけとを行い、各問いかけへの回答の正誤の組み合わせに応じて失語症及び認知症を識別する。

　サーバ１は、第１及び第２の問いかけへの回答のほかに、回答時の対象者を撮像した画像に基づいて脳機能障害の可能性を推定する。例えばスピーカ端末３は、第１の問いかけ及び／又は第２の問いかけを出力する場合に、同時に対象者を撮像している。サーバ１は、スピーカ端末３から各問いかけへの回答を取得すると共に、回答時の画像を取得して推定を行う。

　例えばサーバ１は、実施の形態１と同様に、対象者の顔の左右の非対称性に基づき、脳機能障害の可能性を推定する。すなわち、サーバ１は、画像中の顔領域を左右の２つの領域に分割し、各領域の状態（目、口の端などの各特徴点の座標）及び動き（特徴点の移動）を特定して、顔の左右の状態及び／又は動きが非対称であるか否かを判定する。これによりサーバ１は、脳梗塞等によって脳機能障害が生じている事態を検知することができる。

　本実施の形態でサーバ１は、顔の左右の非対称性以外に、対象者が回答に困窮している状態であるか否かを画像から判定することで、脳機能障害の可能性を推定する。具体的には以下のように、サーバ１は、困窮状態に当てはまる特定の事象を画像から検知する。

　例えばサーバ１は、画像から対象者の手（指）、又は対象者の視線方向を検知し、対象者の手又は視線方向の動きが特定の動きに該当するか否かを判定する。具体的には、サーバ１は、対象者が選択肢の選択を迷っているため、対象者の手又は視線方向が各選択肢（第１の問いかけでは画像、第２の問いかけではボタン）の間を行き来する動きを検知する。例えばブローカ失語の場合、複数の選択肢から正しい選択を行うよう口頭で命令した場合、命令内容の不理解のため回答に困窮し、選択肢を迷う事象が観察される。そこでサーバ１は、例えば音声による第１の問いかけへの回答時の画像から手又は視線方向を検知し、手又は視線方向が画像間を行き来しているか否かを判定することで、失語症の可能性を推定する。

　また、例えばサーバ１は、対象者の顔の表情を認識し、特定の表情（悩んでいる、焦っている、困っている等）に該当するか否かを判定してもよい。この場合でも上記と同様に、回答に困窮している状態であるか否かを判定することができる。

　また、例えばサーバ１は、画像から対象者の生体情報を推定することで、困窮状態を判定してもよい。生体情報は、例えば瞳孔の開き具合、脈拍、顔の温度（体温）、血流速度などである。サーバ１は、これらの生体情報を画像から推定し、生体情報の変化（例えば瞳孔が開く、脈拍が速くなる等）を検知することで、回答に困窮しているか状態か否かを判定する。

　上記では困窮状態であるか否かを画像から判定することにしたが、例えばサーバ１は、画像以外に、問いかけに対する回答時間に基づいて困窮状態であるか否かを判定してもよい。具体的には、サーバ１は、問いかけ（例えば第１の問いかけ）を出力してから回答が入力されるまでの回答時間を計測し、回答時間が所定の閾値以上であるか否かを判定する。これにより、困窮状態にあるため回答に時間が掛かる事態を検知することができる。

　サーバ１は、上記のように、第１及び第２の問いかけへの回答以外に、対象者を撮像した画像、及び／又は回答時間から脳機能障害の可能性を推定する。例えばサーバ１は、第１及び第２の問いかけへの回答が双方とも正答であり、対象者が正常であると推定した場合であっても、顔の左右の動き及び／又は状態が非対称である場合、あるいは困窮状態であると判定した場合は、脳機能障害の可能性があると推定する。または第１の問いかけへの回答が正答であり、かつ、第２の問いかけへの回答が誤答であり、対象者による偶発的な回答ミスとして処理した場合であっても、同様に顔の左右の動き及び／又は状態が非対称である場合、あるいは困窮状態であると判定した場合は、質問文を変えるなどをして問いかけを重ねる処理をしてもよい。

　サーバ１は、推定結果を他のユーザの携帯端末２に出力し、表示させる。図１１Ｂは、推定結果表示時のチャット画面を図示している。例えばサーバ１は、推定結果（判定結果）を示すテキストを表示させると共に、推定結果を数値化したスコアを表示させる。

　サーバ１は、第１の問いかけに対応する「音声」、第２の問いかけに対応する「テキスト」、並びに画像及び回答時間に対応する「反応」それぞれのスコアを算出し、携帯端末２に表示させる。スコアの算出方法は特に限定されないが、例えばサーバ１は、過去所定期間（例えば１週間）に行った第１及び第２の問いかけそれぞれの回答の正誤を集計し、音声認識能力及び文字認識能力をそれぞれ評価したスコア（例えば所定期間での正答率）を算出し、「音声」及び「テキスト」のスコアとして出力する。また、例えばサーバ１は、画像及び／又は回答時間から困窮状態の度合いを算出し、「反応」のスコアとして出力する。

　図１２は、推定結果表示時のチャット画面の他例を示す説明図である。図１２では、脳機能障害の可能性が高いと推定された場合のチャット画面を図示している。脳機能障害の可能性が高いと推定した場合、サーバ１は、推定結果を他のユーザの携帯端末２に通知してチャット画面に表示させる。

　具体的には、サーバ１は、図１１Ｂと同様に推定結果を数値化したスコアを表示させると共に、脳機能障害の可能性が高い旨のテキストを表示させる。例えばサーバ１は、図１２に示すように、可能性が高いと推定された脳機能障害の種類を示すと共に、医療機関での受診を促すコメントを表示する。

　なお、サーバ１は、対象者に関係する他のユーザ（家族等）だけでなく、対象者本人に脳機能障害の可能性がある旨の推定結果を通知してもよいことは勿論である。

　サーバ１はさらに、対象者の回答履歴を閲覧（確認）するためのリンク１２１をチャット画面に表示させる。リンク１２１は、対象者による過去の第１及び第２の問いかけへの回答、及び脳機能障害の可能性の推定結果の履歴を示す履歴情報を出力（表示）するためのオブジェクトであり、図１３の履歴画面に遷移するためのオブジェクトである。リンク１２１への操作入力を受け付けた場合、携帯端末２は、図１３の履歴画面に遷移する。

　なお、対象者の状態が正常と推定された場合（図１１Ｂ）でも履歴情報を閲覧可能としてもよい。また、チャット画面から遷移するだけではなく、履歴情報を何時でも閲覧可能としてもよいことは勿論である。

　図１３は、履歴画面の一例を示す説明図である。履歴画面は、第１及び第２の問いかけに対する対象者の回答の正誤、回答時に撮像した対象者の撮像画像、回答及び画像に基づく脳機能障害の推定結果など、一連の履歴情報を表示する表示画面である。サーバ１は、各種の履歴情報を回答履歴ＤＢ１４１に記憶しており、携帯端末２からの要求に応じて履歴情報を出力する。例えば履歴画面は、回答履歴表１３１、画像表示欄１３２、スコアグラフ１３３を含む。

　回答履歴表１３１は、過去の各時点における第１及び第２の問いかけ（「音声」及び「テキスト」）への回答の正誤、回答時の撮像画像等に基づき判定した対象者の困窮状態の度合い（「反応」のスコア）、並びに脳機能障害の推定結果（「判定」）を一覧で示す表である。また、回答履歴表１３１には各時点と対応付けて、撮像画像（動画）を再生するための再生ボタン１３１１が表示される。

　画像表示欄１３２は、第１及び／又は第２の問いかけへの回答時に対象者を撮像した画像を表示する表示欄である。再生ボタン１３１１への操作入力を受け付けた場合、携帯端末２は、対応する時点に撮像した画像（動画）を表示する。

　スコアグラフ１３３は、図１１Ｂ、図１２で例示した各スコアを時系列で示すグラフである。携帯端末２は、第１の問いかけへの回答の正誤に基づき音声認識能力を評価した「音声」、第２の問いかけへの回答の正誤に基づき文字認識能力を評価した「テキスト」、及び撮像画像等に基づき対象者の状態を評価した「反応」それぞれのスコアを示すグラフ（例えば折れ線グラフ）を表示し、対象者の変化をユーザに提示する。

　上述の如く、サーバ１は、対象者の発話音声から異常箇所を検出した場合に、第１及び第２の問いかけを出力し、各問いかけへの回答の正誤、及び回答時の画像等から脳機能障害の可能性を推定する。これにより、対象者の異常を早期に発見し、脳機能障害の分析を行うことができる。

　図１４及び図１５は、実施の形態２に係るサーバ１が実行する処理手順の一例を示すフローチャートである。ステップＳ２２の処理を実行後、又はステップＳ２１でＮＯの場合、サーバ１は以下の処理を実行する。
　サーバ１の制御部１１は、他のユーザから、画像を含むメッセージの入力を受け付ける（ステップＳ２３）。制御部１１は当該メッセージを解析し、メッセージに含まれる画像を抽出すると共に、テキスト中の固有名詞等を抽出する（ステップＳ２４）。

　制御部１１は、ステップＳ２４で解析したメッセージに基づき、音声による第１の問いかけをスピーカ端末３に出力する（ステップＳ２５）。例えば制御部１１は、画像の一部を抽出したサムネイル画像、及び当該画像と異なる別の画像を選択肢としてスピーカ端末３に表示させ、いずれかの画像を選択する画面操作を促す音声を出力する。制御部１１は、第１の問いかけに対する回答の入力を受け付ける（ステップＳ２６）。具体的には上述の如く、制御部１１は、表示された複数の画像（選択肢）からいずれかを選択する操作入力を受け付ける。

　制御部１１は、テキストによる第２の問いかけをスピーカ端末３に出力する（ステップＳ２７）。例えば制御部１１は、画像を閲覧するか否かを選択するためのボタンを選択肢として表示させると共に、ステップＳ２６で選択された画像を閲覧するか否かを問うテキストをスピーカ端末３に表示させる。制御部１１は、第２の問いかけに対する回答の入力を受け付ける（ステップＳ２８）。例えば制御部１１は、表示された複数のボタン（選択肢）からいずれかを選択する操作入力を受け付ける。

　制御部１１は、第２の問いかけへの回答が正答であるか否かを判定する（ステップＳ２９）。例えば制御部１１は、画像を閲覧する旨の選択入力を受け付けたか否かを判定する。正答であると判定した場合（Ｓ２９：ＹＥＳ）、制御部１１は、他のユーザからのメッセージ（画像）をスピーカ端末３に出力する（ステップＳ３０）。

　正答でないと判定した場合（Ｓ２９：ＮＯ）、制御部１１は、第２の問いかけを出力してから所定時間が経過したか否かを判定する（ステップＳ３１）。所定時間が経過していないと判定した場合（Ｓ３１：ＮＯ）、制御部１１は処理をステップＳ２９に戻す。ステップＳ３０の処理を実行後、又はステップＳ３１でＹＥＳの場合、制御部１１は、ステップＳ２６及び／又はステップＳ２８の回答時の対象者を撮像した画像をスピーカ端末３から取得する（ステップＳ３２）。

　制御部１１は、第１及び第２の問いかけへの回答、並びに回答時の対象者の画像及び／又は回答時間に基づき、対象者の脳機能障害の可能性を推定する（ステップＳ３３）。具体的には、制御部１１は、脳機能障害の可能性があるか否かを推定すると共に、脳機能障害の種類（失語症及び認知症）を推定する。例えば制御部１１は、第１の問いかけへの回答が誤答であり、かつ、第２の問いかけへの回答が正答である場合、失語症の可能性が高いと推定する。また、制御部１１は、第１及び第２の問いかけへの回答が双方とも誤答である場合、認知症の可能性が高いと推定する。

　さらに制御部１１は、回答時の対象者の画像から、顔の左右の状態及び／又は動きが非対称であるか否かを判定する。また、制御部１１は、対象者の画像及び／又は回答時間から、対象者が困窮状態にあるか否かを判定する。制御部１１は、第１及び第２の問いかけへの回答から正常であると推定される場合であっても、顔の左右の非対称性、及び／又は困窮状態の判定結果に応じて、脳機能障害の可能性があると推定する。制御部１１は、第１及び第２の問いかけへの回答の正誤、回答時の対象者の撮像画像、脳機能障害の可能性の推定結果等を回答履歴ＤＢ１４１に記憶する（ステップＳ３４）。

　制御部１１は、推定結果を他のユーザの携帯端末２に出力する（ステップＳ３５）。例えば制御部１１は、脳機能障害の可能性があるか否かの推定結果を表示させると共に、第１の問いかけ（音声）への回答、第２の問いかけ（テキスト）への回答、並びに回答時の対象者の画像及び／又は回答時間に基づいて対象者を評価したスコアを算出し、携帯端末２に表示させる。

　制御部１１は、対象者による過去の第１及び第２の問いかけへの回答、及び回答に基づく脳機能障害の可能性の推定結果の履歴を示す履歴情報を出力するか否かを判定する（ステップＳ３６）。例えば制御部１１は、図１２で例示したチャット画面においてリンク１２１への操作入力を受け付けたか否かを判定する。履歴情報を出力すると判定した場合（Ｓ３６：ＹＥＳ）、制御部１１は、他のユーザの携帯端末２に履歴情報を出力し、表示させる（ステップＳ３７）。具体的には上述の如く、制御部１１は、過去の各時点における第１及び第２の問いかけへの回答、脳機能障害に係る推定結果のほか、対象者を撮像した画像などを履歴情報として表示させる。ステップＳ３６の処理を実行後、又はステップＳ３６でＮＯの場合、制御部１１は一連の処理を終了する。

　なお、上記では他のユーザからのメッセージに入力を受けて第１及び第２の問いかけを出力するものとしたが、本実施の形態はこれに限定されるものではない。例えばサーバ１は、他のユーザのメッセージの有無に関わらず、一定期間毎に第１及び第２の問いかけをスピーカ端末３に出力して回答の入力を受け付けるようにしてもよい。この場合、サーバ１は問いかけ用の画像（上記の例では孫の画像）等を予めデータベースに用意しておき、当該画像等を用いて第１及び第２の問いかけを生成すればよい。このように、第１及び第２の問いかけは他のユーザからのメッセージの有無に関わらず出力されてもよい。

　以上より、本実施の形態２によれば、音声による第１の問いかけと、テキストによる第２の問いかけとを行うことで、脳機能障害の可能性を好適に推定することができる。

　また、本実施の形態２によれば、各問いかけへの回答の正誤の組み合わせに基づき、脳機能障害の種類（好適には失語症及び認知症）を推定することができる。

　また、本実施の形態２によれば、スピーカ端末３に回答の選択肢を表示し、画面操作により回答の入力を受け付けることで、脳機能障害により認識能力が低下している場合でも、好適に回答の入力を促すことができる。

　また、本実施の形態２によれば、対象者の対話音声から異常箇所を検出した場合に問いかけを開始する。これにより、脳機能障害を早期に発見することができる。

　また、本実施の形態２によれば、対象者の対話相手である他のユーザのメッセージから第１及び第２の問いかけを生成する。これにより、対象者に応じた問いかけを行うことができる。

　また、本実施の形態２によれば、回答自体のほかに、回答時の対象者の画像、及び／又は回答時間に基づいて脳機能障害の可能性を推定する。これにより、脳梗塞等が生じた状態（顔の左右の非対称性）、あるいは回答に困窮している状態を検知することができ、より好適に脳機能障害の可能性を推定することができる。

　今回開示された実施の形態はすべての点で例示であって、制限的なものではないと考えられるべきである。本発明の範囲は、上記した意味ではなく、請求の範囲によって示され、請求の範囲と均等の意味及び範囲内でのすべての変更が含まれることが意図される。

　１　　　サーバ（情報処理装置）
　１１　　制御部
　１２　　主記憶部
　１３　　通信部
　１４　　補助記憶部
　Ｐ１　　プログラム
　１４１　回答履歴ＤＢ
　２　　　携帯端末
　２１　　制御部
　２２　　主記憶部
　２３　　通信部
　２４　　表示部
　２５　　入力部
　２６　　音声出力部
　２７　　音声入力部
　２８　　撮像部
　２９　　補助記憶部
　Ｐ２　　プログラム
　３　　　スピーカ端末
　３１　　制御部
　３２　　主記憶部
　３３　　通信部
　３４　　表示部
　３５　　入力部
　３６　　音声出力部
　３７　　音声入力部
　３８　　撮像部
　３９　　補助記憶部
　Ｐ３　　プログラム

Claims

　音声による第１の問いかけを出力し、
　前記第１の問いかけに対する回答を対象者から受け付け、
　テキストによる第２の問いかけを出力し、
　前記第２の問いかけに対する回答を前記対象者から受け付け、
　前記第１及び第２の問いかけへの回答が正答であるか否かを判定し、
　前記第１及び第２の問いかけへの回答の正誤に基づき、前記対象者の脳機能障害の可能性を推定する
　処理をコンピュータに実行させるプログラム。
　前記第１及び第２の問いかけそれぞれの回答の正誤の組み合わせに応じて、前記脳機能障害の可能性と、前記脳機能障害の種類とを推定する
　請求項１に記載のプログラム。
　前記第１の問いかけへの回答が誤答であり、かつ、前記第２の問いかけへの回答が正答である場合、失語症の可能性があると推定し、
　前記第１及び第２の問いかけへの回答の双方が誤答である場合、認知症の可能性があると推定する
　請求項２に記載のプログラム。
　前記第１及び第２の問いかけへの回答の選択肢を表示部に表示し、
　表示された選択肢からいずれかを選択する画面操作を受け付けることで、前記第１及び第２の問いかけへの回答の入力を受け付ける
　請求項１～３のいずれか１項に記載のプログラム。
　前記対象者から入力された音声を変換したテキストを取得し、
　前記テキストから異常箇所を検出し、
　前記異常箇所を検出した場合、前記第１及び第２の問いかけを出力する
　請求項１～４のいずれか１項に記載のプログラム。
　前記対象者を含む複数のユーザが参加するチャットグループへのメッセージの音声入力を前記対象者から受け付け、
　前記メッセージを前記テキストに変換して前記異常箇所を検出し、
　前記異常箇所を検出した場合、前記異常箇所に対応する文字列を他の文字列と異なる表示態様で示す前記テキストを他のユーザの端末装置に表示する
　請求項５に記載のプログラム。
　前記テキストを表示した前記他のユーザの端末装置からメッセージの入力を受け付け、
　前記他のユーザのメッセージに基づいて前記第１及び第２の問いかけを生成し、
　生成した前記第１及び第２の問いかけを出力する
　請求項６に記載のプログラム。
　前記第１又は第２の問いかけへの回答時における前記対象者を撮像した画像を取得し、
　前記第１及び第２の問いかけへの回答の正誤と、前記画像とに基づいて前記脳機能障害の可能性を推定する
　請求項１～７のいずれか１項に記載のプログラム。
　前記画像に基づき、前記対象者の顔の左右の動き又は状態が非対称であるか否かを判定し、
　非対称であると判定した場合、前記脳機能障害の可能性があると推定する
　請求項８に記載のプログラム。
　前記画像に基づき、前記対象者が回答に困窮している状態であるか否かを判定し、
　回答に困窮している状態であると判定した場合、前記脳機能障害の可能性があると推定する
　請求項８又は９に記載のプログラム。
　前記第１又は第２の問いかけを出力してから回答の入力を受け付けるまでの回答時間を計測し、
　前記第１及び第２の問いかけへの回答の正誤と、前記回答時間とに基づいて前記脳機能障害の可能性を推定する
　請求項１～１０のいずれか１項に記載のプログラム。
　前記脳機能障害の可能性の推定結果を、前記対象者又は該対象者に関係する他のユーザに通知する
　請求項１～１１のいずれか１項に記載のプログラム。
　前記第１及び第２の問いかけへの回答と、該回答の正誤に基づく前記脳機能障害の推定結果とを記憶部に記憶し、
　前記回答及び推定結果の履歴を示す履歴情報を出力する
　請求項１～１２のいずれか１項に記載のプログラム。
　音声による第１の問いかけを出力する第１出力部と、
　前記第１の問いかけに対する回答を対象者から受け付ける第１受付部と、
　テキストによる第２の問いかけを出力する第２出力部と、
　前記第２の問いかけに対する回答を前記対象者から受け付ける第２受付部と、
　前記第１及び第２の問いかけへの回答が正答であるか否かを判定する判定部と、
　前記第１及び第２の問いかけへの回答の正誤に基づき、前記対象者の脳機能障害の可能性を推定する推定部と
　を備える情報処理装置。
　音声による第１の問いかけを出力し、
　前記第１の問いかけに対する回答を対象者から受け付け、
　テキストによる第２の問いかけを出力し、
　前記第２の問いかけに対する回答を前記対象者から受け付け、
　前記第１及び第２の問いかけへの回答が正答であるか否かを判定し、
　前記第１及び第２の問いかけへの回答の正誤に基づき、前記対象者の脳機能障害の可能性を推定する
　処理をコンピュータが実行する情報処理方法。