JPWO2018047251A1

JPWO2018047251A1 - データ分析システム、データ分析端末、及び、データ分析方法

Info

Publication number: JPWO2018047251A1
Application number: JP2018537917A
Authority: JP
Inventors: 恵木　正史; 正史恵木; 卓成桂; 大輔福井; 美奈吉村
Original assignee: Hitachi High Technologies Corp
Current assignee: Hitachi High Tech Corp
Priority date: 2016-09-07
Filing date: 2016-09-07
Publication date: 2019-06-24
Also published as: WO2018047251A1

Abstract

標本に関する項目毎の測定データを含む測定情報の項目に基づいて、項目の組み合わせの異なる複数のレシピ情報を生成し、測定データに対して各レシピ情報を適用し、各レシピ情報に対応する標本データを生成し、標本データに適用する統計検定手法を当該標本データの構成に基づいて決定し、標本データに対してその決定した統計検定手法を適用し、その標本データの生成に用いられたレシピ情報に関する統計的有意性を示す検定スコアを算出し、その算出した検定スコアと当該検定スコアに関するレシピ情報とを対応付けて表示するデータ分析方法。

Description

本発明は、概して、データの分析に関する。

様々なセンシングデバイスを用いて様々な情報を測定及び収集し、その収集したビッグデータを業務に活用する動きが活発化している。近年、脳や身体の変化もその測定の対象に含まれつつある。自動車業界及び電機業界では、人々の脳を測定して感性に関する情報を抽出し、乗り心地や爽快感などといった感性に訴える商品を開発することが進められている。ライフサイエンス及び臨床医学分野では、様々なウェアラブルセンサやバイオセンサを用いて人々を測定及び分析することにより、疾病の発生リスクを軽減する取り組みが進められている。

特許文献１には、データの属性（カラム）の組み合せを全探索しながら、属性間の共起関係を検定し、統計的に有意な共起関係を自動抽出することが開示されている。非特許文献１のツールは、有意差検定に関する多数の統計的手法を提供する。ユーザは、ツールに仮説を明示的に設定し、その仮説の統計的有意性を検定する。

特開２００１−２６５５９６号公報

IBM、SPSS Statistics Base、インターネット<http://www-03.ibm.com/software/products/ja/spss-stats-base>

従来、ユーザ（分析者）は、測定データに対して、知識と経験に基づいて仮説を１つ１つ作成及び検定する。しかし、仮説候補の数は膨大であるため、妥当な結論を得るまで多数の試行錯誤が必要である。また、仮説の統計的有意性を正しく評価するためには、多数の統計手法の中から、仮説や標本データに応じて適切な統計手法を選択する必要がある。しかし、それぞれの統計手法を理解して適切に使いこなすことは容易ではないため、ユーザの知識と経験によって、結論に大きなバラツキが生じ得る。

そこで、本発明の目的は、ユーザが、効率的に仮説を作成したり、適切な統計手法を選択したりすることを支援することにある。

一実施例に係るデータ分析システムは、プロセッサ及びメモリを有する。
メモリには、標本に関する項目毎の測定データを含む測定情報が格納されている。
プロセッサは、
メモリから取得した測定情報の項目に基づいて、項目の組み合わせの異なる複数のレシピ情報を生成するレシピ生成処理と、
測定データに対して各レシピ情報を適用し、各レシピ情報に対応する標本データを生成する標本データ生成処理と、
標本データに適用する統計検定手法を、当該標本データの構成に基づいて決定する検定手法決定処理と、
標本データに対して検定手法決定処理によって決定された統計検定手法を適用し、標本データの生成に用いられたレシピ情報に関する統計的有意性を示す検定スコアを算出する検定スコア算出処理と、
検定スコアと当該検定スコアに関するレシピ情報とを対応付けて表示する分析結果表示処理と、を実行する。

本発明によれば、ユーザが、効率的に仮説を作成したり、適切な統計手法を選択したりすることを支援することができる。

データ分析システムのハードウェア構成の例を示す。データ分析システムの機能構成の例を示す。測定部位とチャンネルＩＤとの関係を示す。測定情報の例を示す。標本情報の例を示す。測定補足情報の例を示す。レシピ生成条件を設定するためのＧＵＩ（ＧｒａｐｈｉｃａｌＵｓｅｒＩｎｔｅｒｆａｃｅ）の例を示す。レシピ生成部の処理の例を示すフローチャートである。標本データ生成部の処理の例を示すフローチャートである。レシピ情報の例を示す。標本データの例を示す。分析結果テーブルの例を示す。加速度センサによる測定の例を示す。マルチモーダルによる測定の例を示す。マルチモーダルに係る標本情報の例を示す。

以下、実施例を説明する。以下の説明では、「ａａａテーブル」の表現にて情報を説明することがあるが、情報は、どのようなデータ構造で表現されていてもよい。すなわち、情報がデータ構造に依存しないことを示すために、「ａａａテーブル」を「ａａａ情報」と呼ぶことができる。

さらに、各情報の内容を説明する際に、「識別情報」、「識別子」、「名」、「名前」、「ＩＤ」という表現を用いることがあるが、これらについてはお互いに置換が可能である。また、本実施例では、被験者が母集団からの標本である場合について説明する。従って、「標本」と「被験者」はお互いに置換が可能であり、同様に「標本識別子」と「被験者ＩＤ」もお互いに置換可能である。なお、本実施例では、標本が人である場合で説明するが、標本が、装置や店舗など、人でなくても良い。

また、以下の説明では、「プログラム」を主語として処理を説明する場合があるが、プログラムは、プロセッサ（例えばＣＰＵ（ＣｅｎｔｒａｌＰｒｏｃｅｓｓｉｎｇＵｎｉｔ））によって実行されることで、定められた処理を、適宜に記憶資源（例えばメモリ）及び通信インターフェイスデバイスのうちの少なくとも１つを用いながら行うため、処理の主語が、プロセッサ、そのプロセッサを有する装置とされてもよい。プロセッサが行う処理の一部又は全部が、ハードウェア回路で行われてもよい。コンピュータプログラムは、プログラムソースからインストールされてよい。プログラムソースは、プログラム配布サーバ又は記憶メディア（例えば可搬型の記憶メディア）であってもよい。

図１は、データ分析システム１０のハードウェア構成の例を示す。

データ分析システム１０は、ＣＰＵ１２と、メモリ１４と、ストレージ２２と、入力Ｉ／Ｆ（Ｉｎｔｅｒｆａｃｅ）１６と、出力Ｉ／Ｆ１８と、通信Ｉ／Ｆ２０とを有する。これらの構成要素１２〜２２は、双方向通信可能なバス２４に接続されている。

メモリ１４には、データ及びプログラムが格納される。メモリ１４の例は、ＤＲＡＭ（ＤｙｎａｍｉｃＲａｎｄｏｍＡｃｃｅｓｓＭｅｍｏｒｙ）、ＭＲＡＭ（ＭａｇｎｅｔｏｒｅｓｉｓｔｉｖｅＲａｎｄｏｍＡｃｃｅｓｓＭｅｍｏｒｙ）、ＦｅＲＡＭ（ＦｅｒｒｏｅｌｅｃｔｒｉｃＲａｎｄｏｍＡｃｃｅｓｓＭｅｍｏｒｙ）、相変化メモリである。

ストレージ２２には、データ及びプログラムが格納されてよい。ストレージ２２の例は、ＨＤＤ（ＨａｒｄＤｉｓｋＤｒｉｖｅ）、ＳＳＤ（ＳｏｌｉｄＳｔａｔｅＤｒｉｖｅ）である。

ＣＰＵ１２は、メモリ１４からプログラム及びデータを読み出して処理することにより、データ分析システム１０の有する各種機能を実現する。

入力Ｉ／Ｆ１６は、ユーザが、データ分析システム１０に情報を入力するためのＩ／Ｆである。入力Ｉ／Ｆ１６の例は、キーボード、マウス、及びマイク等である。

出力Ｉ／Ｆ１８は、データ分析システム１０が、ユーザに対して情報を出力するためのＩ／Ｆである。出力Ｉ／Ｆ１８の例は、ディスプレイ、及びスピーカ等である。

データ分析システム１０は、インターネット等の通信ネットワーク４を介して、データ分析端末３０からデータ分析の要求を受領すると、その要求に基づいてデータ分析を実行し、その分析結果をデータ分析端末３０に応答してもよい。データ分析端末は、データ分析システム１０と同様、バス４２に接続されているＣＰＵ３１、メモリ３４、入力Ｉ／Ｆ、出力Ｉ／Ｆ、及び通信Ｉ／Ｆ４０を有してよい。

図２は、データ分析システム１０の機能構成の例を示す。

データ分析システム１０は、データとして、測定情報１００、標本情報２００、及び測定補足情報３００を保持してよい。これらのデータの一部又は全部は、メモリ１４及び／又はストレージ２２に格納されてよい。測定情報１００については後述する（図４参照）。標本情報２００については後述する（図５参照）。測定補足情報３００の詳細については後述する（図６参照）

データ分析システム１０は、機能として、レシピ生成条件取得部４４、レシピ生成部４２、標本データ生成部４６、検定手法決定部４８、検定スコア算出部５０、及び、分析結果表示部５２を有してよい。これらの機能の一部又は全部は、メモリ１４に格納されているプログラムがＣＰＵ１２で実行されることによって実現されてよい。又は、これらの機能の一部又は全部は、所定の論理回路によって実現されてもよい。

レシピ生成条件受付部４４は、ユーザからレシピ情報の生成に関する条件（「レシピ生成条件」という）４００を受け付ける。レシピ生成条件受付部４４は、ユーザからレシピ生成条件４００を受け付けるためのＧＵＩ４０１（図７参照）を生成及び表示してよい。レシピ生成条件受付部４４は、ストレージ２２から、又は、通信ネットワーク４を介して、レシピ生成条件４００を取得してもよい。

レシピ生成部４２は、複数のレシピ情報５００を生成する。レシピ生成部４２は、測定情報１００、標本情報２００、および測定補足情報３００に基づいて、レシピ情報を生成してよい。その際、レシピ生成部４２は、レシピ生成条件４００に適合する範囲内で、レシピ情報５００を生成してよい。すなわち、レシピ生成部４２は、レシピ生成条件４００に適合しないレシピ情報５００は作成しなくてよい。これにより、生成するレシピ情報５００の数を削減することができる。レシピ生成部４２の処理の詳細については後述する（図８参照）。

標本データ生成部４６は、レシピ生成部４２によって生成された複数のレシピ情報５００を、それぞれ、測定情報１００に適用して、複数の標本データ６００を生成する。標本データ生成部４６は、機能として、クレンジング部５４と、特徴量算出部５６とを有してよい。クレンジング部５４は、測定情報１００に含まれる測定データ１１０（図４参照）をクレンジングする。特徴量算出部５６は、クレンジング部５４によってクレンジングされた測定データ１１０を用いて特徴量を算出する。標本データ生成部４６の処理の詳細については後述する（図８参照）。

検定手法決定部４８は、標本データ生成部４６によって生成された複数の標本データ６００のそれぞれについて、その標本データ６００の構成に基づき、その標本データ６００に適用するに適切な統計検定手法を決定する。検定手法決定部４８は、予め設定されている複数の統計検定手法の中から、適切な統計検定手法を選択してよい。

検定スコア算出部５０は、複数の標本データ６００のそれぞれに対して、検定手法決定部４８によって決定された統計検定手法を適用し、その標本データ６００を生成するために用いられたレシピ情報５００に関する検定スコアを算出する。検定スコアは、レシピ情報５００の統計的有意性を示す値である。

分析結果表示部５２は、検定スコア算出部５０によって算出された検定スコアと、その検定スコアに係るレシピ情報とを対応付けた分析結果を生成及び表示する。分析結果の表示例については後述する（図１１参照）。

図３は、測定部位とチャンネルＩＤとの関係を示す。

本実施例では、被験者の脳の各部位の脳血流量を測定対象とする。例えば、図３に示すように、被験者の頭に脳活動計測装置５０を装着し、その被験者の脳の各部位の脳血流量をチャンネルＩＤと対応付けて測定する。

図４は、測定情報１００の例を示す。

測定情報１００は、データ項目に対応する測定データを管理する。本実施例における測定情報１００は、被験者がタスクを実行したときに、その被験者の脳の各部位から測定された値を有する。

図４の測定情報１００は、データ項目として、被験者ＩＤ１０２、タスクＩＤ１０４、繰り返しＩＤ１０６、チャンネルＩＤ１０８、及び、測定データ１１０を有する。

被験者ＩＤ１０２は、被験者を識別するための情報である。

タスクＩＤ１０４は、タスクを識別するための情報である。

繰り返しＩＤ１０６は、繰り返しの何回目に実行されたタスクであるかを示す情報である。

チャンネルＩＤ１０８は、図３で説明したように、測定対象である脳の各部位を識別するための情報である。

測定データ１１０は、被験者ＩＤ１０２の被験者が、タスクＩＤ１０４のタスクを、繰り返しＩＤ１０６のときに実行した際に、チャンネルＩＤ１０８の示す部位において、所定の間隔で測定された値（時系列データ）である。

典型的には、各被験者が、同じように、２つ以上の対比対象のタスクを実行する。対比対象のタスクに対する有意差検定を行うためである。対比対象のタスクとは、例えば、ドリンクＡを飲んだ場合とドリンクＢを飲んだ場合や、自動車Ａを運転した場合と自動車Ｂを運転した場合などである。

図５は、標本情報２００の例を示す。

標本情報２００は、標本の属性に関する情報を管理する。

図５の標本情報２００は、データ項目として、被験者ＩＤ２０２、年齢２０４、性別２０６、嗜好２０８に関する「質問０１〜質問１０」の回答を有する。したがって、標本情報２００の１つのレコードを参照することにより、被験者ＩＤ２０２の被験者の年齢２０４、性別２０６、及び嗜好２０８を認識することができる。

図６は、測定補足情報３００の例を示す。

測定補足情報３００は、測定情報に含まれる標本識別子を除く項目の属性に関する情報を管理する。図６は、図４のチャンネルＩＤ１０８が有する、複数の属性を表す。測定補足情報３００は、複数のチャンネルＩＤをグルーピングする方式に関する情報を含む。

グループ方式α３０４は、複数のチャンネルＩＤから、３つのグループを形成する。グループ方式α３０４が選択されると、チャンネルＩＤ０１〜０６が前頭部左グループに、チャンネルＩＤ０７〜１６が前頭部中央グループに、チャンネルＩＤ１７〜２２が前頭部右グループにグルーピングされてよい。

グループ方式β３０６は、複数のチャンネルＩＤから、５つのグループを形成する。グループ方式β３０６が選択されると、チャンネルＩＤ０１〜０４が左ＢＡ４６野付近グループに、チャンネルＩＤ０５〜０９が左ＢＡ１０分野付近グループに、チャンネルＩＤ１０〜１３が前頭葉中央部グループに、チャンネルＩＤ１４〜１８が右ＢＡ１０野付近グループに、チャンネルＩＤ１９〜２２が右ＢＡ４６野付近グループにグルーピングされてよい。

グループ方式γ３０８は、複数のチャンネルＩＤから、７つのグループを形成する。グループ方式γ３０８が選択されると、チャンネルＩＤ０１〜０３が左下前頭回付近グループに、チャンネルＩＤ０４〜０６が左中前頭回付近グループに、チャンネルＩＤ０７〜０９が左上前頭回付近グループに、チャンネルＩＤ１０〜１３が上前頭回内側付近グループに、チャンネルＩＤ１４〜１６が右上前頭回付近グループに、チャンネルＩＤ１７〜１９が右中前頭回付近グループに、チャンネルＩＤ２０〜２２が右下前頭回付近グループにグルーピングされてよい。

図７は、レシピ生成条件を設定するためのＧＵＩの例を示す。

ＧＵＩ４０１は、レシピ生成条件受付部４４によって生成及び表示される。

ユーザは、ＧＵＩ４０１を介して、測定情報の項目４０２について、要因の候補とするか否か及び層別項目の候補とするか否かを設定できてよい。測定情報の項目４０２には、測定情報に関連するデータ項目が含まれてよい。本実施例において、測定情報の項目４０２には、測定情報１００のタスクＩＤ１０４、繰り返しＩＤ１０６、チャンネルＩＤ１０８、測定補足情報３００のグループ方式α３０４、β３０６、γ３０８が含まれてよい。

ユーザは、ＧＵＩ４０１を介して、標本情報の項目４０４について、要因の候補とするか否か及び層別項目の候補とするか否かを設定できてよい。標本情報の項目４０４には、標本情報２００に関連するデータ項目が含まれてよい。本実施例において、標本情報の項目４０４には、標本情報２００の年齢２０４、性別２０６、嗜好２０８が含まれてよい。

ユーザは、ＧＵＩ４０１を介して、クレンジング方法及びその強度４０６を設定できてよい。

ユーザは、ＧＵＩ４０１を介して、各特徴量４０８について候補に含めるか否かを設定できてよい。

レシピ生成条件受付部４４は、ＧＵＩ４０１に設定された内容に基づいて生成されるレシピ情報の総数４１０を算出及び表示してよい。典型的には、総数４１０が多いほど、分析に要する処理時間は長くなる。これにより、ユーザは、適切な総数４１０となるように、設定内容を変更することができる。

図８ａは、レシピ生成部４２の処理の例を示すフローチャートである。

レシピ生成部４２は、次の処理を実行する。

（Ｓ１０）レシピ生成部４２は、測定情報の項目４０２と標本情報の項目４０４から少なくとも１つの項目を要因として選択する。ここで要因として選択可能な項目は、図７のＧＵＩ４０１で要因の候補として設定されたものであってよい。

（Ｓ１２）レシピ生成部４２は、層別にするか否かを選択し、層別にする場合にはＳ１４を実行し、層別にしない場合にはＳ３０を実行する。

（Ｓ１４）レシピ生成部４２は、測定情報の項目４０２と標本情報の項目４０４から、（Ｓ１０）で選択された要因を除いて、少なくとも１つの項目を層別項目として選択する。ここで層別項目として選択可能な項目は、図７のＧＵＩ４０１で層別項目の候補として設定されたものであってよい。

（Ｓ１６）レシピ生成部４２は、Ｓ１４で決定した層別項目の値から、少なくとも１つの値を層として選択する。

（Ｓ２０）レシピ生成部４２は、クレンジング方法及び強度を選択する。ここで選択可能なクレンジング方法及び強度は、図７のＧＵＩ４０１のクレンジング方法及びその強度４０６として設定されたものであってよい。

（Ｓ２２）レシピ生成部４２は、特徴量を選択する。ここで選択可能な特徴量は、図７のＧＵＩ４０１の特徴量４０８で候補として選択されたものであってよい。

（Ｓ３０）レシピ生成部４２は、Ｓ１０で選択された要因と、Ｓ１２で層別にすると選択された場合にはＳ１４で選択された層別項目とＳ１６で選択された層と、Ｓ２０で選択されたクレンジング方法と、Ｓ２２で選択された特徴量算出方法とに基づいて、レシピ情報５００を生成する。レシピ情報５００については図９で説明する。

レシピ生成部４２は、Ｓ１０の要因の選択と、Ｓ１２の層別にするか否かの選択と、Ｓ１４の層別項目の選択と、Ｓ１６の層の選択と、Ｓ２０のクレンジング方法及び強度の選択と、Ｓ２２の特徴量算出方法の選択とについて、選択の組み合わせを変えて、複数のレシピ情報を生成してよい。

このことからもわかるように、図７のＧＵＩ４０１において測定情報の項目４０２と標本情報の項目４０４に関する候補の数を増やすほど、生成すべきレシピ情報の数（仮説総数）も増える。

図９は、レシピ情報５００の例を示す。

レシピ情報５００は、測定データ１１０から、どのように標本データ６００を作成するのかを示す情報を有する。すなわち、レシピ情報５００の内容が異なると、異なる標本データ６００が作成される。

レシピ情報５００は、上記Ｓ１０で選択された要因５０２と、Ｓ１２で層別にすると選択された場合にはＳ１４及びＳ１６で選択された層５０４と、Ｓ２０で選択されたクレンジング方法５０６と、Ｓ２２で選択された特徴量算出方法５０８とを含んでよい。

図８ｂは、標本データ生成部４６の処理の例を示すフローチャートである。標本データ生成部４６は、レシピ生成部４２によって生成された複数のレシピ情報５００のそれぞれについて、次の処理を実行してよい。

（Ｓ４０）標本データ生成部４６は、レシピ情報５００で層５０４が指定されていない場合（Ｓ１２で層別にしないことを選択した場合）には全ての測定データ１１０を抽出し、あるいは、レシピ情報５００で層５０４が指定されている場合には層５０４の条件に適合する測定データ１１０を抽出し、標本識別子（被験者ＩＤ）と、レシピ情報５００の要因５０２で指定される項目の値の組み合わせに基づいて、それら抽出された測定データ１１０をグルーピングする。これにより、標本識別子と要因の値が異なる、複数のグループが形成される。

（Ｓ４２）標本データ生成部４６は、それらの形成された複数のグループのそれぞれについて、そのグループに属する測定データ１１０を、レシピ情報５００のクレンジング方法５０６に設定されたクレンジング方法でクレンジングする。そして、標本データ生成部４６は、複数のクレンジングされたグループのそれぞれについて、レシピ情報５００の特徴量算出方法５０８で指定された方法で特徴量を算出する。

（Ｓ４４）標本データ生成部４６は、その算出されたグループの特徴量を用いて、標本データ６００を生成する。標本データ６００については図１０で説明する。

図１０は、標本データ６００の例を示す。

標本データ６００は、測定データ１１０から、レシピ情報５００に基づいて生成されるデータである。図１０の例の標本データ６００は、レシピ情報５００の要因５０２にタスクＩＤ１０４と性別２０６が設定されたレシピ情報５００に基づいて生成されたものである。

図１０の標本データ６００は、要因数が「２」（つまり「タスクＩＤ」と「性別」）であり、各要因の標本数（タスクＩＤの男性の被験者数と女性の被験者数）がそろっていない。この場合、検定手法決定部４８は、統計検定手法として、「標本数が異なる２要因ＡＮＯＶＡ（ａｎａｌｙｓｉｓｏｆｖａｒｉａｎｃｅ）」が適合すると決定してよい。

統計検定手法としては、例えば、「対応のないｔ検定」、「対応のあるｔ検定」、「標本数が等しい１要因ＡＮＯＶＡ」、「標本数が異なる１要因ＡＮＯＶＡ」、「標本数が等しい２要因ＡＮＯＶＡ」、「標本数が異なる２要因ＡＮＯＶＡ」、「２要因とも対応のある２要因ＡＮＯＶＡ」、「１要因に対応がなく、１要因に対応があり、標本数が等しい２要因ＡＮＯＶＡ」、「１要因に対応がなく、１要因に対応があり、標本数が異なる２要因ＡＮＯＶＡ」、「３要因とも対応がなく、標本数が等しい３要因ＡＮＯＶＡ」、「３要因とも対応がなく、標本数が異なる３要因ＡＮＯＶＡ」などがある。検定手法決定部４８は、標本データ６００の構造に基づいて、何れの統計検定手法が適合するかを決定してよい。

図１１は、分析結果テーブル７００の例を示す。

分析結果テーブル７００には、１つのレシピ情報５００によって生成された標本データ６００に対する統計検定手法による統計検定の結果が、１つのレコードとして格納されてよい。各レコードは、異なる複数のレシピ情報５００を表す。分析結果テーブル７００は、データ項目として、要因７０２、層７０４、特徴量７０６、クレンジング方法７０８、及び、検定スコア７１０を有してよい。

要因７０２には、検定スコア７１０の算出に用いられた要因（レシピ情報５００の要因５０２）が格納される。

層７０４には、検定スコア７１０の算出に用いられた層（レシピ情報５００の層５０４）が格納される。

クレンジング方法７０６には、検定スコア７１０の算出に用いられたクレンジング方法（レシピ情報５００のクレンジング方法５０６）が格納される。

特徴量算出方法７０８には、検定スコア７１０の算出に用いられた特徴量算出方法（レシピ情報５００の特徴量算出方法５０８）が格納される。

検定スコア７１０には、要因７０２、層７０４、クレンジング方法７０６及び特徴量算出方法７０８に格納されている値を含むレシピ情報５００から生成された標本データ６００に対して、検定手法決定部４８によって決定された統計検定手法に基づいて算出された有意差検定の結果（ｐ値）が格納される。検定スコア７１０は、検定スコア算出部５０によって算出されてよい。検定スコア７１０が小さいほど、層７０４に注目した場合、要因７０２の値の違いが、特徴量７０８の値に有意な差を生じさせる可能性が高い（つまり偶然に起こる可能性が低い）ことを示す。

例えば、図１１の分析結果テーブル７００の１行目のレコードは、前頭部中央（７０４）の脳活動に注目した場合、タスクＩＤ（７０２）の違いが、ノイズタイプＡ強度３でクレンジング（７０６）した脳血流量の平均値（７０８）に有意な差を生じさせる可能性が高い（つまり偶然に起こる可能性は「０．０００２」である）（７１０）ことを示す。

すなわち、分析結果テーブル７００の各レコードは、有意差検定における「仮説とその検定結果」と対応していると解釈してもよい。

分析結果表示部５２は、分析結果テーブル７００の内容を、ディスプレイに表示してよい。また、分析結果表示部５２は、分析結果テーブル７００のレコードを、検定スコア７１０の小さい順にソートして表示してもよい。このソートにより、ユーザは、統計的有意性の高い仮説を容易に知ることができる。

実施例１によれば、ユーザは、図７のようなＧＵＩ４０１を操作し、効率的に仮説を作成することができる。また、検定手法決定部４８が標本データ６００の構造に基づいて適切な統計検定手法を決定してくれるので、統計手法に精通していないユーザであっても分析を行うことができる。また、分析結果テーブル７００を検定スコア７１０の小さい順にソートできるので、多数の仮説の中から統計的有意性の高い仮説を容易に知ることができる。

図１２は、加速度センサによる測定の例を示す。

測定データは、実施例１のような脳の各部位の脳血流量に限られない。例えば、測定データは、図１２のように、身体の各部位（手や足など）に装着された加速度センサによって測定された値であってもよい。

１つの加速度センサは、Ｘ軸、Ｙ軸、Ｚ軸の３つの値を測定可能であるとする。この場合、身体に１つの加速度センサ６０ａを装着したときのチャンネルＩＤの数は３個（Ｘ軸とＹ軸とＺ軸の測定値）となり、身体に４つの加速度センサ６０ｂ、６０ｃ、６０ｄ、６０ｅを装着したときのチャンネルＩＤの数は１２個となる。

このように、各測定データを、各チャンネルＩＤと対応付けることにより、実施例１の場合と同じように、データ分析を行うことができる。

図１３は、マルチモーダルの測定の例を示す。

マルチモーダルの測定とは、異なる種類のセンサでデータを同時に測定することをいう。例えば図１３のように、１人の被験者の頭に脳活動計測装置５０と加速度センサ６０ｆを装着する。そして、脳血流量のデータと、加速度のデータとを同時に測定する。これにより、被験者の頭の加速度の変化と、その被験者の脳の各部位の脳血流量の変化との関連性も分析することができる。

図１４は、マルチモーダルに係る標本情報２２０の例を示す。

マルチモーダルの場合、或る種類のデータを特徴量に変換して、標本情報２００の項目として追加してもよい。例えば図１４のように、図６の標本情報２００に加速度センサの特徴量２３０のデータ項目を追加し、その特徴量の項目に、被験者ＩＤの被験者から測定された加速度データを特徴量に変換した値を格納してもよい。図１４の例では、加速度センサによる測定値を、小さい（Ｓ）、普通（Ｍ）、大きい（Ｌ）の３つの特徴量に変換している。このように、測定データがマルチモーダルの場合であっても、標本情報を拡張することにより、実施例１の場合と同じように、データ分析を行うことができる。

上述した実施例は、本発明の説明のための例示であり、本発明の範囲を実施例にのみ限定する趣旨ではない。当業者は、本発明の要旨を逸脱することなしに、他の様々な態様で本発明を実施することができる。

例えば、データ分析端末３０のメモリ３４に測定情報１００と標本情報２００が格納されており、データ分析端末３０（のＣＰＵ３２）が、そのメモリ３４に格納されている測定情報１００と標本情報２００をデータ分析システム１０に送信して、データ分析を依頼してもよい。データ分析システム１０は、そのデータ分析の依頼を受けて、図７のＧＵＩ４０１を生成するためのデータを、データ分析端末３０に送信してよい。データ分析端末３０は、データ分析システム１０からＧＵＩ４０１を生成するためのデータを受けて、ＧＵＩ４０１を生成及び表示してよい。ユーザは、データ分析端末３０が表示したＧＵＩ４０１を通じて、データ分析システム１０にレシピ生成条件４００を入力してよい。データ分析システム１０は、その入力されたレシピ生成条件４００に基づいて、上述の実施例と同様、レシピ情報５００、標本データ６００及び分析結果テーブル７００を生成してよい。そして、データ分析システム１０は、その分析結果テーブル７００を、データ分析端末３０に送信してよい。データ分析端末３０は、受領した分析結果テーブル７００を表示してよい。

１０：データ分析システム３０：データ分析端末４２：レシピ生成部４４：レシピ生成条件受付部４６：標本データ生成部４８：検定手法決定部５０：検定スコア算出部５２：分析結果表示部１００：測定情報２００：標本情報３００：測定補足情報４００：レシピ生成条件５００：レシピ情報６００：標本データ

Claims

プロセッサ及びメモリを有し、
前記メモリには、標本に関する項目毎の測定データを含む測定情報が格納されており、
前記プロセッサは、
前記メモリから取得した測定情報の項目に基づいて、項目の組み合わせの異なる複数のレシピ情報を生成するレシピ生成処理と、
前記測定データに対して前記各レシピ情報を適用し、前記各レシピ情報に対応する標本データを生成する標本データ生成処理と、
前記標本データに適用する統計検定手法を、当該標本データの構成に基づいて決定する検定手法決定処理と、
前記標本データに対して前記検定手法決定処理によって決定された統計検定手法を適用し、前記標本データの生成に用いられたレシピ情報に関する統計的有意性を示す検定スコアを算出する検定スコア算出処理と、
前記検定スコアと当該検定スコアに関するレシピ情報とを対応付けて表示する分析結果表示処理と、を実行する
データ分析システム。
前記プロセッサは、項目の組み合わせに関する条件を含むレシピ生成条件を受け付けるレシピ生成条件受付処理をさらに実行し、
前記レシピ生成処理は、前記レシピ生成条件受付処理によって受け付けた前記レシピ生成条件に適合する範囲内でレシピ情報を生成する
請求項１に記載のデータ分析システム。
前記測定情報は標本識別子の項目を含み、
前記レシピ生成処理は、
前記測定情報に含まれる複数の項目の中から、前記標本識別子を除く、少なくとも１つの項目を要因に決定し、
それら決定した要因の組み合わせに基づいて前記レシピ情報を生成し、
前記標本データ生成処理は、
複数の測定データを、前記標本識別子と前記要因に属する値とに基づいてグルーピングして複数のグループを形成し、
前記複数のグループのそれぞれについて、当該グループに含まれる測定データに基づいて特徴量を算出し、
前記標本識別子と前記要因と前記特徴量との対応関係を含む標本データを生成する
請求項２に記載のデータ分析システム。
前記レシピ生成処理は、
前記測定情報に含まれる複数の項目の中から、前記標本識別子と前記要因を除く、少なくとも１つの項目を層別項目に決定し、その決定した前記層別項目のそれぞれについて、その層別項目に属する値のうちの少なくとも１つを層に決定し、
それら決定した、前記要因と、前記層別項目と、前記層別項目に係る層との組み合わせに基づいて前記レシピ情報を生成し、
前記標本データ生成処理は、
前記層別項目に係る層に適合する前記複数の測定データを、前記標本識別子と、前記要因に属する値とに基づいてグルーピングして前記複数のグループを形成する、
請求項３に記載のデータ分析システム。
前記レシピ生成条件受付処理は、測定データのクレンジング手法及び特徴量の算出手法の選択をさらに受け付け、
前記レシピ生成処理は、前記レシピ生成条件受付処理で選択されたクレンジング方法及び特徴量算出方法を前記レシピ情報に含め、
前記標本データ生成処理は、前記レシピ情報に含まれる前記クレンジング方法に基づいて測定データをクレンジングし、そのクレンジングされた測定データに対して前記レシピ情報に含まれる特徴量算出方法に基づいてグループの特徴量を算出する
請求項３に記載のデータ分析システム。
前記メモリには、標本の属性に関する項目を含む標本情報が格納されており、
前記レシピ生成処理は、
前記測定情報及び前記標本情報に含まれる複数の項目の中から、前記要因を決定する
請求項３に記載のデータ分析システム。
前記標本は被験者を表し、
前記測定データは、被験者の脳の各部位における脳活動を測定したデータであり、
前記測定情報に含まれる少なくとも１つの項目は、前記被験者が実施する対比対象のタスクである
請求項６に記載のデータ分析システム。
前記標本は被験者を表し、
前記測定データは、被験者の身体の各部位における身体活動を測定したデータであり、
前記測定情報に含まれる少なくとも１つの項目は、前記被験者が実施する対比対象のタスクである
請求項６に記載のデータ分析システム。
前記標本は被験者を表し、
前記測定データは、被験者の脳の各部位における脳活動と、前記被験者の身体の各部位における身体活動を測定したデータであり、
前記測定情報に含まれる少なくとも１つの項目は、前記被験者が実施する対比対象のタスクである
請求項６に記載のデータ分析システム。
標本に関する項目毎の測定データを含む測定情報の項目に基づいて、項目の組み合わせの異なる複数のレシピ情報を生成し、
前記測定データに対して前記各レシピ情報を適用し、前記各レシピ情報に対応する標本データを生成し、
前記標本データに適用する統計検定手法を、当該標本データの構成に基づいて決定し、
前記標本データに対してその決定された統計検定手法を適用し、前記標本データの生成に用いられたレシピ情報に関する統計的有意性を示す検定スコアを算出し、
前記検定スコアと当該検定スコアに関するレシピ情報とを対応付けた分析結果情報を生成するデータ分析サーバ、と通信可能なデータ分析端末であって、プロセッサ及びメモリを有し、
前記メモリには、測定情報が格納されており、
前記プロセッサは、
前記メモリに格納されている測定情報を前記データ分析サーバに送信し、
前記分析結果情報を前記データ分析サーバから取得し、
その取得した分析結果情報に基づいて、検定スコアとレシピ情報との対応関係を表示する
データ分析端末。
標本に関する項目毎の測定データを含む測定情報の項目に基づいて、項目の組み合わせの異なる複数のレシピ情報を生成し、
前記測定データに対して前記各レシピ情報を適用し、前記各レシピ情報に対応する標本データを生成し、
前記標本データに適用する統計検定手法を、当該標本データの構成に基づいて決定し、
前記標本データに対してその決定した統計検定手法を適用し、前記標本データの生成に用いられたレシピ情報に関する統計的有意性を示す検定スコアを算出し、
前記検定スコアと当該検定スコアに関するレシピ情報とを対応付けて表示する
データ分析方法。