JPWO2004072866A1

JPWO2004072866A1 - データ解析装置

Info

Publication number: JPWO2004072866A1
Application number: JP2004568192A
Authority: JP
Inventors: 由雄仲尾
Original assignee: Fujitsu Ltd
Current assignee: Fujitsu Ltd
Priority date: 2003-02-14
Filing date: 2003-02-14
Publication date: 2006-06-01
Anticipated expiration: 2023-02-14
Also published as: US20050125201A1; WO2004072866A1; US7346600B2; JP3917625B2

Abstract

利用者による実験・調査データの分析が効率的に行えるようにする。データ解析部（１１）は分析の観点や整理・体系化する際の粒度などを違えた様々な解析を同一の解析対象データ（２１）に対して行って複数の解析結果（２２）を出力する。知識蓄積部（１２）には、利用者が利用可能な背景知識を表現している情報が予め蓄積されている。解析結果選別部（１３）は、知識蓄積部（１２）に蓄積されている情報を手がかりにして、データ解析部（１１）より出力された複数の解析結果（２２）の中から背景知識との整合性が高いものを選別し、選別解析結果（２３）として利用者に提示する。

Description

本発明は、実験や調査により得られたデータの分析を支援する技術に関する。

実験や調査により得られたデータの分析を支援する技術として、データを統計的に解析し、その解析結果に基づいて類似するデータを整理・体系化して提示する技術が知られている。代表的な技術としては、多変量解析の一種である因子分析を行ってデータ相互の関係を散布図として表示する技術や、データ相互の類似性によりデータをクラスタリング（自己組織化）して樹形図として表示する技術などが知られている。これらの技術により、利用者は、実験データの特性をパターンとして認識することができるようになるため、実験データの分析・解釈が容易になる。
例えば、遺伝子発現データについて、遺伝子発現パターンと遺伝子のクラスタリング結果とを、図１のような形で提示する技術が知られている。図１において、遺伝子発現データ１は遺伝子発現パターンの表示例であり、実験条件と遺伝子の種類との組み合わせに対する遺伝子発現量が、横方向１ｘに実験条件をとり、縦方向１ｙに遺伝子の種類をとって配置されたセルの色（図１においては網かけ模様の濃さによって代替表示を行っている）として表現されている。樹形図２は、遺伝子発現データ１を、遺伝子発現パターンの類似性に基づき階層クラスタリングした結果の表示例である。
後掲の特許文献１には、利用者の「識別誤差範囲」を考慮してクラスタリング結果を分析することで、大まかな分類と分類の粒度とが大きく変化するような代表的な分類を抽出し、それらの代表的な分類を表現する情報を樹形図２に併記して表示する技術も開示されている。
また、後掲の特許文献２には、複数の属性を持つ分析対象データについて、属性値の分布による属性間の相関係数などを基にしてデータの特徴をカテゴライズして視覚化するのに適した属性を検出し、ユーザの分析に適した情報を提示する技術を示している。
特開２００１−２８１２４４号公報特開２０００−９９７４６号公報

しかしながら、これらの技術は、利用者に提示する分析結果の選別を分析対象データ自体が持つ性質のみを手がかりにして行うことを基本としているため、選択されて提示される分析結果が必ずしも利用者にとって解釈しやすいとは限らないという問題がある。
一般に、因子分析やクラスタ分析等のデータ解析手法は性質の類似性（相関性）に基づいてデータを分類することはできるが、その分類結果の解釈は利用者に委ねられている。
例えば、因子分析の結果において、ある機能を担う酵素を生成する遺伝子群に対して同じように高い得点（因子得点）が求まるような因子は、その機能の酵素を生成するという特徴を表していると解釈することはできる。しかし、このように解釈の簡単な結果が必ず得られるとは限らないのがむしろ一般的である。
また、クラスタ分析であっても、階層的にデータを分類して例えば図１のような樹形図の形などでその結果を示すことはできるが、各階層に属したデータの集合が現実の何に対応するかは利用者の判断に委ねられてしまっている。
この問題を改善する方法として、例えば、因子分析において因子軸を解釈しやすい方向に回転する方法（バリマックス法）などが知られているが、このような手法はその分析結果をできるだけ単純な構造に変換することが基本的な趣旨であり、利用者の有している知識は考慮されていない。
上述した特許文献１に開示されている技術は、利用者の指定した「識別誤差範囲」を考慮してその識別誤差範囲内に収まる類似の分類結果を併合することによって適切な分類結果を利用者が見出し易くなるようにしてはいるものの、利用者の有している知識までの考慮はされていない。
また、上述した特許文献２に開示されている技術は、分析の目的属性の指定など、利用者の指定を分類結果に反映させる機構を設けてはいるが、事前に指定することが困難な利用者の背景的知識を柔軟に反映できるような構成とはなっていない。
以上の事情を鑑み、本発明は、利用者による実験・調査データの分析を効率的に行えるようにすることをその目的とする。

本発明の態様のひとつであるデータ解析装置は、分析対象に対して行われた実験若しくは調査の結果として得られたデータの分析を支援する装置であって、データの分析の背景となる知識が表現されている知識情報が蓄積されている知識蓄積部と、各データ間の類似性に基づいて該データを異なる観点に基づいて整理して体系化することによって該データの解析結果を複数得るデータ解析部と、該データの解析結果を該知識情報に基づいて評価し、該解析結果のうち該知識情報との整合性がより高いものの選別を行う解析結果選別部と、を有するように構成することによって前述した目的を達成する。
ここで、例えば、データ解析部は、前述したデータの解析結果に対して多変量解析を施すことによって複数の説明因子の抽出を行う。解析結果選別部は、まず、該知識情報から該分析対象に関する属性情報を抽出する。そして、該説明因子と該属性情報とを多変量解析することで該説明因子と該知識情報との整合性の程度を示す値を求め、該値に基づいて前記選別を行うようにすることができる。
この構成によれば、データ解析部によって分析データに対して複数の観点からの解析が行われ、その解析結果のうち知識蓄積部に蓄積されている知識情報と整合性の高いものが解析結果選別部によって選別されて利用者に提示される。これにより、解析結果のうち利用者にとって解釈しやすいものが優先的に提示されるので、利用者は実験・調査データの分析を効率的に進めることができる。
なお、上述した構成において、知識情報が分析対象に関して記述しているテキストデータであるときには、解析結果選別手段が、該テキストデータから該分析対象と関連付けられているキーワードを該属性情報として抽出して前述した選別を行うようにすることができる。
この構成によれば、知識情報がテキストデータで与えられていても、解析結果のうち利用者にとって解釈しやすいものを優先的に提示することができる。
また、前述した構成において、解析結果選別手段が、前述した知識情報に含まれている属性情報のうち所定数以上の分析対象に対して取得できる該属性情報を用いて選別を行うようにすることができる。
この構成によれば、分析対象に対して網羅的に取得し得る属性情報が利用されて上述した選別が行われるので、解析結果のうち利用者にとって解釈しやすいものを優先的な提示がより適切に行われる。
また、前述した構成において、解析結果選別手段が、前述した整合性の程度を示す値の大きい説明因子を選択し、該選択に係る説明因子によって表現される解析結果を選別の結果とするようにすることができる。
この構成は選別された解析結果の提示の手法のひとつを特定するものであり、後述する本発明の実施の形態における、合成因子得点に基づいて基本因子を選択し、選択された基本因子をグラフの表示軸として用いて解析結果をグラフ表現することを示している。
また、前述した構成において、解析結果選別手段が、知識情報との整合性の高い合成説明因子を前記値に基づいて求め、該合成説明因子によって表現される解析結果を前記選別の結果とするようにすることができる。
この構成は選別された解析結果の提示の他の手法のひとつを特定するものであり、後述する本発明の実施の形態における、因子分析の結果として得られた合成分子のうち説明力の高い（分析対象の情報に対する寄与率が大きい）合成因子をグラフの表示軸として用いて解析結果をグラフ表現することを示している。
また、前述した構成において、解析結果選別手段は、選別の結果である解析結果と前述した説明因子とを、該説明因子と前述した知識情報との整合性の程度を示す値、及び前述した属性情報と共に出力するように構成することができる。
この構成によれば、このデータ解析装置の利用者による解析結果の把握が容易になる。
また、このときに、前述した説明因子のうちから選択が指示されたものによって表現される解析結果を更に出力するように構成することができる。
こうすることにより、利用者によって指示された説明因子によって表現される解析結果を利用者に提示することができる。

本発明は、後述する詳細な説明を下記の添付図面と共に参照すればより明確になるであろう。
図１は、従来技術の説明に用いる図である。
図２は、本発明の原理構成を示す図である。
図３は、本発明を実施するデータ解析装置の機能構成を示す図である。
図４は、図３に示したデータ解析装置のハードウェア構成を示す図である。
図５は、ＣＰＵによって行われる制御処理の処理内容を示すフローチャートである。
図６は、因子分析によるデータ解析の説明に用いる図である。
図７は、タンパク質ＤＢに蓄積されている知識データの例を示す図である。
図８は、知識データの取得処理の処理内容を示すフローチャートである。
図９は、属性抽出の対象とするフィールドのデータ型が「数値」型であるときにおける属性名−属性値リストの生成処理の処理内容を示すフローチャートである。
図１０は、属性抽出の対象とするフィールドのデータ型が「テキスト」型であるときにおける属性名−属性値リストの生成処理の処理内容を示すフローチャートである。
図１１は、属性抽出の対象とするフィールドのデータ型が「配列データ」型であるときにおける属性名−属性値リストの生成処理の処理内容を示すフローチャートである。
図１２は、知識データの処理例を示す図である。
図１３は、合成行列の数値計算例を示す図である。
図１４は、合成行列の因子分析の様子を示す図である。
図１５は、表示軸の選択手法の第一の例を示す図である。
図１６は、表示軸の選択手法の第二の例を示す図である。
図１７は、記録されたプログラムをコンピュータで読み取り可能な記録媒体の例を示す図である。

まず、本発明の原理について説明する。
図２は本発明の原理構成を示しており、本発明に係るデータ解析装置は、同図におけるデータ解析部１１、知識蓄積部１２、及び解析結果選別部１３を有している。
データ解析部１１は、解析対象データ２１を解析し、類似するデータを整理・体系化した解析結果２２を出力する。データ解析部１１は分析の観点や整理・体系化する際の粒度などを違えた様々な解析を同一の解析対象データ２１に対して行うようにする。従って、通常は複数の解析結果２２がデータ解析部１１から出力される。
知識蓄積部１２には、利用者が利用可能な背景知識、例えばデータの収集対象とした個体（遺伝子等）に関し事前にわかっている性質等が予め蓄積されている。
解析結果選別部１３は、知識蓄積部１２に蓄積されている情報を手がかりにして、データ解析部１１より出力された複数の解析結果２２の中から利用者の利用可能な背景知識との整合性が高いものを選別し、選別解析結果２３として利用者に提示する。
この図２に示す構成では、まず、データ解析部２１によって解析対象データ２１に対して複数の観点からの分析が行われ、その分析結果に相当する解析結果２２が作成される。続いて、その解析結果２２のうち知識蓄積部１２に蓄積された知識データと整合性の高いものが解析結果選別部１３によって選択されて選別解析結果２３として利用者に提示される。これにより、解析結果２２のうち利用者にとって解釈しやすいものが優先的に提示されるので、利用者は実験・調査データの分析を効率的に進めることができる。
以下、本発明の実施の形態を図面に基づいて説明する。
まず、図３に示す本発明を実施するデータ解析装置の機能構成について説明する。
データ解析部３１は図２のデータ解析部１１に相当するものであり、実験データ３０の解析を行い、類似するデータを整理・体系化した解析結果を解析結果選別部３３へと出力する。
知識データ管理部３２は、利用者の利用可能な背景知識が予め蓄積されている知識源ＤＢ（ＤａｔａＢａｓｅ）３５の管理を行う。図２における利用者知識蓄積部１２は知識データ管理部３２及び知識源ＤＢ３５に相当する。
解析結果選別部３３は図２の解析結果選別部１３に相当するものであり、知識源３５に蓄積されている情報を手がかりにして、データ解析部３１より出力された解析結果の中から利用者の利用可能な背景知識との整合性が高いものを選別し、その選別の結果を解析結果表示部３４へと出力する。
解析結果表示部３４は、解析結果選別部３３から送られてくる、選別された解析結果を表示して利用者に提供する。
知識源ＤＢ３５は、アミノ酸配列の属性情報等が蓄積されているタンパク質ＤＢ３５−１、ＤＮＡ配列の属性情報等が蓄積されている遺伝子ＤＢ３５−２、論文等の情報が蓄積されている文献ＤＢ３５−３を有している。
図３において、データ解析部３１は、実験データ３０が入力されると、複数の解析結果を作成して解析結果選別部３３へ送る。解析結果選別部３３は、まず、データ解析部３１から送られた解析結果に関連する情報（知識データ）を、知識データ管理部３２を通じて取得する。そして、取得した知識データに基づいてデータ解析部３１から送られた各解析結果を評価し、その中から知識データとの整合性が高い解析結果を選別して解析結果表示部３４へ送る。
ここで、解析結果表示部３４へ送る解析結果は１種類のみでもよいが、本発明に係るデータ解析装置の機能をより効果的に発揮させるためには、知識データとの整合度を各々に付与した複数の解析結果を送り、利用者に提示することが望ましい。
解析結果表示部３４は、解析結果選別部３３から送られてきた解析結果を、グラフ表現などの視覚的な形態で利用者に提示する。なお、複数の解析結果が知識データとの整合度付きで与えられた場合には、整合度の高い解析結果をまず提示するようにし、その後の利用者からの指示に応じて解析結果の次候補を提示する、あるいは利用者からの指示を解析結果選別部３３にフィードバックさせて再選別処理を行わせるようにすることも可能である。ここで、再選別処理は、例えば、利用者によるキーワード指定を受け付け、そのキーワードに関連する知識データに重みを付加した上で知識データと解析結果の整合度を再計算することで実現可能である。
次に図４について説明する。同図は図３に示したデータ解析装置のハードウェア構成図である。
図３において、ＣＰＵ４１、ＲＯＭ４２、ＲＡＭ４３、ＨＤＤ４４、入力部４５、及び表示部４６はバス４７を介して相互に接続されており、ＣＰＵ４１による管理の下で相互にデータ授受を行うことができる。
ＣＰＵ（ＣｅｎｔｒａｌＰｒｏｃｅｓｓｉｎｇＵｎｉｔ）４１はこのデータ解析装置全体の動作制御を司る中央処理装置である。
ＲＯＭ（ＲｅａｄＯｎｌｙＭｅｍｏｒｙ）４２は、ＣＰＵ４１によって実行される基本制御プログラムが予め格納されているメモリであり、このデータ解析装置の起動時にＣＰＵ４１がこの基本制御プログラムを実行することによってこのデータ解析装置全体の動作の基本的な制御がＣＰＵ４１によって行なわれるようになる。
ＲＡＭ（ＲａｎｄｏｍＡｃｃｅｓｓＭｅｍｏｒｙ）４３は、各種の制御プログラムをＣＰＵ４１が実行するときにワークメモリとして使用され、また各種のデータの一時的な格納領域として必要に応じて用いられるメインメモリとしても使用されるメモリである。
ＨＤＤ（ＨａｒｄＤｉｓｋＤｒｉｖｅ）４４は、図３に示した知識源ＤＢ３５として機能するハードディスク装置であり、利用者の利用可能な背景知識が予め蓄積されている記憶装置である。また、図３に示したデータ解析部３１、知識データ管理部３２、及び解析結果選別部３３としてＣＰＵ４１を機能させるための各種の制御プログラムが予め格納されている。これらの制御プログラムはＣＰＵ４１が前述した基本制御プログラムを実行した後にＣＰＵ４１によって読み出されて実行される。
入力部４５は利用者からの各種の指示に対応する入力や実験データ３０の入力の取得を行うものであり、例えばキーボードやマウスなどの各種入力装置、及びＦＤ（ＦｌｅｘｉｂｌｅＤｉｓｋ）、ＣＤ−ＲＯＭ（ＣｏｍｐａｃｔＤｉｓｃ−ＲＯＭ）、ＤＶＤ−ＲＯＭ（ＤｉｇｉｔａｌＶｅｒｓａｔｉｌｅＤｉｓｃ−ＲＯＭ）、ＭＯ（Ｍａｇｎｅｔｏ−Ｏｐｔｉｃｓ）ディスクなどといった可搬型の記録媒体の読出装置、あるいは他の機器との間でのデータ授受を可能とするインタフェース装置などを有している。
表示部４６はＣＰＵ４１からの指示に応じた各種の情報の表示を行うものであり、例えばＣＲＴ（ＣａｔｈｏｄｅＲａｙＴｕｂｅ）やＬＣＤ（ＬｉｑｕｉｄＣｒｙｓｔａｌＤｉｓｐｌａｙ）を備えて構成される。
図４に示したデータ解析装置は以上の各構成要素を備えて構成される。なお、この図４に示した構成は標準的なコンピュータであればその多くが有しているものであるので、このようなコンピュータで本発明を実施することもできる。
次に図４のＣＰＵ４１によって行われる制御処理の詳細について説明する。なお、以下の説明では、複数の遺伝子について、実験条件（細胞の種類や、時間経過に伴い変化した細胞の状態など）を変えて測定した発現量を解析する場合を例にとって説明する。
図５は、ＣＰＵ４１によって行われる制御処理の処理内容を示すフローチャートである。同図に示す制御処理をＣＰＵ４１が実行することによって図４に示した構成で図３に示したデータ解析装置の各構成の機能が実現される。
図５に示す処理は、図４に示したデータ解析装置が起動されてＲＯＭ４２に格納されている基本制御プログラムがＣＰＵ４１によって読み出されて実行され、所定の初期化処理が実行された後に開始される。
図５において、まずＳ１０１では、実験データ３０の取得処理、すなわち入力部４５に入力される実験データ３０を取得する処理が行われる。
Ｓ１０２では、図３のデータ解析部３１の機能である、実験データ３０の解析処理が行われる。通常、データの解析においては複数の分析の観点があり得るので、このデータ解析処理ではこの分析の観点毎に複数の解析結果を求めることになる。なお、本実施形態においては、多変量解析のうちの一方式である因子分析により実験データ３０の解析を行うこととする。
ここで、因子分析による実験データ３０の解析について、図６を用いて説明する。
図６において、（ａ）は、実験データ３０である解析対象データの例を示した表である。この表は、種類の異なる遺伝子ｇｅｎｅ−１、ｇｅｎｅ−２、．．．を対象に、条件１、条件２、…、条件ｎにおける発現量を集計したものである。例えば、ｄ（１，２）は、ｇｅｎｅ−１の条件２における発現量（数値）を示している。
図６の（ｂ）は、（ａ）に示した解析対象データを因子分析した結果を示している表である。因子分析とはいくつかの変数の相関関係を説明するための因子を（なるべく少なく）求める多変量解析の手法である。
因子分析では、分析データ間の相関性を説明する因子を説明力の高い順に求めることができる。表の各縦列はこの因子に対応している。また、表内の値ｖは因子得点を示している。因子得点とは、因子（軸）に関する各遺伝子の特性を示す値である。例えば、遺伝子ｇｅｎｅ−１の第２因子の因子得点はｖ（１，２）である。
なお、本実施形態においては因子分析によるデータ解析を行うこととしたが、例えば主成分分析などの他の多変量解析手法を用いても同様の結果を得ることが可能である。
図６の（ｃ）は因子分析結果の一般的な表示方法のひとつである散布図による表示例を示したものである。この例のように、因子分析結果は、説明力の高い２軸（第１因子と第２因子）を選択してグラフ形式で表現されることが多いが、利用者による指定に応じて軸を別の因子と入れ換えて表示できるようにすることで、利用者の解釈を支援することなどもよく行われている。また、この表示例においては、前述した因子回転法（バリマックス法）を、説明力の高い因子を軸として張られた空間における解釈の容易な投影面（表示平面）を自動的に選択する手法と捉えることができる。
図５の説明へ戻る。
Ｓ１０３では、実験データ３０に関連する知識データの取得処理、すなわち、ＨＤＤ４４に予め蓄積されている知識源ＤＢ３５から実験データ３０に関連する知識データを取得する処理が行われる。この処理は図３においては知識データ管理部３２で行われる処理である。この処理の詳細について説明する。
前述したように、本実施形態においては、知識源ＤＢ３５はタンパク質ＤＢ３５−１、遺伝子ＤＢ３５−２、及び文献ＤＢ３５−３を有している。知識データ管理部３２はこれらの情報源ＤＢ３５から各遺伝子に関する属性と属性値とを対応付けた形式で知識データを以下の手順により抽出して、解析結果選別部３３へ提供する。
［１］タンパク質ＤＢ３５−１からの知識データ抽出
遺伝子に関連するタンパク質エントリを検索し、そこに記述された特徴量を関連遺伝子の属性値とする。特徴量を属性名−属性値の形に正規化する方法は、次に説明する遺伝子ＤＢからの属性抽出と同様である。
［２］遺伝子ＤＢ３５−２からの知識データ抽出
遺伝子に対応するエントリを検索し、そこに記述された特徴量をそのまま、あるいは正規化して属性値とする。遺伝子の特徴が自然言語で記述されている場合には、後述する文献ＤＢ３５−３からのデータ抽出と同様の手続きを行って属性と属性値との組からなるその遺伝子についての知識データを取得する。
［３］文献ＤＢ３５−３からの知識データ抽出
遺伝子に関連する文献エントリを検索し、その文献に含まれる主要なキーワードを属性とし、キーワードの出現の有無、あるいは、出現度数、出現度数を正規化した値などを属性値とする。それぞれの文献にキーワードが付与されている場合は、そのキーワードを属性とし、同様の手順で属性値を求める。また、文献に特徴量が記述されている場合には、遺伝子ＤＢ３５−２からの属性抽出と同様の手順で、属性名−属性値の組を求める。
なお、これらの知識データが全ての遺伝子に対して常に網羅的に取得できることが期待できない場合には、分析対象遺伝子群に対して網羅的に取得し得る属性（網羅性の高い属性）を選別して知識データとして利用するようにすることが望ましい。また、取得可能な属性の数が多い場合には、属性の重要性の評価を行い、重要性が高いと評価された属性を知識データとして利用する属性として選別することが望ましい。これらのための属性選別は例えば以下のように行う。なお、利用者の指定に従い、属性を選別するようにしてもよい（前述の利用者からの指示が与えられた場合にはこの選別法を実施する）。
［１］網羅性の高い属性の選択
対象遺伝子群に含まれる遺伝子のうちその属性が取得できたものが所定の閾値以上の数の場合にのみ、その属性を網羅性の高い属性として選択する。このときに使用する閾値は、予め比率の形で定義しておくようにしてもよく、また利用者の指定した比率を用いるようにしてもよい。
［２］重要性の高い属性の選択
データベースエントリに記述された特徴量に対し、属性として採用する上での重要度を予め定義しておく。キーワード属性に対しては、情報検索の分野で広く知られているキーワードの重み付け手法を援用する。例えば、以下の計算式による値（逆文書頻度：ｉｎｖｅｒｔｄｏｃｕｍｅｎｔｆｒｅｑｕｅｎｃｙ）をキーワード属性の重要性の評価基準として用いる。
ｄｆ＝ｌｏｇ｛（文書総数）／（キーワードが出現する文書数）｝
次に、知識データの取得の具体的な手順を、タンパク質ＤＢ３５−１を例にとって説明する。
まず図７について説明する。同図はタンパク質ＤＢ３５−１のエントリの一例を示している。なお、この例は下記の文献において例示されているＳＷＩＳＳ−ＰＲＯＴＤＢエントリを簡略化し、説明に必要な部分のみを示したものである。
ＡｍｏｓＢａｉｒｏｃｈａｎｄＲｏｌｆＡｐｗｅｉｌｅｒ，“ＳＷＩＳＳ−ＰＲＯＴＰｒｏｔｅｉｎＵｓｅｒＭａｎｕａｌ”（Ｒｅｌｅａｓｅ４０），２００１（ｈｔｔｐ：／／ｗｗｗ．ｇｅｎｏｍｅ．ａｄ．ｊｐ／ｄｂｇｅｔ−ｂｉｎ／ｓｈｏｗ＿ｍａｎ？ｓｗｉｓｓｐｒｏｔ）
図７に示すように、このエントリは、フィールドの名称である「フィールド名」（ｆｉｅｌｄｎａｍｅ）データ、実体データのデータ型を示す「型」（ｔｙｐｅ）データ、及びデータの実体である「値」（ｖａｌｕｅ）データをフィールド毎に有している。
次に図８について説明する。同図は図５のＳ１０３の処理である、知識データの取得処理の処理内容を示すフローチャートである。
まず、Ｓ２０１では知識データの検索処理、すなわち、知識源ＤＢ３５から実験データ３０に係る遺伝子に関する知識データを検索して抽出する処理が行われる。
Ｓ２０２では、属性名−属性値リストの生成処理、すなわち前ステップの処理によって抽出された知識データを属性名−属性値の組からなるリストへと変換する処理が行われる。
Ｓ２０３では、属性の選別処理、すなわち、前ステップの処理によって得られた属性名−属性値の各組に対し、前述したような網羅性あるいは重要性の観点に基づいた評価を行い、その評価結果に基づいてデータ解析の上で有効であると推定される組を選別する処理が行われる。
以上の処理が終了するとこの知識データの取得処理が終了する。
この図８に示した知識データの取得処理が図７に示したエントリを格納しているタンパク質ＤＢ３５−１を対象として行われた場合、知識データ管理部３２は、まず、図７における関連遺伝子フィールドを検索対象とし、実験データ３０に係る遺伝子名をキーワードとするキーワード検索が行われ、その結果として関連タンパク質エントリが取得される（Ｓ２０１）。続いて、取得された各エントリのフィールドより属性名−属性値のリストが生成される（Ｓ２０２）。その後、前述したような網羅性あるいは重要性の観点に基づいた評価が行われ、その評価結果に基づいてデータ解析の上で有効であると推定される組の選別が行われる（Ｓ２０３）。
次に図９、図１０、及び図１１について説明する。これらはいずれも図８のＳ２０２の処理である、属性名−属性値リストの生成処理の処理内容をフローチャートで示した図である。
図９は属性抽出の対象とするフィールドのデータ型が「数値」型（ｎｕｍｅｒｉｃｖａｌｕｅ）であるときにおける処理内容を示している。
図９において、まず、Ｓ２１１ではフィールド抽出処理、すなわちデータエントリから対象フィールドを抽出する処理が行われる。
続くＳ２１２ではフィールド名に基づいた属性名生成処理、すなわち前ステップの処理によって抽出された対象フィールドに示されている「フィールド名」を属性名とする処理が行われる。
Ｓ２１３では、数値データに基づいた属性値作成処理、すなわちＳ２１１の処理によって抽出された対象フィールドに示されている「数値」型のデータの実体を属性値とする処理が行われる。
以上の処理が終了するとこの図９に示した処理が終了する。
この図９に示した処理が、例えばデータ型が「数値」型である図７に示したエントリの「分子量」（ｍｏｌｅｃｕｌａｒｗｅｉｇｈｔ）フィールドを対象として行われた場合、まず、この「分子量」フィールドが抽出され（Ｓ２１１）、続いてこの抽出されたフィールドのフィールド名である「分子量」が属性名とされ（Ｓ２１２）、その後、この「分子量」フィールドのデータの実体である値「２８９６８」が属性値とされ（Ｓ２１３）、属性名−属性値の組の抽出が完了する。
図１０は属性抽出の対象とするフィールドのデータ型が「テキスト」（ｔｅｘｔ）（自然言語）型であるときにおける属性名−属性値リストの生成処理の処理内容を示している。
図１０において、まず、Ｓ２２１ではフィールド抽出処理、すなわちデータエントリから対象フィールドを抽出する処理が行われる。
続くＳ２２２ではフィールド名及びキーワード表記に基づいた属性名生成処理、すなわち前ステップの処理によって抽出された対象フィールドに示されている「フィールド名」と、そのフィールド中のキーワードの表記とを結合させた文字列を属性名とする処理が行われる。
Ｓ２２３では、キーワードの出現頻度に基づいた属性値作成処理、すなわちＳ２２１の処理によって抽出された対象フィールドに示されている「テキスト」型のデータの実体におけるキーワードの出現頻度を属性値とする処理が行われる。
以上の処理が終了するとこの図１０に示した処理が終了する。
この図１０に示した処理が、例えばデータ型が「テキスト」型である図７に示したエントリの「説明」（ｄｅｓｃｒｉｐｔｉｏｎ）フィールドを対象として行われた場合、まず、この「説明」フィールドが抽出され（Ｓ２２１）、続いてこの抽出されたフィールドのフィールド名である「説明」とそのフィールド中のキーワードの表記とを結合させた文字列が属性名とされ（Ｓ２２２）、その後、この「説明」フィールドのデータの実体である値「ＧｒａｎｚｙｍｅＡｐｒｅｃｕｒｓｏｒ（ＥＣ３．４．２１．７８）」におけるキーワードの出現頻度が属性値とされ（Ｓ２２３）、属性名−属性値の組の抽出が完了する。
図１１は、属性抽出の対象とするフィールドのデータ型が「配列データ」（ｓｅｑｕｅｎｃｅ）型であるときにおける属性名−属性値リストの生成処理の処理内容を示している。ここで、「配列データ」型とは、アミノ酸や塩基の並びを記号列の形式で表現したデータのことである。本実施形態では遺伝子の機能に関する属性を知識データとして利用することを想定しているので、配列データ型のフィールドは遺伝子の機能に関する属性を求めるための手掛かりとして用いられる。
図１１において、まず、Ｓ２３１ではフィールド抽出処理、すなわちデータエントリから対象フィールドを抽出する処理が行われる。
続くＳ２３２ではモチーフ（Ｍｏｔｉｆ）ＤＢの検索処理、すなわち対象フィールドに示されている「配列データ」型であるデータの実体に基づいてモチーフＤＢを検索して関連するモチーフを抽出する処理が行われる。モチーフＤＢは図３のタンパク質ＤＢ３５−１の一部であり、ある機能を有しているタンパク質に共通して見られるアミノ酸の部分配列（コンセンサス配列：ｃｏｎｓｅｎｓｕｓｓｅｑｕｅｎｃｅ）が蓄積されているデータベースである。
Ｓ２３３では、モチーフ名に基づいた属性名生成処理、すなわち前ステップの処理によって抽出されたモチーフに与えられているモチーフ名を属性名とする処理が行われる。
Ｓ２３４では、関連があることを示す値（例えば「１」）を属性値として設定する属性値設定処理が行われる。なお、アミノ酸配列とモチーフとの対応関係の確信度を示す値を属性値として設定する処理をこの属性値設定処理の処理内容とすることもできる。
以上の処理が終了するとこの図１１に示した処理が終了する。
この図１１に示した処理が、例えばデータ型が「配列データ」型である図７に示したエントリの「アミノ酸配列」（ａｍｉｎｏａｃｉｄｓｅｑｕｅｎｃｅ）フィールドを対象として行われた場合、まず、この「アミノ酸配列」フィールドが抽出され（Ｓ２３１）、次にこの抽出された「アミノ酸配列」フィールドのデータの実体である値「ＭＲＮＳＹＲＦＬＡＳＳＬＳＶＶＶＳＬＬＬ…」基づいてモチーフＤＢを検索して関連するモチーフの抽出が行われ（Ｓ２３２）、続いてこの抽出されたモチーフのモチーフ名が属性名とされ（Ｓ２３３）、その後、関連があることを示す値、若しくは「アミノ酸配列」フィールドのデータの実体である値「ＭＲＮＳＹＲＦＬＡＳＳＬＳＶＶＶＳＬＬＬ…」とモチーフとの対応関係の確信度を示す値が属性値として設定され（Ｓ２３４）、属性名−属性値の組の抽出が完了する。
なお、属性抽出の対象とするフィールドのデータ型が「配列データ」型であるときにおける属性名−属性値リストの生成処理に関し、図１１に示した処理においては、モチーフエントリから属性名−属性値の組を抽出する簡便な方法として、関連があることを示す値、若しくはアミノ酸配列とモチーフとの対応関係の確信度を示す値が属性値として設定するようにしていたが、別法として、モチーフエントリに記述されたモチーフの機能特性を対象にして図１０に示した処理を行うようにして属性名−属性値の組の抽出を行うようにしてもよい。
図５の説明へ戻る。
Ｓ１０４では、解析結果と知識データとの照合処理、すなわち前述したＳ１０２の解析処理の結果と、上述したＳ１０３の処理によって取得された知識データとを照合する処理が行なわれる。そして、続くＳ１０５において、解析結果の選択処理、すなわち利用者に提示する解析結果をＳ１０４の照合処理の結果に基づいて選択する処理が行われる。このＳ１０４及びＳ１０５の処理は図３においては解析結果選別部３３で行われる処理である。
ここで図１２について説明する。同図は、解析結果選別部３３によって行われる知識データの処理例を示している。
図１２において、（ａ）は、実験データ３０である解析対象データを因子分析した結果を示している表であり、先に示した図６の（ｂ）と同一の表である。
解析結果選別部３３は、図８に示した処理を行うことにより、図１２（ａ）に示した表の各行に示されている分析対象遺伝子に関連する知識データを、知識データ管理部３２を通じて取得し、取得された知識データを各遺伝子に関する属性と属性値の形に整理して図１２（ｂ）に示す表を作成する。
この図１２（ｂ）に示す知識データを示す表では、例えば、ｇｅｎｅ−２は、属性１なる属性名に関し、ｆ（２，１）という属性値を持つことが表現されている。
次に、解析結果選別部１３は、図１２（ａ）に示した解析結果（因子分析結果）を示す表に対応する行列と図１２（ｂ）に示した知識データを示す表に対応する行列とを掛け合わせることによって、図１２（ｃ）に示す合成行列に対応する表を作成する。この図１２（ｃ）の表において、各行は因子を示し、各列は属性を示している。この（ｃ）の表に対応する行列を算出するためには、（ａ）の表に対応する行列の転置行列と（ｂ）の表に対応する行列とを乗算すればよい。
この図１２（ａ）及び（ｂ）に示した表の各欄に具体的な数値を与えて図１２（ｃ）に示す合成行列を算出したときの計算例を図１３に示す。各欄に数値が与えられている図１３の（ａ）、（ｂ）、（ｃ）の各表が各々図１２の（ａ）、（ｂ）、（ｃ）の各表に対応している。
次に、解析結果選別部１３は、因子と属性との関係を表現している図１２（ｃ）の合成行列の表に対し、属性を変数とした因子分析を行う。この様子を図１４に示す。
図１４において、（ａ）は因子と属性との関係を表現している合成行列の表であり、図１２（ｃ）の表と同一のものである。また、図１４（ｂ）は、図１４（ａ）の表に対して属性を変数とした因子分析を行った結果を示している表である。この表内の値ｗは、実験データ３０の因子分析によって得られた各因子ｅ−１〜ｅ−ｎ（以降、この因子を「基本因子」と称することとする）に対して、上述した合成行列を因子分析することで得られる因子得点（以降、合成因子得点と称することとする）である。表では、この合成因子得点を、合成行列の因子分析により得られた因子ｃ−１〜ｃ−ｍ（以降、「合成因子」と称することとする）毎に示してある。例えば、基本因子ｅ−１に対する合成因子ｃ−２についての合成因子得点は、ｗ（１，２）である。
以上までの処理が図５のＳ１０４の照合処理である。
次に、解析結果選別部１３は、合成因子得点に基づいて、分析結果の提示に用いられる因子を選択する。この選択はＳ１０５の解析結果の選択処理によって行われるものである。ここで選択された因子はグラフ表現による分析結果の提示のための軸として採用される。
この因子の選択には様々な手法を用いることが可能であるが、ここでは代表的な選択手法の２つの例を示す。
この第一の手法は、合成因子得点に基づいて基本因子を選択してグラフの表示軸として用いる場合の手法である。
この手法では、まず、因子分析の結果として得られた合成分子から説明力の高い（分析対象の情報に対する寄与率が大きい）ものをいくつか選び、次に、この選択された合成因子についての合成因子得点の和を評点として基本因子毎に求め、このうち評点が高かった２つの基本因子をグラフの表示軸として選択する。
この第一の手法を、図１５を用いて説明する。
図１５（ａ）の表は、図１４（ｂ）に示した因子分析の結果のうち、説明力の高い合成因子をｋ個選択し、このｋ個の合成因子についての合成因子得点の和を評点として基本因子毎に求めることを示している。
なお、合成因子の選択においては、図１５（ａ）のように選択数を予め設定しておいてもよいが、各合成因子について得られる因子分析において「共通性」（ｃｏｍｍｕｎａｌｉｔｙ）と称されている値を算出し、この値に基づき、例えば、予め設定していた値よりも共通性の値が大きい合成因子を全て選択するようにしてもよい。
図１５（ｂ）は、図１５（ａ）の表において２つの基本因子ｅ−２及びｅ−４の評点が高かった場合に、これらを表示軸として、各種のデータを散布図でグラフ表現した例である。
ここで、図６（ｂ）に示した遺伝子と基本因子との関係を示す表と図１２（ｃ）に示した基本因子と属性との関係を示す表とを、上述したようにして選択された２つの基本因子を表示軸とする散布図で各々グラフ表現することにより、データ解析装置の利用者は、遺伝子同士の性質の類似性や、性質の類似している遺伝子と軸として選択された基本因子と属性（すなわち利用者の背景的知識）との相互関係などを容易に認識することができる。更に、図１４（ｂ）に示した基本因子と合成因子との関係を示す表を、上述した２つの基本因子を表示軸とする散布図でグラフ表現することにより、その利用者は合成因子と遺伝子や属性との関係を容易に認識することもできる。
次に、分析結果の提示に用いられる因子を選択する第二の手法について説明する。この手法は、因子分析の結果として得られた合成分子のうち説明力の高い（分析対象の情報に対する寄与率が大きい）合成因子を表示軸として分析結果を提示するというものである。
この手法では、まず、説明力の高い合成因子を、表示させるグラフの次元数に相当する個数（例えば二次元のグラフを表示させるのであれば２個）だけ選択し、次に、選択された合成因子の各々について、各基本因子の合成因子得点を成分とするベクトルを求める。そして、遺伝子及び属性と基本因子との関係、及び求められたベクトルと基本因子との関係に基づいて、基本因子を軸とするグラフにプロットされる各遺伝子及び各属性を、先に求められたベクトルによって張られる平面に投影する。そして、この平面に投影された点からなる散布図を分析結果として提示する。
この第二の手法を、図１６を用いて説明する。
図１６（ａ）の表は、図１４（ｂ）に示した因子分析の結果から、説明力の高いｃ−１及びｃ−２の計２個の合成因子を選択した様子を示している。
また、図１６（ｂ）は、選択された合成因子の各々について、各基本因子の合成因子得点を成分とするｃ−１ベクトル及びｃ−２ベクトルを求め、基本因子を軸とする平面Ｐにプロットされる各遺伝子及び各属性を、ｃ−１ベクトルとｃ−２ベクトルとで張られる平面Ｐ’に投影する様子を示している。この後、この平面Ｐ’に投影された点からなる散布図が分析結果として利用者に提示される。従って、データ解析装置の利用者は、遺伝子同士の性質の類似性や、性質の類似している遺伝子と軸として選択された基本因子と属性（すなわち利用者の背景的知識）との相互関係などを、この平面Ｐ’に投影された点からなりｃ−１ベクトルとｃ−２ベクトルとを軸とする散布図から容易に認識することができる。
図５の説明へ戻ると、Ｓ１０６では、解析結果及び関係表の提示処理、すなわち、図１５（ｂ）に示した散布図や図１６（ｂ）の平面Ｐ’に表されている散布図と共に、図６（ｂ）に示した遺伝子と基本因子との関係を示す表、図１２（ｃ）に示した基本因子と属性との関係を示す表、あるいは図１４（ｂ）に示した基本因子と合成因子との関係を示す表を表示部４６に表示させる処理が行われる。この処理は図３の解析結果表示部３４において行われる処理である。
その後、Ｓ１０７において、前ステップの処理によって表示部４６に表示された散布図と表とを参照した利用者によって行われる、新たな分析の観点に関連する属性の指定を入力部４５で取得したか否かの判定処理が行われる。そして、この判定結果がＹｅｓのときには、Ｓ１０４へ処理を戻し、利用者によって指定された属性についての因子得点の高い因子を表示軸とする解析結果を表示させるための処理を行う。一方、このＳ１０７の判定処理の結果がＮｏならば図５の処理が終了する。このＳ１０７の処理は、図３の解析結果表示部３４において行われる。
以上までに説明した図５の処理がＣＰＵ４１によって行われることによって、利用者が実験・調査データの分析を効率的に進めることのできるデータ解析装置が実現される。
なお、以上までに説明した、図５、図８、図９、図１０、及び図１１に示した各種の処理をコンピュータに行わせる制御プログラムをコンピュータで読み取り可能な記録媒体に記録させ、そのプログラムを記録媒体からコンピュータに読み出させて実行させることによって本発明をコンピュータで実施することも可能である。
記録させた制御プログラムをコンピュータで読み取ることの可能な記録媒体の例を図１７に示す。同図に示すように、記録媒体としては、例えば、コンピュータ５１に内蔵若しくは外付けの付属装置として備えられるＲＡＭ若しくはＲＯＭ又はハードディスク装置などのメモリ５２、あるいはフレキシブルディスク、ＭＯ（光磁気ディスク）、ＣＤ−ＲＯＭ、ＤＶＤ−ＲＯＭなどといった可搬型記録媒体５３等が利用できる。また、記録媒体は通信回線５４を介してコンピュータ５１と接続される、プログラムサーバ５５として機能するコンピュータが備えている記憶装置５６であってもよい。この場合には、制御プログラムを表現するデータ信号で搬送波を変調して得られる伝送信号を、プログラムサーバ５５から伝送媒体である通信回線５４を通じて伝送するようにし、コンピュータ５１では受信した伝送信号を復調して制御プログラムを再生することで当該制御プログラムを実行できるようになる。
以上詳細に説明したように、本発明によれば、データ解析を行って求められた複数の解析結果のうち、知識源ＤＢに蓄積された利用者の背景的知識と整合性の高い解析結果を選別して利用者に優先的に提示するので、利用者にとって理解しやすい解析結果を提示することができる。
なお、本発明は、上述した実施形態に限定されることなく、種々の改良・変更が可能である。

産業上の利用の可能性

本発明は、各種のデータの分析の支援に用いることが可能であり、とりわけ遺伝子の機能や遺伝子産物間の相互作用を発見するための遺伝子発現パターンの分析の支援に用いると好適である。

Claims

分析対象に対して行われた実験若しくは調査の結果として得られたデータの分析を支援するデータ解析装置であって、
データの分析の背景となる知識が表現されている知識情報が蓄積されている知識蓄積手段と、
各データ間の類似性に基づいて該データを異なる観点に基づいて整理して体系化することによって該データの解析結果を複数得るデータ解析手段と、
前記データの解析結果を前記知識情報に基づいて評価し、該解析結果のうち該知識情報との整合性がより高いものの選別を行う解析結果選別手段と、
を有することを特徴とするデータ解析装置。
前記データ解析手段は、前記データの解析結果に対して多変量解析を施すことによって得られる複数の説明因子の抽出を行い、
前記解析結果選別手段は、前記説明因子と、前記知識情報のうち前記分析対象に関する属性を有している属性情報とを多変量解析することによって得られる該説明因子と該知識情報との整合性の程度を示す値を求め、該値に基づいて前記選別を行う、
ことを特徴とする請求の範囲第１項に記載のデータ解析装置。
前記知識情報は、前記分析対象に関する記述が表現されているテキストデータであり、
前記解析結果選別手段は、前記テキストデータで表現されている記述において前記分析対象と関連付けられているキーワードを前記属性情報として用いて前記選別を行う、
ことを特徴とする請求の範囲第２項に記載のデータ解析装置。
前記解析結果選別手段は、前記知識情報に含まれている前記属性情報のうち所定数以上の前記分析対象に対して取得できる該属性情報を用いて前記選別を行うことを特徴とする請求の範囲第２項に記載のデータ解析装置。
前記解析結果選別手段は、前記整合性の高いことを示している前記値に対応する説明因子の選択を行い、該選択に係る説明因子によって表現される解析結果を前記選別の結果とすることを特徴とする請求の範囲第２項に記載のデータ解析装置。
前記解析結果選別手段は、前記知識情報との整合性が高い合成説明因子を前記値に基づいて求め、該合成説明因子によって表現される解析結果を前記選別の結果とすることを特徴とする請求の範囲第２項に記載のデータ解析装置。
前記解析結果選別手段は、前記選別の結果である前記解析結果と前記説明因子とを、該説明因子と前記知識情報との整合性の程度を示す値、及び前記属性情報と共に出力することを特徴とする請求の範囲第２項に記載のデータ解析装置。
前記解析結果選別手段は、前記説明因子のうちから選択が指示されたものによって表現される解析結果を更に出力することを特徴とする請求の範囲第７項に記載のデータ解析装置。
分析対象に対して行われた実験若しくは調査の結果として得られたデータの分析を支援するデータ解析方法であって、
データの分析の背景となる知識が表現されている知識情報を記憶部に予め蓄積させておき、
各データ間の類似性に基づいて該データを異なる観点に基づいて整理して体系化することによって該データの解析結果を複数取得し、
前記データの解析結果を前記知識情報に基づいて評価し、該解析結果のうち該知識情報との整合性がより高いものの選別を行う、
ことを特徴とするデータ解析方法。
分析対象に対して行われた実験若しくは調査の結果として得られたデータの分析の支援をコンピュータに行わせるためのプログラムであって、
データの分析の背景となる知識が表現されている知識情報を記憶部に予め蓄積させておく処理と、
各データ間の類似性に基づいて該データを異なる観点に基づいて整理して体系化することによって該データの解析結果を複数得る処理と、
前記データの解析結果を前記知識情報に基づいて評価し、該解析結果のうち該知識情報との整合性がより高いものの選別を行う処理と、
をコンピュータに行わせるためのプログラム。