WO2022145135A1

WO2022145135A1 - 情報処理方法、情報処理装置、及び情報処理プログラム

Info

Publication number: WO2022145135A1
Application number: PCT/JP2021/041415
Authority: WO
Inventors: 幸太郎坂田; 哲司渕上
Original assignee: パナソニックインテレクチュアルプロパティコーポレーションオブアメリカ
Priority date: 2020-12-28
Filing date: 2021-11-10
Publication date: 2022-07-07
Also published as: CN116583906A; JPWO2022145135A1; US20230334520A1

Abstract

情報処理装置１は、遺伝子検出デバイスによって検出され、ユーザの遺伝子型を示す塩基配列を含む遺伝子データを取得する取得部（１２１）と、参照データにおいて遺伝子データが位置する領域を特定する領域特定部（１２２）と、特定された領域に関連付けられたデータ密度に基づいて、遺伝子データの希少性を示す希少度を算出する希少度算出部（１２３）と、算出された希少度に応じてユーザに付与するインセンティブを算出するインセンティブ算出部（１２５）と、算出されたインセンティブを出力する出力部（１２６）とを備える。

Description

情報処理方法、情報処理装置、及び情報処理プログラム

　本開示は、遺伝子データを収集する技術に関するものである。

　近年、ＳＮＰ（ｓｉｎｇｌｅ　ｎｕｃｌｅｏｔｉｄｅ　ｐｏｌｙｍｏｒｐｈｉｓｍ）マイクロアレイでは取得できない領域の遺伝型を推定するＳＮＰジェノタイプインピュテーションと呼ばれる技術が知られている。ＳＮＰジェノタイプインピュテーションでは、ＳＮＰの遺伝子型を示す情報が高密度に搭載された参照データが使用される。高密度の参照データを構築するためには、手当たり次第に遺伝子データを収集するのではなく、データ密度の低い領域の遺伝子データ、すなわち希少性のある遺伝子データを効率よく収集することが要求される。

　特許文献１には、ブロックチェーン技術を利用して、生命情報データの露出、及びゲノムデータの偽又は変造を困難にする生命情報データ提供方法が開示されている。

　特許文献２には、情報提供者に報酬額を提示した上で、同意が得られた情報提供者に対応するユーザ情報のみを情報利用者に提供する情報取引装置であって、ユーザ情報の取得状況に応じて報酬額を調整する情報取引装置が開示されている。

　しかしながら、上記の従来技術はいずれも希少性のある遺伝子データを効率よく収集することは何ら考慮されていないため、さらなる改善の必要がある。

特許第６６６１７４２号公報特許第５９７８１９８号公報

　本開示は、上記課題を解決するためになされたものであり、希少性のある遺伝子データを効率よく収集することができる技術を提供することを目的とする。

　本開示の一態様に係る情報処理方法は、参照データを用いて情報処理を行う情報処理装置における情報処理方法であって、前記参照データは、ゲノムの遺伝子型を示す塩基配列と前記塩基配列の座位に応じたデータ密度とが予め関連付けられデータであり、遺伝子検出デバイスによって検出され、ユーザの遺伝子型を示す塩基配列を含む遺伝子データを取得し、前記参照データにおいて前記遺伝子データが位置する領域を特定し、特定した前記領域に関連付けられたデータ密度に基づいて、前記遺伝子データの希少性を示す希少度を算出し、算出した前記希少度に応じて前記ユーザに付与するインセンティブを算出し、算出した前記インセンティブを出力する。

　本開示によれば、希少性のある遺伝子データを効率よく収集することができる。

本開示の実施の形態１における情報処理装置が適用された情報処理システムの全体構成の一例を示す図である。図１に示す情報処理装置の構成の一例を示すブロック図である。遺伝子解析に関する用語の説明図である。参照データのデータ構成の一例を示す図である。参照データをデータ密度に従って表した図である。本開示の実施の形態１における情報処理装置の処理の一例を示すフローチャートである。本開示の実施の形態２における情報処理装置の構成の一例を示すブロック図である。地域参照データのデータ構成の一例を示す図である。図８に示す地域参照データをデータ密度に従って表した図である。本開示の実施の形態２における情報処理装置の処理の一例を示すフローチャートである。

　（本開示に至る経緯）
　数十万人を対象に、ヒトゲノム全体を網羅する数千万箇所のＳＮＰの遺伝子型を特定するジェノタイピングを実施し、対象形質とＳＮＰの遺伝子型との関連を評価するゲノムワイド関連解析の研究が進められている。ゲノムワイド関連解析には数千万のＳＮＰの遺伝子型が必要とされる。その一方で、近年、低コスト且つ容易にＳＮＰのジェノタイピングが行えるＳＮＰマイクロアレイが普及している。

　ＳＮＰマイクロアレイでは、数十万箇所のＳＮＰの遺伝子型しか得られないため、ＳＮＰマイクロアレイにより得られた遺伝子データをそのままゲノムワイド関連解析に適用することはできない。そこで、ＳＮＰジェノタイプインピュテーションを用いて、ＳＮＰマイクロアレイにより得られた遺伝子データから数千万のＳＮＰの遺伝子型を統計的に推測することが行われている。

　ＳＮＰジェノタイプインピュテーションでは、参照データ中の塩基配列で、ＳＮＰマイクロアレイにより得られた遺伝子データの塩基配列を補間していくことで、未観測の領域のＳＮＰの遺伝子型が推測される。しかしながら、ＳＮＰジェノタイプインピュテーションを行うためには高密度にＳＮＰの遺伝子型が搭載された参照データが必要である。そのためには、手当たり次第に遺伝子データを収集するのではなく、データ密度の低い領域に対応する遺伝子データ、すなわち、希少性のある遺伝子データを効率よく取集することが求められる。

　上述の特許文献１には、ブロックチェーン技術を利用して、第２ユーザの公開キーで暗号化された第２ユーザの生命情報データをユーザ認証に成功した第１ユーザに提供することが開示されているに過ぎず、その課題も、生命情報データの露出、及びゲノムデータの偽又は変造を防止することに過ぎない。したがって、特許文献１では、希少性のある遺伝子データを効率よく収集することはできない。

　上述の特許文献２において、情報提供者が提供するユーザ情報は、位置情報、気圧情報、収音情報、照度情報、頻度情報、並びに年齢、職業、及び年収を含む個人情報であり、遺伝子データではない。そのため、特許文献２では遺伝子データの希少性に応じて情報提供者へ付与する適切なインセンティブを決定することはできず、その結果、希少性のある遺伝子データを効率よく収集することができない。

　そこで、本発明者は、希少性のある遺伝子データを効率よく収集するために以下に示す本開示の各態様を想到するに至った。

　本構成によれば、参照データにおいて、ユーザから提供された遺伝子データが位置する領域が特定され、特定された領域に関連付けられたデータ密度に基づいて、遺伝子データの希少度が算出される。そして、希少度に応じてユーザに付与するインセンティブが算出され、算出されたインセンティブが出力される。そのため、希少度の高い遺伝子データを提供したユーザに対しては希少度が低い遺伝子を提供したユーザよりも高いインセンティブを付与することが可能となる。その結果、希少性のある遺伝子データを効率よく収集することができる。

　上記情報処理方法において、前記遺伝子データは、ユーザの属性を含む属性情報が関連付けられ、さらに、前記属性情報に基づいて、前記遺伝子データの遺伝子解析への貢献度を算出し、前記インセンティブの算出では、前記希少度及び前記貢献度に応じたインセンティブを算出してもよい。

　遺伝子データを用いて遺伝子解析をする場合、遺伝子データを提供したユーザの属性情報があれば、有用な遺伝子解析結果が得られる可能性が高まる。本構成によれば、属性情報に基づいて遺伝子解析への貢献度が算出され、算出された貢献度をさらに考慮に入れてインセンティブが算出されている。そのため、ユーザに対して属性情報を提供する動機付けを与え、有用な属性情報が関連付けられた遺伝子データを効率よく収集することができる。

　上記情報処理方法において、前記遺伝子データは、前記遺伝子型を示す塩基配列の座位を示す座位情報が関連付けられ、前記希少度の算出では、前記座位情報に基づいて、前記参照データにおいて前記遺伝子データが位置する領域を特定してもよい。

　本構成によれば、遺伝子データには、遺伝子の座位を示す座位情報が関連付けられているため、参照データにおいて遺伝子データが位置する領域を容易に特定することができる。

　上記情報処理方法において、前記属性情報は、前記ユーザの居住地を示す情報を含み、前記参照データは、予め定められた地域に応じた複数の地域参照データを含み、前記領域の特定では、前記居住地に関する情報に対応する地域参照データにおいて前記遺伝子データが位置する領域を特定してもよい。

　同じ地域に居住するユーザ同士の遺伝子型は、似通った傾向を持つため、地域に応じた地域参照データを用いてＳＮＰジェノタイプインピュテーションを実行すれば、推定精度が高められる。この場合、データ密度が低い地域参照データに対応する地域を居住地とするユーザの遺伝子データは、データ密度が高い地域参照データに対応する地域を居住地とするユーザの遺伝子データよりも希少性が高くなる。本構成によれば、遺伝子データを提供したユーザの居住地に応じてインセンティブを算出することが可能となる。そのため、地域の観点において希少性のある遺伝子データを効率よく収集することができる。

　上記情報処理方法において、前記貢献度の算出では、前記属性情報に前記ユーザの血縁関係を示す情報が含まれているか否かを判定し、前記血縁関係を示す情報が含まれていると判定した場合、前記血縁関係を示す情報が含まれていないと判定した場合に比べて前記貢献度を高く算出してもよい。

　本構成によれば、属性情報にユーザの血縁関係を示す情報が含まれている場合、そのユーザに対してより高いインセンティブを付与することが可能となる。そのため、遺伝子解析において有用となる血縁関係を示す情報を提供することに対する動機付けをユーザに与えることができ、血縁関係を示す情報を効率よく収集できる。

　上記情報処理方法において、前記貢献度の算出では、前記属性情報に含まれている前記血縁関係を示す情報の情報量が多くなるにつれて前記貢献度を高く算出してもよい。

　本構成によれば、血縁関係を示す情報の情報量が多くなるにつれてユーザに対してより高いインセンティブを付与することが可能となる。そのため、内容が充実した血縁関係を示す情報を効率よく収集できる。

　上記情報処理方法において、前記貢献度の算出では、前記属性情報に前記ユーザの生活パターンを示す情報が含まれているか否かを判定し、前記生活パターンを示す情報が含まれていると判定した場合、前記生活パターンを示す情報が含まれていないと判定した場合に比べて前記貢献度を高く算出してもよい。

　本構成によれば、属性情報にユーザの生活パターンが含まれている場合、そのユーザに対してより高いインセンティブを付与することが可能となる。そのため、エピジェネティックスの研究において有用となる生活パターンデータを提供することに対する動機付けをユーザに与えることができ、生活パターンデータを効率よく収集できる。

　上記情報処理方法において、前記貢献度の算出では、前記属性情報に含まれている前記ユーザの生活パターンを示す情報の情報量が多くなるにつれて前記貢献度を高く算出してもよい。

　本構成によれば、生活パターンを示す情報の情報量が多くなるにつれてユーザに対してより高いインセンティブを付与することが可能となる。そのため、内容が充実した生活パターンを示す情報効率よく収集できる。

　本開示の別の一態様に係る情報処理装置は、参照データを用いて情報処理を行う情報処理装置であって、前記参照データは、ゲノムの遺伝子型を示す塩基配列と前記塩基配列の座位に応じたデータ密度とが予め関連付けられたデータであり、遺伝子検出デバイスによって検出され、ユーザの遺伝子型を示す塩基配列を含む遺伝子データを取得する取得部と、前記参照データにおいて前記遺伝子データが位置する領域を特定する領域特定部と、前記領域特定部により特定された前記領域に関連付けられたデータ密度に基づいて、前記遺伝子データの希少性を示す希少度を算出する希少度算出部と、前記希少度算出部により算出された前記希少度に応じて前記ユーザに付与するインセンティブを算出するインセンティブ算出部と、前記インセンティブ算出部により算出された前記インセンティブを出力する出力部とを備える。

　本開示のさらに別の一態様に係る情報処理プログラムは、参照データを用いて情報処理を行う情報処理装置としてコンピュータを機能させる情報処理プログラムであって、前記参照データは、ゲノムの遺伝子型を示す塩基配列と前記塩基配列の座位に応じたデータ密度とが予め関連付けられたデータであり、遺伝子検出デバイスによって検出され、ユーザの遺伝子型を示す塩基配列を含む遺伝子データを取得する取得部と、前記参照データにおいて前記遺伝子データが位置する領域を特定する領域特定部と、前記領域特定部により特定された前記領域に関連付けられたデータ密度に基づいて、前記遺伝子データの希少性を示す希少度を算出する希少度算出部と、前記希少度算出部により算出された前記希少度に応じて前記ユーザに付与するインセンティブを算出するインセンティブ算出部と、前記インセンティブ算出部により算出された前記インセンティブを出力する出力部としてコンピュータを機能させる。

　本開示は、このような情報処理プログラムによって動作する情報処理システムとして実現することもできる。また、情報処理プログラムを、ＣＤ－ＲＯＭ等のコンピュータ読取可能な非一時的な記録媒体あるいはインターネット等の通信ネットワークを介して流通させることができるのは、言うまでもない。

　なお、以下で説明する実施の形態は、いずれも本開示の一具体例を示すものである。以下の実施の形態で示される数値、形状、構成要素、ステップ、ステップの順序などは、一例であり、本開示を限定する主旨ではない。また、以下の実施の形態における構成要素のうち、最上位概念を示す独立請求項に記載されていない構成要素については、任意の構成要素として説明される。また全ての実施の形態において、各々の内容を組み合わせることもできる。

　（実施の形態１）
　図１は、本開示の実施の形態１における情報処理装置１が適用された情報処理システムの全体構成の一例を示す図である。情報処理システムは、情報処理装置１、提供端末２、及びユーザ端末３を含む。情報処理装置１～ユーザ端末３は、ネットワークＮＴを介して相互に通信可能に接続されている。

　情報処理装置１は、例えば１以上のコンピュータを含むクラウドサーバで構成されている。情報処理装置１は、提供端末２からユーザが提供する遺伝子データを受信し、受信した遺伝子データに基づいてユーザに付与するインセンティブを算出する。

　提供端末２は、例えば医療機関が所持するコンピュータで構成され、遺伝子データを情報処理装置１に送信する。遺伝子データは、遺伝子検出デバイスによって検出され、ユーザの遺伝子型を示す塩基配列を含むデータである。遺伝子検出デバイスとしては、例えばＳＮＰマイクロアレイが採用できる。ＳＮＰマイクロアレイには、プローブと呼ばれる塩基の違いを検出するＤＮＡ断片がチップ上に高密度に敷き詰められている。ＳＮＰマイクロアレイは、数十万箇所のＳＮＰの遺伝子型を検出する。遺伝子検出デバイスはＳＮＰマイクロアレイに限定されず他のデバイスが採用されてもよい。

　遺伝子データには遺伝子データを提供するユーザを識別するユーザ識別子が関連付けられている。さらに、遺伝子データにはＳＮＰの遺伝子型を示す塩基配列の座位を示す座位情報が関連付けられている。この座位情報は、ＳＮＰの遺伝子型を示す塩基配列のゲノム上での座位を示す情報である。

　ユーザ端末３は、遺伝子データを提供するユーザにより所持される情報処理装置である。詳細には、ユーザ端末３は、例えば、スマートフォン及びタブレット端末等の携帯情報端末又は、ラップトップコンピュータ等の据え置き型のコンピュータで構成されている。ユーザ端末３は、ユーザにより入力された属性情報を取得し、取得した属性情報を情報処理装置１に送信する。

　ネットワークＮＴは、例えばインターネット及び携帯電話通信網を含む広域通信ネットワークで構成されている。

　ここでは、遺伝子データは提供端末２から情報処理装置１に送信されているが、本開示はこれに限定されず、ユーザ端末３から情報処理装置１に送信されてもよい。この場合、ユーザ端末３は、ＳＮＰマイクロアレイによって検出された遺伝子データを取得し、属性情報と関連付けて情報処理装置１に送信すればよい。或いは、属性情報は提供端末２から送信されてもよい。この場合、提供端末２はＳＮＰマイクロアレイにより検出された遺伝子データを取得し、属性情報と関連付けて情報処理装置１に送信すればよい。

　図２は、図１に示す情報処理装置１の構成の一例を示すブロック図である。情報処理装置１は、通信部１１、プロセッサ１２、及びメモリ１３を含む。通信部１１は、情報処理装置１をネットワークＮＴに接続するための通信回路で構成されている。通信部１１は、提供端末２から送信された遺伝子データを受信する。ここで受信される遺伝子データにはユーザ識別子及び座位情報が関連付けられている。通信部１１は、ユーザ端末３から送信された属性情報を受信する。ここで、受信される属性情報にはユーザ識別子が関連付けられている。

　メモリ１３は、ＳＳＤ（Ｓｏｌｉｄ　Ｓｔａｔｅ　Ｄｒｉｖｅ）又はＨＤＤ（Ｈａｒｄ　Ｄｉｓｃ　Ｄｒｉｖｅ）等の不揮発性の記憶装置で構成されている。メモリ１３は、参照データ１３１及びインセンティブ情報１３２を記憶する。

　参照データ１３１は、ジェノタイプインピュテーションで用いられる参照データであり、人のゲノムの遺伝子型を示す塩基配列と塩基配列の座位に応じたデータ密度とが対応付けられたデータである。

　ここで、遺伝子解析に用いられる用語について説明する。図３は、遺伝子解析に関する用語の説明図である。図３において２本の直線は相同染色体４０１、４０２を示す。座位４０３は相同染色体４０１、４０２上の遺伝子がある場所を示す。アレル４０４は相同染色体４０１、４０２上で対になっている遺伝子同士を指す。遺伝子型４０５はアレル４０４の組み合わせを指す。ハプロタイプ４０６は、アレル４０４の組み合わせを指す。ディプロタイプ４０７はハプロタイプ４０６の組み合わせを指す。

　次に、参照データ１３１の具体例について説明する。図４は、参照データ１３１のデータ構成の一例を示す図である。図４の例では、参照データ１３１は、相同染色体４０１、４０２に対応する２つの塩基配列が２行単位で蛇行するように配置されたデータ構造を有している。例えば、１行目には相同染色体４０１の塩基配列が配置され、２行目には相同染色体４０２の塩基配列が配置され、３行目には１行目の続きの塩基配列が配置され、４行目には２行目の続きの塩基配列が配置されるというように塩基配列が配置されている。

　また、参照データ１３１において塩基配列の各座位４０３には、データ密度が対応付けられている。データ密度は、ある座位４０３における塩基を確定するために使用されたデータ数に応じて決定された値である。例えば、使用されたデータ数が１００００であれば「１．０」、データ数が３０００であれば「０．３」というように使用されるデータ数が増大するにつれてデータ密度は大きな値に設定されている。このように、参照データ１３１は相同染色体４０１の塩基配列と相同染色体４０２の塩基配列とがセットになって構成されている。そのため、参照データ１３１は、アレル、ハプロタイプ、及びディプロタイプといった遺伝子型を示す情報が搭載されている。なお、参照データ１３１はヒトのゲノムの遺伝子が数千万箇所の塩基配列を示してもよいし、ヒトの全ゲノムの塩基配列を示していてもよいし、数千万箇所のＳＮＰの塩基配列を示してもよい。

　図５は、参照データ１３１をデータ密度に従って表した図である。図５の例では、データ密度が大きい座位ほど高い濃度で表示されている。例えば、符号６０１で示される高濃度の領域に含まれる遺伝子型は、符号６０２で示される低濃度の領域に含まれる遺伝子型よりも多くのデータを用いて塩基配列が決定されている。このように、参照データ１３１は座位に応じてデータ密度にばらつきがあることが分かる。

　次に、ＳＮＰジェノタイプインピュテーションについて説明する。ＳＮＰマイクロアレイにより検出される遺伝子データは、例えば「・・・・Ａ・・・・Ａ・・・Ａ・・・」及び「・・・・Ｇ・・・・Ｃ・・・Ａ・・・」というように一方の相同染色体の塩基配列の一部と他方の相同染色体の塩基配列の一部とが確定され、残りの部分が欠けたデータである。「・・・」の箇所は確定できていない塩基配列を示し、Ａはアデニンを示し、Ｇはグアニンを示し、Ｃはシトシンを示している。ＳＮＰジェノタイプインピュテーションは、この欠けた部分のＳＮＰの遺伝子型を参照データ１３１を用いて推測する。

　ＳＮＰジェノタイプインピュテーションでは、遺伝子データにおいて確定している塩基配列のパターンと参照データ１３１の塩基配列のパターンとを比較し、両パターンが最も適合する参照データ１３１の領域が探索される。そして、探索された領域における参照データ１３１の塩基配列から遺伝子データにおいて欠けた箇所の塩基配列が推測され、推測結果に基づいて、ＳＮＰの遺伝子型が推測される。ここで得られる遺伝子型の推測結果は、例えばあるＳＮＰについて「ＡＡ」型が０．９５、「ＡＧ」型が０．４４、「ＧＧ」型が０．０１というような確率で表される。

　図２を参照する。インセンティブ情報１３２は、１以上のユーザのそれぞれについて、ユーザ識別子とユーザに付与されたインセンティブとが対応付けられた情報である。インセンティブは、例えば電子マネー、マイレージポイント、仮想通過、商品の購入ポイント、及びクーポン等の経済的価値を有するデータであってもよいし、証明書のような経済的価値を有していないデータであってもよい。

　プロセッサ１２は、例えばＣＰＵで構成され、取得部１２１、領域特定部１２２、希少度算出部１２３、貢献度算出部１２４、インセンティブ算出部１２５、及び出力部１２６を含む。プロセッサ１２が備えるこれらのブロックは、ＣＰＵが情報処理プログラムを実行することで実現される。

　取得部１２１は、提供端末２から送信された遺伝子データを通信部１１を用いて取得する。取得部１２１は、ユーザ端末３から送信された属性情報を通信部１１を用いて受信する。取得部１２１は、ユーザ識別子をキーにして遺伝子データと属性情報を関連付ける。これにより、ユーザ識別子、遺伝子データ、座位情報、及び属性情報が関連付けられたデータセットが得られる。

　属性情報は、ユーザの個人情報、ユーザの居住地を示す居住地情報、ユーザの血縁関係を示す血縁関係情報、及びユーザの生活パターンを示す生活パターン情報を含む。

　ユーザの個人情報は、ユーザの年齢、性別、及び職業等を含む。ユーザの個人情報は例えばユーザがユーザ端末３に入力することにより得られる情報である。居住地情報は、ユーザの居住する地域の名称を示す情報を含む。ここで、居住する地域の名称は、例えば国名、都道府県名、及び州名の少なくとも１つを含む。なお、居住する地域の名称を示す情報は、都道府県よりも粒度が大きい情報（例えば日本であれば、本州、四国、九州、及び北海度）を含んでもよいし、国よりも粒度の大きい情報（例えば、アジア大陸、アフリカ大陸、北アメリカ大陸）といった情報を含んでいてもよい。居住地情報はユーザがユーザ端末３に入力することにより得られてもよいし、ユーザ端末３が備えるＧＰＳセンサが検出した位置データに基づいて決定されてもよい。

　生活パターン情報は、例えば所定期間（例えば１日）におけるユーザの生活パターンを示す。生活パターン情報には、例えば１日あたりの平均喫煙本数、１日あたりの平均アルコール摂取量、１日あたりの平均消費カロリー、１日あたりの平均摂取カロリー、１日あたりの食事回数、食事時刻、平均起床時刻、平均就寝時刻、及び１日あたりの平均睡眠時間等が含まれる。生活パターン情報は、ユーザにより入力された情報であってもよいし、スマートウオッチをはじめとする生体センサによりモニタリングされた情報であってもよい。

　領域特定部１２２は、参照データにおいて取得部１２１により取得された遺伝子データが位置する領域を特定する。ここで、領域特定部１２２は、遺伝子データに関連付けられた座位情報に基づいて、遺伝子データが位置する領域を特定すればよい。

　希少度算出部１２３は、領域特定部１２２により特定された領域に関連付けられたデータ密度に基づいて、遺伝子データの希少性を示す希少度を算出する。例えば、希少度算出部１２３は、領域特定部１２２により特定された領域内の全ての座位に関連付けられた密度データから密度データの平均値を算出し、算出した平均値の逆数を希少度として算出すればよい。或いは、希少度算出部１２３は、領域特定部１２２により特定された領域内において、確定している塩基の座位に関連付けられた密度データの平均値を算出し、算出した平均値の逆数を希少度として算出してもよい。これにより、特定された領域内におけるデータ密度の平均値が低くなるにつれて、希少度の値が高くなるように希少度を算出することが可能になる。

　貢献度算出部１２４は、遺伝子データに関連付けられた属性情報に基づいて遺伝子データの遺伝子解析に対する貢献度を算出する。例えば、貢献度算出部１２４は、属性情報に血縁関係情報が含まれているか否かを判定し、血縁関係情報が含まれていると判定した場合、血縁関係が含まれていないと判定した場合に比べて貢献度を高く算出する。血縁関係情報としては、例えば、遺伝子データを提供するユーザの血縁者を特定する情報が採用できる。血縁者としては、例えば父、母、兄弟、姉妹、祖父、及び親戚等が採用できる。血縁者を特定する情報としては、例えば血縁者の識別子が採用できる。

　この場合、貢献度算出部１２４は、血縁関係情報の情報量が多くなるにつれて、貢献度の値を高く算出すればよい。例えば、貢献度算出部１２４は、属性情報に含まれる血縁関係情報により示される血縁者の人数が増えるにつれて、貢献度の値を高く算出すればよい。

　遺伝子解析においては、ユーザの遺伝子型と、そのユーザの血縁者の遺伝子型とを比較することで有用な解析結果が得られる。そこで、本実施の形態では、血縁関係情報の情報量が多くなるにつれてユーザの貢献度を高く算出する。

　また、貢献度算出部１２４は、属性情報にユーザの生活パターンが含まれているか否かを判定し、含まれていると判定した場合、生活パターン情報が含まれていないと判定した場合に比べて、貢献度を高く算出してもよい。この場合、貢献度算出部１２４は、生活パターン情報の情報量が多くなるにつれて、貢献度を高く算出してもよい。例えば、貢献度算出部１２４は、１日あたりの喫煙本数、１日あたりのアルコール摂取量といった生活パターン情報に含まれるデータの種類が多くなるにつれて生活パターン情報の情報量が多いと判定すればよい。

　或いは、貢献度算出部１２４は、血縁関係情報に基づいて算出した貢献度と生活パターン情報に基づいて算出した貢献度との和を最終的に得られる貢献度として算出してもよい。例えば、貢献度算出部１２４は、最終的に算出される貢献度をＢ、血縁関係情報が含まれている場合に付与される貢献度をＢ１、生活パターンを示す場合に付与される貢献度をＢ２とすると、Ｂ＝Ｂ１＋Ｂ２により貢献度を算出すればよい。この場合、Ｂ１の値は血縁関係の示す情報の情報量が増大するにつれて高くされ、Ｂ２の値は生活パターン情報の情報量が増大するにつれて高くされる。

　インセンティブ算出部１２５は、希少度及び貢献度が高くなるにつれて値が大きくなるようにユーザに付与するインセンティブを算出する。インセンティブ算出部１２５は、例えば、希少度をＡ、貢献度をＢとすると、下記の式を用いてインセンティブを算出すればよい。

　インセンティブ＝α・Ａ＋β・Ｂ　　（１）
　ここで、αは希少度に対する重み係数であり、βは貢献度に対する重み係数である。希少度を重視する場合、係数αは係数βよりも大きな値に設定され、貢献度を重視する場合、係数βは係数αよりも大きな値が設定される。

　出力部１２６は、インセンティブ算出部１２５により算出されたインセンティブを出力する。ここで、出力部１２６は、算出されたインセンティブを該当するユーザのインセンティブ情報１３２に登録することでインセンティブを付与すればよい。さらに、出力部１２６は、算出されたインセンティブをユーザに提示するための提示情報を通信部１１を用いてユーザ端末３に送信してもよい。

　次に、本開示の実施の形態１における情報処理装置１の処理について説明する。図６は、本開示の実施の形態１における情報処理装置１の処理の一例を示すフローチャートである。

　ステップＳ１において、取得部１２１は、提供端末２から送信された遺伝子データを通信部１１を用いて取得する。

　ステップＳ２において、領域特定部１２２は、遺伝子データに関連付けられた座位情報に基づいて参照データ１３１において遺伝子データが位置する領域を特定する。図４の例では、四角形で取り囲まれた領域１３１ａが参照データ１３１から特定されている。

　ステップＳ３において、希少度算出部１２３は、ステップＳ２で特定された領域内のデータ密度の平均値を算出し、算出した平均値の逆数を遺伝子データの希少度として算出する。図４の例では、領域１３１ａのデータ密度の平均値が１．３であったため、１／１．３が希少度として算出される。

　ステップＳ４において、貢献度算出部１２４は、遺伝子データに関連付けられた属性情報に基づいて貢献度を算出する。この場合、貢献度算出部１２４は、属性情報において血縁関係が示す情報の情報量が増大するにつれて貢献度の値を高くするとともに、生活パターン情報の情報量が増大するにつれて貢献度の値を高くすればよい。

　ステップＳ５において、インセンティブ算出部１２５は、ステップＳ３で算出された希少度とステップＳ４で算出された貢献度とを式（１）に入力して、希少度と貢献度とに応じたインセンティブを算出する。

　ステップＳ６において、出力部１２６は、ステップＳ５で算出されたインセンティブを、遺伝子データを提供したユーザのインセンティブ情報１３２に登録することにより、当該ユーザにインセンティブを付与する。

　このように本実施の形態における情報処理装置１によれば、希少度及び貢献度の高い遺伝子データを提供したユーザに対しては高いインセンティブを付与することが可能となる。その結果、希少性があり、且つ遺伝子解析に対する貢献度の高い遺伝子データを効率よく収集することができる。

　（実施の形態２）
　実施の形態２は、ユーザの居住地を考慮に入れてインセンティブを算出するものである。図７は、本開示の実施の形態２における情報処理装置１Ａの構成の一例を示すブロック図である。本実施の形態において実施の形態１と同一の構成要素には同一の符号を付し、説明を省略する。

　プロセッサ１２Ａにおいて領域特定部１２２Ａは、属性情報に含まれる居住地情報に基づいて、遺伝子データを提供したユーザの居住地に対応する地域参照データ１３１０を特定する。そして、領域特定部１２２Ａは、特定した地域参照データ１３１０において遺伝子データが位置する領域を特定する。なお、この領域を特定する処理の詳細は実施の形態１と同様であるため、説明を省略する。

　メモリ１３Ａは、地域Ａ、地域Ｂ、地域Ｃに対応する３つの地域参照データ１３１０を記憶する。この場合、領域特定部１２２Ａは、居住地情報が示す居住地が地域Ａ～Ｃのいずれの地域に属するかを判定し、属する地域に対応する地域参照データ１３１０を特定すればよい。ここでは、メモリ１３は、３つ地域参照データ１３１０を記憶しているが、これは一例であり、２つの地域参照データ１３１０を記憶してもよいし、４つ以上の地域参照データ１３１０を記憶してもよい。

　図８は、地域参照データ１３１０のデータ構成の一例を示す図である。地域Ａに対応する地域参照データ１３１０は地域Ａの居住者の遺伝子データに基づいて生成され、地域Ｂに対応する地域参照データ１３１０は地域Ｂの居住者の遺伝子データに基づいて生成され、地域Ｃに対応する地域参照データ１３１０は地域Ｃの居住者の遺伝子データに基づいて生成されている。各地域参照データ１３１０は生成するために使用される母集団が異なるだけであり、詳細なデータ構成は参照データ１３１と同じである。すなわち、地域参照データ１３１０は遺伝子型を示す塩基配列と、塩基配列の座位に応じたデータ密度とが対応付けられたデータである。

　なお、地域Ａ～Ｃの粒度は、国単位であってもよいし、国を構成する地域単位（例えば日本であれば、都道府県、又は本州、四国、九州、及び北海度）であってもよいし、国よりも大きな単位（例えば、アジア大陸、アフリカ大陸、北アメリカ大陸）であってもよい。

　図９は、図８に示す地域参照データ１３１０をデータ密度に従って表した図である。図９に示すように、地域Ａ～Ｃに応じて地域参照データ１３１０のデータ密度が相違していることが分かる。

　日本人集団において数千人の遺伝子型を調べたところ、北海道地方及び本州地方と、九州地方及び琉球地方とで、遺伝子型に明確な相違が確認された。そのため、日本人集団の遺伝的背景が北海道地方及び本州地方と、九州地方及び琉球地方とで違うことが分かった。したがって、ユーザの居住地に対応する地域参照データ１３１０を用いてＳＮＰジェノタイプインピュテーションを行った場合、ユーザの遺伝子型の推定精度が高められる。そこで、実施の形態２では、複数の地域参照データ１３１０のそれぞれにおいて希少性の高い遺伝子データを効率よく収集するために、希少性の高い地域に居住するユーザに対して高いインセンティブを付与する。

　次に、本開示の実施の形態２における情報処理装置１Ａの処理について説明する。図１０は、本開示の実施の形態２における情報処理装置１Ａの処理の一例を示すフローチャートである。なお、図１０のフローチャートにおいて、図６と同一の処理には同一の符号を付し、説明を省略する。

　ステップＳ１に続くステップＳ１０１において、領域特定部１２２Ａは、ステップＳ１で取得された遺伝子データに関連付けられた属性情報に含まれる地域情報から当該遺伝子データを提供したユーザの居住地を特定する。

　ステップＳ１０２において、領域特定部１２２Ａは、ステップＳ１０１で特定した居住地に対応する地域参照データ１３１０を特定する。以降、特定された地域参照データ１３１０とステップＳ１で取得された遺伝子データとを用いてユーザに付与するインセンティブを算出して出力する処理が実行される。

　図８の左図を参照し、ユーザの居住地が地域Ａに属していれば、地域Ａに対応する地域参照データ１３１０が特定され、特定された地域参照データ１３１０において遺伝子データが位置する領域１３１０ａが特定される。ここでは、領域１３１０ａにおけるデータ密度の平均値が１．３であったため、希少度は、１／１．３により算出される。

　図８の中央の図を参照し、ユーザの居住地が地域Ｂに属していれば、地域Ｂの地域参照データ１３１０において遺伝子データが位置する領域１３１０ａが特定される。ここでは、領域１３１０ａにおけるデータ密度の平均値が０．３であったため、希少度は１／０．３により算出される。

　図８の例では、領域１３１０ａのデータ密度の平均値は、地域Ａ、地域Ｃ、地域Ｂの順で大きい。そのため、希少度の高さは、地域Ｂ、地域Ｃ、地域Ａの順となる。その結果、地域Ｂに属するユーザに付与されるインセンティブが最大となり、地域Ａに属するユーザに付与されるインセンティブが最小になる。

　このように、実施の形態２における情報処理装置１Ａでは、データ密度が低い地域参照データ１３１０に対応する地域に居住地があるユーザに対して、高いインセンティブを付与することができる。そのため、データ密度が低い地域参照データ１３１０に対応する地域を居住地とするユーザに対して遺伝子データを提供する動機付けを与えることができ、効率よく遺伝子データを収集することができる。

　本開示は以下の変形例が採用できる。

　（１）領域特定部１２２は、遺伝子データに関連付けられた座位情報を用いて領域１３１ａを特定したが、本開示はこれに限定されない。例えば、領域特定部１２２は、遺伝子データの塩基配列のパターンと参照データ１３１の塩基配列のパターンとを比較し、両パターンが最も適合する参照データ１３１の領域を探索し、探索した領域を遺伝子データが位置する領域１３１ａとして特定してもよい。このことは、領域特定部１２２Ａにおいても同じである。

　（２）インセンティブ情報１３２は、情報処理装置１が記憶していたが本開示はこれに限定されない。例えば、インセンティブ情報１３２は、インセンティブを管理する管理者が所持する外部サーバに記憶されていてもよい。インセンティブが電子マネーであれば、管理者は例えば金融機関となり、インセンティブがマイレージポイントであれば管理者は例えば航空会社となり、インセンティブが商品の購入に対するポイントであれば管理者は例えばポイントの運営会社となる。

　（３）実施の形態１において、インセンティブ算出部１２５は希少度のみに基づいてインセンティブを算出してもよい。この場合、貢献度算出部１２４は不要となる。

　（４）参照データ１３１は、情報処理装置１が記憶していたが本開示はこれに限定されず、外部サーバが記憶していてもよい。

　本開示によれば、希少性のある遺伝子データを効率よく収集できるため、遺伝子産業において有用である。

Claims

　参照データを用いて情報処理を行う情報処理装置における情報処理方法であって、
　前記参照データは、ゲノムの遺伝子型を示す塩基配列と前記塩基配列の座位に応じたデータ密度とが予め関連付けられデータであり、
　遺伝子検出デバイスによって検出され、ユーザの遺伝子型を示す塩基配列を含む遺伝子データを取得し、
　前記参照データにおいて前記遺伝子データが位置する領域を特定し、
　特定した前記領域に関連付けられたデータ密度に基づいて、前記遺伝子データの希少性を示す希少度を算出し、
　算出した前記希少度に応じて前記ユーザに付与するインセンティブを算出し、
　算出した前記インセンティブを出力する、
　情報処理方法。
　前記遺伝子データは、ユーザの属性を含む属性情報が関連付けられ、
　さらに、前記属性情報に基づいて、前記遺伝子データの遺伝子解析への貢献度を算出し、
　前記インセンティブの算出では、前記希少度及び前記貢献度に応じたインセンティブを算出する、
　請求項１記載の情報処理方法。
　前記遺伝子データは、前記遺伝子型を示す塩基配列の座位を示す座位情報が関連付けられ、
　前記希少度の算出では、前記座位情報に基づいて、前記参照データにおいて前記遺伝子データが位置する領域を特定する、
　請求項１又は２記載の情報処理方法。
　前記属性情報は、前記ユーザの居住地を示す情報を含み、
　前記参照データは、予め定められた地域に応じた複数の地域参照データを含み、
　前記領域の特定では、前記居住地に関する情報に対応する地域参照データにおいて前記遺伝子データが位置する領域を特定する、
　請求項２記載の情報処理方法。
　前記貢献度の算出では、前記属性情報に前記ユーザの血縁関係を示す情報が含まれているか否かを判定し、前記血縁関係を示す情報が含まれていると判定した場合、前記血縁関係を示す情報が含まれていないと判定した場合に比べて前記貢献度を高く算出する、
　請求項２記載の情報処理方法。
　前記貢献度の算出では、前記属性情報に含まれている前記血縁関係を示す情報の情報量が多くなるにつれて前記貢献度を高く算出する、
　請求項５記載の情報処理方法。
　前記貢献度の算出では、前記属性情報に前記ユーザの生活パターンを示す情報が含まれているか否かを判定し、前記生活パターンを示す情報が含まれていると判定した場合、前記生活パターンを示す情報が含まれていないと判定した場合に比べて前記貢献度を高く算出する、
　請求項２記載の情報処理方法。
　前記貢献度の算出では、前記属性情報に含まれている前記ユーザの生活パターンを示す情報の情報量が多くなるにつれて前記貢献度を高く算出する、
　請求項７記載の情報処理方法。
　参照データを用いて情報処理を行う情報処理装置であって、
　前記参照データは、ゲノムの遺伝子型を示す塩基配列と前記塩基配列の座位に応じたデータ密度とが予め関連付けられたデータであり、
　遺伝子検出デバイスによって検出され、ユーザの遺伝子型を示す塩基配列を含む遺伝子データを取得する取得部と、
　前記参照データにおいて前記遺伝子データが位置する領域を特定する領域特定部と、
　前記領域特定部により特定された前記領域に関連付けられたデータ密度に基づいて、前記遺伝子データの希少性を示す希少度を算出する希少度算出部と、
　前記希少度算出部により算出された前記希少度に応じて前記ユーザに付与するインセンティブを算出するインセンティブ算出部と、
　前記インセンティブ算出部により算出された前記インセンティブを出力する出力部とを備える、
　情報処理装置。
　参照データを用いて情報処理を行う情報処理装置としてコンピュータを機能させる情報処理プログラムであって、
　前記参照データは、ゲノムの遺伝子型を示す塩基配列と前記塩基配列の座位に応じたデータ密度とが予め関連付けられたデータであり、
　遺伝子検出デバイスによって検出され、ユーザの遺伝子型を示す塩基配列を含む遺伝子データを取得する取得部と、
　前記参照データにおいて前記遺伝子データが位置する領域を特定する領域特定部と、
　前記領域特定部により特定された前記領域に関連付けられたデータ密度に基づいて、前記遺伝子データの希少性を示す希少度を算出する希少度算出部と、
　前記希少度算出部により算出された前記希少度に応じて前記ユーザに付与するインセンティブを算出するインセンティブ算出部と、
　前記インセンティブ算出部により算出された前記インセンティブを出力する出力部としてコンピュータを機能させる、
　情報処理プログラム。