WO2021045024A1

WO2021045024A1 - ゲート領域推定プログラム、ゲート領域推定装置、学習モデルの生成方法

Info

Publication number: WO2021045024A1
Application number: PCT/JP2020/032979
Authority: WO
Inventors: 圭伍河野; 晴彦二田
Original assignee: 合同会社Ｈ．Ｕ．グループ中央研究所
Priority date: 2019-09-02
Filing date: 2020-09-01
Publication date: 2021-03-11
Also published as: US20220334043A1; CN114364965A; EP4027131A4; JPWO2021045024A1; JP7445672B2; EP4027131A1

Abstract

学習モデルを用いてゲート領域を推定するゲート領域推定プログラム等を提供すること。　ゲート領域推定プログラムは、測定項目が異なるフローサイトメトリーの測定より得た複数の散布図を含む散布図群を取得し、散布図群とゲート領域とを含む教師データに基づき学習を行った学習モデルに、取得した散布図群を入力し、前記学習モデルから得た推定ゲート領域を出力する処理をコンピュータに行わせる。

Description

ゲート領域推定プログラム、ゲート領域推定装置、学習モデルの生成方法

　本発明は、フローサイトメトリーにおけるゲート領域を推定するプログラム等に関する。

　フローサイトメトリー（Flow Cytometry：ＦＣＭ）は、単一の細胞毎に複数の特徴量を測定できる技術である。フローサイトメトリーでは、細胞を懸濁させた懸濁液を調製し、当該細胞が一列になって流れるように、測定装置内に懸濁液を流す。一個一個流れる細胞に光を当て、その光の散乱や蛍光具合により、細胞の大きさ、細胞内部の複雑さ、細胞の構成物質などの指標が得られる。フローサイトメトリーは医療においては、例えば、細胞性免疫検査に利用されている。

　細胞性免疫検査では、検査機関はフローサイトメトリーで得られた複数の指標値の解析を行い、解析結果を検査結果として検査依頼機関へ返却する。解析技術の１つにゲーティングがある。ゲーティングは得られたデータの中から特定の集団のみを選んで解析する技術である。従来、解析対象とする集団の特定は、検査士が２次元の散布図において、楕円形や多角形（「ゲート」という）を描くことにより指定していた。このようなゲートの設定は、検査士の経験や知識による所が大きい。そのため、経験や知識が少ない検査士が適切なゲート設定を行うことは困難である。

　それに対して、ゲート設定を自動化する技術が提案されている（特許文献１、２等）。しかしながら、従来技術は細胞の密度情報を用いた設定方法や、ルールベースによる手法での設定であり、検査士が蓄積してきた経験や知識が十分、活用されていない。

特許第６４８０９１８号公報特許第５０４７８０３号公報

　本発明はこのような状況に鑑みてなされたものである。その目的は、学習モデルを用いてゲート領域を推定するゲート領域推定プログラム等の提供である。

　本発明に係るゲート領域推定プログラムは、測定項目が異なるフローサイトメトリーの測定より得た複数の散布図を含む散布図群を取得し、散布図群とゲート領域とを含む教師データに基づき学習を行った学習モデルに、取得した散布群を入力し、前記学習モデルから得た推定ゲート領域を出力する処理をコンピュータに行わせることを特徴とする。

　本発明にあっては、熟練の検査士と同様なゲート設定を行うことが可能となる。

検査システムの構成例を示す説明図である。処理部のハードウェア構成例を示すブロック図である。測定値ＤＢの例を示す説明図である。特徴情報ＤＢの例を示す説明図である。ゲートＤＢの例を示す説明図である。回帰モデルの生成処理に関する説明図である。回帰モデル生成処理の手順例を示すフローチャートである。ゲート情報出力処理の手順例を示すフローチャートである。ゲートが設定された散布図の例を示す説明図である。ゲート内解析の例を示す説明図である。再学習処理の手順例を示すフローチャートである。１０個の小集団の例を示す説明図である。１０個の小集団それぞれについて、分画毎の細胞数を示す説明図である。１０個の小集団それぞれについて、分画毎の細胞数を示す説明図である。ＳＥＱ１からＳＥＱ１０までのＡＰＲの算出結果例を示す説明図である。１検体全体のＡＰＲの算出結果例を示す説明図である。代替陽性率ＤＢの例を示す説明図である。回帰モデルの生成処理に関する説明図である。回帰モデル生成処理の他の手順例を示すフローチャートである。代替陽性率算出処理の手順例を示すフローチャートである。ゲート情報出力処理の他の手順例を示すフローチャートである。回帰モデル生成処理の他の手順例を示すフローチャートである。ゲート情報出力処理の他の手順例を示すフローチャートである。

　以下実施の形態を、図面を参照して説明する。以下の説明においては、白血病・リンパ腫解析（ＬＬＡ：Leukemia, Lymphoma Analysis）検査におけるＣＤ４５ゲーティングを例として説明する。最初に、ＬＬＡ検査の工程について説明する。ＬＬＡ検査は大まかに５つの工程を含む。１．分注、２．前処理、３．測定・描写、４．解析、５．報告である。

　分注工程では、一つの検体（以下、「ＩＤ」と記す。）を分ける工程である。ＬＬＡ検査では一つのＩＤを最大１０個に分注して検査を行う。分注した各検体をＳＥＱと記す。また、分注した１０の検体をＳＥＱ１、ＳＥＱ２、…、ＳＥＱ１０と記す。前処理工程では、各ＳＥＱに共通な処理（細胞濃度の調整など）を行い、個別に表面マーカを付ける。ＳＥＱ１はネガティブコントロールとする。ネガティブコントロールは、効果を検証したい対象と同一の条件で、既に陰性の結果が出ることが分かっている対象に検査を行うことを意味する語である。あるいは、ネガティブコントロールは当該検査対象を意味する語である。検査においては、検証したい対象と、ネガティブコントロールにおける結果を比較することで、その相対的な差異から検査結果が解析される。

　測定・描写工程では、１０個のＳＥＱをフローサイトメータで測定を行い、蛍光値を得る。各ＳＥＱ内の個々の細胞について、測定値を含めた５つの項目からなる情報が得られる。項目の内訳は、ＦＳＣ、ＳＳＣ、ＦＬ１、ＦＬ２、ＦＬ３である。ＦＳＣは前方散乱光（ＦＳＣ：Forward Scattered Light）の測定値を示す。レーザービームの光軸に対して前方で検出される散乱光の値を示す。ＦＳＣは細胞の表面積または大きさにほぼ比例するため、細胞の大きさを示す指標値となる。ＳＳＣは側方散乱光（ＳＳＣ：Side Scattered Light）の測定値を示す。側方散乱光は、レーザービームの光軸に対して９０°の角度で検出される光である。ＳＳＣは、その大部分が細胞内の物質に光が当たって散乱したものである。ＳＳＣは、細胞の顆粒性状、内部構造にほぼ比例するため、細胞の顆粒性状、内部構造を示す指標値となる。ＦＬは蛍光（Fluorescence）を示すが、ここではフローサイトメータが備える複数の蛍光用検出器を示す。数字は蛍光用検出器の順番号を示す。ＦＬ１は１番目の蛍光検出器を示すが、ここでは、マーカとして各ＳＥＱのマーカ情報が設定される項目の名称である。ＦＬ２は２番目の蛍光検出器を示すが、ここでは、マーカとして各ＳＥＱのマーカ情報が設定される項目の名称である。ＦＬ３は３番目の蛍光用検出器を示すが、ここでは、ＣＤ４５のマーカ情報が設定される項目の名称である。

　フローサイトメータは、各ＳＥＱで２つの散布図を作成し、散布図をディスプレイ等に表示する。例えば、一つの散布図は、一方の軸をＳＳＣとし、他方の軸をＦＬ３とする。もう一つの散布図は、一方の軸をＳＳＣとし、他方の軸をＦＳＣとする。

　解析工程では、散布図の様相より、検査士が疾患を推定し、各散布図上に疾患特定に有用なゲートを作成する。そして、ゲート範囲に存在する細胞のみからなるＦＬ１―ＦＬ２の散布図を各ＳＥＱで作成し、マーカ反応として観察する。報告工程では、特に有用なゲートを２つ報告用に決定し、報告書を作成する。

（実施の形態１）
　以下の説明では、解析工程で従来検査士が作成しているゲートを学習モデルに行わせる形態について説明する。図１は検査システムの構成例を示す説明図である。検査システムはフローサイトメータ（ゲート領域推定装置）１０と学習サーバ３とを含む。フローサイトメータ１０と学習サーバ３とはネットワークＮを介して、通信可能に接続されている。フローサイトメータ１０は、装置全体の動作に関する種々の処理を行う処理部１と、検体を受け入れ、フローサイトメトリーによる測定を行う測定部２とを含む。

　学習サーバ３は、サーバコンピュータ、ワークステーション等で構成する。学習サーバ３は検査システムにおいて、必須の構成ではない。学習サーバ３は、主としてフローサイトメータ１０を補完する役目を担い、測定データや学習モデルをバックアップとして記憶する。また、フローサイトメータ１０に代わって、学習サーバ３が学習モデルの生成、学習モデルの再学習を行ってもよい。この場合、学習サーバ３は、学習モデルを特徴付けるパラメータ等をフローサイトメータに送信する。なお、学習サーバ３の機能を、クラウドサービス、クラウドストレージで提供してもよい。

　図２は、処理部のハードウェア構成例を示すブロック図である。処理部１は制御部１１、主記憶部１２、補助記憶部１３、入力部１４、表示部１５、通信部１６、及び読み取り部１７を含む。制御部１１、主記憶部１２、補助記憶部１３、入力部１４、表示部１５、通信部１６、及び読み取り部１７はバスＢにより接続されている。処理部１はフローサイトメータ１０と別体としても良い。処理部１は、ＰＣ（Personal Computer）、ノートパソコン、タブレットコンピュータ等で構築してもよい。処理部１を複数のコンピュータからなるマルチコンピュータ、ソフトウェアによって仮想的に構築された仮想マシン又は量子コンピュータで構成してもよい。

　制御部１１は、一又は複数のＣＰＵ（Central Processing Unit）、ＭＰＵ（Micro-Processing Unit）、ＧＰＵ（Graphics Processing Unit）等の演算処理装置を有する。制御部１１は、補助記憶部１３に記憶された図示しないＯＳ（Operating System）や制御プログラム１Ｐ（ゲート領域推定プログラム）を読み出して実行することにより、フローサイトメータ１０に係る種々の情報処理、制御処理等を行う。また、制御部１１は取得部、出力部等の機能部を含む。

　主記憶部１２は、ＳＲＡＭ（Static Random Access Memory）、ＤＲＡＭ（Dynamic Random Access Memory）、フラッシュメモリ等である。主記憶部１２は主として制御部１１が演算処理を実行するために必要なデータを一時的に記憶する。

　補助記憶部１３はハードディスク又はＳＳＤ（Solid State Drive）等であり、制御部１１が処理を実行するために必要な制御プログラム１Ｐや各種ＤＢ（Database）を記憶する。補助記憶部１３は、測定値ＤＢ１３１、特徴情報ＤＢ１３２、ゲートＤＢ１３３、代替陽性率ＤＢ１３５、及び回帰モデル１３４を記憶する。代替陽性率ＤＢ１３５は本実施の形態においては、必須ではない。補助記憶部１３はフローサイトメータ１０に接続された外部記憶装置であってもよい。補助記憶部１３に記憶する各種ＤＢ等を、ネットワークＮで接続されたデータベースサーバやクラウドストレージに記憶してもよい。

　入力部１４はキーボードやマウスである。表示部１５は液晶表示パネル等を含む。表示部１５は測定を行うための情報や測定結果、ゲート情報などを種々の情報を表示する。表示部１５は入力部１４と一体化したタッチパネルディスプレイでもよい。なお、表示部１５に表示する情報をフローサイトメータ１０の外部表示装置に表示を行ってもよい。

　通信部１６はネットワークＮを介して、学習サーバ３と通信を行う。また、制御部１１が通信部１６を用い、ネットワークＮ等を介して他のコンピュータから制御プログラム１Ｐをダウンロードし、補助記憶部１３に記憶してもよい。

　読み取り部１７はＣＤ（Compact Disc）－ＲＯＭ及びＤＶＤ（Digital Versatile Disc）－ＲＯＭを含む可搬型記憶媒体１ａを読み取る。制御部１１が読み取り部１７を介して、制御プログラム１Ｐを可搬型記憶媒体１ａより読み取り、補助記憶部１３に記憶してもよい。また、ネットワークＮ等を介して他のコンピュータから制御部１１が制御プログラム１Ｐをダウンロードし、補助記憶部１３に記憶してもよい。さらにまた、半導体メモリ１ｂから、制御部１１が制御プログラム１Ｐを読み込んでもよい。

　補助記憶部１３が記憶するデータベースについて説明する。図３は測定値ＤＢ１３１の例を示す説明図である。測定値ＤＢ１３１はフローサイトメータ１０による測定の測定値を記憶する。図３に示すのは測定値ＤＢ１３１に記憶される１レコードの例である。測定値ＤＢ１３１の各レコードは、基本部１３１１とデータ部１３１２とを含む。基本部１３１１は受付番号列、受付日列、検査番号列、検査日列、カルテ番号列、氏名列、性別列、年齢列、及び採取日列を含む。受付番号列は検査依頼を受け付けた際に発番する受付番号を記憶する。受付日列は、検査依頼を受け付けた日付を記憶する。検査番号列は検査を行う際に発番する検査番号を記憶する。検査日列は検査を実施した日付を記憶する。カルテ番号列は検査依頼に対応するカルテの番号を記憶する。氏名列は検体を提供した被検査者の氏名を記憶する。性別列は被検査者の性別を記憶する。例えば、被検査者が男性であれば、性別列はＭを記憶する。被検査者が女性であれば、性別列はＦを記憶する。年齢列は被検査者の年齢を記憶する。採取日列は被検査者から検体を採取した日付を記憶する。データ部１３１２において、各列は測定項目について、細胞毎の測定値を記憶する。各行は一つの細胞について、測定項目毎の測定値を記憶する。

　図４は特徴情報ＤＢの例を示す説明図である。特徴情報ＤＢ１３２は測定値から得られる特徴を示す情報（以下、「特徴情報」とも言う。）を記憶する。特徴情報は例えば、散布図やヒストグラムである。特徴情報ＤＢ１３２は、受付番号列、検査番号列、順番号列、種別列、横軸列、縦軸列、及び画像列を含む。受付番号列は、受付番号を記憶する。検査番号列は、検査番号を記憶する。順番号列は同一検査内での特徴情報の順番号を記憶する。種別列は特徴情報の種別を記憶する。例えば、種別は上述したように散布図やヒストグラムである。横軸列は散布図やヒストグラムにおいて横軸として採用した項目を記憶する。縦軸列は散布図において縦軸として採用した項目を記憶する。ヒストグラムの場合、縦軸は細胞数であるので、縦軸列は細胞数を記憶する。画像列は散布図やヒストグラムを画像として記憶する。

　図５はゲートＤＢの例を示す説明図である。ゲートＤＢ１３３の例を示す説明図である。ゲートＤＢ１３３は散布図に対して、設定されたゲートの情報（ゲート情報）を記憶する。ゲート情報はゲート領域を確定するための情報である。ゲート情報はゲート領域の外形線を示す図形の情報、ゲート領域に含まれる測定値の値範囲、ゲート領域に含まれる測定値の集合などである。散布図画像上において、ゲート領域に含まれる点のピクセル座標値でもよい。ここでは、ゲート情報はゲート領域の外形線を示す図形とし、その形状は楕円形状とするが、それに限られない。図形は複数の辺から構成される多角形や、複数の曲線を結んだ図形でもよい。ゲートＤＢ１３３は、受付番号列、検査番号列、横軸列、縦軸列、ゲート番号列、CX列、CY列、DX列、DY列、及びANG列を含む。受付番号列は受付番号を記憶する。検査番号列は検査番号を記憶する。横軸列は散布図において横軸として採用した項目を記憶する。縦軸列は散布図において縦軸として採用した項目を記憶する。ゲート番号列はゲートの順番号を記憶する。CX列は楕円の中心x座標値を記憶する。CY列は楕円の中心y座標値を記憶する。DX列は楕円の短径の値を記憶する。DY列は楕円の長径の値を記憶する。ANG列は楕円の傾き角度を記憶する。例えば、傾き角度は横軸と楕円の長径とがなす角度である。ゲート形状として、多角形を設定可能とする場合、ゲートＤＢ１３３は多角形を形づくる複数点の座標列を記憶する。

　図６は回帰モデルの生成処理に関する説明図である。図６は、機械学習を行って回帰モデル１３４生成する処理を示している。図６に基づき、回帰モデル１３４の生成処理について説明する。

　本実施の形態にフローサイトメータ１０において、処理部１は、測定部２で得た測定結果に基づき作成した散布図画像に対する適切なゲートの特徴量を学習するディープラーニングを行う。ディープラーニングを行うことで、処理部１は複数の散布図画像（散布図群）を入力とし、ゲート情報を出力とする回帰モデル１３４を生成する。複数の散布図画像とは、少なくとも１軸の項目が異なる複数の散布図画像である。例えば、横軸がＳＳＣで縦軸がＦＬ３の散布図画像と、横軸がＳＳＣで縦軸がＦＳＣの散布図画像とからなる２つの散布図画像である。３つ以上の散布図画像を入力してもよい。ニューラルネットワークは例えばＣＮＮ（Convolution Neural Network）である。回帰モデル１３４は、各散布図画像の特徴量をそれぞれ学習する複数の特徴抽出器と、各特徴抽出器が出力した特徴量を結合する結合器と、結合した特徴量に基づき、ゲート情報の各項目（中心Ｘ座標、中心Ｙ座標、長径、短径、傾斜角度）を予測し出力する複数の予測器とを有する。なお、回帰モデル１３４に散布図画像ではなく、散布図の基になる測定値の集合を入力してもよい。

　各特徴抽出器は、入力層、中間層を含む。入力層は、散布図画像に含まれる各画素の画素値の入力を受け付ける複数のニューロンを有し、入力された画素値を中間層に受け渡す。中間層は複数のニューロンを有し、散布図画像内からの特徴量を抽出して出力層に受け渡す。例えば特徴抽出器がＣＮＮである場合、中間層は、入力層から入力された各画素の画素値を畳み込むコンボリューション層と、コンボリューション層で畳み込んだ画素値をマッピングするプーリング層とが交互に連結された構成を有する。中間層は、画素情報を圧縮しながら最終的に画像特徴量を抽出する。散布図画像を入力する特徴抽出器を画像毎に設けるのではなく、１つの特徴抽出器に複数の散布図画像に入力する構成でもよい。

　なお、本実施の形態では回帰モデル１３４がＣＮＮであるものとして説明するが、回帰モデル１３４はＣＮＮに限定されず、ＣＮＮ以外のニューラルネットワーク、ベイジアンネットワーク、決定木など、他の学習アルゴリズムで構築された学習済みモデルであってよい。

　処理部１は、複数の散布図画像と、散布図に対応したゲート情報の正解値とが対応付けられた教師データを用いて学習を行う。例えば図６に示すように、教師データは、複数の散布図画像に対し、ゲート情報がラベル付けされたデータである。なお、ここでは簡略のため、２種類の散布図を１組の散布図とする。また、１組の散布図に対して、１つのゲートを設けるものとして説明するが、複数のゲートを設けてもよい。この場合、ゲート情報には有用度を示す値を含める。

　処理部１は、教師データである２つの散布図画像をそれぞれ異なる特徴抽出器に入力する。各特徴抽出器が出力した特徴量が結合器により結合される。結合器による結合は、単純に特徴量を結合する方法（Concatenate）、特徴量を示す値を加算する（Add）方法、特徴量の最大のものを選択する（Maxpool）方法などがある。

　結合された特徴量に基づき、各予測器は予測結果として、ゲート情報を出力する。各予測器が出力する値の組み合わせで、１組のゲート情報となる。出力するゲート情報は複数組であってよい。この場合、複数組に応じた数の予測器を設ける。例えば、優先順位１位のゲート情報と、優先順位２位のゲート情報とを出力する場合、図６における予測器の数が５から１０個となる。

　処理部１は予測器から得たゲート情報を、教師データにおいて散布図画像に対しラベル付けされた情報、すなわち正解値と比較し、予測器からの出力値が正解値に近づくように、特徴抽出器や予測器での演算処理に用いるパラメータを最適化する。当該パラメータは、例えばニューロン間の重み（結合係数）、各ニューロンで用いられる活性化関数の係数などである。パラメータの最適化の方法は特に限定されないが、例えば処理部１は誤差逆伝播法を用いて各種パラメータの最適化を行う。処理部１は、教師データに含まれる検査毎のデータについて上記の処理を行い、回帰モデル１３４を生成する。

　次に、処理部１の制御部１１が行う処理について説明する。図７は回帰モデル生成処理の手順例を示すフローチャートである。制御部１１は検査履歴を取得する（ステップＳ１）。検査履歴は過去の検査結果の蓄積であり、測定値ＤＢ１３１に記憶された過去の測定値である。制御部１１は処理対象とする１つの履歴を選択する（ステップＳ２）。制御部１１は選択した履歴に対応する特徴情報を取得する（ステップＳ３）。特徴情報は例えば散布図である。特徴情報は特徴情報ＤＢ１３２から取得する。特徴情報が記憶されていない場合、測定値から生成してもよい。制御部１１は選択した履歴に対応するゲート情報を取得する（ステップＳ４）。ゲート情報はゲートＤＢ１３３より取得する。制御部１１は取得した特徴情報とゲート情報とを教師データとして、回帰モデル１３４の学習を行う（ステップＳ５）。制御部１１は未処理の検査履歴がある否かを判定する（ステップＳ６）。制御部１１は未処理の検査履歴があると判定した場合（ステップＳ６でＹＥＳ）、処理をステップＳ２に戻し、未処理の検査履歴に関する処理を行う。制御部１１は未処理の検査履歴がないと判定した場合（ステップＳ６でＮＯ）、回帰モデル１３４を記憶し（ステップＳ７）、処理を終了する。

　続いて、回帰モデル１３４を用いたゲートの設定について説明する。図８はゲート情報出力処理の手順例を示すフローチャートである。制御部１１は測定部２、又は測定値ＤＢ１３１から、測定値を取得する（ステップＳ１１）。制御部１１は測定値に対する特徴情報を取得する（ステップＳ１２）。制御部１１は特徴情報を回帰モデル１３４に入力し、ゲートの推定を行う（ステップＳ１３）。制御部１１はゲート情報（推定ゲート領域）を出力し（ステップＳ１４）、処理を終了する。

　ゲート情報に基づき、表示部１５に表示する散布図にゲートを設定する。図９はゲートが設定された散布図の例を示す説明図である。図９は横軸がＳＳＣ、縦軸がＦＬ３の散布図である。ゲートは３つ設定されている。いずれのゲートも楕円状である。図１０はゲート内解析の例を示す説明図である。図１０の上段は図９と同じ散布図である。図１０の下段は、ゲート内に含まれる細胞の集団毎に散布図を表示している。３つの散布図の横軸はＦＬ１、縦軸はＦＬ２である。検査士は３つの散布図を見て、設定されたゲートが適切でない場合、ゲートを修正する。フローサイトメータはドローツールを備えており、ゲートを設定する楕円が編集可能である。検査士は入力部１４に含まれるマウスなどのポインティングデバイスを用いて、楕円の位置や大きさ、長径と短径との比率を変更可能である。ゲートの追加や削除も可能である。修正が確定したゲートに関するゲート情報（修正領域データ）は、ゲート情報ＤＢ１３３に記憶される。新たな測定値、特徴情報、及びゲート情報は、回帰モデル１３４の再学習用の教師データとなる。

　図１１は再学習処理の手順例を示すフローチャートである。制御部１１は、更新ゲート情報を取得する（ステップＳ４１）。更新ゲート情報は、回帰モデル１３４が出力したゲート情報に基づくゲートを検査士が変更した場合の変更後のゲート情報である。制御部１１は処理対象とする更新ゲート情報を選択する（ステップＳ４２）。制御部１１はゲート情報に対応する２つの散布図画像（特徴情報）を取得する（ステップＳ４３）。制御部１１は変更後のゲート情報、２つの散布図画像を教師データとして、回帰モデル１３４の再学習を行う（ステップＳ４４）。制御部１１は未処理の更新ゲート情報があるか否か判定する（ステップＳ４５）。制御部１１は未処理の更新ゲート情報があると判定した場合（ステップＳ４５でＹＥＳ）、処理をステップＳ４２に戻し、未処理の更新ゲート情報についての処理を行う。制御部１１は未処理の更新ゲート情報がないと判定した場合（ステップＳ４５でＮＯ）、再学習の結果に基づき回帰モデル１３４を更新し（ステップＳ４６）、処理を終了する。

　なお、再学習処理は、フローサイトメータ１０が行うのではなく、学習サーバ３が行ってもよい。この場合、再学習の結果、変更された回帰モデル１３４のパラメータが、学習サーバ３からフローサイトメータ１０に送信され、フローサイトメータ１０が記憶する回帰モデル１３４が更新される。また、再学習処理は、更新ゲート情報が発生する毎に実行してもよいし、日次バッチのように所定の間隔で実行してもよいし、更新ゲート情報が所定数発生したら実行してもよい。

　回帰モデル１３４は複数の出力層それぞれから単一の数値（中心Ｘ座標、中心Ｙ座標、長径、短径、又は傾斜角度）を出力する例を示したが、それに限らない。数値の組データであってもよい。中心Ｘ座標、中心Ｙ座標、長径、短径、及び傾斜角度を含む５次元のデータでもよい。例えば、（１０，１５，２０，１０，１５）、（５，１５，２５，５，２０）、（１０，１５，…）、…のように、値の組み合わせを出力層に含まれる各ノードに割り当て、各ノードは値の組み合わせに対する確率を出力するようにしてもよい。

（変形例）
　学習モデルに入出力するゲート情報を数値としたが、画像としてもよい。この場合の学習、推定は次のように行う。学習モデルとしてセマンティックセグメンテーションのモデルの一つであるＵ－ＮＥＴを用いる。Ｕ－ＮＥＴはＦＣＮ（Fully Convolutional Networks）の一種であり、ダウンサンプリングを行うエンコーダと、アップサンプリングを行うデコーダとを含む。Ｕ－ＮＥＴは全結合層がなく、畳み込み層とプーリング層だけで構成されるニューラルネットワークである。学習時、複数の散布図の画像をＵ－ＮＥＴへ入力する。Ｕ－ＮＥＴはゲート領域とそうでない領域を分割した画像を出力するので、出力された画像に示されたゲート領域が正解に近づくように学習を行う。学習後、ゲート領域を推定する場合は、２つの散布図画像をＵ－ＮＥＴに入力する。出力としてゲート領域が示された散布図画像が得られる。得られた画像に対して、エッジ抽出により、ゲートを示す楕円の外形線を検出する。検出した外形線から楕円の中心座標（ＣＸ、ＣＹ）、長径ＤＸ、短径ＤＹ、回転角度ＡＮＧを求める。そして、ゲート内に含まれる細胞を特定する。当該特定は、公知である点の多角形に対する内外判定アルゴリズムを利用して実現可能である。学習及び出力させるゲート領域の数は、複数でもよい。

　本実施の形態においては、経験の浅い検査士であっても、疾患特定において重要な細胞集団を示すためのゲート設定が可能となる。また、熟練した検査士の場合、従来と異なり、回帰モデル１３４が提案したゲート設定に基づき、ゲート設定を行えるので、作業時間を短縮することが可能となる。

（実施の形態２）
　本実施の形態では、回帰モデル１３４の入力として、代替陽性率を加える。まず、フローサイトメトリーでは細胞に付した蛍光マーカによる反応で特徴量を検出する。マーカによる測定値は相対値であり、用いるには陽性と陰性との間で閾値が必要である。閾値は陰性コントロール検体から、ゲート内の集団を観察して決められる。陰性検体から閾値を求めたことで、マーカを加えて測定した小分け検体におけるマーカの陽性度が得られる。従来、ゲート設定を行う際、検査士はゲート内の陽性率（陽性となる細胞の割合）を見てゲートの修正を行っている。そのため、回帰モデル１３４によりゲート設定を行なう場合においても、陽性率は有用である可能性が高い。しかし、陽性率はゲート設定を行った後に算出できる指標であるため、ゲート設定前には得ることができない。そこで、ゲート設定を行っていない状態においても、算出可能であり、陽性率と同様にゲート設定に有効と考える指標を導入する。当該指標を代替陽性率と呼ぶ。

　代替陽性率は次のように算出する。検体内に存在する細胞集団は、それぞれ陽性、陰性を分ける閾値が異なる。そこで、細胞集団を小分けし、小分けした集団内で閾値を設定する。本実施の形態では、ＳＥＱ１のＦＳＣ、ＳＳＣ、ＦＬ３の分布において、３次元の自動クラスタリング手法、k-meansを適用し、ｎ個の小集団を作る。ｎは自然数である。ここではｎ＝１０である。図１２は１０個の小集団の例を示す説明図である。五角形のマークはk-meansに用いられる各小集団の中心を示す。図１２では横軸がＳＳＣ、縦軸がＦＬ３の２次元表示となっているが、実際は紙面法線方向の軸がＦＳＣである３次元のクラスタリングである。ＳＥＱ１の各小集団のＦＬ１とＦＬ２より、陰性を示す閾値を機械的に算出する。例えば、小集団内の９０％の細胞を含む値を閾値とする。次に各小集団における分画毎の細胞数を求める。図１３は１０個の小集団それぞれについて、分画毎の細胞数を示す説明図である。次に、分画毎の細胞数の合計を求め、求めた合計を全細胞数で除算し、割合を求める。この分画毎の割合をＳＥＱ毎に算出したものを代替陽性率とする。小集団内の各分画の細胞数をＵＬ（左上の細胞数、ＦＬ１が陰性かつＦＬ２が陽性である細胞の数）、ＵＲ（右上の細胞数、ＦＬ１が陽性かつＦＬ２が陽性である細胞の数）、ＬＲ（右下の細胞数、ＦＬ１が陽性かつＦＬ２が陰性である細胞の数）、ＬＬ（左下の細胞数、ＦＬ１が陰性かつＦＬ２が陰性である細胞の数）とする。各小集団をｋ（ｋ＝１，２，…，１０）、全体の細胞数をＮとすると、代替陽性率（ＡＰＲ：Alternative Positive Rate）は、以下の数式（１）で算出できる。

　そして、ＳＥＱ１のＡＰＲは以下となる。

　なお、ＳＥＱ１は陰性検体なので、左下以外の区画には殆ど細胞は存在しない。ＳＥＱ２以降については、ＳＥＱ１で求めた各小集団の中心点をＳＥＱそれぞれに反映する。各細胞から最も近い中心点に基づいて、１０個の小集団に分ける。各小集団に対し、ＳＥＱ１で得た閾値を適用し、４つの分画を生成する。ＳＥＱ１と同様に各小集団の各分画について、細胞数を求める。図１４は、１０個の小集団それぞれについて、分画毎の細胞数を示す説明図である。図１４はＳＥＱ２についての例である。図１４に示した分画毎の細胞数に基づき上記の式（１）を用いて、ＡＰＲを算出すると以下のようになる。

　ＳＥＱ１のＡＰＲと比較すると、左上が0.001から0.057へ上昇している。これは、検体内にＳＥＱ２のマーカに反応する細胞集団があることを示している。

　同様に、ＳＥＱ３からＳＥＱ１０について、ＡＰＲを算出する。以下に、各ＳＥＱのＡＰＲ算出例を示す。図１５はＳＥＱ１からＳＥＱ１０までのＡＰＲの算出結果例を示す説明図である。そして、各ＳＥＱのＡＰＲを合わせた１０行４列の行列を１検体全体のＡＰＲとする。図１６は１検体全体のＡＰＲの算出結果例を示す説明図である。図１５に示した各ＳＥＱのＡＰＲを合わせた１０行４列の行列となっている。代替陽性率は、１つの検体を分注し、分注した検体毎に行った検査結果のうち、所定の分注した検体の結果から得られる分布をクラスタリングし、クラスタ毎に陰性を示す閾値を算出し、各クラスタを閾値により小クラスタに分割し、分割した小クラスタに含まれる細胞数の全細胞数に対する割合を算出し、所定の分注した検体の結果から得た分布についての各クラスタの中心点を、所定の分注した検体の結果以外の分注した検体の検査結果から得られる分布に反映させ、中心点への距離により、分布をクラスタリングし、各クラスタを前記算出した閾値により小クラスタに分割し、分割した小クラスタに含まれる細胞数の全細胞数に対する割合を算出し、すべての小クラスタ毎の割合を要素とする行列である。なお、所定の分注した検体は陰性検体が望ましい。

　図１７は代替陽性率ＤＢの例を示す説明図である。代替陽性率ＤＢ１３５は測定値から算出した代替陽性率（ＡＰＲ）を記憶する。代替陽性率ＤＢ１３５は検査番号列、番号列、LL列、UL列、LR列、及びUR列を含む。検査番号列は検査番号を記憶する。番号列はＳＥＱの番号を記憶する。LL列は左下分画の細胞数割合を記憶する。UL列は左上分画の細胞数割合を記憶する。LR列は右下分画の細胞数割合を記憶する。UR列は右上分画の細胞数割合を記憶する。

　本実施の形態においては、回帰モデル１３４の学習の教師データとして計測値から求めたＡＰＲを含める。図１８は回帰モデルの生成処理に関する説明図である。実施の形態１で示した図６を変更したものである。本実施の形態においては、特徴抽出器が３つとしてある。２つは図６と同様に散布図画像を受け付ける。１つはＡＰＲを受け付ける特徴抽出器である。結合器は３つの特徴抽出器が抽出し特徴量を結合する。予測器は、結合された特徴量に基づき、ゲート情報の各項目（中心Ｘ座標、中心Ｙ座標、長径、短径、傾斜角度）を予測し出力する。処理部１は予測器から得たゲート情報を、教師データにおいて散布図画像に対しラベル付けされた情報、すなわち正解値と比較し、予測器からの出力値が正解値に近づくように、特徴抽出器や予測器での演算処理に用いるパラメータを最適化する。その他の事項については、実施の形態１と同様である。なお、ＡＰＲは、特徴抽出器を介することなく、結合器へ入力してもよい。また、値の組み合わせを出力層に含まれる各ノードに割り当て、各ノードは値の組み合わせに対する確率を出力するようにしてもよい。

　図１９は回帰モデル生成処理の他の手順例を示すフローチャートである。図７と同様な処理については同じステップ番号を付している。制御部１１はステップＳ１からＳ３を実行した後、代替陽性率を算出する（ステップＳ８）。

　図２０は、代替陽性率算出処理の手順例を示すフローチャートである。制御部１１は、ＳＥＱ１におけるＦＳＣ、ＳＳＣ、ＦＬ３の分布において、k-meansを利用したクラスタリングを行う（ステップＳ２１）。制御部１１は、クラスタリングの結果より得た集団毎に陰性を示す閾値を算出する（ステップＳ２２）。制御部１１は各集団の区画毎に細胞数を算出する（ステップＳ２３）。制御部１１は区画毎の細胞割合を算出し、ＳＥＱ１のＡＰＲを算出する（ステップＳ２４）。制御部１１はカウンタ変数ｉに２を設定する（ステップＳ２５）。制御部１１はＳＥＱｉを処理対象として設定する（ステップＳ２６）。制御部１１はＳＥＱ１の各集団の中心点をＳＥＱｉに反映する（ステップＳ２７）。制御部１１は中心点を基準にして、各細胞をクラス分けする（ステップＳ２８）。上述したように、各細胞はもっと近い中心点が同一である細胞のグループに分けられ、１０個の集団に分けられる。制御部１１は各集団について、ＳＥＱ１での閾値を適用する（ステップＳ２９）。制御部１１は各集団について閾値で定められた各区画の細胞数割合を算出し、ＡＰＲを算出する（ステップＳ３０）。制御部１１はカウンタ変数ｉに１増加させる（ステップＳ３１）。制御部１１はカウンタ変数ｉが１０以下か否かを判定する（ステップＳ３２）。制御部１１はカウンタ変数ｉが１０以下であると判定した場合（ステップＳ３２でＹＥＳ）、処理をステップＳ２６に戻す。制御部１１はカウンタ変数ｉが１０以下でないと判定した場合（ステップＳ３２でＮＯ）、代替陽性率を出力する（ステップＳ３３）。制御部１１は処理を呼び出し元に戻す。

　処理は図１９のステップＳ４から再開される。ステップＳ５で制御部１１は回帰モデル１３４の学習を行う。上述したように、本実施の形態においては、散布図画像とＡＰＲが入力である。正解値を示すラベルはゲート情報である。以下、ステップＳ６以降は、図７と同様であるから、説明を省略する。

　続いて、回帰モデル１３４を用いたゲートの設定について説明する。図２１はゲート情報出力処理の他の手順例を示すフローチャートである。図８と同様な処理については同じステップ番号を付している。制御部１１はステップＳ１２を実行した後、代替陽性率算出を行う（ステップＳ１５）。制御部１１は散布図画像と代替陽性率を回帰モデル１３４に入力しゲートの推定を行う（ステップＳ１３）。制御部１１はゲート情報を出力し（ステップＳ１４）、処理を終了する。その後の検査士の作業は実施の形態１と同様であるから説明を省略する。

　本実施の形態においては、回帰モデル１３４の教師データとして、代替陽性率を含めている。また、回帰モデル１３４により、ゲート情報の推定を行う場合にも、代替陽性率を含める。それにより、回帰モデル１３４が出力するゲート情報の精度向上が期待される。

　本実施の形態においても、実施の形態１の変形例が適用可能である。複数の散布図画像とＡＰＲとをＵ－ＮＥＴに入力する。Ｕ－ＮＥＴはゲート領域とそうでない領域を分割した画像を出力するので、出力された画像に示されたゲート領域が正解に近づくように学習を行う。学習後、ゲート領域を推定する場合は、２つの散布図画像とＡＰＲとをＵ－ＮＥＴに入力する。出力としてゲート領域が示された散布図画像が得られる。その他の処理は上述した内容と同様である。

　なお、上述の実施の形態では、ＬＬＡにおけるＣＤ４５ゲーティングを例としたが、悪性リンパ腫解析（ＭＬＡ：Malignant Lymphoma Analysis）検査におけるＣＤ４５ゲーティングでも、同様な手順で実行可能である。悪性リンパ腫解析検査におけるＣＤ４５ゲーティングで用いる回帰モデルは、ＬＬＡにおける回帰モデル１３４と別に設け、補助記憶部１３に記憶する。また、測定値ＤＢ１３１、特徴情報ＤＢ１３２、ゲートＤＢ１３３、代替陽性率ＤＢ１３５には、検査内容を示す列を追加し、ＬＬＡのデータであるのか、ＭＬＡのデータであるのか識別可能とする。学習やゲートの推定を行う場合においても、ＬＬＡであるのか、ＭＬＡであるのか、検査内容を入力部１４で指定する。

　図２２は回帰モデル生成処理の他の手順例を示すフローチャートである。制御部１１は検査内容を取得する（ステップＳ５１）。例えば、上述したように検査内容は、ＬＬＡ、ＭＬＡ等である。制御部１１は検査内容に対応した学習モデルを取得する（ステップＳ５２）。学習モデルは、ＬＬＡ用の回帰モデル１３４、ＭＬＡ用の回帰モデル等である。ステップＳ５３以降は、図７のステップＳ２以降と同様であるので、説明を省略する。なお、実施の形態２と同様にＡＰＲを入力データに加えてもよい。

　図２３はゲート情報出力処理の他の手順例を示すフローチャートである。制御部１１は検査内容及び測定データを取得する（ステップＳ７１）。制御部１１は測定データに対応した特徴情報を取得する（ステップＳ７２）。制御部１１は検査内容に応じた学習モデルを選択する（ステップＳ７３）。制御部１１は特徴情報を選択した学習モデルに入力し、ゲートの推定を行う（ステップＳ７４）。制御部１１はゲート情報を出力し（ステップＳ７５）、処理を終了する。実施の形態２と同様に、ＡＰＲを入力として受け付ける学習モデルの場合、測定データからＡＰＲを生成し、ステップＳ７４における入力データとしてＡＰＲを加えてもよい。

　各実施の形態で記載されている技術的特徴（構成要件）はお互いに組み合わせ可能であり、組み合わせすることにより、新しい技術的特徴を形成することができる。
　今回開示された実施の形態はすべての点で例示であって、制限的なものではないと考えられるべきである。本発明の範囲は、上記した意味ではなく、請求の範囲によって示され、請求の範囲と均等の意味及び範囲内でのすべての変更が含まれることが意図される。

　１０　　フローサイトメータ
　１　　　処理部
　１１　　制御部
　１２　　主記憶部
　１３　　補助記憶部
　１３１　測定値ＤＢ
　１３２　特徴情報ＤＢ
　１３３　ゲートＤＢ
　１３４　回帰モデル
　１３５　代替陽性率ＤＢ
　１４　　入力部
　１５　　表示部
　１６　　通信部
　１７　　読み取り部
　１Ｐ　　制御プログラム
　１ａ　　可搬型記憶媒体
　１ｂ　　半導体メモリ
　２　　　測定部
　３　　　学習サーバ

Claims

　測定項目が異なるフローサイトメトリーの測定より得た複数の散布図を含む散布図群を取得し、
　散布図群とゲート領域とを含む教師データに基づき学習を行った学習モデルに、取得した散布図群を入力し、
　前記学習モデルから得た推定ゲート領域を出力する
　処理をコンピュータに行わせることを特徴とするゲート領域推定プログラム。
　前記推定ゲート領域を有用度と共に複数出力する
　ことを特徴とする請求項１に記載のゲート領域推定プログラム。
　前記学習モデルは、前記散布図群と前記ゲート領域と代替陽性率とを含む教師データに基づき学習を行ったものであり、
　前記学習モデルに、散布図群と代替陽性率とを入力し、
　前記学習モデルから前記推定ゲート領域を得る
　ことを特徴とする請求項１又は請求項２に記載のゲート領域推定プログラム。
　前記ゲート領域は楕円形状をなす
　ことを特徴とする請求項１から請求項３のいずれか１項に記載のゲート領域推定プログラム。
　前記推定ゲート領域を修正した修正領域データを取得し、
　取得した修正領域データに基づき、前記学習モデルを再学習する
　ことを特徴とする請求項１から請求項４のいずれか１項に記載のゲート領域推定プログラム。
　複数の散布図を含む散布図群と検査内容とを取得し、
　取得した検査内容に応じた前記学習モデルに、取得した散布図群を入力する
　ことを特徴とする請求項１から請求項５のいずれか１項に記載のゲート領域推定プログラム。
　測定項目が異なるフローサイトメトリーの測定より得た複数の散布図を含む散布図群を取得する取得部と、
　散布図群とゲート領域とを含む教師データに基づき学習を行った学習モデルに、取得した散布図群を入力する入力部と、
　前記学習モデルから得た推定ゲート領域を出力する出力部と
　を備えることを特徴とするゲート領域推定装置。
　測定項目が異なるフローサイトメトリーにより得た複数の散布図を含む散布図群と、前記散布図群に対応したゲート領域とを対応付けた教師データを取得し、
　取得した教師データに基づき、前記散布図群を入力した場合に、前記散布図群に対応したゲート領域を出力する学習モデルを生成する
　処理をコンピュータが実行することを特徴とする学習モデルの生成方法。
　前記教師データは、代替陽性率を含み、
　前記散布図群と代替陽性率とが入力された場合に、ゲート領域を出力するよう前記学習モデルを学習する
　ことを特徴とする請求項８に記載の学習モデルの生成方法。