WO2023058468A1

WO2023058468A1 - 情報処理装置及び情報処理方法

Info

Publication number: WO2023058468A1
Application number: PCT/JP2022/035408
Authority: WO
Inventors: 哲平小西; 博之佐野; 敬太齋藤
Original assignee: 株式会社biomy
Priority date: 2021-10-04
Filing date: 2022-09-22
Publication date: 2023-04-13

Abstract

本発明の一実施形態に係る情報処理装置１は、生物の病理画像において、生物を構成する複数の細胞それぞれの特徴量を抽出する特徴量抽出部１２２と、複数の特徴量に対して教師なし学習を適用することによって、複数の細胞をクラスタリングした複数のクラスタを生成するクラスタ生成部１２３と、クラスタに対応する情報を出力する出力部１２５と、を有する。情報処理装置１は、クラスタに対応する情報に基づいて、生物の予後を予測する予後予測部１２４をさらに有してもよい。

Description

情報処理装置及び情報処理方法

　本発明は、病理画像に関する情報を出力するための情報処理装置及び情報処理方法に関する。

　特許文献１には、細胞の画像とその種別とのセットに対して教師あり学習を適用することによって生成されたモデルに、生物の皮膚の画像を入力し、入力された画像に含まれている細胞を真皮細胞、表皮細胞、免疫細胞等の種別に分類するシステムが開示されている。

国際公開第２０１８／２２１６２５号

　特許文献１に開示されたシステムは、教師あり学習により、画像に含まれている細胞を、教師データ（訓練データ）として人間が定義した複数の種別のいずれかに分類する。そのため、特許文献１に開示されたシステムは、人間が認識することの難しい種別に生物の細胞を分類することができないという問題があった。人間が認識することの難しい細胞の分類に関連する特徴量は、生物の予後予測の精度に影響を与える可能性がある。

　そこで、本発明はこれらの点に鑑みてなされたものであり、生物の病理画像において、人間が認識することの難しい種別に細胞を分けられるようにすることを目的とする。

　本発明の第１の態様の情報処理装置は、生物の病理画像において、前記生物を構成する複数の細胞それぞれの特徴量を抽出する特徴量抽出部と、複数の前記特徴量に対して教師なし学習を適用することによって、複数の前記細胞をクラスタリングした複数のクラスタを生成するクラスタ生成部と、前記クラスタに対応する情報を出力する出力部と、を有する。

　前記クラスタ生成部は、前記教師なし学習を適用することによって複数の前記細胞をクラスタリングした複数の小クラスタを生成する第１クラスタリング部と、階層型クラスタリングを行うことによって複数の前記小クラスタをクラスタリングした複数の前記クラスタを生成する第２クラスタリング部と、を含んでもよい。

　前記出力部は、前記クラスタに対応する情報として、前記病理画像上に、複数の前記細胞それぞれの位置と、当該細胞が属するクラスタと、を示す情報を出力してもよい。

　前記出力部は、前記クラスタに対応する情報として、複数の前記クラスタそれぞれに関連付けて、当該クラスタに属する前記細胞に関する情報を出力してもよい。

　前記特徴量抽出部は、前記病理画像に対して機械学習を適用することによって、前記特徴量を抽出してもよい。

　前記情報処理装置は、入力された画像を高解像度化して出力する高解像度化用モデルに、前記病理画像を入力することによって出力された、高解像度化された前記病理画像を取得する画像取得部をさらに有し、前記特徴量抽出部は、高解像度化された前記病理画像において前記特徴量を抽出してもよい。

　前記高解像度化用モデルは、前記生物の細胞を含む領域の低解像度の画像と、当該領域の高解像度の画像と、に対して機械学習を適用することによって生成されてもよい。

　前記情報処理装置は、前記病理画像に対して色彩を基準値に合わせる処理を行うことによって生成された、色彩が補正された前記病理画像を取得する画像取得部をさらに有し、前記特徴量抽出部は、色彩が補正された前記病理画像において前記特徴量を抽出してもよい。

　前記基準値は、複数の撮像条件において撮像された複数の画像の色彩の統計値であってもよい。

　前記基準値は、所定の細胞を所定の色素で染色した色であり、前記画像取得部は、前記病理画像における当該所定の細胞に対応する領域の色彩を、前記基準値に合わせてもよい。

　前記特徴量抽出部は、学習対象の複数の画像それぞれから当該画像に写っている細胞である学習用細胞の前記特徴量を抽出し、前記クラスタ生成部は、複数の前記学習用細胞の前記特徴量に基づいて複数の前記学習用細胞をクラスタリングすることによって、複数の学習用クラスタを生成し、前記クラスタ生成部は、生成した複数の前記学習用クラスタを疑似正解ラベルとした教師あり学習によって分類モデルを生成し、前記クラスタ生成部は、前記分類モデルを、クラスタリングモデルとして記憶部に記憶させ、前記クラスタ生成部は、前記記憶部に記憶された前記クラスタリングモデルを用いて、前記病理画像に写っている複数の前記細胞をクラスタリングした複数の前記クラスタを生成してもよい。

　前記情報処理装置は、前記クラスタに対応する情報に基づいて、前記生物の予後を予測する予後予測部をさらに有してもよい。

　前記予後予測部は、前記クラスタに対応する情報と、前記予後と、の関係に対して機械学習を適用することによって生成された予後予測用モデルを用いて、前記予後を予測してもよい。

　前記予後予測部は、薬剤が投与された前記生物の前記予後を用いて生成された前記予後予測用モデルを用いて、前記生物に前記薬剤が投与された場合の前記予後を予測してもよい。

　前記予後予測部は、複数の前記クラスタそれぞれに属する前記細胞の前記特徴量に基づいて、前記予後を予測してもよい。

　前記予後予測部は、所定の組織における複数の前記クラスタそれぞれに属する前記細胞の前記特徴量に基づいて、前記予後を予測してもよい。

　前記予後予測部は、複数の前記クラスタそれぞれに属する前記細胞の位置に基づいて、前記予後を予測してもよい。

　前記予後予測部は、第２病理画像と、第１病理画像から生成した複数のクラスタそれぞれに属する前記細胞の位置を示すマスク画像と、を結合することによって生成されるデータに基づいて、前記予後を予測してもよい。

　前記第１病理画像は第１色素で染色された前記生物の検体の画像であり、前記第２病理画像は前記第１色素とは異なる第２色素で染色された当該検体の画像であってもよい。

　本発明の第２の態様の情報処理方法は、プロセッサが実行する、生物の病理画像において、前記生物を構成する複数の細胞それぞれの特徴量を抽出するステップと、複数の前記特徴量に対して教師なし学習を適用することによって、複数の前記細胞をクラスタリングした複数のクラスタを生成するステップと、前記クラスタに対応する情報を出力するステップと、を有する。

　本発明によれば、生物の病理画像において、人間が認識することの難しい種別に細胞を分けられるという効果を奏する。

実施形態に係る情報処理システムの概要を示す図である。実施形態に係る情報処理システムのブロック図である。画像取得部が病理画像に対して行う処理を説明するための模式図である。第１クラスタリング部が教師なし学習によってクラスタリングモデルを生成する方法を説明するための模式図である。第２クラスタリング部が階層型クラスタリングによってクラスタを生成する方法を説明するための模式図である。予後予測部が予後予測用モデルを生成する方法を説明するための模式図である。異なる色素で染色された複数の病理画像を用いて予後を予測する予後予測用モデルを生成する方法を説明するための模式図である。出力部が出力する情報の模式図である。出力部が出力する情報の模式図である。実施形態に係る情報処理装置が実行する例示的な情報処理方法のフローチャートを示す図である。

［情報処理システムの概要］
　図１は、本実施形態に係る情報処理システムの概要を示す図である。情報処理システムは、情報処理装置１と、情報端末２と、を備える。情報処理システムは、その他のサーバ、端末等の機器を含んでもよい。

　情報処理装置１は、病理画像に写っている生物の細胞を教師なし学習によってクラスタリングし、生成されたクラスタに関する情報を出力するコンピュータである。病理画像は、病理診断を目的とした撮像画像であり、例えば生物の体から採取した検体をカメラによって撮像することによって生成される。情報処理装置１は、有線通信又は無線通信によって、情報端末２に情報を送信し、情報端末２から情報を受信する。

　情報端末２は、ユーザが利用するコンピュータであり、例えばスマートフォン、タブレット端末又はパーソナルコンピュータである。ユーザは、例えば、情報処理システムを利用して患者の病理画像を分析する医療従事者である。情報端末２は、液晶ディスプレイ等の表示部と、キーボードやタッチパネル等の操作部とを有する。情報端末２は、情報処理装置１から受信した情報を表示部に表示させ、操作部を用いて入力された情報を情報処理装置１に送信する。

　本実施形態に係る情報処理システムが実行する処理の概要を以下に説明する。情報端末２は、ユーザによる操作に応じて、病理診断の対象とする患者等の生物の病理画像を情報処理装置１に送信する（１）。情報処理装置１は、情報端末２が送信した病理画像を取得する。

　情報処理装置１は、取得した病理画像において、生物を構成する複数の細胞それぞれの特徴量を抽出する（２）。特徴量は、例えば、病理画像から畳み込みニューラルネットワーク（ＣＮＮ）によって抽出された特徴量である。

　情報処理装置１は、病理画像に写っている複数の細胞の特徴量に対して教師なし学習を適用することによって、当該複数の細胞をクラスタリングした複数のクラスタを生成する。本願において、教師なし学習とは、人間が手動で正解データ（正解ラベル）を与えることなく行われる機械学習方法である。すなわち、情報処理装置１は、病理画像に写っている複数の細胞自体の特徴量に基づいて当該複数の細胞をクラスタリングする。

　情報処理装置１は、生成した複数のクラスタに対応する情報を出力する。情報処理装置１は、例えば、クラスタに対応する情報として、クラスタと細胞とを関連付けた情報、クラスタに基づいて予測した生物の予後を示す情報等を、情報端末２に出力する。

　このように、情報処理装置１は、予め教師データに対して教師あり学習を適用することによって生成された学習モデルを用いることなく、教師なし学習により病理画像に写っている複数の細胞を複数のクラスタにクラスタリングする。教師あり学習では、人間が定義した複数の種別に細胞をクラスタリングするため、当該種別へのクラスタリングに寄与しない特徴量が失われてしまう傾向がある。一方、情報処理装置１は、教師なし学習を用いて、病理画像に写っている複数の細胞自体の特徴量に基づいて細胞をクラスタリングするため、人間が認識することの難しい種別にも細胞を分けることができ、教師あり学習では失われてしまうような特徴量を反映したクラスタを生成できる。

［情報処理システムの構成］
　図２は、本実施形態に係る情報処理システムのブロック図である。図２において、矢印は主なデータの流れを示しており、図２に示したもの以外のデータの流れがあってもよい。図２において、各ブロックはハードウェア（装置）単位の構成ではなく、機能単位の構成を示している。そのため、図２に示すブロックは単一の装置内に実装されてもよく、あるいは複数の装置内に分かれて実装されてもよい。ブロック間のデータの授受は、データバス、ネットワーク、可搬記憶媒体等、任意の手段を介して行われてよい。

　情報処理装置１は、記憶部１１と、制御部１２とを有する。情報処理装置１は、２つ以上の物理的に分離した装置が有線又は無線で接続されることにより構成されてもよい。また、情報処理装置１は、コンピュータ資源の集合であるクラウドによって構成されてもよい。

　記憶部１１は、ＲＯＭ（Read Only Memory）、ＲＡＭ（Random Access Memory）、ハードディスクドライブ等を含む記憶媒体である。記憶部１１は、制御部１２が実行するプログラムを予め記憶している。記憶部１１は、情報処理装置１の外部に設けられてもよく、その場合にネットワークを介して制御部１２との間でデータの授受を行ってもよい。

　記憶部１１は、画像記憶部１１１と、細胞情報記憶部１１２と、クラスタ情報記憶部１１３と、を有する。画像記憶部１１１は、後述の画像取得部１２１が取得した病理画像を記憶する。細胞情報記憶部１１２は、病理画像から抽出した細胞に関する細胞情報を記憶する。クラスタ情報記憶部１１３は、細胞をクラスタリングすることによって生成されたクラスタに関するクラスタ情報を記憶する。画像記憶部１１１、細胞情報記憶部１１２及びクラスタ情報記憶部１１３は、それぞれ記憶部１１上の記憶領域であってもよく、あるいは記憶部１１上で構成されたデータベースであってもよい。

　制御部１２は、画像取得部１２１と、特徴量抽出部１２２と、クラスタ生成部１２３と、予後予測部１２４と、出力部１２５と、を有する。制御部１２は、例えばＣＰＵ（Central Processing Unit）等のプロセッサであり、記憶部１１に記憶されたプログラムを実行することにより、画像取得部１２１、特徴量抽出部１２２、クラスタ生成部１２３、予後予測部１２４及び出力部１２５として機能する。制御部１２の機能の少なくとも一部は電気回路によって実行されてもよい。また、制御部１２の機能の少なくとも一部は、制御部１２がネットワーク経由で実行されるプログラムを実行することによって実現されてもよい。

　以下、情報処理装置１が実行する処理について詳細に説明する。ユーザは、情報端末２において、病理診断の対象とする病理画像を指定する。病理画像は、患者等の生物の検体を所定の方法（例えば、ヘマトキシリン・エオジン染色）で染色し、染色された検体をカメラで撮像することによって生成された画像である。情報端末２は、指定された病理画像を、情報処理装置１に送信する。

　情報処理装置１において、画像取得部１２１は、情報端末２が送信した病理画像を取得する。また、画像取得部１２１は、記憶部１１に予め記憶された病理画像を取得し、又はインターネット等のネットワーク上の記憶装置に予め記憶された病理画像を取得してもよい。画像取得部１２１は、取得した病理画像を、画像記憶部１１１に記憶させる。

　画像取得部１２１は、病理画像に対して所定の処理を行うことによって、病理画像に写っている、生物を構成する複数の細胞それぞれの画像を取得する。図３は、画像取得部１２１が病理画像に対して行う処理を説明するための模式図である。

　画像取得部１２１は、病理画像に対して、高解像度化処理を行う。記憶部１１には、例えば、入力された画像を高解像度化して出力する高解像度化用モデルが予め記憶されている。高解像度化用モデルは、例えば、生物の細胞を含む領域の低解像度の画像と、当該領域の高解像度の画像と、に対して敵対的生成ネットワーク（Generative Adversarial Network; GAN）等の既知の生成モデルを適用することによって生成される。

　画像取得部１２１は、例えば、高解像度化処理として、記憶部１１に記憶されている高解像度化用モデルに病理画像を入力することによって出力された、高解像度化された病理画像を取得する。画像取得部１２１は、高解像度化された病理画像を画像記憶部１１１に記憶させ、以降の処理で用いる。これにより、情報処理装置１は、低解像度の病理画像であっても、後述の教師なし学習において、病理画像に写っている複数の細胞を、人間が認識することのできる種別をはるかに上回る数のクラスタに分けることを可能にできる。

　また、画像取得部１２１は、病理画像に対して、色彩補正処理を行う。画像取得部１２１は、例えば、色彩補正処理として、病理画像に対して色彩を基準値に合わせる処理を行うことによって生成された、色彩が補正された病理画像を取得する。

　色彩の基準値は、例えば、複数の撮像条件において撮像された複数の画像の色彩の統計値である。この場合に、画像取得部１２１は、例えば、異なる複数の施設において撮像された複数の画像、又は１つの施設において異なる複数の機材を用いて撮像された複数の画像から、色彩の平均値、分散等の統計値を算出する。画像取得部１２１は、病理画像全体の色彩を、算出した統計値に合わせるように、病理画像の色彩を補正する。

　また、色彩の基準値は、例えば、所定の細胞を所定の色素で染色した色であってもよい。この場合に、記憶部１１は、例えば、マクロファージ等の所定の細胞を、ヘマトキシリン・エオジン染色等の所定の方法で染色した場合の色彩を予め記憶している。画像取得部１２１は、病理画像における当該所定の細胞に対応する領域の色彩を、記憶部１１に記憶された当該所定の細胞の色彩に合わせるように、病理画像の色彩を補正する。

　画像取得部１２１は、色彩が補正された病理画像を画像記憶部１１１に記憶させ、以降の処理で用いる。従来、病理画像の撮像条件によって色彩の傾向が異なることにより、病理画像を正しく分析できない場合があった。それに対して、情報処理装置１は、病理画像間の色彩の差異を補正することにより、撮像条件等の影響によるクラスタリング結果のぶれを抑制できる。

　画像取得部１２１は、病理画像に対して、高解像度化処理及び色彩補正処理のうち一方のみを行ってもよい。画像取得部１２１は、病理画像に対して、高解像度化処理及び色彩補正処理を行わなくてもよい。

　画像取得部１２１は、病理画像に対してセグメンテーション処理を行うことによって、病理画像に写っている複数の細胞それぞれの画像を、細胞画像として取得する。記憶部１１には、例えば、入力された画像に写っている細胞を抽出するインスタンスセグメンテーションモデルが予め記憶されている。インスタンスセグメンテーションモデルは、例えば、生物の細胞が写っている画像と、当該画像における細胞の位置と、に対してMask Region-Convolutional Neural Network（Mask R-CNN）等の既知の機械学習を適用することによって生成される。

　画像取得部１２１は、例えば、セグメンテーション処理として、記憶部１１に記憶されているインスタンスセグメンテーションモデルに病理画像を入力することによって、病理画像に写っている複数の細胞を抽出する。画像取得部１２１は、抽出した複数の細胞それぞれの画像を、細胞画像として画像記憶部１１１に記憶させ、以降の処理で用いる。複数の細胞それぞれの細胞画像は、病理画像中の当該細胞の位置に関連付けられている。画像取得部１２１は、ここに示した具体的な方法に限られず、その他の方法で病理画像に写っている複数の細胞それぞれの細胞画像を生成してもよい。

　クラスタ生成部１２３は、特徴量抽出部１２２が抽出する複数の細胞に対応する複数の特徴量に対して教師なし学習を適用することによって、複数の細胞をクラスタリングした複数のクラスタを生成する。

　クラスタ生成部１２３が複数のクラスタを生成する方法を以下に説明する。クラスタ生成部１２３は、第１クラスタリング部１２３ａと、第２クラスタリング部１２３ｂと、を含む。まず第１クラスタリング部１２３ａは、特徴量抽出部１２２が抽出する特徴量に対して教師なし学習を適用することによって、複数の細胞をクラスタリングした複数の小クラスタを生成するクラスタリングモデルを予め生成する。

　図４は、第１クラスタリング部１２３ａが教師なし学習によってクラスタリングモデルを生成する方法を説明するための模式図である。特徴量抽出部１２２及び第１クラスタリング部１２３ａは、例えば、以下に説明する方法で、複数の細胞画像に対して、既知の機械学習である畳み込みニューラルネットワークを適用することによって、特徴量の抽出及びクラスタリングを行うクラスタリングモデルを生成する。

　第１クラスタリング部１２３ａは、まず入力された画像から特徴量を出力する畳み込みニューラルネットワークのパラメータを、無作為な値又は所定の値で初期化する。特徴量抽出部１２２は、畳み込みニューラルネットワークに学習対象の複数の細胞画像それぞれを入力することによって、当該細胞画像に写っている細胞（学習用細胞）の特徴量を抽出する。

　第１クラスタリング部１２３ａは、複数の細胞間の、特徴量抽出部１２２が抽出した特徴量の類似度を算出する。類似度は、例えば、ユークリッド距離、マンハッタン距離、コサイン距離、又は２つの特徴量が類似する程度を表すその他の値である。第１クラスタリング部１２３ａは、例えば、k-means法を用いて、算出した類似度に基づいて複数の細胞を複数の小クラスタ（学習用クラスタ）にクラスタリングする。ここで第１クラスタリング部１２３ａは、所定の数（例えば、ユーザによって指定された１００～１０００のオーダーの数）の小クラスタを生成する。第１クラスタリング部１２３ａは、類似度に基づいてクラスタリング可能なその他のクラスタリング方法を用いて、複数の細胞を複数の小クラスタにクラスタリングしてもよい。

　小クラスタの生成が２回目以降の場合、第１クラスタリング部１２３ａは、今回の小クラスタのクラスタリング結果が前回の小クラスタのクラスタリング結果から大きく変化したか否か（例えば、全ての小クラスタの重心の変化量が所定値以上であるか否か）を判定する。

　今回の小クラスタのクラスタリング結果が前回の小クラスタのクラスタリング結果から大きく変化したと判定した場合、又は小クラスタの生成が１回目の場合に、第１クラスタリング部１２３ａは、生成された複数の小クラスタそれぞれにＩＤ（Identification）を割り振り、それを疑似正解ラベルとした既知の機械学習によって分類モデル（ニューラルネットワーク）を生成する。分類モデルは、上述の画像から特徴量を抽出するための畳み込みニューラルネットワークを含むように構成されており、機械学習によって当該畳み込みニューラルネットワークのパラメータが更新される。第１クラスタリング部１２３ａは、パラメータが更新された畳み込みニューラルネットワークに再び複数の細胞画像それぞれを入力し、特徴量の抽出及び小クラスタへのクラスタリングを繰り返す。

　今回の小クラスタのクラスタリング結果が前回の小クラスタのクラスタリング結果から大きく変化していないと判定した場合に、第１クラスタリング部１２３ａは、機械学習を終了し、最終的な分類モデルを、クラスタリングモデルとして記憶部１１に記憶させる。これにより、情報処理装置１は、人間が特徴量を定義しなくとも、病理画像に写っている細胞の特徴量を抽出し、安定したクラスタリングを行うことができる畳み込みニューラルネットワークのパラメータを得ることができる。

　また、特徴量抽出部１２２は、機械学習によって抽出した特徴量に加えて、細胞の外周長さ、面積、凹凸の程度（凹凸度）、密度等、細胞の特性を表す所定の値である特徴量を算出してもよい。この場合に、第１クラスタリング部１２３ａは、細胞の外周長さ、面積、凹凸の程度（凹凸度）、密度等の所定の特徴量と、機械学習によって抽出した特徴量と、を組み合わせた値を用いて、複数の細胞を複数の小クラスタにクラスタリングする。これにより、情報処理装置１は、機械学習によって抽出される人間が認識することの難しい特徴量だけでなく、人間が定義した特定の特徴量を、クラスタリング結果に反映できる。

　画像取得部１２１が病理画像から複数の細胞画像を生成した後に、特徴量抽出部１２２は、記憶部１１に予め記憶されたクラスタリングモデルに、当該複数の細胞画像それぞれを入力することによって、複数の細胞それぞれの特徴量を抽出し、細胞と特徴量とを関連付けた細胞情報を、細胞情報記憶部１１２に記憶させる。さらに第１クラスタリング部１２３ａは、当該クラスタリングモデルにより、当該特徴量に基づいて複数の細胞をクラスタリングした複数の小クラスタを生成する。これにより、情報処理装置１は、人間から正解データが与えられることなく、複数の細胞画像に対して特徴量抽出及びクラスタリングをすることができる。

　次に第２クラスタリング部１２３ｂは、階層型クラスタリングを行うことによって複数の小クラスタをクラスタリングした複数のクラスタを生成する。図５は、第２クラスタリング部１２３ｂが階層型クラスタリングによってクラスタを生成する方法を説明するための模式図である。

　第２クラスタリング部１２３ｂは、第１クラスタリング部１２３ａが生成した複数の小クラスタそれぞれに対して、当該小クラスタに属する複数の細胞の特徴量を代表する代表値（例えば重心）を算出する。第２クラスタリング部１２３ｂは、複数の小クラスタのうち、代表値間の距離が最も小さい２つの小クラスタの組を抽出する。次に第２クラスタリング部１２３ｂは、複数の小クラスタから抽出した組を除いて、代表値間の距離が最も小さい２つの小クラスタの組を抽出する。第２クラスタリング部１２３ｂは、抽出できる小クラスタの組がなくなるまで、小クラスタの組の抽出を繰り返す。

　さらに第２クラスタリング部１２３ｂは、抽出した小クラスタの組を１つの小クラスタとみなして、再び代表値を算出し、小クラスタの組を抽出することを所定の階層数まで繰り返す。第２クラスタリング部１２３ｂは、最終的に抽出した小クラスタの複数の組を、複数のクラスタとして生成する。第２クラスタリング部１２３ｂは、小クラスタ及びクラスタそれぞれに属する細胞と、小クラスタとクラスタとの関係（例えば、樹形図）と、を示すクラスタ情報を、クラスタ情報記憶部１１３に記憶させる。

　図５の例では、第２クラスタリング部１２３ｂは、小クラスタ１～ｊに対して、２階層の階層型クラスタリングを行うことによって、クラスタ１～ｋを生成している。第２クラスタリング部１２３ｂは、２階層に限らず、その他の階層数の階層型クラスタリングを行ってもよい。

　これにより、第２クラスタリング部１２３ｂは、第１クラスタリング部１２３ａが生成した複数の小クラスタを、特徴量の類似性に基づいて階層的にクラスタリングし、少ない数のクラスタにまとめることができる。

　このように、情報処理装置１は、教師なし学習を用いて細胞をクラスタリングすることにより小クラスタを生成した後、階層型クラスタリングを用いて小クラスタをクラスタリングすることによりクラスタを生成する。教師あり学習を用いる手法では、人間から正解データが与えられる必要があるため、特徴量抽出及びクラスタリングが人間の認識に影響されていた。それに対して、情報処理装置１は、人間から正解データが与えられる必要のない教師なし学習を用いることにより、人間が認識することの難しい種別にも細胞を分けることができ、後述の予後予測部１２４による予後予測の精度に影響し得るより多くの特徴量を残したクラスタを生成できる。

　一方、教師なし学習によって生成された多数（１００～１０００のオーダー）のクラスタをそのまま用いて予後予測を行うと、予後予測の処理時間が増加するとともに、過学習が発生して予後予測の精度が低下する場合がある。これに対して情報処理装置１は、階層型クラスタリングによってクラスタの数を減らすことによって、予後予測の処理時間を低減するとともに、予後予測の精度の低下を抑制できる。

　予後予測部１２４は、クラスタ生成部１２３が生成したクラスタに対応する情報に基づいて、病理画像に写っている生物の予後を予測する。予後は、例えば、５年生存率、１０年生存率等の値によって表される。

　予後予測部１２４が生物の予後を予測する方法を以下に説明する。予後予測部１２４は、入力されたクラスタの特徴量から予測される予後を出力する予後予測用モデルを予め生成する。

　図６は、予後予測部１２４が予後予測用モデルを生成する方法を説明するための模式図である。予後予測部１２４は、例えば、複数の生物を撮像することによって生成された複数の画像を取得し、当該複数の画像それぞれに対して記憶部１１に記憶されたクラスタリングモデルを適用することによって生成された複数のクラスタと、当該画像に写っている生物の予後を示す予後データと、を取得する。

　予後予測部１２４は、例えば、当該複数のクラスタそれぞれの特徴量と、当該予後データが示す予後と、に対してランダムフォレスト、サポートベクターマシン（Support Vector Machine; SVM）、ディープラーニング等の既知の機械学習を適用することによって、入力された特徴量に対して予後を予測する回帰モデルを生成する。

　予後予測に用いる特徴量は、例えば、複数の生物それぞれの画像に対して記憶部１１に記憶されたクラスタリングモデルを適用することによって生成された複数のクラスタそれぞれにおける、当該クラスタに属する複数の細胞の特徴量（例えば、細胞数、平均細胞面積、密度等）を含む。予後予測部１２４は、生成した回帰モデルを、予後予測用モデルとして記憶部１１に記憶させる。

　また、予後予測部１２４は、例えば、所定の組織（例えば、腫瘍組織）における複数のクラスタそれぞれに属する細胞の特徴量に基づいて予後を予測する予後予測用モデルを生成してもよい。この場合に、予後予測部１２４は、例えば、画像中の所定の組織に対応する領域を指定する情報を取得する。所定の組織に対応する領域を指定する情報は、例えば、画像中の所定の組織に対応する領域を示すマスク画像（２値画像等）である。

　予後予測部１２４は、複数のクラスタそれぞれに属する細胞のうち、指定された組織に対応する領域内に位置する細胞に対して予後予測に用いる特徴量を抽出する。予後予測部１２４は、抽出した特徴量に対して既知の機械学習を適用することによって、予後予測用モデルを生成する。また、予後予測に用いる特徴量は、例えば、所定の組織自体の特徴量（例えば、腫瘍組織の面積、凹凸の程度、密度等）を含んでもよい。細胞の特徴量に基づく予後予測の傾向は、生物の体において細胞が位置する組織によって異なる場合がある。情報処理装置１は、特定の組織における特徴量を抽出して機械学習をすることにより、教師なし学習を用いて生成されたクラスタと所定の組織との関係を反映した予後予測モデルを生成できる。

　クラスタ生成部１２３が病理画像に基づいて複数のクラスタを生成した後に、予後予測部１２４は、例えば、当該複数のクラスタそれぞれに対して上述の予後予測に用いる特徴量を抽出し、記憶部１１に記憶されている予後予測用モデルに入力する。予後予測部１２４は、予後予測に用いる特徴量として所定の組織に関する情報を用いる場合に、例えば、情報端末２において、ユーザから病理画像中の所定の組織に対応する領域の指定を受け付けてもよい。

　予後予測部１２４は、予後予測用モデルが出力した予後を、病理画像から予測された予後として決定する。このように、情報処理装置１は、病理画像から、人間から正解データが与えられる必要のない教師なし学習を用いて生成されたクラスタに基づいて予後を予測するため、人間が認識することの難しい特徴量を反映した予後を予測できる。

　また、予後予測部１２４は、例えば、所定の薬剤が投与された生物の画像から生成されたクラスタの特徴量と、当該生物の予後と、に対して機械学習を適用することによって、予後予測用モデルを生成してもよい。この場合に、予後予測部１２４は、複数の薬剤それぞれが投与された生物の画像に対して生成された複数のクラスタと、当該生物の予後データと、を用いて予後予測用モデルを生成し、当該薬剤と関連付けて予後予測用モデルを記憶部１１に記憶させる。

　クラスタ生成部１２３が病理画像に基づいて複数のクラスタを生成した後に、予後予測部１２４は、当該複数のクラスタそれぞれから抽出した特徴量を、記憶部１１に記憶されている複数の薬剤に対応する複数の予後予測用モデルそれぞれに入力する。予後予測部１２４は、複数の薬剤それぞれに対応する予後予測用モデルが出力した予後を、生物に当該薬剤が投与された場合の予後として決定する。細胞の特徴量に基づく予後予測の傾向は、生物に投与された薬剤によって異なる場合がある。これにより、情報処理装置１は、生物に投与された薬剤ごとに特徴量を抽出して機械学習をすることにより、生物に投与される薬剤ごとに、病理画像から教師なし学習を用いて生成されたクラスタに基づいた予後を予測できる。

　また、予後予測部１２４は、異なる複数の染色方法で染色された複数の画像から得られた情報を組み合わせた特徴量を用いて予後を予測する予後予測用モデルを生成してもよい。図７は、異なる色素で染色された複数の画像を用いて予後を予測する予後予測用モデルを生成する方法を説明するための模式図である。

　予後予測部１２４は、第１色素で染色された生物の検体の画像である第１染色画像と、第１色素とは異なる第２色素で染色された当該検体の画像である第２染色画像と、を関連付けて取得する。生物の検体が十分に薄い薄片にスライスされており、第１染色画像に写っている薄片と、第２染色画像に写っている薄片と、が近接していれば、第１染色画像における細胞の分布と第２染色画像における細胞の分布とはほぼ同一とみなせる。

　第１色素は、例えば、細胞の構造を染色可能なヘマトキシリン・エオジン染色（ＨＥ染色）用の色素である。第２色素は、例えば、特定のタンパク質を染色可能な免疫組織染色（ＩＨＣ染色）用の色素である。第２色素は、複数の異なるタンパク質を染色する複数の色素を含んでもよい。

　予後予測部１２４は、例えば、複数の第１染色画像それぞれに対して記憶部１１に記憶されたクラスタリングモデルを適用することによって生成された複数のクラスタと、当該第１染色画像に写っている生物の予後を示す予後データと、を取得する。予後予測部１２４は、例えば、第１染色画像から生成した複数のクラスタそれぞれに属する細胞の位置を示すマスク画像（２値画像等）を生成する。

　予後予測部１２４は、第１染色画像から生成したマスク画像と、当該第１染色画像に関連付けられた第２染色画像と、を結合することによって、テンソルデータを生成する。すなわち、テンソルデータは、第１色素を用いた染色によって得られた複数のクラスタそれぞれに属する細胞の位置と、第２色素を用いた染色によって得られたタンパク質の分布と、の関係を示す情報である。

　予後予測部１２４は、例えば、複数のテンソルデータと、当該テンソルデータに対応する予後データが示す予後と、に対して既知の機械学習を適用することによって、入力されたテンソルデータに対して予後を予測する回帰モデルを生成する。予後予測部１２４は、生成した回帰モデルを、予後予測用モデルとして記憶部１１に記憶させる。

　クラスタ生成部１２３が病理診断の対象とする第１染色画像である第１病理画像に基づいて複数のクラスタを生成した後に、予後予測部１２４は、当該第１病理画像と、当該第１病理画像に写っている生物の第２染色画像である第２病理画像と、を用いて、上述のテンソルデータを生成する。予後予測部１２４は、生成したテンソルデータを特徴量として記憶部１１に記憶された予後予測用モデルに入力することにより、予後を予測する。病理画像は、細胞を染色した色素に応じて、異なる細胞の構造が可視化された情報を含む。情報処理装置１は、異なる複数の染色方法で染色された複数の画像を用いることにより、異なる染色方法を組み合わせることによって生成された特徴量を反映した予後を予測できる。

　また、予後予測部１２４は、図６において説明した１つの病理画像から生成した特徴量と、図７において説明した異なる複数の染色方法で染色された複数の病理画像から生成した特徴量と、の両方を予後予測用モデルに入力することにより、予後を予測してもよい。また、予後予測部１２４は、病理画像から教師なし学習を用いて生成されたクラスタから抽出可能なその他の特徴量に基づいて、予後を予測してもよい。

　出力部１２５は、クラスタ生成部１２３が生成したクラスタに対応する情報を出力する。出力部１２５は、例えば、クラスタに対応する情報を、情報端末２に送信する。情報端末２は、情報処理装置１が送信したクラスタに対応する情報を、表示部上に表示する。

　図８Ａ、図８Ｂは、出力部１２５が出力する情報の模式図である。出力部１２５は、例えば、クラスタに対応する情報として、病理画像上に、複数の細胞それぞれの位置と、当該細胞が属するクラスタと、を示す情報を出力する。図８Ａの例では、出力部１２５は、病理画像上の細胞の位置に、クラスタ名のラベルを付すことによって、細胞の位置及びクラスタを示す情報を出力している。また、出力部１２５は、例えば、病理画像上の細胞の位置にクラスタごとに異なる色の枠を付すことによって、細胞の位置及びクラスタを示す情報を出力してもよい。これにより、情報処理装置１は、病理画像上の細胞の位置とクラスタとの関係を、ユーザに分かりやすく通知できる。

　また、出力部１２５は、例えば、クラスタに対応する情報として、複数のクラスタそれぞれに関連付けて、当該クラスタに属する細胞に関する情報を出力する。図８Ｂの例では、出力部１２５は、複数のクラスタそれぞれに属する複数の細胞の面積の分布を箱ひげ図で出力している。出力部１２５は、細胞の面積に限らず、細胞の外周長さ、凹凸の程度、密度等をクラスタごとに出力してもよい。また、出力部１２５は、棒グラフ、円グラフ等、その他の方法でクラスタに属する細胞に関する情報を出力してもよい。これにより、情報処理装置１は、クラスタごとの細胞の特性を、ユーザに分かりやすく通知できる。

　また、出力部１２５は、例えば、クラスタに対応する情報として、予後予測部１２４がクラスタに基づいて予測した予後を示す情報を出力する。出力部１２５は、例えば、５年生存率等の予後を表す情報を出力する。また、出力部１２５は、例えば、薬剤の名称と、生物に当該薬剤が投与された場合の予後と、を表す情報を出力してもよい。また、出力部１２５は、例えば、複数の薬剤の名称及び予後を同時に又は順に情報端末２に表示させることにより、複数の薬剤の予後を比較可能な態様で出力してもよい。これにより、情報処理装置１は、ユーザが指定した病理画像から教師なし学習を用いて予測された予後をユーザに通知できる。

［情報処理方法のフローチャート］
　図９は、本実施形態に係る情報処理装置１が実行する例示的な情報処理方法のフローチャートを示す図である。ユーザは、情報端末２において、病理診断の対象とする病理画像を指定する。情報端末２は、指定された病理画像を、情報処理装置１に送信する。情報処理装置１において、画像取得部１２１は、情報端末２が送信した病理画像を取得する（Ｓ１１）。

　画像取得部１２１は、病理画像に対して、高解像度化処理又は色彩補正処理の少なくとも一方を実行する（Ｓ１２）。画像取得部１２１は、例えば、高解像度化処理として、記憶部１１に記憶されている高解像度化用モデルに病理画像を入力することによって出力された、高解像度化された病理画像を取得する。画像取得部１２１は、例えば、色彩補正処理として、病理画像に対して色彩を基準値に合わせる処理を行うことによって生成された、色彩が補正された病理画像を取得する。

　画像取得部１２１は、病理画像に対してセグメンテーション処理を行うことによって、病理画像に写っている複数の細胞それぞれの画像を、細胞画像として取得する（Ｓ１３）。画像取得部１２１は、例えば、セグメンテーション処理として、記憶部１１に記憶されているインスタンスセグメンテーションモデルに病理画像を入力することによって、病理画像に写っている複数の細胞を抽出する。

　第１クラスタリング部１２３ａは、複数の細胞画像を、教師なし学習により予め生成されたクラスタリングモデルに入力することによって、複数の細胞をクラスタリングした複数の小クラスタを生成する（Ｓ１４）。クラスタリングモデルを生成するために、特徴量抽出部１２２は、例えば、畳み込みニューラルネットワークに複数の細胞画像それぞれを入力することによって、当該細胞画像に写っている細胞の特徴量を抽出する。第１クラスタリング部１２３ａは、例えば、k-means法を用いて複数の細胞をクラスタリングした複数の小クラスタを生成する。第１クラスタリング部１２３ａは、生成した小クラスタを正解ラベルとした分類モデルに対して機械学習を適用することにより、特徴量を抽出するための畳み込みニューラルネットワークのパラメータを更新する。第１クラスタリング部１２３ａは、最終的な分類モデルを、クラスタリングモデルとして記憶部１１に記憶させる。

　第２クラスタリング部１２３ｂは、階層型クラスタリングを行うことによって複数の小クラスタをクラスタリングした複数のクラスタを生成する（Ｓ１５）。第２クラスタリング部１２３ｂは、例えば、特徴量の代表値間の距離が最も小さい２つの小クラスタの組を抽出し、これを階層的に繰り返すことによって、複数のクラスタを生成する。第２クラスタリング部１２３ｂは、小クラスタ及びクラスタそれぞれに属する細胞と、小クラスタとクラスタとの関係と、を示すクラスタ情報を、クラスタ情報記憶部１１３に記憶させる。

　予後予測部１２４は、クラスタ生成部１２３が生成したクラスタに対応する情報に基づいて、病理画像に写っている生物の予後を予測する（Ｓ１６）。予後予測部１２４は、例えば、クラスタ生成部１２３が生成した複数のクラスタに対して予後予測に用いる特徴量を抽出し、記憶部１１に記憶されている予後予測用モデルに入力する。予後予測部１２４は、予後予測用モデルが出力した予後を、病理画像から予測された予後として決定する。

　出力部１２５は、クラスタ生成部１２３が生成したクラスタに対応する情報を出力する（Ｓ１７）。出力部１２５は、例えば、クラスタに対応する情報として、クラスタと細胞とを関連付けた情報、又は予後予測部１２４がクラスタに基づいて予測した予後を示す情報を、情報端末２に出力する。

［実施形態の効果］
　本実施形態に係る情報処理システムによれば、情報処理装置１は、教師なし学習により病理画像に写っている複数の細胞を複数のクラスタにクラスタリングする。教師あり学習では、人間が定義した複数の種別に細胞を分類するため、当該種別への分類に寄与しない特徴量が失われてしまう傾向がある。一方、情報処理装置１は、人間から正解データが与えられる必要のない教師なし学習を用いて、病理画像に写っている複数の細胞自体の特徴量に基づいて細胞をクラスタリングするため、人間が認識することの難しい種別にも細胞を分けることができ、教師あり学習では失われてしまうような特徴量を反映したクラスタを生成できる。

　また、情報処理装置１は、病理画像から教師なし学習を用いて生成されたクラスタに基づいて予後を予測するため、人間が認識することの難しい特徴量を反映した予後を予測できる。

　以上、本発明を実施の形態を用いて説明したが、本発明の技術的範囲は上記実施の形態に記載の範囲には限定されず、その要旨の範囲内で種々の変形及び変更が可能である。例えば、装置の全部又は一部は、任意の単位で機能的又は物理的に分散・統合して構成することができる。また、複数の実施の形態の任意の組み合わせによって生じる新たな実施の形態も、本発明の実施の形態に含まれる。組み合わせによって生じる新たな実施の形態の効果は、もとの実施の形態の効果を併せ持つ。

　情報処理装置１のプロセッサは、図９に示す情報処理方法に含まれる各ステップ（工程）の主体となる。すなわち、情報処理装置１のプロセッサは、図９に示す情報処理方法を実行するためのプログラムを記憶部１１から読み出し、該プログラムを実行することによって、図９に示す情報処理方法を実行する。図９に示す情報処理方法に含まれるステップは一部省略されてもよく、ステップ間の順番が変更されてもよく、複数のステップが並行して行われてもよい。

１　情報処理装置
１１　記憶部
１１１　画像記憶部
１１２　細胞情報記憶部
１１３　クラスタ情報記憶部
１２　制御部
１２１　画像取得部
１２２　特徴量抽出部
１２３　クラスタ生成部
１２３ａ　第１クラスタリング部
１２３ｂ　第２クラスタリング部
１２４　予後予測部
１２５　出力部

Claims

　生物の病理画像において、前記生物を構成する複数の細胞それぞれの特徴量を抽出する特徴量抽出部と、
　複数の前記特徴量に対して教師なし学習を適用することによって、複数の前記細胞をクラスタリングした複数のクラスタを生成するクラスタ生成部と、
　前記クラスタに対応する情報を出力する出力部と、
　を有する、情報処理装置。
　前記クラスタ生成部は、前記教師なし学習を適用することによって複数の前記細胞をクラスタリングした複数の小クラスタを生成する第１クラスタリング部と、階層型クラスタリングを行うことによって複数の前記小クラスタをクラスタリングした複数の前記クラスタを生成する第２クラスタリング部と、を含む、
　請求項１に記載の情報処理装置。
　前記出力部は、前記クラスタに対応する情報として、前記病理画像上に、複数の前記細胞それぞれの位置と、当該細胞が属するクラスタと、を示す情報を出力する、
　請求項１又は２に記載の情報処理装置。
　前記出力部は、前記クラスタに対応する情報として、複数の前記クラスタそれぞれに関連付けて、当該クラスタに属する前記細胞に関する情報を出力する、
　請求項１又は２に記載の情報処理装置。
　前記特徴量抽出部は、前記病理画像に対して機械学習を適用することによって、前記特徴量を抽出する、
　請求項１又は２に記載の情報処理装置。
　入力された画像を高解像度化して出力する高解像度化用モデルに、前記病理画像を入力することによって出力された、高解像度化された前記病理画像を取得する画像取得部をさらに有し、
　前記特徴量抽出部は、高解像度化された前記病理画像において前記特徴量を抽出する、
　請求項１又は２に記載の情報処理装置。
　前記高解像度化用モデルは、前記生物の細胞を含む領域の低解像度の画像と、当該領域の高解像度の画像と、に対して機械学習を適用することによって生成される、
　請求項６の記載の情報処理装置。
　前記病理画像に対して色彩を基準値に合わせる処理を行うことによって生成された、色彩が補正された前記病理画像を取得する画像取得部をさらに有し、
　前記特徴量抽出部は、色彩が補正された前記病理画像において前記特徴量を抽出する、
　請求項１又は２に記載の情報処理装置。
　前記基準値は、複数の撮像条件において撮像された複数の画像の色彩の統計値である、
　請求項８に記載の情報処理装置。
　前記基準値は、所定の細胞を所定の色素で染色した色であり、
　前記画像取得部は、前記病理画像における当該所定の細胞に対応する領域の色彩を、前記基準値に合わせる、
　請求項８に記載の情報処理装置。
　前記特徴量抽出部は、学習対象の複数の画像それぞれから当該画像に写っている細胞である学習用細胞の前記特徴量を抽出し、
　前記クラスタ生成部は、複数の前記学習用細胞の前記特徴量に基づいて複数の前記学習用細胞をクラスタリングすることによって、複数の学習用クラスタを生成し、
　前記クラスタ生成部は、生成した複数の前記学習用クラスタを疑似正解ラベルとした教師あり学習によって分類モデルを生成し、
　前記クラスタ生成部は、前記分類モデルを、クラスタリングモデルとして記憶部に記憶させ、
　前記クラスタ生成部は、前記記憶部に記憶された前記クラスタリングモデルを用いて、前記病理画像に写っている複数の前記細胞をクラスタリングした複数の前記クラスタを生成する、
　請求項１又は２に記載の情報処理装置。
　前記クラスタに対応する情報に基づいて、前記生物の予後を予測する予後予測部をさらに有する、
　請求項１に記載の情報処理装置。
　前記予後予測部は、前記クラスタに対応する情報と、前記予後と、の関係に対して機械学習を適用することによって生成された予後予測用モデルを用いて、前記予後を予測する、
　請求項１２に記載の情報処理装置。
　前記予後予測部は、薬剤が投与された前記生物の前記予後を用いて生成された前記予後予測用モデルを用いて、前記生物に前記薬剤が投与された場合の前記予後を予測する、
　請求項１３に記載の情報処理装置。
　前記予後予測部は、複数の前記クラスタそれぞれに属する前記細胞の前記特徴量に基づいて、前記予後を予測する、
　請求項１２から１４のいずれか一項に記載の情報処理装置。
　前記予後予測部は、所定の組織における複数の前記クラスタそれぞれに属する前記細胞の前記特徴量に基づいて、前記予後を予測する、
　請求項１５に記載の情報処理装置。
　前記予後予測部は、複数の前記クラスタそれぞれに属する前記細胞の位置に基づいて、前記予後を予測する、
　請求項１２から１４のいずれか一項に記載の情報処理装置。
　前記予後予測部は、第２病理画像と、第１病理画像から生成した複数のクラスタそれぞれに属する前記細胞の位置を示すマスク画像と、を結合することによって生成されるデータに基づいて、前記予後を予測する、
　請求項１７に記載の情報処理装置。
　前記第１病理画像は第１色素で染色された前記生物の検体の画像であり、前記第２病理画像は前記第１色素とは異なる第２色素で染色された当該検体の画像である、
　請求項１８に記載の情報処理装置。
　プロセッサが実行する、
　生物の病理画像において、前記生物を構成する複数の細胞それぞれの特徴量を抽出するステップと、
　複数の前記特徴量に対して教師なし学習を適用することによって、複数の前記細胞をクラスタリングした複数のクラスタを生成するステップと、
　前記クラスタに対応する情報を出力するステップと、
　を有する、情報処理方法。