WO2012011579A1

WO2012011579A1 - 病理組織画像の領域分割画像データ作成システム及び病理組織画像の特徴抽出システム

Info

Publication number: WO2012011579A1
Application number: PCT/JP2011/066744
Authority: WO
Inventors: 博和野里; 坂無　英徳; 村川　正宏; 小林　匠; 樋口　哲也; 展之大津
Original assignee: 独立行政法人産業技術総合研究所
Priority date: 2010-07-23
Filing date: 2011-07-22
Publication date: 2012-01-26
Also published as: US20130094733A1; JPWO2012011579A1; US9031294B2; JP5825641B2

Abstract

　領域分割画像を生成するために必要な領域分割画像データを作成することができる病理組織画像の領域分割画像データ作成システムを提供する。第１の２値化画像データ作成部１２は、病理組織画像データから細胞核領域とその他の領域とが区別できる第１の２値化画像データを作成する。第２の２値化画像データ作成部１４は、病理組織画像データから背景領域とその他の領域とが区別できる第２の２値化画像データを作成する。そして３値化画像データ作成部１５は、第１の２値化画像データと第２の２値化画像データの否定論理和をとって細胞質領域を区別し、領域分割画像データとなる３値化画像データを作成する。

Description

病理組織画像の領域分割画像データ作成システム及び病理組織画像の特徴抽出システム

　本発明は、病理組織画像の領域分割画像データ作成システム並びに病理組織画像の特徴抽出システム及び方法に関するものである。

　現在、がん（本明細書では、悪性腫瘍全体を示す際には「がん」と表記し、胃生検組織など上皮組織由来の悪性腫瘍を示す際には「癌」と表記する）の確定診断として行われている病理診断では、専門の知識と経験を有する病理専門医（以下、病理医とする）により、患者の体から手術や検査によって採取された組織の病理標本を顕微鏡観察することにより実施されている。

　しかし、近年のがん患者の増加や医師不足などにより、病理医への負担増加が深刻な社会問題となりつつある。国立がんセンターがん対策情報センターの発表によれば、日本では、1998年以降、毎年50万人以上が新たにがん患者と診断され、2004年には1975年の約３倍である約65万人が新たにがん患者と診断されている。今後もがん患者はさらに増加する見込みで、このままでは病理医への負担がさらに増加するものと懸念されている。しかし、病理医不足が解消するめどは立っておらず、病理医の負担を軽減するための技術開発が求められている。

　この問題を解決する技術として、病理組織画像から細胞核や細胞の特徴を抽出し、自動診断を行う手法が提案されている［非特許文献１及び非特許文献２参照］。しかし、非特許文献１及び２に示される手法で得られる情報は、細胞核の切り出し処理の正確性に大きく影響されるという問題がある。

　そこで発明者等は、この問題を克服する別のアプローチとして、高次局所自己相関（Higher-order　Local Auto-Correlation:ＨＬＡＣ）特徴［非特許文献３］を用いた病理診断支援技術［非特許文献４及び非特許文献５］を提案した。この手法では、細胞核や細胞の輪郭を切り出すことなく病理組織画像の特徴抽出を行うことが可能である。この提案では、胃生検病理組織画像に対し、まず、非癌の正常病理組織画像から抽出したＨＬＡＣ特徴の主成分分析により、正常部分空間［非特許文献６参照］の形成を行い、癌を含む病理組織画像から抽出したＨＬＡＣ特徴に対し、この正常部分空間からの逸脱度を算出して異常検出を行った。実験の結果、学習した非癌の正常病理組織画像と比較して、癌を含む病理組織画像を異常として認識し、自動診断への適用可能性があることは確認できた。

　また特開２００６－１５３７４２号公報（特許文献１）には、事前に多数の病理組織画像を使って細胞核の典型的な色情報を記憶しておき、検査対象である病理組織画像におけるその色の分布状態を調べ、高く分布している箇所を細胞核の中心と見なして所定サイズを切り出し、それらにおける色情報などを、対象とする病理組織画像の特徴量として採用している。

　また特開２００９－９２９０号公報（特許文献２）には、病理組織画像をHSV色空間変換して得られる彩度(S)成分と明度(V)成分を判別分析で２値化し、論理積を取って、ゼロの領域を背景と判定している。さらに背景以外の領域について、V成分を判別分析で２値化して細胞核を抽出している。そしてこの従来技術では、細胞毎の細胞質と細胞核の面積比のヒストグラムを特徴量として採用している。

特開２００６－１５３７４２号公報特開２００９－９２９０号公報

C.Demir and B. Yener,"Automated cancer diagnosis based on histpathological images: a stystematic survey,"Technical Report, TR-05-09, Rensselaer Polytechnic Institute, Mar.2005. E. Cosatto, M. Miller, H.P. Graf and J. S. Meyer, "Grading Nuclear Pleomorphism on Histological Micrographs," Proc. of the 19th International Conference on Pattern Recognition (ICPR2008), pp.1-4, Tampa, USA, Dec.2008. N.Otsu and T.Kurita,"A new scheme for practical flexible and intelligent vision systems," Proc. IAPR Workshop on Compiter Vision, pp.431-435, Tokyo, Japan, Oct.1988. 野里博和，坂無英徳，村川正宏，樋口哲也，大津展之，寺井謙介，蛭田啓之，亀田典章，"高次局所自己相関特徴を用いた病理組織診断支援技術の研究，"情報処理学会研究報告　MPS-73，vol.2009，no.19，pp.161-164，Mar.2009. 栗原司，野里博和，坂無英徳，村川正宏，古谷立美，樋口哲也，大津展之，寺井謙介，蛭田啓之，亀田典章，"高次局所自己相関特徴を用いた病理組織画像からの異常検出，"2009年映像情報メディア学会冬季大会講演予稿集，p.5-2，Dec.2009 Takuya Nanri and Nobuyuki Otsu,"Unsupervised Abnormality Detection in Video Surveillance," Proc. IAPR Conf. on Machine Vision Application (MVA2005),pp.574-577, Tsukuba, Japan, May.2005.

　非特許文献５及び６に記載の手法では、正常として認識されるべき非癌画像においても少なくない数のサンプルが、癌の疑いを示す異常と認識され誤検出となっていた。この手法により医師の負担を効果的に軽減するためには、この誤検出をなるべく抑えることが必要である。

　また特許文献１に記載の技術では、組織標本の染色状態は一定ではないため、検査対象における細胞核の色と事前に求めた典型的な細胞核の色とが一致しない恐れがあり、細胞核検出精度が低下する。また特許文献１の技術で得られる情報は、細胞核の切り出し処理の正確性に大きく影響されるという問題がある。

　特許文献２に記載の技術では、組織標本の染色状態が薄い場合、画像全体のSおよびV成分の分散が小さくなるため、正確な２値化が難しくなる恐れがある。また一定面積における細胞質と細胞核の面積比のヒストグラムを特徴量として採用しているが、面積比には細胞や細胞核の形に関する情報が含まれないため、病理組織標本の性質を適切に表現しているとは言えない問題がある。

　本発明の目的は、背景領域、細胞質領域及び細胞核領域が従来よりも明確になった領域分割画像を生成するために必要な領域分割画像データを作成することができる病理組織画像の領域分割画像データ作成システムを提供することにある。

　本発明の他の目的は、高次局所自己相関特徴を用いて、従来よりも画像認識精度を高めることができる病理組織画像の特徴抽出システム及び方法を提供することにある。

　本出願は、病理組織画像からの異常検出における誤検出を抑えるための領域分割画像データを作成する病理組織画像の領域分割画像データ作成システムを提案し、且つ本出願は、病理医が診断時の手掛かりとする組織の重要度と病理組織画像特有の性質を特徴抽出に活かした、病理組織画像の特徴抽出システム及び方法を提案する。まず病理組織画像を細胞核領域・細胞質領域・背景領域の３つの領域に分割し、各領域をそれぞれの組織の重要度を数値化したレベル値によって３値化する。また、病理組織画像は方向的特徴がないので、病理組織画像から回転や反転を考慮したＨＬＡＣ特徴抽出を行って病理組織画像の特徴を抽出する。

　本出願の第１の発明は、背景、細胞質及び細胞核を含む病理組織画像データから、背景領域、細胞質領域及び細胞核領域が明確になった領域分割画像を生成するために必要な領域分割画像データを作成する病理組織画像の領域分割画像データ作成システムを対象とする。ここで病理組織画像データは、背景、細胞質及び細胞核を表示する複数の画素についての画素データによって構成されている。病理組織画像の領域分割画像データ作成システムは、第１の２値化画像データ作成部と、第２の２値化画像データ作成部と、３値化画像データ作成部とから構成される。第１の２値化画像データ作成部は、例えば、病理組織画像データから細胞核領域とその他の領域とが区別できる第１の２値化画像データを作成する。第２の２値化画像データ作成部は、病理組織画像データから背景領域とその他の領域とが区別できる第２の２値化画像データを作成する。そして３値化画像データ作成部は、第１の２値化画像データと第２の２値化画像データの否定論理和をとって細胞質領域を区別し、領域分割画像データとなる３値化画像データを作成する
　本発明のように、細胞核領域とその他の領域とが区別できる第１の２値化画像データと背景領域とその他の領域とが区別できる第２の２値化画像データの否定論理和をとって細胞質領域を区別し、領域分割画像データとなる３値化画像データを作成すると、背景領域、細胞質領域及び細胞核領域が明確になった領域分割画像を生成することができる。これは、３種類の領域を区別して領域分割する場合、特徴的な２種類の領域を１種類ずつその特徴に合わせた区別方法により作成した領域の種類が異なる２種類の２値化画像データの否定論理和を取ることにより、区別するための特徴が不明瞭な領域部分が明瞭になり、既に分割した明瞭な領域部分と組み合わせることで３種類の領域を明瞭な状態で出力できるようになるためである。

　なお第１の２値化画像データ作成部は、例えば病理組織画像のＲＧＢ画像データからＲ成分を分離し、分離したＲ成分を判別２値化法により２値化処理して、細胞核領域とその他の領域とが区別できる第１の２値化画像データを作成するように構成することができる。ここでＲＧＢ画像データとは、赤色成分の信号（Ｒ）と、緑色成分の信号（Ｇ）と青色成分の信号（Ｂ）の３要素によって色を表現する方式で表現された画像データである。

　第１の２値化画像データ作成部で使用する画像データとして、病理組織画像のすべての画素においてＲＧＢ色空間上のＲ成分からＢ成分を減算し、減算結果が０より小さい場合の画素値を０とする冗長成分除去を行った冗長成分除去ＲＧＢ画像データを用いることができる。このような冗長成分除去を行うと、細胞核領域の抽出に障害となるＢ成分を多く含んだ画素情報を除去できる。さらに冗長成分除去ＲＧＢデータに含まれるすべての画素においてＲＧＢ色空間上のＢ成分からＲ成分を減算した値が、所定の値より大きい場合には、Ｂ成分からＲ成分を減算した値が所定の値となるようにＢ成分を予め定めた領域内のものとするクリッピング処理をした後のＢ成分を、第１の２値化画像データを求めるための画像データとして用いてもよい。このようなクリッピングをすると、病理標本画像に写るノイズや病理標本画像内の染色むらによる影響を大幅に低減できる。

　そして第２の２値化画像データ作成部は、具体的には、例えば、病理組織画像のＹＵＶ画像データからＶ成分を分離し、分離したＶ成分を判別２値化法により２値化処理して、背景領域とその他の領域とが区別できる第２の２値化画像データを作成するように構成されている。ここでＹＵＶ画像データとは、輝度信号（Y）と、青色成分の差分信号（U）、赤色成分の差分信号（V）の３要素によって色を表現する方式のことで表現された画像データである。この場合、第２の２値化画像データ作成部は、より具体的にはＹＵＶ画像データの全画素データをＹＵＶ色空間におけるＶ軸に射影してＶ成分を分離するように構成すればよい。データの種類が異なるＲＧＢ画像データとＹＵＶ画像データの２種類の画像データから得た第１及び第２の２値化画像データには、それぞれ細胞核領域、背景領域を個々に明確にする成分が含まれることになるため、上記３値化データ作成部により細胞質領域を明確化することが可能となる。

　また第２の２値化画像データ作成部として、病理組織画像データを主成分分析して背景領域とその他の領域とが区別できる第２の２値化画像データを作成するように構成してもよい。この場合、第２の２値化画像データ作成部は、より具体的には主成分分析により得た複数の主成分軸のいずれか一つに、病理組織画像データの全画素データを射影して正規化したものを、判別２値化法により２値化して第２の２値化画像データを作成するように構成すればよい。たとえば主成分分析により得た第１主成分軸に、病理組織画像データの全画素データを射影して正規化したものを、判別２値化法により２値化して第２の２値化画像データを作成する。上記の処理を異なる軸に対しても同様に行って得られる複数の２値化画像データに対して論理和や論理積演算をおこなって、新たに１つの２値化画像データを作成してもよい。第２の２値化画像データを、病理組織画像データを主成分分析して得ると、ＹＵＶ画像データから第２の２値化画像データを得る場合よりも、背景領域、細胞質領域をより明確化できることが試験により判っている。これは、色空間において画素データの分散を極大化する軸に沿って量子化を行うことによって、背景領域とその他領域とをよく分離できるためである。

　また第２の２値化画像データ作成部は、病理組織画像のＣＩＥＬｕｖ画像データを主成分分析して得た第２主成分軸の分析結果から背景領域とその他の領域とが区別できる第２の２値化画像データを作成するように構成することができる。ここでＣＩＥＬｕｖ画像データとは、国際照明委員会 (Commission Internationale de l'Eclairage)が定めたＣＩＥＬｕｖ表色系で表現される画像データである。ＣＩＥＬｕｖ表色系は、色空間上の距離が、人間による知覚的な色の差に近くなるように設計された均等色空間である。そのため人間（病理医）と同様の色識別感覚で処理を行い、領域を区別することが可能となる。

　なおＲＧＢ表色系からＣＩＥＬｕｖ表色系への変換については、たとえば「太田登，“色彩工学，”電機大出版局，1993.」に記載の方法を用いる事ができる。この公知の変換技術では、ＲＧＢ表色系のデータをＸＹＺ表色系のデータに変換し、Ｙの値に基づいてＬの値を算出し、ＸＹＺの値及び前記Ｌの値に基づいてｕとｖを算出する。

　本出願の第２の発明の病理組織画像の特徴抽出システムは、高次局所自己相関計算部と、要素特徴ベクトル計算部と、特徴抽出部とから構成する。

　高次局所自己相関計算部は、病理組織画像の領域分割画像データ作成システムにより作成した病理組織画像に、予め定めた局所パターンマスクを当てはめて、局所パターンマスクのマスク範囲にある複数のマスク候補にある画素値を乗算する。そして、画像全体にわたって局所パターンマスクを走査しながら、画素値の乗算値を積算して、病理組織画像全体の積和値とする。あるいは、病理組織画像を複数のブロックに分け、ブロックごとに局所パターンマスクを走査しながら画素値の乗算値の積算値を求め、複数のブロックの積算値の和を積和値として計算してもよい。このとき得られる積和値のことを、本出願では特徴量と呼ぶ。

　局所パターンマスクは、ｍ及びｎを整数としたときに、（２ｍ＋１）×（２ｎ＋１）のセルからなる格子の範囲をマスク範囲とし、（２ｍ＋１）×（２ｎ＋１）個のセルを複数のマスク候補とする。そして複数のマスク候補のうち、マスク範囲の中心に位置するマスク候補を中心マスクとして選択し、さらにマスク範囲から０以上の任意個数のマスク候補を選択することで局所パターンマスクは構成される。「大津展之, パターン認識における特徴抽出に関する数理的研究, 電子技術総合研究所研究報告, 第818号」には、中心マスクであるマスク候補以外に、マスク範囲内の｛（ｍ，０），（ｍ，ｎ），（０，ｎ），（－ｍ，ｎ），（－ｍ，０），（－ｍ，－ｎ），（０，－ｎ），（ｍ，－ｎ）｝に位置する８個から、０個または１個または２個のいずれかを選択する事で構成される複数の局所パターンマスクを用いるのがよいとされている。このように、マスク範囲で限定された局所的なマスク候補中の画素について、複数個のマスク候補の相関を計算することがＨＬＡＣの特徴である。このような複数の局所パターンマスクで画像全体もしくは一部領域を走査することで品質の良い特徴を抽出することができる。

　なお、マスク範囲からのマスク候補の選択方法について上記文献「パターン認識における特徴抽出に関する数理的研究」に一応の指針は掲載されている。しかし目的に応じて任意にマスク候補を選択することが可能である。特に複数の局所パターンマスクをそれぞれ複数の回転不変特徴グループに分ける場合には、各マスク候補に関して、中心マスクまでの距離がそれぞれできるだけ等しくなるように選択することが、回転不変性を高めるために望ましく、より品質の高い特徴を抽出することができる。

　このときの中心マスク以外選択可能なマスク候補の位置（座標）は、下記の２式の交点に最も近い整数の座標を有するものとして定義できる。

　　（ｘ²／ｎ²）+（ｙ²／ｍ²）＝１
　　　ｙ＝±（ｍ／ｎ）ｘあるいはｙ＝０あるいはｘ＝０
　要素特徴ベクトル生成部は、高次局所自己相関計算部により複数の局所パターンマスク毎に得られる積和値である特徴量を連結（concatenate）して要素特徴ベクトルを得る。

　さらに、要素特徴ベクトル生成部は、複数の局所パターンマスクをそれぞれ回転あるいは反転、もしくはその両方を行ったときに等価とみなせる複数の局所パターンマスクをそれぞれ複数の不変特徴グループに分け、１つの不変特徴グループに属する全ての局所パターンマスクから得られる特徴量の線形和を計算し、不変特徴グループ毎に得られる線形和を連結して要素特徴ベクトルを得る。ここで、回転角度としては、４５°、９０°、１８０°などが考えられる。また反転には、上下方向（Ｘ軸対称）、左右方向（Ｙ軸対称）及び斜め方向（原点対称）の反転、あるいはこれらの組合せを含めてもよい。

　特徴抽出部は、前述のｍとｎの値を変えて得られる、異なる大きさのマスク範囲を有する複数の局所パターンマスク集合から得られる複数の要素特徴ベクトルを結合して、最終的な特徴ベクトルを生成する。局所パターンマスク集合のマスク範囲は、上記（ｍ，ｎ）の二項組により規定される。すなわち、（ｍ１，ｎ１）、（ｍ２，ｎ２）、（ｍｐ，ｎｐ）のように、（ｍ，ｎ）の二項組を複数（この場合はｐ個）用意しておくことで、複数（この場合はｐ個）の要素特徴ベクトルが生成され、最終的に得られる特徴ベクトルの長さは、個々の要素特徴ベクトルのｐ倍となる。

　本発明によれば、病理組織画像に基づく病理診断において、医師は方向性を意識せず且つ表裏を意識しないという特徴から、複数の局所パターンマスクをそれぞれ４５°ずつ回転させたとき及び反転させたときに等価とみなせる複数の局所パターンマスクをそれぞれ複数の不変特徴グループに分けることにより、判断の基礎とする特徴量を少なくしても、従来よりも画像認識精度を高めることができる。これは、病理組織の特徴が回転・反転を区別した場合に派生する複数の特徴量に分散することなく、少ない特徴量に集約されるためである。

　最もシンプルなＨＬＡＣ特徴の計算方法として、画素値をそのまま乗算に用いる計算方法を用いると、値の大きな画素と小さな画素が特徴量に与える影響の差が大きくなるため、画像特徴としての品質を劣化させる場合がある。そこで、マスク位置にある画素値をそのまま乗算に用いるのではなく、マスク位置にある画素値の組合せの発生頻度（回数）を画像全体（もしくは部分領域）に亘って積算する、ＣＩＬＡＣ特徴と呼ばれるものを用いることもできる。ＣＩＬＡＣ特徴では、値の小さな画素であっても、大きな値の画素値と同程度の影響を持つため、画像の明るさ等によらず対象の本質をよりよく示す特徴を抽出することができる。その結果、ＣＩＬＡＣ特徴を用いると、ＨＬＡＣ特徴を用いる場合よりも判定精度を高めることができる。

　またＣＩＬＡＣ特徴を計算するとき、局所パターンマスクとして、細胞核のみと、細胞核と細胞質の関係を示すものだけを使用する（すなわち局所パターンマスクに背景が含まれる場合を無視する。具体的には、後述する図２９において背景を示す○印がある局所パターンを使用しない。）と、病理組織画像中の背景の面積による影響を排除できるため、病理組織の特徴をよりよく抽出できるようになる。

　本発明の病理組織画像の特徴抽出方法は、以下のステップを実施する。病理組織画像を、予め定めた複数の局所パターンマスク集合に属する複数種類の局所パターンマスクを個々に用いて走査して、局所パターンマスク毎に積和値（特徴量）を計算するステップ。複数の局所マスクパターンをそれぞれ４５°ずつ回転させたとき及び反転させたときに等価とみなせる複数の局所マスクパターンをそれぞれ複数の不変特徴グループに分け、１つの不変特徴グループに属する複数の局所マスクパターンを一つの特徴とみなして、各不変特徴グループに属する前記局所パターンマスクによる走査で得られた積和値（特徴量）の線形和を計算するステップ。個々の線形和を連結してベクトル化して得られる要素特徴ベクトルを生成するステップ。複数の局所パターンマスク集合から得られる要素特徴ベクトルを連結して最終的な特徴ベクトルを生成し、病理組織画像の特徴を抽出するステップ。

　なお複数の局所マスクパターンとしては、高次相関の次数を０，１または２のいずれかとし、変位方向を参照点の周囲の９方向（方向なし・上・下・左・右・右上・左上・右下・左下）に限定した３５個の局所パターンマスクを用いることができる。そしてこの場合には、不変特徴グループが８個となる。なお、参照点間の縦および横方向の距離すなわち画像相関幅は利用者が目的に応じて任意に決めることができる。たとえば、縦・横ともに１の場合は、３×３画素の狭い領域における画素の相関関係が求められる。局所パターンマスク集合を規定するのは、この縦・横の画像相関幅である。すなわち、（縦，横）が（１，１）の局所パターンマスク集合と、（２，２）の局所パターンマスク集合など、複数の局所パターンマスク集合を用いて、複数の要素特徴ベクトルを生成し、これを結合して最終的な特徴ベクトルとすることができる。

病理組織画像の領域分割画像データ作成システムと、病理組織画像の特徴抽出システムと診断部とを備えた病理診断装置の構成を示すブロック図である。図１の病理診断装置をコンピュータを用いて実現する場合に用いるプログラムのアルゴリズムを示すフローチャートである。病理組織画像の領域分割画像データ作成システムを実現するためのプログラムのアルゴリズムを示すフローチャートである。病理組織画像の３値化を画像で示す図である。最適な細胞核のレベル値の検証結果を示す図である。局所パターンマスクの例を示す図である。２次までの変位パターン及びそれら変位パターンからの回転反転不変パターンの再構成を示す図である。病理組織画像には上下・左右・反転といった方向的な特徴がないことを示す図である。ＨＬＡＣ特徴量からの回転・反転不変ＨＬＡＣ特徴量の再構成を示す図である。（Ａ）は図２のステップＳＴ３～ＳＴ５及びＳＴ１０～ＳＴ１２の詳細を示すフローチャートであり、（Ｂ）は画像相関幅を決定することの説明に用いる図であり、（Ｃ）は決定結果を座標で示す表である。図２のステップＳＴ６及びＳＴ７の詳細フローチャートである。図２のステップＳＴ１３の詳細フローチャートである。図２のステップＳＴ１４の詳細フローチャートである。検証実験で用いたデータセットを示す図である。（Ａ）及び（Ｂ）は、非癌画像と癌画像を示す図である。３値化手法の有効性を検証するために、比較実験で使用した手法を示す図である。（Ａ）～（Ｄ）は、原画像、グレースケール画像、２値化画像及び本実施の形態で得た領域分割画像である。検証実験結果を示す図である。（Ａ）及び（Ｂ）は、検証実験結果を示す図である。他の病理診断装置の構成を示すブロック図である。図２０の構成で使用する３値化をソフトウエアで実施する場合のアルゴリズムを示すフローチャートである。主成分分析結果を概念的に示す図である。図２０の実施の形態の画像処理を画像によって示す図である。図１に示した病理組織画像の領域分割画像データ作成システムとは構成の異なる他の実施の形態の病理組織画像の領域分割画像データ作成システムの構成を示すブロック図である。図２４の構成で使用する３値化をソフトウエアで実施する場合のアルゴリズムを示すフローチャートである。冗長成分除去とクリッピングの効果を確認するために用いた画像である。（Ａ）はオリジナルグレースケールの画像であり、（Ｂ）は図１の実施の形態で得られる抽出画像であり、（Ｃ）は図２０の実施の形態で得られる抽出画像であり、（Ｄ）は図２４の実施の形態で得られた抽出画像である。（Ａ）は局所パターンマスクを作成するための異なるマスク候補（黒塗りのブロックと斜線を付したブロック）を示しており、（Ｂ）はマスク候補の決定結果を座標で示す表である。１次までのＣＩＬＡＣの３×３の局所パターンマスクの例を示す図である。

　以下図面を参照して本発明の実施の形態を詳細に説明する。本実施の形態は、病理組織画像からの異常検出における誤検出を抑えることを目的として、病理医が診断時に着目する組織の重要度と病理組織画像特有の性質を特徴抽出に活かした、高次局所自己相関特徴（以下ＨＬＡＣ特徴と略す）の抽出技術を提案するものである。具体的には、病理組織画像を細胞核・細胞質・背景の３つの領域に分割し、各領域をそれぞれの組織の重要度を数値化したレベル値によって３値化する。また、病理組織画像は方向的特徴がないので、病理組織画像から回転や反転を考慮したＨＬＡＣ特徴抽出を行う。

　図１は、本願発明の病理組織画像の領域分割画像データ作成システム１と、病理組織画像の特徴抽出システム３と診断部５とを備えた病理診断装置の構成を示すブロック図である。図２は図１の病理診断装置をコンピュータを用いて実現する場合に用いるプログラムのアルゴリズムを示すフローチャートである。図３は、病理組織画像の領域分割画像データ作成システム１を実現するためのプログラムのアルゴリズムを示すフローチャートである。病理組織画像の領域分割画像データ作成システム１は、ＲＧＢ画像データ生成部１１と、第１の２値化画像データ作成部１２と、ＹＵＶ画像データ生成部１３と、第２の２値化画像データ作成部１４と、３値化画像データ作成部１５とから構成される。また病理組織画像の特徴抽出システム３は、高次局所自己相関計算部３１と、要素特徴ベクトル計算部３２と、特徴抽出部３３とから構成される。図１において、診断部５は、病理組織画像の特徴抽出システム３の出力に基づいて、病理診断を行うものである。

　図２のフローチャートに示すように、本実施の形態では、ステップＳＴ１～ＳＴ７によって構成される学習過程と、ステップＳＴ８～ＳＴ１４によって構成されるテスト過程を実行して病理診断を行う。学習過程では、非がん病理組織画像を教師データとした学習により、正常部分空間の形成を行う。そこでステップＳＴ１でまず、非がん病理組織画像を教師データ（病理組織画像教師データ）として読み込む（ステップＳＴ１）。次に病理組織画像（病理組織画像教師データ）の３値化を行い（ステップＳＴ２）、その３値画像からＨＬＡＣ特徴を抽出する（ステップＳＴ３）。次に、回転・反転不変ＨＬＡＣ特徴への再構成を行い（ステップＳＴ４）、その後再構成された特徴から特徴ベクトルを生成する（ステップＳＴ５）。そして特徴ベクトルの主成分分析により（ステップＳＴ６）、非がん病理組織画像を表す正常部分空間を形成する（ステップＳＴ７）。一方、テスト過程では、がん病理組織画像を含むテストデータ（病理組織画像テストデータ）を読み込む（ステップＳＴ８）。そして次に病理組織画像（病理組織画像テストデータ）の３値化を行い（ステップＳＴ９）、その３値画像からＨＬＡＣ特徴を抽出する（ステップＳＴ１０）。次に、回転・反転不変ＨＬＡＣ特徴への再構成を行い（ステップＳＴ１１）。の後再構成された特徴から特徴ベクトルを生成する（ステップＳＴ１２）。そして次に、特徴ベクトルに対し、学習過程で形成された正常部分空間からの逸脱度を算出し異常検出を行う（ステップＳＴ１３及びＳＴ１４）。

　図１の病理組織画像の領域分割画像データ作成システム１と病理組織画像の特徴抽出システム３は、前述の学習過程とテスト過程のステップＳＴ１～ＳＴ１２を実行し、診断部５は、図２のステップＳＴ１３及びＳＴ１４を実行する。病理組織画像の領域分割画像データ作成システム１は、特にステップＳＴ２及びＳＴ９の３値化を実行する。そこで第１の２値化画像データ作成部１２は、例えば、非がん病理組織画像教師データ及び病理組織画像テストデータ（以下病理組織画像データと言う）から細胞核領域とその他の領域とが区別できる第１の２値化画像データを作成する。具体的には、第１の２値化画像データ作成部１２は、ＲＧＢ画像データ生成部１１から病理組織画像のＲＧＢ画像データを取り込む。ここでＲＧＢ画像データとは、赤(Ｒｅｄ)、緑(Ｇｒｅｅｎ)、青(Ｂｌｕｅ) の三つの原色を混ぜて幅広い色で画像を再現する画像データである。病理組織画像のＲＧＢ画像データからＲ成分を分離し、分離したＲ成分を判別２値化法により２値化処理して、細胞核領域とその他の領域とが区別できる第１の２値化画像データを作成する。Ｒ成分の分離は、例えば、ＲＧＢ画像データの全画素データをＲＧＢ色空間におけるＲ軸に射影して行うことができる。そして判別２値化法としては、例えば、「大津展之，“判別および最小２乗基準に基づく自動しきい値選定法，”電子通信学会論文誌，vol.J63-D，no.4，pp.349-356，Apr.1980.」に記載された２値化方法（大津の２値化手法）を用いることができる。図４のＰＩは、病理組織画像の一例を示しており、ＰＩ１は第１の２値化画像データ作成部１２により作成された細胞核領域とその他の領域とが区別できる第１の２値化画像データに基づく第１の２値化画像である。なお病理組織画像ＰＩには、細胞核領域を青紫色に染めるヘマトキシリンと、細胞核以外の細胞質、繊維、赤血球などをそれぞれの性質に応じた濃淡各種の赤色に染めるエオジンとによって染色（ＨＥ染色）された病理標本が写っている。

　第２の２値化画像データ作成部１４は、病理組織画像ＰＩのＹＵＶ画像データをＹＵＶ画像データ生成部１３から読み込む。ここでＹＵＶ画像データとは、色空間の一種で、輝度信号（Ｙ）と、青色成分の差分信号（Ｕ）、赤色成分の差分信号（Ｖ）の３要素によって色を表現するもための画像データである。

　そして第２の２値化画像データ作成部１４は、病理組織画像データから背景領域とその他の領域とが区別できる第２の２値化画像データを作成する。具体的には、第２の２値化画像データ作成部１４は、ＹＵＶ画像データからＶ成分を分離し、分離したＶ成分を判別２値化法により２値化処理して、背景領域とその他の領域とが区別できる第２の２値化画像データを作成する。より具体的には、第２の２値化画像データ作成部１４は、ＹＵＶ画像データの全画素データをＹＵＶ色空間におけるＶ軸に射影してＶ成分を分離する。図４のＰＩ２は、第２の２値化画像データに基づく２値化画像を示している。

　３値化画像データ作成部１５は、第１の２値化画像データと第２の２値化画像データの否定論理和をとって領域分割画像データとなる３値化画像データを作成する。第１の２値化画像データの細胞核が「真１」となり、その他が「偽」となり、第２の２値化画像データの背景が「真２」となり、その他が「偽」とする。このようにすると、第１の２値化画像データと第２の２値化画像データの「真偽」は細胞核となり、第１の２値化画像データと第２の２値化画像データの「偽真」は背景となり、第１の２値化画像データと第２の２値化画像データの「偽偽」は細胞質となる。

　図４のＰＩ３は、３値化画像データに基づく３値化画像である。特徴量の種類が異なるＲＧＢ画像データとＹＵＶ画像データの２種類の画像データから得た第１及び第２の２値化画像データには、それぞれ細胞核領域、背景領域を個々に明確にする成分が含まれるため、得られる３値化画像データは、背景領域、細胞質領域及び細胞核領域をより明確化されたものとなる。

　図３に示すフローチャートに従って組織の重要度に対応した病理組織画像の３値化について説明する。本実施の形態における３値化では、病理医が診断時の手掛かりとする組織の重要度と病理組織画像特有の性質を特徴抽出に活かすために、まず、病理組織画像を細胞核・細胞質・背景の３つの領域に分割し、次に、各領域にそれぞれの組織の重要度を数値化したレベル値を設定する。まず、ＨＥ染色により青紫色に染色されている細胞核の領域は、細胞核以外の領域とＲＧＢ色空間において比較すると、Ｒ成分の値に大きな差があることが予備実験にて判明した。そこで、細胞核の領域を抽出するために、病理組織画像（図４のＰＩ）のＲ成分を分離し（ステップＳＴ２２）、このＲ成分だけを大津の２値化手法を用いて２値化処理を行った（ステップＳＴ２３）。この処理により、図４のＰＩ１に示すように、青紫色に染まっていた細胞核の領域（白）と細胞核以外の領域（黒）とに分割する。

　次に、背景の領域はHE染色によって染色されない領域で、最も輝度値が高い白色を示しており、色情報は少ない。一方、背景以外の領域の色情報は赤色成分が主体となっている。以上のことから背景の領域を、輝度と赤色成分の差であるＹＵＶ色空間のＶ成分を用いて抽出する（ステップＳＴ２４及びＳＴ２５）。そして大津の２値化手法により、病理組織画像のＶ成分に対し同様の２値化処理を行う（ステップＳＴ２６）。この処理により、図４のＰＩ２に示すように、ＨＥ染色で染まっていなかった背景領域（黒）を分割する。最後に、細胞核とその他、背景とその他に分割された２つの画像ＰＩ１及びＰＩ２を統合し、図４のＰＩ３に示すように、細胞核（白）・細胞質（灰）・背景（黒）の３つの領域に分割された病理組織画像を合成する。すなわちステップＳＴ２７において、抽出された細胞核と背景画像以外の領域を細胞質として定義する。

　そしてステップＳＴ２８で分割された細胞核領域、細胞質領域、背景領域に含まれる画素に所定のレベル値を設定した画像を生成する。すなわち領域分割された病理組織画像の各領域に含まれる画素にそれぞれの組織の重要度を数値化したレベル値を設定する。病理医の診断では、主に細胞核や細胞質の情報を総合的に診断しているが、もっとも重要な情報は、細胞核の大きさや並びといった核の情報である。この病理医の視点を反映させるために、領域分割された細胞核・細胞質・背景に相当する画素に適切なレベル値を設定し、各領域にそれぞれの特徴の重要度を反映する。本実施の形態では、背景のレベル値を０（すなわち背景領域に含まれる画素の値を０）、細胞質のレベル値を２（すなわち細胞質領域に含まれる画素の値を２）と固定し、核領域に含まれる画素値を様々なレベル値に設定して予備実験を行った結果（図５）から、非癌と癌を最も区別できたレベル値として、細胞核のレベル値を１４（すなわち細胞核領域に含まれる画素の値を１４）、細胞質のレベル値を２（すなわち細胞質領域に含まれる画素の値を２）、背景のレベル値を０（すなわち背景領域に含まれる画素の値を０）とする組み合わせを採用することとした。

　図１に戻って、病理組織画像の特徴抽出システム３は、高次局所自己相関計算部３１と、要素特徴ベクトル計算部３２と、特徴抽出部３３から構成される。高次局所自己相関計算部３１は、図２のステップＳＴ３及びＳＴ１０を実行するものである。そこで高次局所自己相関計算部３１は、前述の病理組織画像の領域分割画像データ作成システム１により作成した３値化した病理組織画像ＰＩ３を図６に示した予め定めた３５種類の局所パターンマスクを個々に用いて走査し、局所パターンマスク毎に積和値（ＨＬＡＣ特徴量）を計算する。要素特徴ベクトル計算部３２は、図２のステップＳＴ４及びＳＴ１１を実行するもので、それらＨＬＡＣ特徴量を連結してベクトル化することで要素特徴ベクトルを求める。特徴抽出部３３は、図２のステップＳＴ５及びＳＴ１２を実行するもので、複数の局所パターンマスク集合から得られる要素特徴ベクトルを結合して、最終的な特徴ベクトルを生成する。

　各局所パターンマスクから得られる特徴量は、３値化された対象病理組織画像をf(r)とすると、変位方向(a1・・・、aN)に対して、Ｎ次自己相関関数

で定義される。

　本実施の形態では、１つの対象画像に対し、高次自己相関関数係数の次数Ｎを０，１または２のいずれかとし、次変位方向ａを｛方向無し、右、右上、上、左上、左、左下、下、右下｝の９方向に限定することで、図６に示すような３５個の局所パターンマスクから算出した３５次元のベクトルxi(i=1，．．．，35)をＨＬＡＣ特徴として計算する。なお３×３のセルからなるマスク範囲において、1つのマスク候補を中心とした９方向のマスク候補の配置が、局所パターンマスクを構成する基礎となるものである。中心マスクが参照点となり、その周囲の９方向でマスク範囲の内縁に位置する全てのマスク候補が、すべての変位方向に位置する相関相手の点となり得る。したがってこの例では、すべてのマスク候補が局所パターンマスクを構成するためのマスク候補となり得る。例えば、図６のＮｏ．６の局所パターンマスクでは、中心マスクが参照点であり、その左右の２つのマスク候補が相関相手の点となる。Ｎｏ．２６の局所パターンマスクでは、中マスクが参照点であり、且つ中心マスクが１つの相関相手となるものである。例えば対象画像内のある参照点の画素値として５が設定されているとすると、５×５がその参照点における特徴量となる。さらにＮｏ．２７の局所パターンマスクでは、中心マスクが参照点であり、且つ中心マスクが２つの相関相手の点となるものである。Ｎｏ．２７の局所パターンマスクでは、例えば対象画像内のある参照点の画素値として５が設定されているとすると、５×５×５がその参照点における特徴量となる。図６において、マスクの中の数字は相関相手の数に応じたべき乗数を示している。

　要素特徴ベクトル計算部３２は、図２のステップＳＴ４及びＳＴ１１を実現するものである。要素特徴ベクトル計算部３２では、複数の局所マスクパターンで画像を走査して得られる複数のＨＬＡＣ特徴量を連結して要素特徴ベクトルを生成する。

　さらに、要素特徴ベクトル計算部３２では、複数の局所マスクパターンのうち、それぞれ特定の角度だけ回転させたときまたは／及び反転させたときに等価とみなせる局所マスクパターン同士を同一グループと見なして、同一グループ毎にそれに属する局所パターンマスクから得られる特徴量の線形和を結合して要素特徴ベクトルを生成しても良い。この場合、要素特徴ベクトル計算部３２では、複数の局所マスクパターンのうち、それぞれ特定の角度だけ回転させたときまたは／及び反転させたときに等価とみなせる複数のマスクパターンが、それぞれ複数の不変特徴グループに分けられる。回転角としては例えば４５°が用いられるが、９０°や１８０°でもよい。反転には、上下方向（Ｘ軸対称）、左右方向（Ｙ軸対称）及び斜め方向（原点対称）の反転が含まれている。

　すなわち図７に示す表に従って図６の局所パターンマスクを８個の不変特徴グループに分ける。図７において、３×３のセルからなるマスク範囲の中心マスクが参照画素位置であり、０次の局所マスクパターンを用いる場合には、ステップＳＴ２８によりレベル値を割り当てられた画素の持つ画素値の線形和を特徴量として計算する。１次および２次の局所マスクパターンを用いる場合には、参照画素（中心マスクに位置する画素）点と中心マスク以外のマスク候補により位置が指定される画素の持つ画素値の乗算値を積算し、この処理を画像全体（もしくは部分領域）にわたって積算することにより、その局所マスクパターンの特徴量とする。図７において、◎印は、そのマスク候補により指定される画素における画素値を二乗することを意味し、３重丸印は、そのマスク候補により指定される画素における画素値を三乗することを意味する。

　１つの不変特徴グループ（図７の表では、０次に１つの不変特徴グループ、１次に２つの不変特徴グループ、２次に５つの不変特徴グループがある）に属する複数の局所マスクパターンを、図７に示す最右列のパターンのように一つの特徴量とみなして、８つの不変特徴グループにそれぞれ属する局所パターンマスクによる走査で得られた積和値（特徴量）の線形和を計算する。すなわち例えば４つの局所パターンマスクが属する１つの不変特徴グループでは、４つの局所パターンマスクで画像をそれぞれ走査して得た特徴量をすべて合計したものを、その１つの不変特徴グループの特徴量とする。これによって、病理組織画像中の細胞や細胞核がどのような向きであっても、形が同じであれば同一の性質を有するものとして捉えることが可能となり、画像認識精度が飛躍的に向上する。

　具体的に説明すると、図８に示すように、病理組織画像には上下・左右・反転といった方向的な特徴がないことから、抽出したＨＬＡＣ特徴を回転・反転不変ＨＬＡＣ特徴として再構成を行う。図６の局所パターンマスクを用いる本実施の形態では、抽出された３５次元のＨＬＡＣ特徴xi（i = 1 ... 35）から、回転や反転を考慮すると同じ相関関係と見なすことができる特徴の線形和によって、８次元の回転・反転不変特徴yj（j = 1 ... 8）を再構成する。対象とする病理組織画像の生体組織が主に円や曲線状に構成されていることから、３×３画素の局所パターンマスクで表現可能なπ／４ラジアン（＝４５°）での回転不変を考慮する。また、病理組織画像では反転の区別もないことから反転不変についても考慮する。例えば図６の局所パターンマスクＮｏ．６は、局所パターンマスクＮｏ．7、Ｎｏ．８、Ｎｏ．９と回転対称なので、これら４つの特徴量の線形和によって１つの回転・反転不変特徴量を算出する。

　「梅山伸二，栗田多喜夫，“高次自己相関特徴を用いた図形の回転不変特徴量の構成，”情報処理学会第４５回（平成４年後期）全国大会講演論文集，2，pp.323-324，Mar.1993.」に示される報告では、π／２ラジアン（＝９０°）の回転不変を考慮した従来手法として、２値画像での２５次元のＨＬＡＣ特徴から９次元の不変特徴量の再構成について報告されている。また特開２００４－５８７３７号公報には、π／４ラジアン（＝４５°）での回転不変を考慮した従来手法として、２値画像での２５次元のＨＬＡＣ特徴から９次元の不変特徴量の再構成について示されている。しかしながらこれらの公知文献には、病理組織画像には上下・左右・反転といった方向的な特徴がないことから、抽出したＨＬＡＣ特徴を回転・反転不変ＨＬＡＣ特徴として再構成を行うという思想は開示されていない。本実施の形態では、病理組織画像の構造に最適なπ／４ラジアン（＝４５°）での回転・反転不変特徴として、３５次元のＨＬＡＣ特徴 xi(i=１，．．．，３５)から、図９に示す８次元の回転・反転不変特徴ｙj (j =1，．．．，８)を再構成する。

　要素特徴ベクトル計算部３２では、各不変特徴グループの特徴量が得られた後には、これらを結合して要素特徴ベクトルを生成する。特徴抽出部３３では、異なる大きさのマスク範囲を有する複数の局所パターンマスク集合から得られる複数の要素特徴ベクトルを結合して、最終的な特徴ベクトル生成する。局所パターンマスク集合のマスク範囲は、上記（ｍ，ｎ）の二項組により規定される。すなわち、（ｍ１，ｎ１）、（ｍ２，ｎ２）、…、（ｍｐ，ｎｐ）のように、（ｍ，ｎ）の二項組を複数（この場合はｐ個）用意しておくことで、複数（この場合はｐ個）の要素特徴ベクトルが生成され、最終的に得られる特徴ベクトルの長さは、個々の要素特徴ベクトルのｐ倍となる。

　図１０（Ａ）は図２のステップＳＴ３～ＳＴ５及びＳＴ１０～ＳＴ１２の詳細を示すフローチャートであり、図１０（Ｂ）は画像相関幅を決定することの説明に用いる図であり、図１０（Ｃ）は決定結果を座標で示す表である。複数の局所パターンマスクは、ｍ及びｎを整数としたときに、（２ｍ＋１）×（２ｎ＋１）のセルが格子状に配列されているマスク範囲中のマスク候補のうち、中心マスク（黒色のブロック）を中心として予め定めたマスク範囲内に位置する複数のマスク候補から選択した１以上のマスク候補を、マスク（斜線が付された８個のブロック）として設定する。図１０（Ｂ）では、ｍ＝４で、ｎ＝４である。そして「予め定めたマスク範囲」は、縦横格子９×９個分である。予め定めたマスク範囲の角に位置するマスク候補と中心マスクとの間のユークリッド距離は、予め定めたマスク範囲の内縁の辺の中央のマスク候補と中心マスクとの間のユークリッド距離よりも長くなるので、「予め定めたマスク範囲の画像相関幅」は両距離の差を包含するものとして定められている。中心マスクの座標を（０，０）とすると、８個のマスクの座標は、図１０（Ｃ）に示すようになる。

　図１０（Ａ）のステップＳＴ３１では、変数ｉに１をセットする。ＳＴ３２においては、あらかじめ用意した複数の画像相関幅のうち、ｉ番目の画像相関幅を所定値に設定して走査をする。ここで１番目の画像相関幅を所定値に設定するとは、病理組織画像を走査する際の、マスク範囲を決定するために、あらかじめ用意されている複数の（ｍ，ｎ）について、１番目のｍとｎとを選択することを意味する。そしてステップＳＴ３３では、図６の局所パターンマスクを使って前述の式（１）に基づいて要素特徴ベクトルを算出する。すなわち各局所パターンマスクによる画像の走査で得られる特徴量を結合してベクトル化して要素特徴ベクトルが算出される。ステップＳＴ３４ではｉの値が、所定の値ｐと等しいかどうかを調べる。もし等しくなければ、ステップＴ３５においてｉに１を加算し、ステップＴ３２及びＳＴ３３の処理を再実行する。もしｉの値が所定の値ｐと等しければ、ステップＴ３６において、これまでに生成された要素特徴ベクトルを結合し、最終的な特徴ベクトルを生成して、終了する。なおステップＳＴ３３が、図２のステップＳＴ３及びＳＴ４並びにステップＳＴ１０及びＳＴ１２に相当する。

　図２の主成分分析（ステップＳＴ６）を用いた正常部分空間形成（ステップＳＴ７）について説明する。本実施の形態では、がん画像を異常として検出するために、主成分分析を用いて正常部分空間を形成する。正常部分空間を形成することについては、非特許文献６に詳しく説明されている。正常部分空間とは、学習用非がん画像から抽出した特徴ベクトルの主成分で形成される部分空間である。そしてステップＳＴ１３では、この正常部分空間とテスト病理組織画像の特徴との距離を逸脱度として算出する。ステップＳＴ１４では、逸脱度が大きく算出された場合は、非癌画像の特徴とは異なることを意味するので、がんの疑いを示す異常として認識できる。

　図１１には、正常部分空間の形成ステップＳＴ６およびＳＴ７の詳細フローチャートを示しており、図１２は図２の逸脱度算出のステップＳＴ１３の詳細フローチャートを示しており、図１３は図２の異常検知のステップＳＴ１４の詳細フローチャートを示している。まず、ステップＳＴ６１で特徴ベクトル（回転・反転不変特徴ベクトル）の集合を読み込む。そしてステップＳＴ６２で、回転・反転不変特徴ベクトルｙjに主成分分析を適用し、正常部分空間を形成する主成分ベクトルを求める。この主成分ベクトルは、特徴ベクトル集合｛ｙj｝の自己相関行列Ｒyの固有値問題を解くことにより求めることができる。特徴ベクトルの代わりに、各特徴ベクトルを正規化して得られる正規化特徴ベクトルを用いてもよい。

　ここで、Ｕは固有ベクトルを列とする行列であり、Λは固有値を対角要素とする対角行列である。ここで、固有ベクトルは主成分ベクトル、固有値は各主成分がデータ全体のどの程度を説明する能力を持っているのかを示す寄与率に対応するので、寄与率の大きい順に固有ベクトルを並べ替える（ステップＳＴ７１）。

　次に、主成分ベクトル（すなわち上記固有ベクトル）の中から正常部分空間を形成する個数に対応する次元数Ｋを決定する。次元数Ｋは、主成分がどれだけ分析したデータの情報を表現することに寄与しているかを数値化した下記の累積寄与率

によって決定される。このとき、正常部分空間は、累積寄与率η_K≦Ｃを満たす次元Ｋまでの固有ベクトルＵ_K＝｛u₁，．．．，u_K｝を基底ベクトルとして定義される空間とする（ステップＳＴ７２）。ここでＣは累積寄与率条件であり、λｉは主成分ベクトルu_iの寄与率であり、Ｍは固有値の総数である。

　図２のステップＳＴ１３及びＳＴ１４における逸脱度算出と異常検出について説明する。本実施の形態では、学習過程において得られた正常部分空間を用いて、テスト病理組織画像から抽出した特徴ベクトルと正常部分空間との距離を逸脱度として異常検出の指標とする。この逸脱度は、正常部分空間の直交補空間への射影成分として次のように算出することができる（図１２のステップＳＴ１３Ａ及び１３Ｂ）。正常部分空間への射影子Ｐは、下記の式

として表される。上記式で、Ｕ_K ^TはＵ_Kの転置行列であり、Ｋは次元数である。

それに対する直交補空間への射影子Ｐ_⊥は、単位行列をIとすると、

と表せる。このとき、直交補空間への射影成分の距離d_⊥は、

と表すことができる。上記式でｙはテスト病理組織画像の特徴ベクトル、ｙ^Tはｙの転置行列である。ただし、正常部分空間を計算する時、特徴ベクトルの代わりに正規化特徴ベクトルを用いた場合は、ここでのｙも必ず正規化する必要がある。この距離d_⊥を逸脱度として、予め設定する閾値Ｈと比較することで、癌の疑いを異常検出することが可能となる（図１３のステップＳＴ１４Ａ及びＳＴ１４Ｂ）。

　以下本実施の形態の有効性を確認した検証実験について説明する。実験では、実際の胃生検病理組織画像を用いて、以下の２種類の検証実験を行った。

　実験１　提案する３値化の有効性検証　
　実験２　提案する回転・反転不変の有効性検証
［実験データ］
　検証実験により、非癌病理組織画像の学習により、癌病理組織画像がきちんと異常検出できるかどうかの確認を行うために、予め病理医により診断されている明らかな非癌データと明らかな癌データを用いた実験を行った。

　検証実験で用いたデータセットを図１４に示す。学習用教師データとして、病理医によって非癌と診断された２５０サンプルを用い、テスト用データには、学習用データとは別の非癌データ５０サンプルと癌データ２４サンプルを用いた。実験に用いた病理組織画像は、図１５（Ａ）に示す非癌画像と図１５（Ｂ）に示す癌画像のような顕微鏡倍率２０倍で撮影され、１２８０ピクセル×９６０ピクセルの大きさのjpeg形式で保存された画像である。

［検証実験の評価方法］
　検証実験では、学習データを用いて正常部分空間を生成した後に、各学習データの正常部分空間に対する逸脱度を計測し、その平均＋標準偏差（σ）を閾値とした評価方法を用いた。テストデータに対し、この閾値を越えた逸脱度の場合を、癌の疑いを示す異常として検出する。

　本実験の評価では、非癌テストデータがこの閾値を越えた場合を誤検出（False Positive：FP）としてカウントし、誤検出数の比較により提案手法の評価を行った。また、病理診断における「癌の見落としはあってはならない」という前提条件を満たすために、癌テストデータがこの閾値を下回った場合を未検出（False Negative：FN）としてカウントし、癌の検出精度の評価も行った。

［検証実験１：３値化手法の有効性検証］
　本実施の形態で用いる３値化手法の有効性を検証するために、図１６に示す３手法で比較実験を行った。本検証実験では、回転・反転不変特徴の再構成は行わず、累積寄与率条件のCは、0.999、0.9999、0.99999の3条件のうち各手法において最も良い条件の結果を比較した。

　図１７に原画像（図１７(Ａ)）と、目視による比較を行うためグレースケールに変換した各手法の領域分割画像を示す。なお、提案手法の画像では、細胞核、細胞質、背景の画素値をそれぞれ255、127、0として表示している。グレースケール（図１７(Ｂ)）は、原画像に最も近く、見た目でも組織の構造などがはっきりしている。２値化（図１７(Ｃ)）は、細胞質部分の多くが背景領域に含まれてしまっている。一方、本実施の形態で用いる手法（図１７(Ｄ)）では、細胞核・細胞質・背景を適切に領域分割できている。

　図１８に各手法を用いた検証実験結果を示す。誤検出数（FP（1σ））は、本実施の形態の手法が最も少なく、本実施の形態の手法の有効性を確認できた。２値化では、グレースケールに対して画素の階調数が少なく、病理組織の特徴を現す情報量が落ちたため誤検出数が増えたと考えられる。その一方で、本実施の形態の手法も同様に、グレースケールの２５６値に対して画素の階調数が３値に減少しているにも拘わらず、誤検出数は減少した。これは、提案手法による細胞核・細胞質・背景の領域分割および各領域へのレベル値の設定が有効に機能したことと考えられる。また、未検出数（FN（1σ））を比較すると、グレースケールでは、癌データの未検出があったが、提案手法ではすべて検出することができ、癌の検出精度も向上したことがわかった。

［検証実験２：回転・反転不変の有効性検証］
　回転・反転不変を考慮した提案手法による有効性を検証するために、再構成前の３５次元ＨＬＡＣ特徴での異常検出結果と、再構成後の8次元回転・反転不変ＨＬＡＣ特徴での異常検出結果を比較した。なお、本検証実験での累積寄与率条件のＣは、0.999、0.9999、0.99999の３条件のうち各手法において最も良い条件の結果を比較した。

　図１９に検証実験結果を示す。この結果では、閾値として設定した平均＋標準偏差（σ）を1σとして、また、平均＋２×標準偏差（σ）を２σとして、グラフ中に示している。

　実験結果のグラフから、再構成前ＨＬＡＣ（図１９(Ａ)）では、１σを閾値とした場合、癌テストデータにおける最小の逸脱度と閾値の間の余裕が非常に小さく、閾値を２σにした場合、見落としとなる未検出数が４となってしまうことがわかる。一方、回転・反転不変を考慮した再構成後ＨＬＡＣ（図１９(Ｂ)）では、１σの閾値と癌テストデータにおける最小の逸脱度の間には十分な余裕があり、２σに閾値を設定した場合でも、未検出は０となった。この結果から、回転・反転不変を考慮したことによって、非癌テストデータと癌テストデータの逸脱度に大きな差が生じ、癌の異常検出精度を、余裕を持って確保できることを確認した。

　図２０は、図１に示した病理組織画像の領域分割画像データ作成システム１とは構成の異なる病理組織画像の領域分割画像データ作成システム１０１と、病理組織画像の特徴抽出システム１０３と診断部１０５とを備えた他の病理診断装置の別の構成を示すブロック図である。図２１は、図２０の構成で使用する３値化をソフトウエアで実施する場合のアルゴリズムを示すフローチャートである。

　図２０の実施の形態では、標本の染色状態に依存せず、病理組織画像を背景・細胞質・細胞核などの領域に分割するため、主成分分析を利用する。そこで本実施の形態では、第２の２値化画像データ作成部１１４が、病理組織画像データの全画素値を主成分分析して背景領域とその他の領域とが区別できる第２の２値化画像データを作成するように構成されたものを用いる点で、図１の実施の形態と相違する。その他の点は、図１の実施の形態と同様である。したがってその他の点については、図２０に示す構成要素に、図１に示した構成要素に付した符号の数に１００の数を加えた数の符号を付して説明を省略する。

　本実施の形態で用いる第２の２値化画像データ作成部１１４は、より具体的には全画素値を主成分分析して得た第一主成分軸に、病理組織画像データの全画素データを射影して正規化したものを、判別２値化法により２値化して第２の２値化画像データを作成するように構成してある。なお第一主成分軸ではなく、その他の主成分軸に対して病理組織画像データの全画素データを射影して正規化したものを、判別２値化法により２値化して第２の２値化画像データを作成するようにしてもよいのは勿論である。さらに、複数の主成分軸に対して病理組織画像データの全画素データを射影して正規化して判別２値化法により２値化して得られる複数の２値化画像データの論理積演算を行うことで第２の２値化画像データを作成するようにしてもよい。第２の２値化画像データを作成する際には、論理積演算以外に、論理和など他の演算を用いてもよい。

　図２２に示すように、３次元のＲＧＢ色空間における画素分布に対して、全画素を対象として主成分分析（ステップＳＴ２４′）して得られる第一主成分方向が、その方向軸に全画素データを射影したときの分散が最大となる方向であり、最も色の薄い画素分布（背景）と濃い画素分布（細胞質及び細胞核）とを、最もよく分離できる。そこで、全画素をその軸に射影して正規化することで得られるグレースケール画像を判別２値化法（大津の二値化法）により２値化することで（ステップＳＴ２５′及びＳＴ２６′）、背景を正確に切り出すことが可能となる。

　本実施の形態でも、３値化画像データ作成部１１５は、Ｒ成分を２値化した第１の２値化画像データと主成分分析を利用した結果を２値化した第２の２値化画像データの否定論理和をとって細胞質領域を区別し、領域分割画像データとなる３値化画像データを作成する。

　本実施の形態のように、第２の２値化画像データを、病理組織画像データを主成分分析して得ると、図１のようにＹＵＶ画像データから第２の２値化画像データを得る場合よりも、背景領域、細胞質領域をより明確化できることが試験により判っている。これは、背景とその他との区別が主に相対的な色の濃度に大きく関係しているため、染色が弱い病理組織画像においてＹＵＶ画像のＶ成分だけでは背景に属する画素と細胞質の分布の重なりが大きくなってしまうが、主成分分析では分散を最大化する方向、すなわち分布の重なりを最小にする方向が求められ、背景とその他をよく分離できるためである。図２３は、本実施の形態の処理を画像によって示したものである。図２３と図４とを対比すると判るように、本実施の形態によれば、図１の実施の形態で得られる図４に示した領域分割画像よりも、背景領域、細胞質領域及び細胞核領域がより明確に分割されている。

　なお背景を切り出した後、それ以外の細胞質＋細胞核の領域に対して、細胞質と細胞核を分離して抽出することも可能である。細胞質＋細胞核の領域のR成分を判別２値化法（大津の２値化法）で２値化することにより、より簡便に核領域を切り出すことも可能である。

　さらに、最初の実施の形態と同様に、背景領域・細胞質領域・細胞核領域に領域分割された画像に対して、病理診断における医師の注目度に応じて重み付けすることにより、ＨＬＡＣ特徴に基づいた画像認識精度を高めることができる。たとえば、背景領域と細胞質領域に属する画素に与える値（レベル値）をそれぞれ０と２に固定したとき、細胞核領域に属する画素に与える値（レベル値）を１４に設定することで最良の認識結果が得られる。

　図２４は、図１に示した病理組織画像の領域分割画像データ作成システム１とは構成の異なる病理組織画像の領域分割画像データ作成システム２０１と、病理組織画像の特徴抽出システム２０３と診断部２０５とを備えた他の病理診断装置の別の構成を示すブロック図である。図２５は、図２４の構成で使用する３値化をソフトウエアで実施する場合のアルゴリズムを示すフローチャートである。

　図２４の実施の形態では、標本の染色状態に依存せず、病理組織画像を背景・細胞質・細胞核などの領域に分割するため、主成分分析を利用する。病理標本はヘマトキシリンとエオジンとによって染色されている。細胞核領域は、ヘマトキシリンによって青紫色の色素によって染色されるため、染色濃度が違っていてもＲＧＢ色空間の各成分で比べると、他の領域に比べてＢ成分が他の成分よりも高くなる。この減少は、ヘマトキシリンとエオジンで染色された病理標本画像ならば、染色具合が異なっていても変わらない事実である。そこで、病理標本画像から細胞核領域を抽出するために、ＲＧＢ色空間のＢ成分とＲ成分の差分値を強調したグレースケール画像を作成し、２値化を行うことで、細胞核領域を抽出できる。そこで本実施の形態では、第１の２値化画像データ作成部２１２が、細胞核領域の抽出のために、冗長成分除去（ステップＳＴ２２２Ａ）とクリッピング（ステップＳＴ２２２Ｂ）と２値化とを実施する。また第２の２値化画像データ作成部２１４が、ＣＩＥＬｕｖ画像データ生成部２１３から出力されるＣＩＥＬｕｖ画像データを主成分分析して背景領域とその他の領域とが区別できる第２の２値化画像データを作成するように構成されたものを用いる点で、図１の実施の形態と相違する。さらに本実施の形態では、病理組織画像の特徴抽出システム２０３の高次局所自己相関計算部２３１が、複数の局所パターンマスクにより走査した結果の参照点のカラーインデックス（例えば色の番号）と変位方向に位置する相関相手の点のカラーインデックス（例えば色の番号）の共起性を計算する、いわゆるＣＩＬＡＣと呼ばれるものを用いる点で、図１の実施の形態と相違する。その他の点は、図１の実施の形態と同様である。したがってその他の点については、図２４に示す構成要素及び図２５に示すステップに、図１および図３に示した構成要素に付した符号の数に２００の数を加えた数の符号を付して説明を省略する。ＣＩＬＡＣの具体的手続きについては、たとえば「Takumi Kobayashi, et al., Color Image Feature Extraction Using Color Index Local Auto-Correlations, 2009 IEEE International Conference on Acoustics, Speech and Signal Processing, pp.1057-1060, 2009」において、詳しく説明されている。

　第１の２値化画像データ作成部２１２は、図２５の色情報の削減のステップＳＴ２２２Ａにおいて、冗長成分除去を行う。病理標本において、細胞核領域はヘマトキシリンによって青紫色の色素によって染色されるため、ＲＧＢ色空間の各成分で比べると、染色濃度が違っていても他の領域に比べてＢ成分が他の成分よりも高い。そこで、細胞核領域と関係のない冗長成分を削減するため、病理組織画像のすべての画素においてＲＧＢ色空間上のＲ成分からＢ成分を減算した結果が０より大きい場合の画素値を０とする。このような冗長成分除去を行うと、細胞核領域の抽出に障害となるＢ成分を多く含んだ画素情報を除去できる。

　次にクリッピングのステップＳＴ２２２Ｂでは、細胞核領域を強調した画像を作成するために、冗長成分が除去された病理組織画像のすべての画素においてＲＧＢ色空間上でＢ成分からＲ成分を減算した値Ｂ’を算出する。病理標本画像に写るノイズや病理標本画像内の染色ムラなどを考慮して、Ｂ’値が所定値以上になった場合は、Ｂ’に所定値を代入し、Ｂ’が所定値以下となるようにクリッピング処理を行う。この所定値として、たとえば予備実験により定められた値である３０を用いる。染色の状況等に応じて適宜変更しても良い。ステップＳＴ２２３では、このようにしてクリッピングして各画素毎に得られるＢ’を、第１の２値化画像データを求めるための画像データと見なして、２値化を行う。このようなクリッピングをすると、病理標本画像に写るノイズや病理標本画像内の染色むらによる影響を大幅に低減できる。

　図２６は、冗長性分除去とクリッピングの効果を確認するために用いた画像を示している。図２６からは、冗長性分除去もクリッピングも行わない場合、及びクリッピングだけを行った場合には、背景である腺腔Ａが誤って細胞核として抽出されていることが分かる。また冗長性分除去だけでも背景である腺腔は抽出されなくなるが、細胞核領域の大きさが小さくなってしまう。これに対し、冗長性分除去とクリッピングを併用すると、腺腔Ａを抽出せず、同時に細胞核領域Ｂをより正確に抽出することができることが分かる。

　なお、第１の２値画像データとして、第１の実施例にて行われていたように、ＲＧＢ色空間におけるＲ成分を判別２値化手法により処理して得られる２値化画像データを用いてもよい。本実施の形態で用いる第２の２値化画像データ作成部２１４は、病理組織画像のＣＩＥＬｕｖ画像データを主成分分析して得た第２主成分軸の分析結果から背景領域とその他の領域とが区別できる第２の２値化画像データを作成するように構成されている。ここでＣＩＥＬｕｖ画像データとは、国際照明委員会 (Commission Internationale de l'Eclairage)が定めたＣＩＥ表色系で表現される画像データである。ＣＩＥＬｕｖ表色系は、色空間上の距離が、人間による知覚的な色の差に近くなるように設計された均等色空間である。そのため人間（病理医）と同様の色識別感覚で処理を行い、領域を区別することが可能となる。なおＲＧＢ表色系からＣＩＥＬｕｖ表色系への変換については、たとえば「太田登，“色彩工学，”電機大出版局，1993.」に記載の方法を用いる事ができる。

　より具体的には、病理組織画像の全画素データをＣＩＥＬｕｖ表色系に変換し、主成分分析により得た第２主成分軸に全画素データを射影し、その結果を判別２値化法により２値化して第２の２値化画像データを作成する。なお第２主成分軸のみを用いるのは、他の主成分軸を用いた場合と比較して、背景が最も忠実に抽出されていることが実験により目視で確認されたためである。なお、病理画像の染色状態に応じて、第２主成分軸ではなく、その他の主成分軸に対して病理組織画像データの全画素データを射影して正規化したものを、判別２値化法により２値化して第２の２値化画像データを作成するようにしてもよいのは勿論である。さらに、複数の主成分軸に対して病理組織画像データの全画素データを射影して正規化して判別２値化法により２値化して得られる複数の２値化画像データの論理積演算を行うことで第２の２値化画像データを作成するようにしてもよい。なお第２の２値化画像データを作成する際に、論理積演算以外に、論理和などの他の演算を用いてもよいのは勿論である。

　なお、第２の２値画像データとして、第１の実施例にて行われていたように、ＹＵＶ色空間におけるＶ成分を判別２値化手法により処理して得られる２値化画像データを用いてもよい。

　同様に、第２の実施例にて行われていたように、ＲＧＢ色空間において全画素データを主成分分析して得た第一主成分軸に、病理組織画像データの全画素データを射影して正規化したものを、判別２値化法により２値化して第２の２値化画像データを作成してもよい。第一主成分軸ではなく、その他の主成分軸に対して病理組織画像データの全画素データを射影して正規化したものを、判別２値化法により２値化して第２の２値化画像データを作成するようにしてもよいのは勿論である。さらに、複数の主成分軸に対して病理組織画像データの全画素データを射影して正規化して判別２値化法により２値化して得られる複数の２値化画像データの論理積演算を行うことで第２の２値化画像データを作成するようにしてもよい。なお第２の２値化画像データを作成する際に、論理積演算以外に、論理和などの他の演算を用いてもよいのは勿論である。

　図２７（Ａ）はオリジナルのグレースケール画像である。そして（Ｂ）は図１の実施の形態で得られる抽出画像であり、細胞質領域も一部白く抽出されている。（Ｃ）は図２０の実施の形態で得られる抽出画像であり、細胞質領域のほとんどが背景と同様に白く抽出されている。（Ｄ）は本実施の形態で得られた抽出画像であり、細胞質領域が含まれないように背景が白く抽出されている。

　図２４の３値化画像データ作成部２１５について説明する。３値化画像データ作成部２１５は、第１の２値化画像データと、第２の２値化画像データの否定論理和演算を行って、新たな第３の２値化画像データを生成する。第３の２値画像データに細胞質領域と細胞核の一部分とが、その他の領域と区別されている。次に、第１の２値画像データの細胞核領域に属する画素に任意の画素値Ａ、その他の画素値に０をセットする。同様に、第２の２値画像データの背景領域に属する画素に任意の画素値Ｂ、その他の画素値に０をセットする。第３の画像データの、細胞質領域と細胞核の一部分に該当する画素に任意の値Ｃ、その他の画素値に０をセットする。そして、３つの２値画像を下記の手順で重ね合わせる。すなわち、第２の２値画像データにおいて画素値Ｂがセットされている位置の画素について、第３の画像データ上でも画素値Ｂを上書きする形でセットする。これによって、第３の画像データは、背景領域に属する画素に値Ｂ、細胞質領域と細胞核の一部に該当する画素に値Ｃ、細胞核の残る部分に該当する画素に０がセットされた状態となる。続いて、第１の２値画像データにおいて画素値Ａがセットされている位置の画素について、第３の画像データ上でも画素値Ａを上書きする形でセットする。これによって、第３の画像データは、背景領域に属する画素に値Ｂ、細胞質領域に属する画素に値Ｃ、細胞核領域に属する画素に値Ａがセットされた状態となる。その後、各領域の画素に対して、適切なレベル値（たとえば背景領域を０、細胞質領域を２、細胞核領域を１４）を設定することで、３値化画像が生成される。

　図２８（Ａ）は、本実施の形態で使用する局所パターンマスクを作成するマスク候補（黒塗りのブロックと斜線を付したブロック）を示しており、図２８（Ｂ）はマスク候補の位置の決定結果を座標で示す表である。

　このマスク候補は、中心マスク（黒色ブロック）の座標を（０，０）としてｘｙ座標を仮想したときに、マスク範囲中の８個のマスク候補が、下記の２式の交点の座標を有するものとして定義される。

　　（ｘ²／ｎ²）+（ｙ²／ｍ²）＝１
　　　ｙ＝±（ｍ／ｎ）ｘあるいはｙ＝０あるいはｘ＝０
　特にｍとｎとを等しくすると（実施例ではｍ＝ｎ＝４）、８個のマスク候補は、図２８（Ａ）に示すように中心マスクを中心とする八角形の頂点に位置することになる。図２８（Ｂ）は、マスク候補の座標を示している。このような８個のマスク候補と中心マスクにより構成される局所パターンマスクの効果について、図１０（Ｂ）と図２８（Ａ）を比較しながら説明する。図１０（Ｂ）の局所パターンマスクにおいて、マスク範囲の角に位置するマスクと中心マスクとの間のユークリッド距離と、マスク範囲の内縁の辺の中央のマスクと中心マスクとの間のユークリッド距離との差の絶対値をΔＤ１とする。一方、図２８（Ａ）の局所パターンマスクにおいて、中心マスクの右上（左上、右下、左下でもよい）方向に位置するマスクと中心マスクとの間のユークリッド距離と、マスク範囲の内縁の辺の中央のマスクと中心マスクとの間のユークリッド距離との差の絶対値をΔＤ２とする。図より、ΔＤ２≦ΔＤ１であることは明らかである。ここで、複数の局所マスクパターンのうち、それぞれ４５°回転させたときに等価とみなせるもの同士を同一グループと見なして、回転不変要素特徴ベクトルを生成する手続きについて考慮すると、図２８（Ａ）に基づく局所パターンマスクの方が、不変性が高いことは明らかであり、より品質の高い病理組織画像の特徴ベクトルを抽出できると考えられる。

　なお、局所パターンマスクについて、第１の実施例にて行われていたように、図１０（Ｂ）に示されるマスク配置を使用してもよいのは勿論である。

　前の実施の形態で採用されているＨＬＡＣでもそれなりの判定精度は得られている。しかしＨＬＡＣ特徴量を画素値の積和によって求めるのでは、画素値に与えられるレベル値の設定の適否の影響が判定精度に大きく現れる傾向がある。そこで本実施の形態では、マスク画素値乗算部２３１において、複数の局所パターンマスクにより走査した結果の参照点のカラーインデックス（例えば色の番号）と変位方向に位置する相関相手の点のカラーインデックス（例えば色の番号）の共起性を計算する、いわゆるＣＩＬＡＣ（Color Index Local Auto-Correlation）と呼ばれる特徴抽出法を用いる。なおＣＩＬＡＣの詳細については、２００９年４月１９日～２４日に台湾の台北で開催された「Acoustics, Speech and Signal Processing, 2009.ICASSP 2009, IEEE International Conference 」のための論文集の１０５７頁～１０６０頁に、Kobayashi,T及びOtsu,Nの両名が「Color image feature extraction using color index local auto-correlations」と題して発表している。

　共起性とは、異なる事象が同時に出現する傾向を示す性質のことである。すなわち、病理組織画像において、局所マスクパターンにより指定される近接画素の関係性を、３クラス（細胞核・細胞質・背景）の組み合わせにより表現し、全ての組み合わせの発生頻度（あるいは発生確率）を特徴として抽出することが可能となる。

　ＣＩＬＡＣ特徴は、高次相関の次数を０，１または２のいずれかとするとき、０次、１次、２次の自己相関を連結して得られるベクトルとして表現される。０次、１次、２次の自己相関R₀(i), R₁(i,j,a)、R₂(i,j,k,a,b)は下式で表される：
　　R₀(i)＝Σ_rf_i(r)
　　R₁(i,j,a)= Σ_rf_i(r)f_j(r+a)
　　R₂(i,j,k,a,b)= Σ_rf_i(r)f_j(r+a)f_k(r+b)
　　ここで、ｒは参照画素、ａとｂはｒからの変位ベクトル、f_ｉ（ｘ）は画素xが色ラベルiをとるときに１、それ以外のときに０とする関数、i∈{1, ..., D}、j∈{1, ..., D}、k∈{1, ..., D}は色ラベルである。本実施例においてD=3とし、色ラベル１、２、３は、細胞核領域に属する画素に与えられるラベル値、細胞質領域に属する画素に与えられるラベル値、背景領域に属する画素に与えられるラベル値であるものとする。また、変位ベクトルａとｂは局所パターンマスクに含まれる９個のマスク候補の位置により規定される。０次相関R₀(i)は、ｉが３種類の値（色ラベル）を取り得るため、長さ３のベクトルとなる。１次相関R₁(i,j,a)は、ｉとｊがそれぞれ３種類の値（色ラベル）、変位ベクトルが８種類の方向をとり得るため、長さ３×３×８のベクトルとなる。２次相関R₂(i,j,k,a,b)は、ｉとｊとｋがそれぞれ３種類の値（色ラベル）、変位ベクトルが８種類の方向から２方向をとり得るため、長さ３×３×３×８×７のベクトルとなる。したがって、２次相関まで全てを連結すると１５８７次元となる。さらに，本実施の形態ではＣＩＬＡＣ特徴についても、前述の実施の形態と同様に回転・反転不変特徴への再構築を行うので、ＣＩＬＡＣ特徴xiは６３次元の回転・反転不変特徴yj(j = 1, …, ６３)へ再構成される。

　ＣＩＬＡＣを用いた特徴抽出を実施すると、診断対象とする病理組織画像の性質に合わせた各領域（細胞核、細胞質、背景）に属する画素にレベル値を付与する必要がなくなり、不適切なレベル値を付与することによる異常検出精度低下のリスクがなくなるため、より安定的な病理組織診断支援が可能となる。

　さらに発展して、特徴抽出において、細胞核の情報と、細胞核と細胞質の関係性を重要視するため、ＣＩＬＡＣにおける、細胞核・細胞質・背景の３値により構成される局所パターンマスクのうち、細胞核のみと、細胞核と細胞質の関係を示すものだけを使用することができる。

　図２９は、１次までのＣＩＬＡＣの３×３の局所パターンマスクの例を示している。基本的な走査方法であれば、図２９の局所パターンマスクをすべて使用する。しかし局所パターンマスクを、細胞核のみと、細胞核と細胞質の関係を示すものに限定すると、図２９においてセルに色を付した局所パターンマスクのみを使用することになる。２次までのマスク数で考えると、全ての局所パターンマスクの種類の数は１５８７であり、回転反転不変による再構成をした場合でも不変特徴グループの数は６３である。これに対して細胞核のみと、細胞核と細胞質の関係を示す局所パターンマスクに限定すると、局所パターンマスクの数は１５３であり、回転反転不変による再構成をした場合の不変特徴グループの数は１５である。

　なお、ＣＩＬＡＣ特徴量ではなく、実施例１と同様に、領域分割されレベル値を設定された病理組織画像からＨＬＡＣ特徴を抽出してもよい。また、回転・反転不変特徴グループに基づく特徴量の再構成を行わなくてよいことは勿論である。

　局所パターンマスクの数を限定した場合において、使用する局所パターンマスクとして、図２８（Ａ）に示したように８個のマスク候補が中心マスクを中心とする八角形の頂点に位置する局所パターンマスクを用いて、癌組織のサンプル実験における交差検定を行ったときの過検出率（過検出数／正常サンプル数）は８．３％であった。ちなみＨＬＡＣを特徴抽出法として用いた前述の実施の形態で、図２８（Ａ）に示したようにマスク候補が中心マスクを中心とする八角形の頂点に位置する局所パターンマスクを用いた場合の癌組織のサンプル実験における交差検定を行ったときの過検出率（過検出数／正常サンプル数）は、１５．７％であった。この結果から、病理組織画像の特徴抽出においては、ＨＬＡＣよりＣＩＬＡＣの抽出法が優れており、しかも局所パターンマスクを細胞核のみと、細胞核と細胞質の関係を示すものに限定すると、過検出を抑制できることが確認された。

　本発明は、予めがんの特徴を細かく定義する必要がなく、これまでに集められた正常組織画像の特徴を学習することで、まだ発見されていない未知の病変を異常検出することも可能である。

　本発明によれば、細胞核領域とその他の領域とが区別できる第１の２値化画像データと背景領域とその他の領域とが区別できる第２の２値化画像データの否定論理和をとって細胞質領域を区別し、領域分割画像データとなる３値化画像データを作成するので、従来よりも、背景領域、細胞質領域及び細胞核領域が明確になった領域分割画像を生成することができる。

　１，１０１　病理組織画像の領域分割画像データ作成システム
　３，１０３　病理組織画像の特徴抽出システム
　５，１０５　診断部
　１１，１１１　ＲＧＢ画像データ生成部
　１２，１１２　第１の２値化画像データ作成部
　１３　ＹＵＶ　画像データ生成部
　１４，１１４　第２の２値化画像データ作成部
　１５，１１５　３値化画像データ作成部
　３１，１３１　高次局所自己相関計算部
　２３１　マスク画素値計算部
　３２，１３２　要素特徴ベクトル計算部
　３３，１３３　特徴抽出部

Claims

　背景、細胞質及び細胞核を含む病理組織画像データから、背景領域、細胞質領域及び細胞核領域が明確になった領域分割画像を生成するために必要な領域分割画像データを作成する病理組織画像の領域分割画像データ作成システムと、
　前記病理組織画像の領域分割画像データ作成システムにより作成した病理組織画像を予め定めた複数の局所パターンマスクを個々に用いて走査し、前記局所パターンマスク毎に高次局所自己相関特徴を計算する高次局所自己相関計算部と、
　前記複数の局所パターンマスクをそれぞれ４５°ずつ回転させたとき及び反転させたときに等価とみなせる複数の局所パターンマスクをそれぞれ複数の不変特徴グループに分け、１つの前記不変特徴グループに属する複数の前記局所パターンマスクを一つの特徴量とみなして、各不変特徴グループに属する前記局所パターンマスクによる走査で得られた前記高次局所自己相関特徴の線形和を計算する要素特徴ベクトル計算部と、
　　前記高次局所自己相関特徴の線形和値に基づいて、前記病理組織画像の特徴を抽出する特徴抽出部とを具備し、
　前記病理組織画像の領域分割画像データ作成システムが、
　前記病理組織画像データから前記細胞核領域とその他の領域とが区別できる第１の２値化画像データを作成する第１の２値化画像データ作成部と、
　前記病理組織画像データから前記背景領域とその他の領域とが区別できる第２の２値化画像データを作成する第２の２値化画像データ作成部と、
　前記第１の２値化画像データと前記第２の２値化画像データの否定論理和をとって細胞質領域を明確にし、前記領域分割画像データとなる３値化画像データを作成する３値化画像データ作成部とを備えていることを特徴とする病理組織画像の特徴抽出システム。
　背景、細胞質及び細胞核を含む病理組織画像データから、背景領域、細胞質領域及び細胞核領域が明確になった領域分割画像を生成するために必要な領域分割画像データを作成する病理組織画像の領域分割画像データ作成システムであって、
　前記病理組織画像データから前記細胞核領域とその他の領域とが区別できる第１の２値化画像データを作成する第１の２値化画像データ作成部と、
　前記病理組織画像データから前記背景領域とその他の領域とが区別できる第２の２値化画像データを作成する第２の２値化画像データ作成部と、
　前記第１の２値化画像データと前記第２の２値化画像データの否定論理和をとって細胞質領域を明確にし、前記領域分割画像データとなる３値化画像データを作成する３値化画像データ作成部とを備えていることを特徴とする病理組織画像の領域分割画像データ作成システム。
　前記第１の２値化画像データ作成部は、前記病理組織画像のＲＧＢ画像データからＲ成分を分離し、分離したＲ成分を判別２値化法により２値化処理して、前記細胞核領域とその他の領域とが区別できる第１の２値化画像データを作成するように構成されている請求項２に記載の病理組織画像の領域分割画像データ作成システム。
　前記第１の２値化画像データ作成部は、前記ＲＧＢ画像データの全画素データをＲＧＢ色空間におけるＲ軸に射影して前記Ｒ成分を分離することを特徴とする請求項３に記載の病理組織画像の領域分割画像データ作成システム。
　前記ＲＧＢ画像データが、前記病理組織画像のすべての画素においてＲＧＢ色空間上のＲ成分からＢ成分を減算し、減算結果が０より小さい場合の画素値を０とする冗長成分除去を行った冗長成分除去情報削減ＲＧＢ画像データである請求項３または４に記載の病理組織画像の領域分割画像データ作成システム。
　前記ＲＧＢ画像データが、前記冗長成分除去情報削減ＲＧＢデータに含まれるすべての画素においてＲＧＢ色空間上のＢ成分からＲ成分を減算した値が、所定の値より大きい場合には、Ｂ成分からＲ成分を減算した値が前記所定の値となるようにＢ成分を予め定めた領域内のものとするクリッピングをしたクリッピングＲＧＢ画像データである請求項５に記載の病理組織画像の領域分割画像データ作成システム。
　前記第２の２値化画像データ作成部は、前記病理組織画像のＹＵＶ画像データからＶ成分を分離し、分離したＶ成分を判別２値化法により２値化処理して、前記背景領域とその他の領域とが区別できる第２の２値化画像データを作成するように構成されている請求項２に記載の病理組織画像の領域分割画像データ作成システム。
　前記第２の２値化画像データ作成部は、前記ＹＵＶ画像データの全画素データをＹＵＶ色空間におけるＶ軸に射影して前記Ｖ成分を分離することを特徴とする請求項７に記載の病理組織画像の領域分割画像データ作成システム。
　前記第２の２値化画像データ作成部は、前記第２の２値化画像データを、前記病理組織画像データを主成分分析して得ることを特徴とする請求項２に記載の病理組織画像の領域分割画像データ作成システム。
　前記第２の２値化画像データ作成部は、前記病理組織画像のＣＩＥＬｕｖ画像データの全画素データを主成分分析し、全画素データの第２主成分スコアを判別２値化法により２値化処理して、前記背景領域とその他の領域とが区別できる第２の２値化画像データを作成するように構成されている請求項９に記載の病理組織画像の領域分割画像データ作成システム。
　前記ＣＩＥＬｕｖ画像データは、前記病理組織画像のＲＧＢ画像データをＸＹＺ画像データに変換し、Ｙの値に基づいてＬの値を算出し、ＸＹＺの値及び前記Ｌの値に基づいてｕとｖを算出することにより、ＲＧＢ画像データから変換されたものである請求項１０に記載の病理組織画像の領域分割画像データ作成システム。
　前記第２の２値化画像データ作成部は、前記病理組織画像データの全画素データを主成分分析して、全画素データの第１主成分スコアを判別２値化法により２値化処理して、前記背景領域とその他の領域とが区別できる第２の２値化画像データを作成するように構成されている請求項２に記載の病理組織画像の領域分割画像データ作成システム。
　請求項３乃至１２のいずれか１項に記載の病理組織画像の領域分割画像データ作成システムにより作成した病理組織画像を、予め定めた複数の局所パターンマスクを個々に用いて走査し、前記局所パターンマスク毎に高次局所自己相関特徴を計算する高次局所自己相関計算部と、
　前記複数の局所パターンマスクをそれぞれ４５°ずつ回転させたとき及び反転させたときに等価とみなせる複数の局所パターンマスクをそれぞれ複数の不変特徴グループに分け、１つの前記不変特徴グループに属する複数の前記局所パターンマスクを一つの特徴量とみなして、各不変特徴グループに属する前記局所パターンマスクによる走査で得られた前記高次局所自己相関特徴の線形和を計算する要素特徴ベクトル計算部と、
　前記高次局所自己相関特徴の線形和値に基づいて、前記病理組織画像の特徴を抽出する特徴抽出部とからなる病理組織画像の特徴抽出システム。
　前記複数の局所パターンマスクは、ｍ及びｎを整数としたときに、（２ｍ＋１）×（２ｎ＋１）のセルからなるマスク範囲に格子状に配列した複数のマスク候補のうち、マスク範囲の中心に位置するマスク候補を選択し、さらにマスク範囲から０以上の任意個数のマスク候補を選択する事で構成されている請求項１３に記載の病理組織画像の特徴抽出システム。
　前記中心マスク候補以外のマスク候補が、中心マスクまでの距離が等しくなるように選択された請求項１４に記載の病理組織画像の特徴抽出システム。
　前記中心マスクの座標を（０，０）としてｘｙ座標を仮想したときに、前記中心マスク候補以外の複数のマスク候補が、
　　（ｘ²／ｎ²）+（ｙ²／ｍ²）＝１
　　　ｙ＝（ｍ／ｎ）ｘ　または　ｙ＝－（ｍ／ｎ）ｘ　または　ｙ＝０　または　ｘ＝０
　上記２式の交点の座標を有する請求項１４に記載の病理組織画像の特徴抽出システム。
　前記ｍと前記ｎが等しく、
　前記局所パターンマスクとして使用できる前記複数のマスク候補が前記中心マスク候補以外に８個ある請求項１６に記載の病理組織画像の特徴抽出システム。
　前記局所パターンマスクとして、細胞核のみと、細胞核と細胞質の関係を示すものだけを使用する請求項１３乃至１７のいずれか１項に記載の病理組織画像の特徴抽出システム。
　病理組織画像を、予め定めた複数の局所パターンマスクを個々に用いて走査し、前記局所パターンマスク毎に高次局所自己相関特徴を計算する走査して、前記局所パターンマスク毎に高次局所自己相関特徴を計算するステップと、
　前記複数のマスクパターンをそれぞれ４５°ずつ回転させたとき及び反転させたときに等価とみなせる複数のマスクパターンをそれぞれ複数の不変特徴グループに分け、１つの前記不変特徴グループに属する複数の前記マスクパターンを一つの特徴量とみなして、各不変特徴グループに属する前記局所パターンマスクによる走査で得られた前記高次局所自己相関特徴の線形和を計算するステップと、
　前記高次局所自己相関特徴の線形和値に基づいて、前記病理組織画像の特徴を抽出するステップとからなる病理組織画像の特徴抽出方法。
　前記局所パターンマスクとして、細胞核のみと、細胞核と細胞質の関係を示すものだけを使用する請求項１９に記載の病理組織画像の特徴抽出方法。