TWI735010B

TWI735010B - 資訊處理裝置、電腦可讀取記錄媒體、程式產品及資訊處理方法

Info

Publication number: TWI735010B
Application number: TW108126140A
Authority: TW
Inventors: 田中信秋
Original assignee: 日商三菱電機股份有限公司
Priority date: 2018-07-31
Filing date: 2019-07-24
Publication date: 2021-08-01
Also published as: US11366835B2; KR102334489B1; CN112513892B; DE112018007776T5; JP6771705B2; JPWO2020026332A1; TW202008223A; US20210081438A1; KR20210013292A; WO2020026332A1; CN112513892A

Abstract

本發明之資訊處理裝置係具備：記憶部(102)，其係記憶包含複數數位資料(DD)的資料集合(DG)、及包含在複數數位資料(DD)的各個附加有各個的複數標籤(RD)的標籤集合(RG)；特徵抽出部(103)，其係由複數數位資料(DD)的各個抽出預先設定的特徵，且生成表示所被抽出的特徵的特徵向量，藉此生成包含複數特徵向量的特徵向量集合(BG)；及分群判定部(104)，其係使用標籤集合(RG)，在特徵向量集合(BG)試行監督式分群(Supervised Clustering)，來判斷分群的可能性，藉此判定資料集合(DG)的均質性。

Description

資訊處理裝置、電腦可讀取記錄媒體、程式產品及資訊處理方法

本發明係關於資訊處理裝置、電腦可讀取記錄媒體、程式產品及資訊處理方法。

因深層學習及其關連技術的進步，可進行關於畫像或聲音的複雜辨識任務的系統已成為一般者。在如上所示之系統中，可由大量學習資料自動找出其潛在構造，藉此實現以深層學習之前的古典手法並無法達成的高泛化性能。

但是，如上所示之系統在無法取得可利用在學習之豐富的附標籤資料的狀況下並未發揮功能。另一方面，在現實存在的各種任務中，取得豐富學習資料的狀況非常稀少。因此，在大部分的情形下，實際情況為以深層學習為代表的非古典手法並無助力。

例如，根據由機器所發生的聲音或振動，自動診斷該機器的健全性的手法係自古已被研究，至此為止已開發出各種手法。例如，非專利文獻1所記載之MT（Mahalanobis Taguchi，馬氏-田口）法係其中最具代表性的手法之一。在MT法中，將正常試樣所分布的特徵空間事前作為基準空間來進行學習，診斷時係依所被觀測到的特徵向量以什麼程度背離基準空間，來進行正常或異常的判定。

在MT法等古典手法中，在特徵抽出中，加上經驗上的知見、或進行關於特徵向量的分布的假定，藉此可輕易對所學習的模型施加適當的制約。因此，在如上所示之手法中，並不需要在深層學習中成為必要的大量資料。

〔先前技術文獻〕〔非專利文獻〕

〔非專利文獻1〕立林和夫著、「入門田口法」、日科技連出版社股份有限公司、2004年、P.167-185

但是，在古典手法中，由於學習所需資料少量即可，因此有若其品質不高，即未發揮功能的問題。但是，在如上所示之領域中，使所測定的資料品質提升的觀點的技術非常少。尤其，不需要在作為對象的任務為固有的知識的一般方法幾乎不存在，因此連定量表示所測定出的資料的品質的方法都未被充分確立。

因此，本發明之1或複數態樣之目的在提供可判定所使用的資料集合的均質性的一般手段。

本發明之1態樣之資訊處理裝置之特徵為：具備：記憶部，其係記憶包含複數數位資料的資料集合、及包含在前述複數數位資料的各個附加有各個的複數標籤的標籤集合；特徵抽出部，其係由前述複數數位資料的各個抽出預先設定的特徵，且生成表示前述所被抽出的特徵的特徵向量，藉此生成包含複數前述特徵向量的特徵向量集合；及分群判定部，其係使用前述標籤集合，在前述特徵向量集合試行監督式分群(Supervised Clustering)，來判斷前述分群的可能性，藉此判定前述資料集合的均質性。

本發明之1態樣之電腦可讀取記錄媒體之特徵為：其係記錄有用以使電腦執行以下步驟的程式：記憶包含複數數位資料的資料集合、及包含在前述複數數位資料的各個附加有各個的複數標籤的標籤集合的步驟；由前述複數數位資料的各個抽出預先設定的特徵，且生成表示前述所被抽出的特徵的特徵向量，藉此生成包含複數前述特徵向量的特徵向量集合的步驟；及使用前述標籤集合，在前述特徵向量集合試行監督式分群(Supervised Clustering)，來判斷前述分群的可能性，藉此判定前述資料集合的均質性的步驟。

本發明之1態樣之程式產品之特徵為：其係內置用以使電腦執行以下步驟的程式：記憶包含複數數位資料的資料集合、及包含在前述複數數位資料的各個附加有各個的複數標籤的標籤集合的步驟；由前述複數數位資料的各個抽出預先設定的特徵，且生成表示前述所被抽出的特徵的特徵向量，藉此生成包含複數前述特徵向量的特徵向量集合的步驟；及使用前述標籤集合，在前述特徵向量集合試行監督式分群(Supervised Clustering)，來判斷前述分群的可能性，藉此判定前述資料集合的均質性的步驟。

本發明之1態樣之資訊處理方法之特徵為：記憶包含複數數位資料的資料集合、及包含在前述複數數位資料的各個附加有各個的複數標籤的標籤集合，由前述複數數位資料的各個抽出預先設定的特徵，且生成表示前述所被抽出的特徵的特徵向量，藉此生成包含複數前述特徵向量的特徵向量集合，使用前述標籤集合，在前述特徵向量集合試行監督式分群(Supervised Clustering)，來判斷前述分群的可能性，藉此判定前述資料集合的均質性。

藉由本發明之1或複數態樣，可提供可判定所使用的資料集合的均質性的一般手段。

以下，假想判定表示馬達的振動的資料集合的均質性的情形，作為實施形態。在根據馬達的振動來判定該馬達的健全性的情形下，若使用多變量分析或機械學習，學習所使用的資料集合必須均質。在此說明判定其均質性的資訊處理裝置及資訊處理方法。

圖1係概略顯示實施形態1之資訊處理裝置100的構成的區塊圖。在實施形態1中，係藉由感測器110來測定作為對象的馬達的振動。表示藉由感測器110所得之測定結果的測定訊號SS係藉由AD轉換器111而被轉換成數位資料DD。

標籤附加部112係在藉由AD轉換器111被轉換的數位資料DD附加相對應的標籤RD。數位資料DD及標籤RD係被輸入至資訊處理裝置100且予以處理。其中，在此係設為被附加期待與數位資料DD的均質性無關的標籤RD者。在此所被附加的標籤RD係假想表示該數位資料DD何時被測定出、被誰所測定出、或者在什麼場所被測定出等者。如上所示之標籤RD亦可以人工輸入，但是亦可利用內置時鐘的計算機等而自動生成。

資訊處理裝置100係具備：輸入部101、記憶部102、特徵抽出部103、分群判定部104、輸出部105、及顯示部106。

輸入部101係接受以AD轉換器111經轉換的數位資料DD及以標籤附加部112所被附加的標籤RD的輸入。接著，輸入部101係將所被輸入的數位資料DD及標籤RD傳送至記憶部102。其中，由AD轉換器111及標籤附加部112係依序被送來數位資料DD及其所附加的標籤RD。

記憶部102係將由輸入部101被送來的數位資料DD及標籤RD的集合，記憶作為資料集合DG及標籤集合RG。換言之，資料集合DG係包含複數數位資料DD，標籤集合RG係包含在複數數位資料DD的各個附加有各個的複數標籤RD。

特徵抽出部103係由從記憶部102所得的資料集合DG所包含的各個的數位資料DD，抽出預先設定的特徵，生成表示所被抽出的特徵的特徵向量的集合亦即特徵向量集合BG。接著，特徵抽出部103係將特徵向量集合BG供予至分群判定部104。以由作為振動資料的數位資料DD進行特徵抽出的手法而言，係有例如濾波器組分析、小波解析、LPC(Linear Predictive Coding，線性預測編碼)分析或倒譜分析等。

分群判定部104係根據由特徵抽出部103所得的特徵向量集合BG、及由記憶部102所得的標籤集合RG，試行分群，且判斷分群的可能性，來判定資料集合的均質性。接著，分群判定部104係將判定結果RE供予至輸出部105。在此，分群判定部104係判斷是否可進行分群，來作為分群的可能性，亦可例如判斷可進行分群的程度。

在此係藉由誰測定出該資料等標籤RD，來試行監督式分群(Supervised Clustering)。例如，考慮使用表示測定出資料的人的標籤RD，來進行分群的情形。原本所謂誰使用感測器110來測定出馬達的振動的資訊係被期待與資料集合DG的均質性無關。因此，若假想均質性高的資料，若使用表示測定出馬達的振動的人的標籤RD來試行分群，分群應該失敗。

因此，若使用表示測定出馬達的振動的人的標籤RD的分群成功，該資料集合DG係可解釋為發生依所測定出的人而異的偏差。

同樣地，若將測定出馬達的振動的日期作為標籤RD的分群成功，可解釋為發生以時間經過為要因的數位資料DD的不均質。

如以上所示，使用與資料集合DG的均質性無關的標籤RD，來試行監督式分群，藉此可判定該資料集合DG的均質性。此外，若可知因哪個標籤RD所為之分群失敗，可得用以特定在資料集合DG所產生的不均質性的要因的線索。此外，監督式分群一般而言對小規模的資料集合，亦可進行健全的分群，因此對於難以收集大量資料的任務，亦可對應。

例如，分群判定部104係使用線形判別分析、支援向量機器、混合正規分布模型、或神經網路等演算法，試行使用標籤集合RG的監督式分群。具體而言，若使用線形判別分析，分群判定部104係以相同叢集的特徵向量彼此接近(分散變小)、不同叢集的特徵向量彼此遠離(分散變大)的方式，計算轉換特徵向量的行列，藉此試行分群。

具體而言，分群判定部104係藉由監督式分群，將特徵向量集合BG所包含的複數特徵向量的各個分類成複數叢集的任一者，對被分類成複數叢集的複數特徵向量，適用參數的分布，使用複數叢集的背離程度，來判斷分群的可能性。

例如，分群判定部104若對複數特徵向量適用正規分布，藉由馬氏距離(Mahalanobis distance)或巴氏距離(Bhattacharyya distance)來計量背離程度即可。

此外，分群判定部104亦可藉由監督式分群，將複數特徵向量分類成複數叢集，且對被分類成複數叢集的各個的複數特徵向量，進行複數叢集的各個相背離般的射影轉換，使用複數叢集的背離程度，來判斷分群的可能性。

在此，分群判定部104亦可藉由判別分析來執行射影轉換，亦可根據邊界最大化基準來執行。

輸出部105係將由分群判定部104所得的判定結果RE輸出至使用者。例如，若藉由某標籤RD所為之分群成功，輸出部105係使該資料集合非為均質的資訊顯示於顯示部106。

此時，分群判定部104所輸出的判定結果RE並不一定必須資料集合為均質或不均質之2值，亦可為對應可進行分群的程度的連續值等。以連續值而言，例如有不同叢集彼此的距離、分群結果的正解率等，可藉由如上所示之連續值來表示可進行分群的程度。如上所示之情形下，輸出部105係可按照分群判定部104所輸出的值，對使用者傳達該資料集合為均質什麼程度。

此外，輸出部105亦可按照分群成功的標籤，使在該資料集合DG所發生的不均質性的要因顯示於顯示部106，藉此促使使用者改善資料收集工序。例如，輸出部105係若藉由表示誰測定出資料的標籤所為之分群成功，生成表示依人而在資料的測定結果有不均之要旨的顯示畫像DI，且使該顯示畫像DI顯示於顯示部106。顯示部106係按照來自輸出部105的指示，顯示各種顯示畫像DI。

以上記載的特徵抽出部103、分群判定部104、及輸出部105的一部分或全部係例如圖2（A）所示，可由記憶體10、及執行被儲存在記憶體10的程式的CPU（Central Processing Unit，中央處理單元）等處理器11所構成。如上所示之程式係可透過網路而被提供給電腦，此外，亦可記錄在記錄媒體而被提供給電腦。亦即，如上所示之程式亦可例如被提供作為程式產品。

此外，特徵抽出部103、分群判定部104、及輸出部105的一部分或全部係例如圖2（B）所示，亦可由單一電路、複合電路、經程式化的處理器、經並列程式化的處理器、ASIC（Application Specific Integrated Circuits，特殊應用積體電路）或FPGA（Field Programmable Gate Array，現場可程式化閘陣列）等處理電路12所構成。

其中，輸入部101係可藉由用以輸入資料的介面來實現，記憶部102係可藉由記憶體或硬碟驅動機等記憶裝置來實現，顯示部106係可藉由顯示器來實現。

圖3係顯示資訊處理裝置100的第1動作例的流程圖。圖3係顯示使用某單一種類的標籤集合RG進行分群，且進行資料集合DG的均質性的判定的情形。

首先，特徵抽出部103係由記憶部102讀入資料集合DG，分群判定部104係由記憶部102讀入標籤集合RG（S10）。特徵抽出部103係由資料集合DG所包含的各個的數位資料DD，進行特徵抽出，且生成表示所被抽出的特徵的特徵向量的集合亦即特徵向量集合BG（S11）。所生成的特徵向量集合BG係被供予至分群判定部104。

分群判定部104係根據由特徵抽出部103所得的特徵向量集合BG、及由記憶部102所得的標籤集合RG，試行分群（S12）。

接著，分群判定部104係判斷分群的可能性（S13）。在此係假設為判斷分群是否成功，作為分群的可能性者。若分群成功（S13中為Yes），處理係進至步驟S14，若分群失敗（S13中為No），處理係進至步驟S15。

在步驟S14中，分群判定部104係將由記憶部102被讀入的資料集合DG判定為非均質，且將如上所示之判定結果RE供予至輸出部105。輸出部105係生成表示如上所示之判定結果RE的顯示畫像DI，且使該顯示畫像DI顯示於顯示部106。

在步驟S15中，分群判定部104係將由記憶部102被讀入的資料集合DG判定為均質，且將如上所示之判定結果RE供予給輸出部105。輸出部105係生成表示如上所示之判定結果RE的顯示畫像DI，且使該顯示畫像DI顯示於顯示部106。

其中，在圖3的步驟S13中，分群判定部104係判斷分群是否成功，來作為分群的可能性的判斷，但是實施形態並非限定於如上所示之例。例如，在步驟S12中，若分群判定部104算出可進行分群的程度，在步驟S13中，分群判定部104係將所算出的程度與預先設定的臨限值相比較，藉此若分群的可能性為預先設定的可能性以上，判斷出分群的可能性高，將處理進至步驟S14，若分群的可能性比預先設定的可能性為更低，判斷出分群的可能性低，則將處理進至步驟S15。

此外，若分群判定部104算出可進行分群的程度，亦可分群判定部104並不進行圖3所示之步驟S13～S15的處理，按照所算出的程度，使表示資料集合DG的均質性的程度，透過輸出部105而顯示於顯示部106。如上所示之情形下，可進行分群的程度愈高，資料集合DG的均質性愈低。

圖4係顯示資訊處理裝置100的第2動作例的流程圖。圖4係顯示若存在複數種類的標籤集合RG，使用複數標籤集合RG進行分群，且進行資料集合DG的均質性的判定的情形。

首先，特徵抽出部103係由記憶部102讀入資料集合DG，分群判定部104係由記憶部102讀入複數標籤集合RG（S20）。特徵抽出部103係由資料集合DG所包含的各個的數位資料DD進行特徵抽出，且生成表示所被抽出的特徵的特徵向量的集合亦即特徵向量集合BG（S21）。所生成的特徵向量集合BG係被供予至分群判定部104。

分群判定部104係判斷是否將由記憶部102所得的複數標籤集合RG的全部使用在分群的可能性的判斷（S22）。若有尚未使用的標籤集合RG（S22中為No），處理係進至步驟S23，若使用全部標籤集合RG（S22中為Yes），處理係進至步驟S27。

在步驟S23中，分群判定部104係在由記憶部102所得的複數標籤集合RG之中，特定在分群的可能性的判斷尚未使用的1個標籤集合RG。

接著，分群判定部104係根據由特徵抽出部103所得的特徵向量集合BG、及在步驟S23中所特定出的標籤集合RG，試行分群（S24）。

接著，分群判定部104係判斷分群的可能性（S25）。若分群成功（S25中為Yes），處理係進至步驟S26，若分群失敗（S25中為No），處理係返回至步驟S22。

在步驟S26中，分群判定部104係將由記憶部102被讀入的資料集合DG判定為非均質，且將如上所示之判定結果RE供予至輸出部105。輸出部105係生成表示如上所示之判定結果RE的顯示畫像DI，且使該顯示畫像DI顯示於顯示部106。

在步驟S27中，分群判定部104係將由記憶部102被讀入的資料集合DG判定為均質，且將如上所示之判定結果RE供予至輸出部105。輸出部105係生成表示如上所示之判定結果RE的顯示畫像DI，且使該顯示畫像DI顯示於顯示部106。

其中，在圖4的步驟S25中，分群判定部104係判斷是否分群成功，作為分群的可能性的判斷，但是實施形態並非限定於如上所示之例。例如，在步驟S24中，若分群判定部104算出可進行分群的程度，在步驟S25中，分群判定部104係將所算出的程度與預先設定的臨限值相比較，藉此若分群的可能性為預先設定的可能性以上，判斷出分群的可能性高，係將處理進至步驟S26，若分群的可能性比預先設定的可能性為低，判斷出分群的可能性低，係將處理進至步驟S27。

此外，若分群判定部104算出可進行分群的程度，亦可分群判定部104並未進行圖4所示之步驟S22、S25~S27的處理，針對所有標籤集合RG，算出可進行分群的程度，且按標籤集合RG的每個種類，按照所算出的程度，使表示資料集合DG的均質性的程度，透過輸出部105而顯示於顯示部106。如上所示之情形下，可進行分群的程度愈高，資料集合DG的均質性則愈低。

如以上所示，根據被附加在資料集合DG的標籤集合RG，試行對資料集合DG之監督式分群，來判斷分群的可能性，藉此不需要在作為對象的任務為固有的知識，而且即使資料集合DG為小規模，亦可正確判定資料集合DG的均質性。

在此，藉由使用表示與數位資料DD的均質性無關的內容的標籤RD，若分群的可能性低，可判定資料集合DG為均質。

藉由另外具備顯示表示在分群判定部104的判定結果RE的顯示畫像DI的顯示部106，可將該判定結果RE傳達給使用者。

分群的可能性係藉由形成為是否可進行分群，可輕易判定資料集合DG是否為均質。

分群的可能性係藉由形成為可進行分群的程度，可輕易判定資料集合DG是否為均質，此外，資料集合DG的均質性亦可表示為均質的程度。

其中，對藉由分群而被分類成複數叢集的複數特徵向量，適用參數的分布，藉由複數叢集的背離程度來判斷分群的可能性，藉此與直接處理特徵向量集合BG的情形相比較，可將計算量抑制較低，因此可進行高速的資料處理。

此外，若使用正規分布作為上述之參數的分布，關於正規分布之推定的數值計算係被構裝在處理多變量分析等之多數數值計算程式館，由於組入容易，因此可將構裝資訊處理裝置100所耗費的成本抑制為較低。

使用正規分布作為上述之參數的分布，若藉由馬氏距離來計量複數叢集的背離程度，可求出考慮到分布形狀的高精度的背離程度，且可提高均質性的判定精度。此外，馬氏距離的算出法係與正規分布關連的數值計算同樣地，由於被構裝在多數數值計算程式館，因此可將構裝資訊處理裝置所耗費的成本抑制為較低。

若在正規分布的背離程度使用巴氏距離，計量複數叢集的背離程度時，與假定相同分布形狀的馬氏距離不同，由於考慮複數叢集的形狀的差異，因此可更加提高判定精度。

以上方法基本上係假定資料集合的分布為正規分布，因此若非為此，係有判定精度劣化的可能性。因此，對屬於複數叢集的各個的特徵向量，進行如複數叢集相背離般的射影轉換，且藉由轉換後的各叢集的背離程度來判斷分群的可能性，藉此即使在資料集合DG的分布非為正規分布的情形下，亦可實現高判定精度。

此時，可藉由判別分析，生成射影轉換。判別分析係在所處理的資料規模大的情形下，亦可高速進行計算，因此可縮短耗費於資料處理的時間。

此外，若根據邊界最大化基準來生成射影轉換，即使為少量資料，亦可得健全的判定結果。

10‧‧‧記憶體 11‧‧‧處理器 12‧‧‧處理電路 100‧‧‧資訊處理裝置 101‧‧‧輸入部 102‧‧‧記憶部 103‧‧‧特徵抽出部 104‧‧‧分群判定部 105‧‧‧輸出部 106‧‧‧顯示部 110‧‧‧感測器 111‧‧‧AD轉換器 112‧‧‧標籤附加部

［圖1］係概略顯示資訊處理裝置的構成的區塊圖。［圖2］（A）及（B）係顯示硬體構成例的區塊圖。［圖3］係顯示資訊處理裝置的第1動作例的流程圖。［圖4］係顯示資訊處理裝置的第2動作例的流程圖。

100:資訊處理裝置

101:輸入部

102:記憶部

103:特徵抽出部

104:分群判定部

105:輸出部

106:顯示部

110:感測器

111:AD轉換器

112‧‧‧標籤附加部

Claims

一種資訊處理裝置，其特徵為：具備：記憶部，其係記憶包含複數數位資料的資料集合、及包含在前述複數數位資料的各個附加有各個的複數標籤的標籤集合；特徵抽出部，其係由前述複數數位資料的各個抽出預先設定的特徵，且生成表示前述所被抽出的特徵的特徵向量，藉此生成包含複數前述特徵向量的特徵向量集合；及分群判定部，其係使用前述標籤集合，在前述特徵向量集合試行監督式分群(Supervised Clustering)，來判斷前述分群的可能性，藉此判定前述資料集合的均質性。
如申請專利範圍第1項之資訊處理裝置，其中，前述標籤係表示與前述數位資料的均質性無關的內容。
如申請專利範圍第1項或第2項之資訊處理裝置，其中，另外具備：顯示部，其係顯示在前述分群判定部的判定結果。
如申請專利範圍第1項或第2項之資訊處理裝置，其中，前述分群的可能性係是否可進行前述分群。
如申請專利範圍第4項之資訊處理裝置，其中，前述分群判定部係若判斷出可進行前述分群，判定前述資料集合為不均質，若判斷出無法進行前述分群，係判定前述資料集合為均質。
如申請專利範圍第1項或第2項之資訊處理裝置，其中，前述分群的可能性係可進行前述分群的程度。
如申請專利範圍第6項之資訊處理裝置，其中，前述分群判定部係將前述程度與預先設定的臨限值相比較，藉此若判斷出前述分群的可能性高，判定前述資料集合為不均質，若判斷出前述分群的可能性低，則判定前述資料集合為均質。
如申請專利範圍第6項之資訊處理裝置，其中，前述分群判定部係判定前述程度愈高，前述均質性愈低。
如申請專利範圍第1項或第2項之資訊處理裝置，其中，前述分群判定部係藉由前述分群，將前述複數特徵向量的各個分類成複數叢集的任一者，對前述複數特徵向量適用參數的分布，使用前述複數叢集的背離程度，判斷前述分群的可能性。
如申請專利範圍第9項之資訊處理裝置，其中，前述參數的分布係正規分布。
如申請專利範圍第9項之資訊處理裝置，其中，前述分群判定部係藉由馬氏距離來計量前述背離程度。
如申請專利範圍第9項之資訊處理裝置，其中，前述分群判定部係藉由巴氏距離來計量前述背離程度。
如申請專利範圍第1項或第2項之資訊處理裝置，其中，前述分群判定部係藉由前述分群，將前述複數特徵向量的各個分類成複數叢集的任一者，對前述複數特徵向量，進行前述複數叢集的各個呈背離的射影轉換，使用前述複數叢集的背離程度，判斷前述分群的可能性。
如申請專利範圍第13項之資訊處理裝置，其中，前述分群判定部係藉由判別分析來執行前述射影轉換。
如申請專利範圍第13項之資訊處理裝置，其中，前述分群判定部係根據邊界最大化基準，執行前述射影轉換。
一種電腦可讀取記錄媒體，其係記錄有用以使電腦執行以下步驟的程式：記憶包含複數數位資料的資料集合、及包含在前述複數數位資料的各個附加有各個的複數標籤的標籤集合的步驟；由前述複數數位資料的各個抽出預先設定的特徵，且生成表示前述所被抽出的特徵的特徵向量，藉此生成包含複數前述特徵向量的特徵向量集合的步驟；及使用前述標籤集合，在前述特徵向量集合試行監督式分群(Supervised Clustering)，來判斷前述分群的可能性，藉此判定前述資料集合的均質性的步驟。
一種程式產品，其係內置用以使電腦執行以下步驟的程式：記憶包含複數數位資料的資料集合、及包含在前述複數數位資料的各個附加有各個的複數標籤的標籤集合的步驟；由前述複數數位資料的各個抽出預先設定的特徵，且生成表示前述所被抽出的特徵的特徵向量，藉此生成包含複數前述特徵向量的特徵向量集合的步驟；及使用前述標籤集合，在前述特徵向量集合試行監督式分群(Supervised Clustering)，來判斷前述分群的可能性，藉此判定前述資料集合的均質性的步驟。
一種資訊處理方法，其特徵為：記憶包含複數數位資料的資料集合、及包含在前述複數數位資料的各個附加有各個的複數標籤的標籤集合，由前述複數數位資料的各個抽出預先設定的特徵，且生成表示前述所被抽出的特徵的特徵向量，藉此生成包含複數前述特徵向量的特徵向量集合，使用前述標籤集合，在前述特徵向量集合試行監督式分群(Supervised Clustering)，來判斷前述分群的可能性，藉此判定前述資料集合的均質性。