TW202134922A - 資訊處理裝置、記錄媒體、程式產品以及資訊處理方法 - Google Patents
資訊處理裝置、記錄媒體、程式產品以及資訊處理方法 Download PDFInfo
- Publication number
- TW202134922A TW202134922A TW109129093A TW109129093A TW202134922A TW 202134922 A TW202134922 A TW 202134922A TW 109129093 A TW109129093 A TW 109129093A TW 109129093 A TW109129093 A TW 109129093A TW 202134922 A TW202134922 A TW 202134922A
- Authority
- TW
- Taiwan
- Prior art keywords
- deviation
- samples
- label
- categories
- sample
- Prior art date
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F17/00—Digital computing or data processing equipment or methods, specially adapted for specific functions
- G06F17/10—Complex mathematical operations
- G06F17/18—Complex mathematical operations for evaluating statistical data, e.g. average values, frequency distributions, probability functions, regression analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N5/00—Computing arrangements using knowledge-based models
- G06N5/02—Knowledge representation; Symbolic representation
- G06N5/022—Knowledge engineering; Knowledge acquisition
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T11/00—2D [Two Dimensional] image generation
- G06T11/20—Drawing from basic elements, e.g. lines or circles
- G06T11/206—Drawing of charts or graphs
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T11/00—2D [Two Dimensional] image generation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Mathematical Physics (AREA)
- General Engineering & Computer Science (AREA)
- Pure & Applied Mathematics (AREA)
- Computational Mathematics (AREA)
- Mathematical Optimization (AREA)
- Mathematical Analysis (AREA)
- Software Systems (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Probability & Statistics with Applications (AREA)
- Bioinformatics & Computational Biology (AREA)
- Life Sciences & Earth Sciences (AREA)
- Evolutionary Biology (AREA)
- Databases & Information Systems (AREA)
- Algebra (AREA)
- Operations Research (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- Computing Systems (AREA)
- Computational Linguistics (AREA)
- Image Analysis (AREA)
- Signal Processing For Digital Recording And Reproducing (AREA)
- User Interface Of Digital Computer (AREA)
- Indexing, Searching, Synchronizing, And The Amount Of Synchronization Travel Of Record Carriers (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
包含:距離矩陣算出部(104),產生相似度矩陣,該相似度矩陣包含了從包含有複數個樣本的資料集當中,依照該複數個樣本排列的順序排列的複數個列,以及複數個行;而且在該複數個列之內的一列與該複數個行之內的一行所特定出的一欄當中,儲存有該一列與該一行對應的樣本間的相似度;順序調整部(105),對該複數個樣本的各個樣本,參照表示各個樣本使用了包含有複數個類別的複數個標籤執行標籤化的結果之標籤資訊,調整相似度矩陣當中的順序,使得該複數個樣本排在對象標籤當中的複數個類別的每個類別,藉以產生調整相似度矩陣,該對象標籤即為從該複數個標籤當中指定的標籤;視覺化部(106),產生評價畫面影像,該評價畫面影像將該調整相似度矩陣的各個欄,以相似度相應的明度來表示;以及顯示部(107),顯示該評價畫面影像。
Description
本揭露是關於資訊處理裝置、記錄媒體、程式產品以及資訊處理方法。
近年,由於量測技術的發達,因此有各式各樣的資料被量測及活用。舉例來說,執行機器的異常診斷之際,在機器設置振動感測器或是麥克風,量測從機器得到的振動以及聲音。利用這樣得到的資料診斷機器的異常。
像這樣使用量測資料時,有的時候會因為量測環境或是感測的偏差,使得資料的品質低落。舉例來說,可以考量到一種情況:由於量測者不相同,因此在感測器的安裝方法上產生差異,使得資料的性質改變。與本來的目的沒有關聯的因素所導致的資料的偏差如果變得越大,就會在識別原本想要識別的標籤,例如,異常或是正常方面形成障礙。
專利文獻1記載了一種相關分析裝置,將時序資料分割為每個既定時間單位的資料,算出每個時間單位的相似度,將基於算出的相似度所得到的每個時間單位的關聯,顯示於二維平面事先決定的位置。
[先前技術文獻]
[專利文獻]
[專利文獻1] 日本專利 特開2015-225637號公報
[發明所欲解決的課題]
專利文獻1記載的相關分析裝置,可以顯示基於每個時間單位的相似度所得到的關聯。藉此,因為時間變化而產生的資料的偏差就變得明朗化。然而,針對「量測者」或「機器的個體」等時間以外的因素,則並沒有列入考慮。
因此,本揭露的一或複數個態樣,可以確認與本來的目的沒有關聯的因素所產生的資料的偏差。
[用以解決課題的手段]
關於本揭露第1態樣的資訊處理裝置,包含:相似度矩陣產生部,產生相似度矩陣,該相似度矩陣包含了從包含有複數個樣本的資料集當中,依照該複數個樣本排列的順序橫向排列的複數個列,以及依照該順序縱向排列的複數個行;而且在該複數個列之內的一列與該複數個行之內的一行所特定出的一欄當中,儲存有該一列對應的樣本與該一行對應的樣本間的相似度;順序調整部,對該複數個樣本的各個樣本,參照表示各個樣本使用了包含有複數個類別的複數個標籤執行標籤化的結果之標籤資訊,調整該相似度矩陣當中的該順序,使得該複數個樣本排在對象標籤當中的該複數個類別的每個類別,藉以產生調整相似度矩陣,該對象標籤即為從該複數個標籤當中指定的標籤;視覺化部,產生評價畫面影像,該評價畫面影像將該調整相似度矩陣的各個欄,以該相似度相應的明度來表示;以及顯示部,顯示該評價畫面影像。
關於本揭露第2態樣的資訊處理裝置,包含:偏差算出部,對資料集當中包含的複數個樣本的各個樣本,參照表示各個樣本使用了包含有複數個類別的複數個標籤執行標籤化的結果之標籤資訊,算出該複數個標籤的各個標籤所產生的該複數個樣本的偏差程度,並且產生偏差結果畫面影像,該偏差結果畫面影像顯示該複數個標籤當中包含的至少一個標籤,以及該至少一個標籤對應的該偏差程度;以及顯示部,顯示該偏差結果畫面影像。
關於本揭露第3態樣的資訊處理裝置,包含:偏差算出部,對資料集當中包含的複數個樣本的各個樣本,參照表示各個樣本使用了包含有複數個類別的複數個標籤執行標籤化的結果之標籤資訊,算出該複數個標籤的各個標籤所產生的該複數個樣本的偏差程度,並且產生偏差結果畫面影像,該偏差結果畫面影像顯示該複數個類別,以及該複數個類別的各個類別對應的該偏差程度;以及顯示部,顯示該偏差結果畫面影像。
關於本揭露第1態樣的電腦可讀取記錄媒體,記錄有程式,該程式用以使電腦執行以下步驟:產生相似度矩陣,該相似度矩陣包含了從包含有複數個樣本的資料集當中,依照該複數個樣本排列的順序橫向排列的複數個列,以及依照該順序縱向排列的複數個行;而且在該複數個列之內的一列與該複數個行之內的一行所特定出的一欄當中,儲存有該一列對應的樣本與該一行對應的樣本間的相似度之步驟;對該複數個樣本的各個樣本,參照表示各個樣本使用了包含有複數個類別的複數個標籤執行標籤化的結果之標籤資訊,調整該相似度矩陣當中的該順序,使得該複數個樣本排在對象標籤當中的該複數個類別的每個類別,藉以產生調整相似度矩陣,該對象標籤即為從該複數個標籤當中指定的標籤之步驟;以及產生評價畫面影像,該評價畫面影像將該調整相似度矩陣的各個欄,以該相似度相應的明度來表示之步驟。
關於本揭露第2態樣的電腦可讀取記錄媒體,記錄有程式,該程式用以使電腦執行以下步驟:對資料集當中包含的複數個樣本的各個樣本,參照表示各個樣本使用了包含有複數個類別的複數個標籤執行標籤化的結果之標籤資訊,算出該複數個標籤的各個標籤所產生的該複數個樣本的偏差程度,並且產生偏差結果畫面影像,該偏差結果畫面影像顯示該複數個標籤當中包含的至少一個標籤,以及該至少一個標籤對應的該偏差程度之步驟;以及顯示該偏差結果畫面影像之步驟。
關於本揭露第3態樣的電腦可讀取記錄媒體,記錄有程式,該程式用以使電腦執行以下步驟:對資料集當中包含的複數個樣本的各個樣本,參照表示各個樣本使用了包含有複數個類別的複數個標籤執行標籤化的結果之標籤資訊,算出該複數個標籤的各個標籤所產生的該複數個樣本的偏差程度,並且產生偏差結果畫面影像,該偏差結果畫面影像顯示該複數個類別,以及該複數個類別的各個類別對應的該偏差程度之步驟;以及顯示該偏差結果畫面影像之步驟。
關於本揭露第1態樣的程式產品,內藏有程式,該程式用以使電腦執行以下步驟:產生相似度矩陣,該相似度矩陣包含了從包含有複數個樣本的資料集當中,依照該複數個樣本排列的順序橫向排列的複數個列,以及依照該順序縱向排列的複數個行;而且在該複數個列之內的一列與該複數個行之內的一行所特定出的一欄當中,儲存有該一列對應的樣本與該一行對應的樣本間的相似度之步驟;對該複數個樣本的各個樣本,參照表示各個樣本使用了包含有複數個類別的複數個標籤執行標籤化的結果之標籤資訊,調整該相似度矩陣當中的該順序,使得該複數個樣本排在對象標籤當中的該複數個類別的每個類別,藉以產生調整相似度矩陣,該對象標籤即為從該複數個標籤當中指定的標籤之步驟;以及產生評價畫面影像,該評價畫面影像將該調整相似度矩陣的各個欄,以該相似度相應的明度來表示之步驟。
關於本揭露第2態樣的程式產品,內藏有程式,該程式用以使電腦執行以下步驟:對資料集當中包含的複數個樣本的各個樣本,參照表示各個樣本使用了包含有複數個類別的複數個標籤執行標籤化的結果之標籤資訊,算出該複數個標籤的各個標籤所產生的該複數個樣本的偏差程度,並且產生偏差結果畫面影像,該偏差結果畫面影像顯示該複數個標籤當中包含的至少一個標籤,以及該至少一個標籤對應的該偏差程度之步驟;以及顯示該偏差結果畫面影像之步驟。
關於本揭露第3態樣的程式產品,內藏有程式,該程式用以使電腦執行以下步驟:對資料集當中包含的複數個樣本的各個樣本,參照表示各個樣本使用了包含有複數個類別的複數個標籤執行標籤化的結果之標籤資訊,算出該複數個標籤的各個標籤所產生的該複數個樣本的偏差程度,並且產生偏差結果畫面影像,該偏差結果畫面影像顯示該複數個類別,以及該複數個類別的各個類別對應的該偏差程度之步驟;以及顯示該偏差結果畫面影像之步驟。
關於本揭露第1態樣的資訊處理方法,包含:產生相似度矩陣,該相似度矩陣包含了從包含有複數個樣本的資料集當中,依照該複數個樣本排列的順序橫向排列的複數個列,以及依照該順序縱向排列的複數個行;而且在該複數個列之內的一列與該複數個行之內的一行所特定出的一欄當中,儲存有該一列對應的樣本與該一行對應的樣本間的相似度;對該複數個樣本的各個樣本,參照表示各個樣本使用了包含有複數個類別的複數個標籤執行標籤化的結果之標籤資訊,調整該相似度矩陣當中的該順序,使得該複數個樣本排在對象標籤當中的該複數個類別的每個類別,藉以產生調整相似度矩陣,該對象標籤即為從該複數個標籤當中指定的標籤;產生評價畫面影像,該評價畫面影像將該調整相似度矩陣的各個欄,以該相似度相應的明度來表示;以及顯示該評價畫面影像。
關於本揭露第2態樣的資訊處理方法,包含:對資料集當中包含的複數個樣本的各個樣本,參照表示各個樣本使用了包含有複數個類別的複數個標籤執行標籤化的結果之標籤資訊,算出該複數個標籤的各個標籤所產生的該複數個樣本的偏差程度,並且產生偏差結果畫面影像,該偏差結果畫面影像顯示該複數個標籤當中包含的至少一個標籤,以及該至少一個標籤對應的該偏差程度;以及顯示該偏差結果畫面影像。
關於本揭露第3態樣的資訊處理方法,包含:對資料集當中包含的複數個樣本的各個樣本,參照表示各個樣本使用了包含有複數個類別的複數個標籤執行標籤化的結果之標籤資訊,算出該複數個標籤的各個標籤所產生的該複數個樣本的偏差程度,並且產生偏差結果畫面影像,該偏差結果畫面影像顯示該複數個類別,以及該複數個類別的各個類別對應的該偏差程度;以及顯示該偏差結果畫面影像。
[發明的效果]
根據本揭露的一或複數個態樣,可以確認與本來的目的沒有關聯的因素所產生的資料的偏差。
實施形態1.
第1圖為一方塊圖,概略地表示關於實施形態1的資訊處理裝置,也就是資料視覺化裝置100的構成。
資料視覺化裝置100包含:輸入部101、記憶部102、資料取得部103、距離矩陣算出部104、順序調整部105、視覺化部106、以及顯示部107。
輸入部101接受來自於使用者的指示的輸入。舉例來說,輸入部101從複數個標籤當中接受輸入,該輸入將一個標籤指定為對象標籤。
記憶部102記憶在資料視覺化裝置100的處理時需要的程式以及資料。舉例來說,記憶部102記憶視覺化對象的資料集及其標籤資訊。
資料集舉例來說,是藉由量測所得到的時序資料的集合。資料集以複數個樣本的集合的方式來構成。
構成資料集的樣本,是以距離矩陣算出部104算出的距離矩陣的一個單位。樣本舉例來說,是由振動感測器或麥克風所得到的時序資料。
此處,樣本是1維資料,表示在各個時刻量測的一個值,但並不限於一維資料。樣本也可以是多維資料,表示在各個時刻的複數個值。
標籤資訊表示與資料集當中包含的各樣本對應的屬性。標籤資訊表示對複數個樣本的各個樣本,使用複數個標籤執行標籤化的結果。複數個標籤的各個標籤,包含複數個類別。
此處,是針對標籤資訊進行說明,作為一個範例,該標籤資訊與樣本對應,該樣本是以機器的異常診斷為目的而收集的量測資料。然後,量測資料的目的,假設是要從量測資料當中區分是異常還是正常。
此時,包含表示檢查結果在內的標籤的標籤資訊,會給予各樣本。此時,檢查結果標籤,也就是表示檢查結果的標籤,可以用「正常類別」以及「異常類別」兩種類別來構成;或是因應異常的種類,以「正常類別」、「第1異常類別」以及「第2異常類別」的方式,用三個以上的類別來構成。此處的類別,表示相同標籤當中包含的某個狀態。舉例來說,如果類別不同,則表示相同標籤當中包含的別的狀態。
另外,量測資料當中,有時候也會存在一種標籤,這樣的標籤可預期為與量測資料的目的所對應的標籤(此處為正常或異常)無關。舉例來說,有「量測者」、「量測地點」或「量測日期時間」等。
資料取得部103從記憶部102取得資料集DS及其標籤資訊LI。取得的資料集DS及其標籤資訊LI給予距離矩陣算出部104。
距離矩陣算出部104也就是相似度矩陣產生部,產生距離矩陣也就是相似度矩陣,該相似度矩陣包含了從資料集DS當中,依照複數個樣本排列的順序橫向排列的複數個列,以及依照該順序縱向排列的複數個行;而且在該複數個列之內的一列與該複數個行之內的一行所特定出的一欄當中,儲存有該一列對應的樣本與該一行對應的樣本間的相似度。另外,距離矩陣當中包含的相似度,也稱為構成距離矩陣的元素。
舉例來說,距離矩陣算出部104以資料集DS當中包含的所有樣本的組合,來算出樣本間距離,依照算出的樣本間距離,產生以各個行數以及列數為樣本數的矩陣,也就是距離矩陣。
樣本間距離是表示兩個樣本的相似度的指標。兩個樣本越相似則值就越小,若完全一致時則為0。因此,距離矩陣也稱為相似度矩陣。
以下,以振動資料為例進行說明,該振動資料是以異常診斷為目的而收集得到的。
在某個條件下,在一定時間量測的量測資料,是以1個樣本來運用。在這次的範例中,1個樣本是時序資料,表示在各個時刻的1維的值。此時,我們假設各樣本中,都帶有表示機器的檢查結果的正常或異常的「檢查結果標籤」,以及表示量測何時執行的「量測日標籤」,以作為標籤資訊。
然後,此處假設量測日標籤的6月12日,量測了正常樣本以及異常樣本各兩個;量測日標籤的6月13日,量測了正常樣本以及異常樣本各兩個。
在以上的情況下,表示距離矩陣算出部104實際算出樣本間距離,作成距離矩陣的處理之例。在此處的範例中,兩個樣本的機率分布間的相似度,視為那兩個樣本間的相似度。
具體來說,距離矩陣算出部104算出各樣本形成的分布。在該時點下,每一個樣本算出一個分布。可以考慮將正規分布等視為假定的分布。
接著,距離矩陣算出部104算出兩個樣本形成的分布間的距離,作為樣本間的相似度的指標。作為算出分布間的距離的方法,有Bhattacharyya距離、KL散度(Kullback-Leibler divergence)、或是JS散度(Jensen-Shannon divergence)等。
第2(A)、2(B)圖表示兩個樣本的分布間的距離。
第2(A)圖表示兩個樣本的分布間的距離大的情況;第2(B)圖表示兩個樣本的分布間的距離小的情況。
接著,距離矩陣算出部104依照所有樣本的組合算出的分布間的距離來產生距離矩陣。距離矩陣的橫列與縱行,假設是依照8個樣本的順序來配置。
第3圖為一概略圖,表示距離矩陣的一例。
此處如以上所述,經過兩日存在有8個樣本。此處,假設各樣本都被編上樣本編號,也就是用來特定出各樣本的樣本識別資訊。此時,距離矩陣N行M列的元素,表示第N個樣本與第M個樣本的樣本之間的距離。此處,N與M為1以上,8以下的整數。
由於第3圖所示的距離矩陣的對角線上的值,是相同樣本之間的距離,因此全都為0。
在算出樣本間距離時,如果使用了像是Bhattacharyya距離那種對稱性的某個手法,則距離的值也不會因為樣本的互換而改變,因此距離矩陣會變成對稱矩陣。
順序調整部105參照標籤資訊LI,調整相似度矩陣當中的複數個樣本排列的順序,使得複數個樣本排在對象標籤當中的複數個類別的每個類別,藉以產生調整相似度矩陣,該對象標籤即為從複數個標籤當中指定的標籤。
具體來說,順序調整部105將構成以距離矩陣算出部104產生的距離矩陣的樣本的順序,依照指定的標籤進行調整。具體來說,如上所述,如果包含「檢查結果標籤」以及「量測日標籤」作為標籤資訊時,順序調整部105依照各個「檢查結果標籤」以及「量測日標籤」,調整距離矩陣的樣本的順序。
舉例來說,若依照檢查結果標籤重新排列距離矩陣時,由於檢查結果標籤包含「正常類別」以及「異常類別」兩個類別,因此順序調整部105調整樣本的順序依照每個類別來排列,使得一開始的是屬於正常類別的樣本(正常樣本);而之後的是屬於異常類別的樣本(異常樣本)。舉例來說,如第3圖所示,在八個樣本之中,若樣本編號為奇數的樣本為正常類別,且樣本編號為偶數的樣本為異常類別時,依照順序調整部105所調整,如第3圖所示的距離矩陣,樣本的順序將調整為第4圖所示的調整距離矩陣。另外,調整距離矩陣也稱為調整相似度矩陣。
另外,若依照量測日標籤重新排列距離矩陣時,由於量測日標籤包含「6月12日類別」以及「6月13日類別」兩個類別,因此順序調整部105變更樣本的順序,使得一開始的是屬於6月12日類別的樣本;而之後的是屬於6月13日類別的樣本。舉例來說,如第3圖所示,在八個樣本之中,若樣本編號為第1~4號的樣本為6月12日類別,且樣本編號為第5~8號的樣本為6月13日類別時,則順序調整部105則原封不動地將第3圖所示的距離矩陣當作是調整距離矩陣。
視覺化部106產生將調整距離矩陣視覺化的評價畫面影像,並讓顯示部107顯示該評價畫面影像,藉以呈現給使用者。
舉例來說,視覺化部106因應以順序調整部105調整順序的調整距離矩陣當中所包含的元素的值,來決定該元素對應的欄的顏色的明度,藉以產生評價畫面影像。如此一來,藉由依照該欄的值,變更調整距離矩陣的元素所對應的欄的明暗,就可以將起因於順序變更時使用的標籤所導致的資料集的品質問題,以視覺的方式來表現。
具體來說,視覺化部106將調整距離矩陣的欄的值與事先決定的臨界值進行比較,若低於事先決定的臨界值時,則將該欄的顏色,調得比事先決定的臨界值以上的值的欄的顏色還要暗。
以下,在說明以評價畫面影像所得到的效果之前,先來針對「良好資料集」進行說明。
此處的資料集假設是用來進行異常診斷的資料集。因此,異常的樣本與正常的樣本,盡可能帶有不同的性質較佳。另一方面,針對量測日標籤,意即可預期是與正常、異常的診斷無關的標籤,則可以預期即使類別不相同,樣本的特性也不會改變。基於以上所述,在此範例中的「良好資料集」可說是滿足以下兩個條件的資料集。
第1條件,是在檢查結果標籤中,不同類別的樣本間的距離較大。換言之,在檢查結果標籤中,不同類別的樣本間的相似度較低。
第2條件,是在量測日標籤中,並沒有統整不同樣本間的距離。換言之,在量測日標籤當中,無論類別相同或相異,樣本間的相似度有時較低,有時較高。
藉由將距離矩陣視覺化為依照指定的一個標籤當中包含的每個類別而調整順序的調整距離矩陣,可以從視覺上確認資料集是否滿足上述的兩個條件。
舉例來說,如第5(A)圖所示,在檢查結果標籤中,藉由分為正常類別以及異常類別,來調整樣本的順序,在正常類別當中包含的樣本們以及異常類別當中包含的樣本們的距離低於事先決定的臨界值時,對應的欄的顏色變暗;以及在正常類別當中包含的樣本以及異常類別當中包含的樣本的距離在事先決定的臨界值以上時,對應的欄的顏色變亮的情況下,則可以確認滿足上述的第1條件。
另外,如第5(B)圖所示,在量測日標籤中,藉由分為6月12日類別以及6月13日類別,來調整樣本的順序,在相同類別的樣本間與不同類別的樣本間,亮色欄與暗色欄並未統整的情況下,則可以確認滿足上述的第2條件。
相較之下,舉例來說,如第6(A)圖所示,在檢查結果標籤中,藉由分為正常類別以及異常類別,來調整樣本的順序,在相同類別的樣本間與不同類別的樣本間,亮色欄與暗色欄並未統整的情況下,則不滿足上述的第1條件。
然後,如第6(B)圖所示,在量測日標籤中,藉由分為6月12日類別以及6月13日類別,來調整樣本的順序,在6月12日類別當中包含的樣本們以及6月13日類別當中包含的樣本們的距離低於事先決定的臨界值時,對應的欄的顏色變暗;以及在6月12日類別當中包含的樣本以及6月13日類別當中包含的樣本的距離在事先決定的臨界值以上時,對應的欄的顏色變亮的情況下,則不滿足上述的第2條件。
在這種情況下,可以特定出由於量測日所產生的資料的偏差,是檢查結果惡化的原因。
另外,以上雖然示意了依照一個標籤當中包含的類別的每個類別,來調整樣本的順序之例,但並不限於這樣的範例。
舉例來說,如第6(A)圖所示,也可以在檢查結果標籤中,藉由分為正常類別以及異常類別,來調整樣本的順序之後,再將該正常類別以及異常類別的各個當中包含的樣本,進一步分為量測日標籤當中包含的6月12日類別以及6月13日類別,來調整樣本的順序。
在這種情況下,舉例來說,如第7圖所示,變成是樣本在正常類別以及異常類別當中,又進一步個別被分類成6月12日類別以及6月13日類別。
此時,如第7圖所示,在正常類別或類別類別的各個類別當中,只要由於量測日的不同(量測日標籤的不同)而導致矩陣元素的明暗沒有統整,則可以特定出量測日的資料的偏差,是檢查結果惡化的原因。
針對視覺化的評價畫面影像的解釋方法進行描述。
此處,針對九個樣本數的資料集,將依照三個類別數的標籤調整順序的調整距離矩陣,作為評價畫面影像來視覺化時的四個範例,呈現於第8~12圖。
另外,在第8~12圖當中,假設三個類別分別被編號為1~3,並且將距離矩陣當中包含的樣本依照升序排列,藉以產生調整距離矩陣。
如第8圖所示的調整距離矩陣120,只有在對角線上的區塊明度較低,而其他區塊的明度較高時,由於相同類別們的樣本相似,但與別的類別的樣本並不相似,因此而產生對應的標籤所導致的資料的偏差。另外,舉例來說,在兩個類別的情況下,則變得如第6(B)圖所示。
如第9圖所示的調整距離矩陣121,明度並沒有因為類別的不同而變化,所有的欄都是暗色時,則表示所有的資料都相似,因此並沒有發生由標籤所產生的資料的偏差。
如第10圖所示的調整距離矩陣122,除了對角線上的相同樣本們的欄以外,其他的欄的顏色皆為明色時,則表示所有資料都很分散,而與類別的差異無關。在這種情況下,雖然並沒有因為標籤而產生資料的偏差,但表示資料集整體而言完全沒有統整,因此資料的品質上有問題的可能性很高。
如第11圖所示的調整距離矩陣123,除了對角線上的區塊(參照第8圖)之外,用來表示1號類別當中包含的樣本,以及3號類別當中包含的樣本之間的值的明度變低時,得知只有2號類別的資料具有與其他類別的資料不同的性質。
舉例來說,類別表示資料的量測者時,可以視為只有2號類別對應的量測者(此處假定為1號量測者)的資料,與其他量測者(1號量測者以及3號量測者)的資料不相同。藉此,可以考究得知資料品質的劣化因素,很有可能是2號量測者的量測方法出了問題。
如第12圖所示的調整距離矩陣124,屬於1號類別的樣本,與屬於3號類別的樣本相似;屬於2號類別的樣本與屬於1號類別的樣本以及屬於3號類別的樣本不相似,且屬於2號類別的不同樣本們也不相似時,也可得知只有2號類別的資料與1號類別、3號類別的資料不同;除此之外,2號類別的資料彼此之間也存在有偏差。
另外,執行視覺化之際,如第5~7圖所示,也可以在調整距離矩陣的左邊以及上面顯示表示類別的資訊,藉以明白重新排列時所使用的標籤的類別順序。
第13圖為一方塊圖,表示資料視覺化裝置100的硬體構成例。
資料視覺化裝置100可以由電腦130構成,電腦130包含:輸入裝置131、顯示裝置132、記憶裝置133、記憶體134、以及處理器135。
輸入裝置131是使用者輸入指示的裝置,像是滑鼠、觸控面板、鍵盤、HMD(Head Mounted Display,頭戴式顯示器)的手勢操作輸入裝置、或者是視線操作輸入裝置等。
顯示裝置132是顯示如執行視覺化之際呈現給使用者的顯示器等的應用程式的裝置。顯示裝置132舉例來說,包含HMD的透視型顯示器等。
記憶裝置133是執行記憶的裝置,包含HDD(Hard Disk Drive,硬碟)或SSD(Solid State Drive,固態硬碟)等。
記憶體134是執行暫時記憶的裝置,包含RAM(Random Access Memory,隨機存取記憶體)等。
處理器135是CPU(Central Processing Unit,中央處理器)等的處理電路。
舉例來說,輸入部101可以透過處理器135使用輸入裝置131來實現。
顯示部107可以透過處理器135使用顯示裝置132來實現。
記憶部102可以透過處理器135使用記憶體134來實現。
資料取得部103、距離矩陣算出部104、順序調整部105以及視覺化部106,可以透過處理器135將記憶於記憶裝置133的程式讀取到記憶體134,並執行該程式來實現。
這樣的程式可以由網路來提供,或者也可以用記錄於記錄媒體的方式來提供。意即,這樣的程式舉例來說,可以用程式產品的方式來提供。
第14圖為一流程圖,表示關於實施形態1的資料視覺化裝置100的處理。
首先,資料取得部103從記憶部102當中取得資料集DS及其標籤資訊LI(S10)。取得的資料集DS及其標籤資訊LI將給予距離矩陣算出部104。
距離矩陣算出部104產生距離矩陣,該距離矩陣是由構成資料集DS的各樣本的相似度所構成(S11)。舉例來說,距離矩陣算出部104以資料集DS當中包含的所有樣本的組合算出樣本間距離,並產生把算出的樣本間距離作為矩陣的距離矩陣,且該矩陣把行數以及列數的各個作為樣本數。
接著,輸入部101為了調整距離矩陣當中的樣本的順序,而受理來自於使用者的標籤的指定(S12)。表示指定的標籤的使用者資訊UI,將給予順序調整部105。此處指定的標籤也稱為對象標籤。
順序調整部105調整距離矩陣算出部104產生的距離矩陣,使得樣本排在指定的標籤的類別當中的每個類別,藉以產生調整距離矩陣(S13)。
視覺化部106產生將調整距離矩陣視覺化的評價畫面影像,讓顯示部107顯示該評價畫面影像(S14)。舉例來說,視覺化部106因應由順序調整部105使得順序改變的調整距離矩陣當中包含的值,決定包含該值在內的欄的明度,藉以產生評價畫面影像。
然後,順序調整部105判斷是否繼續視覺化處理(S15)。舉例來說,當表示標籤的使用者資訊UI從輸入部101送來時,順序調整部105判斷為繼續視覺化處理。當表示結束處理的指示的使用者資訊UI從輸入部101送來時,順序調整部105判斷為不繼續視覺化處理。若繼續視覺化處理(S14為Yes),則處理回到步驟S12;若不繼續視覺化處理(S14為No),則處理結束。
以上所述,根據實施形態1,藉由以任意的標籤調整距離矩陣當中的樣本的順序,並進行視覺化,則能夠在直觀上表示由於指定的標籤所產生的資料集的偏差。藉此,可以讓調整時所使用的標籤所引起的資料集的品質問題變得明朗化。
實施形態2.
實施形態1當中,使用者藉由將指定的標籤調整距離矩陣的樣本的順序的結果進行視覺化,來解釋由於標籤而造成的資料的偏差。
實施形態2當中,則是事先算出資料的偏差程度,並支援調整順序的標籤的指定。或者,由算出的偏差程度,來自動指定調整順序的標籤。
第15圖為一方塊圖,概略地表示關於實施形態2的資料視覺化裝置200的構成。
資料視覺化裝置200包含:輸入部101、記憶部102、資料取得部103、距離矩陣算出部104、順序調整部105、視覺化部106、顯示部107、偏差算出部208、以及順序調整支援部209。
實施形態2的資料視覺化裝置200的輸入部101、記憶部102、資料取得部103、距離矩陣算出部104、順序調整部105、視覺化部106、以及顯示部107,與實施形態1的資料視覺化裝置100的輸入部101、記憶部102、資料取得部103、距離矩陣算出部104、順序調整部105、視覺化部106、以及顯示部107相同。
但是,資料取得部103也會將取得的資料集DS以及標籤資訊LI給予偏差算出部208;距離矩陣算出部104也會將產生的距離矩陣給予偏差算出部208。
偏差算出部208算出各個標籤所產生的,作為資料的複數個樣本的偏差程度。
實施形態1當中,藉由使用者解釋視覺化的調整距離矩陣,將品質問題明朗化。舉例來說,如第8圖所示的調整距離矩陣120,對角線上的相同類別們相交的區塊明度較低,除此之外的區塊的明度較高時,可以判斷有標籤產生的偏差。
偏差算出部208扮演的角色,就是把這樣的距離矩陣的特徵以數值來量化,而不是讓使用者來解釋。藉由偏差算出部208,能夠將「特定的標籤所產生的資料的偏差程度」量化。以下,說明偏差算出部208具體的處理。
此處,針對樣本數為N個(N是2以上的整數)的資料集,來說明算出某個標籤所產生的資料的偏差之例。
假設算出對象的標籤當中包含的類別數為C個(C是2以上的整數),各個類別以1、2、…、C表示。
另外,假設調整距離矩陣為M,將該資料集當中算出的距離矩陣的樣本,調整為1、2、…、C的順序。另外,此範例中,距離矩陣假設是以樣本間的Bhattacharyya距離所構成。
M的元素的個數為NxN個。此處,由於是以類別數為C個的標籤來調整距離矩陣的樣本,因此在調整距離矩陣M內,存在有CxC個區域的部分矩陣。假設該等部分矩陣如第16圖所示,以D11
、D12
、…、Dcc
來表示。
Dij
是由屬於類別i(i是滿足1≦i≦C的整數)的樣本,以及屬於類別j(j是滿足1≦j≦C的整數)的樣本所構成的部分矩陣。
若假設屬於類別i的樣本個數為Ni
,且屬於類別j的樣本個數為Nj
,則Dij
為Ni
xNj
的矩陣。Dij
的各個元素以dkl (ij)
表示。
此處,假設為算出部分矩陣的元素的平均值μij
,作為各個部分矩陣Dij
對應的各區塊的代表值。
依照調整距離矩陣M的對稱性,來算出μij
之際,使用第17圖當中著色的區塊。若i=j時,由於Dij
本身為對稱矩陣,因此只有使用對角線右上方的元素來算出平均值。另外,由於μij
=μji
,因此並不需要針對i>j的區塊執行計算。
另外,此處使用平均值μij
作為部分矩陣Dij
的代表值,但實施形態2並不限於這樣的範例。舉例來說,部分矩陣Dij
當中包含的元素的中央值,也可以用來作為部分矩陣Dij
的代表值。
平均值μij
在公式上的意義來說,在i≠j時,可認為是表示屬於類別i的資料以及屬於類別j的資料的相似度。舉例來說,當μ12
表示小的值時,可視為類別1的資料與類別2的資料相似,而沒有產生由於類別的不同所引起的資料的偏差。另外,在i=j時,平均值μij
則表示屬於相同類別的資料們的偏差程度。
在產生由於標籤而引起的資料的偏差時,如第6(B)或8圖所示,位於距離矩陣的對角線上的Dii
當中包含的調整距離矩陣的元素值較低,除此以外的元素的值較高。因此,由某個標籤所產生的資料的偏差程度V,舉例來說,能夠用以下的數學式(2)來公式化。
[數學式2]
數學式(2)的左項,是以所有的組合計算i≠j時的μij
,並算出其平均。這用來表示類別不同時,資料有多麼地偏差。
數學式(2)的右項,是以所有的組合計算i=j時的μij
,並算出其平均。這用來表示在相同類別內的資料有多麼地偏差。
如第6(B)或8圖所示,當產生由標籤所引起的資料的偏差時,V的值越大。V較佳的情況,是在資料集的識別對象的標籤(此處為檢查結果標籤)當中變為較高的值;並在可以預期與該標籤無關的標籤(此處為量測日標籤)當中變為較低的值。
如以上所述,偏差算出部208在複數個類別當中,用事先取得的所有的標籤,算出由被分類到不同類別的樣本間的相似度的代表值,減去被分類到相同類別的樣本間的相似度的代表值所算出的偏差程度V。舉例來說,如果資料集當中帶有5個標籤,則可以依照該處理得到各標籤對應的5個V。
順序調整支援部209藉由將偏差結果畫面影像,也就是由偏差算出部208得到的結果,讓顯示部107顯示,將該結果呈現給使用者,並在指定用於調整的標籤之際執行支援。偏差結果畫面影像舉例來說,是依照偏差程度V由大到小的順序表示標籤的畫面影像。使用者可以參照那樣的畫面,執行對象標籤的指定。
順序調整支援部209並不顯示偏差結果畫面影像,而是可以將偏差算出部208得到的結果通知順序調整部105,自動地調整距離矩陣當中包含的樣本的順序,藉以讓順序調整部105產生調整距離矩陣。舉例來說,順序調整支援部209也可以將偏差程度最高的標籤指定為對象標籤,並依照該對象標籤,讓順序調整部105產生調整距離矩陣。另外,順序調整支援部209也可以依照偏差程度由高到低的順序,指定複數個標籤為對象標籤。另外,順序調整支援部209也可以將偏差程度最高的標籤,以及偏差程度最低的標籤指定為對象標籤。
關於實施形態2的資料視覺化裝置200,也可以由第13圖所示的電腦130來構成。
舉例來說,偏差算出部208以及順序調整支援部209,可以透過處理器135將記憶於記憶裝置133的程式讀取到記憶體134,並執行該程式來實現。
第18圖為一流程圖,表示關於實施形態2的資料視覺化裝置200的第1處理。
第1處理是順序調整支援部209將偏差結果畫面影像,也就是由偏差算出部208所得到的結果,讓顯示部107顯示時的處理。
首先,資料取得部103從記憶部102當中取得資料集DS及其標籤資訊LI(S20)。取得的資料集DS及其標籤資訊LI將給予距離矩陣算出部104以及偏差算出部208。
距離矩陣算出部104算出距離矩陣,該距離矩陣是由構成資料集DS的各樣本的相似度所構成(S21)。產生的距離矩陣將給予順序調整部105以及偏差算出部208。
接著,偏差算出部208重複執行步驟S23以及S24的處理,重複執行的次數即為標籤資訊LI所示的標籤的個數(S22以及S25)。
步驟S23當中,偏差算出部208從標籤資訊LI所示的標籤當中,特定出還沒有算出偏差程度V的標籤,並依照特定出的標籤,調整距離矩陣當中包含的樣本的順序。
步驟S24當中,偏差算出部208基於調整距離矩陣,也就是經過調整的距離矩陣,算出特定出的標籤所造成的資料的偏差程度V。
接著,順序調整支援部209將偏差結果畫面影像讓顯示部107顯示,該偏差結果畫面影像表示由偏差算出部208所算出的偏差程度V(S26)。
接著,輸入部101為了調整距離矩陣當中包含的樣本的順序,而受理來自於使用者的標籤的指定(S27)。表示指定的標籤的使用者資訊UI,將給予順序調整部105。使用者可以把顯示於顯示部107的偏差結果畫面影像當作參考,來指定標籤。
順序調整部105調整距離矩陣算出部104產生的距離矩陣,使得樣本排在指定的標籤的類別當中的每個類別,藉以產生調整距離矩陣(S28)。
視覺化部106產生將調整距離矩陣視覺化的評價畫面影像,讓顯示部107顯示該評價畫面影像(S29)。
然後,順序調整部105判斷是否繼續視覺化處理(S30)。舉例來說,當表示標籤的使用者資訊UI從輸入部101送來時,順序調整部105判斷為繼續視覺化處理。當表示結束處理的指示的使用者資訊UI從輸入部101送來時,順序調整部105判斷為不繼續視覺化處理。若繼續視覺化處理(S30為Yes),則處理回到步驟S27;若不繼續視覺化處理(S30為No),則處理結束。
第19圖為一流程圖,表示關於實施形態2的資料視覺化裝置200的第2處理。
第2處理是順序調整支援部209根據偏差結果,也就是由偏差算出部208所得到的結果,來指定標籤時的處理。
首先,資料取得部103從記憶部102當中取得資料集DS及其標籤資訊LI(S40)。取得的資料集DS及其標籤資訊LI將給予距離矩陣算出部104以及偏差算出部208。
距離矩陣算出部104算出距離矩陣,該距離矩陣是由構成資料集DS的各樣本的相似度所構成(S41)。產生的距離矩陣將給予順序調整部105以及偏差算出部208。
接著,偏差算出部208重複執行步驟S43以及S44的處理,重複執行的次數即為標籤資訊LI所示的標籤的個數(S42以及S45)。
步驟S43當中,偏差算出部208從標籤資訊LI所示的標籤當中,特定出還沒有算出偏差程度V的標籤,並依照特定出的標籤,調整距離矩陣當中包含的樣本的順序。
步驟S44當中,偏差算出部208基於調整距離矩陣,也就是經過調整的距離矩陣,算出特定出的標籤所造成的資料的偏差程度V。
接著,順序調整支援部209依照由偏差算出部208算出的偏差程度V來指定標籤(S46)。舉例來說,順序調整支援部209可以指定偏差程度V最大的標籤。
接著,順序調整部105調整距離矩陣算出部104產生的距離矩陣,使得樣本排在指定的標籤的類別當中的每個類別,藉以產生調整距離矩陣(S47)。
視覺化部106產生將調整距離矩陣視覺化的評價畫面影像,讓顯示部107顯示該評價畫面影像(S48)。
如以上所述,根據實施形態2,藉由讓偏差算出部208事先求出各標籤所產生的資料的偏差,能夠支援距離矩陣當中包含的樣本的調整或是自動化。
另外,在第19圖所示的流程圖步驟S46當中,順序調整支援部209也可以藉由指定複數個標籤,透過步驟S47以及S48,使得複數個評價畫面影像顯示於顯示部107。在這種情況下,順序調整支援部209也可以依照偏差程度V高的標籤開始,由高到低指定複數個標籤。
另外,實施形態2當中,也可以將標籤指定的自動化,與使用者執行的標籤指定進行組合。舉例來說,可以在一開始如第19圖所示,顯示自動指定的標籤所得到的評價畫面影像;之後,舉例來說,再依照來自於使用者的指示,顯示偏差結果畫面影像,並由使用者來指定標籤。
實施形態3.
第20圖為一方塊圖,概略地表示關於實施形態3的資料視覺化裝置300的構成。
資料視覺化裝置300包含:記憶部102、資料取得部103、距離矩陣算出部104、顯示部107、以及偏差算出部308。
關於實施形態3的資料視覺化裝置300的記憶部102、資料取得部103、距離矩陣算出部104、以及顯示部107,與實施形態1的資料視覺化裝置100的記憶部102、資料取得部103、距離矩陣算出部104、以及顯示部107相同。
另外,關於實施形態3的資料視覺化裝置300,與關於實施形態2的資料視覺化裝置200比較起來,並沒有設置輸入部101、順序調整部105、視覺化部106以及順序調整支援部209。
偏差算出部308與實施形態2的偏差算出部208,同樣都算出以標籤資訊LI所示的所有標籤當中的各個標籤所產生的資料的偏差程度。
然後,偏差算出部308將表示算出的偏差程度的偏差結果畫面影像,讓顯示部107顯示。
偏差結果畫面影像舉例來說,可以按照偏差程度V由大到小的順序,顯示事先決定的個數的標籤;也可以顯示所有的標籤的偏差程度V。換句話說,偏差算出部308可以將標籤資訊LI所示的所有的標籤當中包含的至少一個標籤,以及該至少一個標籤所對應的偏差程度,顯示於偏差結果畫面影像。
第21圖為一流程圖,表示關於實施形態3的資料視覺化裝置300的處理。
首先,資料取得部103從記憶部102當中取得資料集DS及其標籤資訊LI(S50)。取得的資料集DS及其標籤資訊LI將給予距離矩陣算出部104以及偏差算出部308。
距離矩陣算出部104算出距離矩陣,該距離矩陣是由構成資料集DS的各樣本的相似度所構成(S51)。產生的距離矩陣將給予順序調整部105以及偏差算出部308。
接著,偏差算出部308重複執行步驟S53以及S54的處理,重複執行的次數即為標籤資訊LI所示的標籤的個數(S52以及S55)。
步驟S53當中,偏差算出部308從標籤資訊LI所示的標籤當中,特定出還沒有算出偏差程度V的標籤,並依照特定出的標籤,調整距離矩陣當中包含的樣本的順序。
步驟S54當中,偏差算出部308基於調整距離矩陣,也就是經過調整的距離矩陣,算出特定出的標籤所造成的資料的偏差程度V。
接著,偏差算出部308將偏差結果畫面影像讓顯示部107顯示,該偏差結果畫面影像表示算出的偏差程度V(S56)。
根據實施形態3,藉由將各標籤產生的偏差程度V呈現給使用者,則可以讓起因於資料集的品質問題的標籤明朗化。
作為關於以上記載的實施形態1~3的資料視覺化裝置100~300所運用的資料集的範例,有雷射加工聲音資料,該雷射加工聲音資料是以自動檢測雷射加工機所造成的切割加工時的加工不良為目的而收集來的。該資料也可以藉由在加工機的加工頭上安裝麥克風,也就是音響感測器來收集。由於目的在於檢測加工不良,因此各資料當中都帶有表示是否有不良的「檢查結果標籤」。最終,可以預期以機器學習,從加工聲音資料的特徵當中檢測出是否有加工不良。
資料視覺化裝置100~300於執行資料學習的前面階段,被用來進行資料品質的視覺化以及量化。在可以透過資料視覺化裝置100~300來確認品質劣化以及劣化原因時,能夠相應該結果,採取「挑選出用於學習的資料(換言之,不使用會導致品質劣化的資料)」或是「改善資料收集方法」等對策,謀求資料品質的提升。
另外,在資料收集時,同時也記錄了「量測時刻」、「量測者」、「機體的編號」、或是「量測地點」等可以預期為與檢查結果無關的標籤的資訊,並藉由實施形態1~3記載的處理,將各標籤所造成的資料的偏差程度視覺化以及量化。
實施形態1~3當中,雖然運用了表示每個時刻的1維的值的時序資料,但1個樣本不見得必須是表示每個時刻的1維的值的時序資料。也可以使用表示每個時刻的多維的值的時序資料,或是對1維訊號施以特徵抽取處理而轉換為多維資料後的資料。另外,也不見得必須是時序資料。
實施形態2、3記載的偏差算出部208、308,是以每個「標籤」算出偏差程度;但在關注某個標籤時,偏差算出部208、308也可以算出該標籤當中包含的「由各類別所產生的偏差程度」。
如數學式(3),V(c)是以類別間的偏差Vout
(c),以及類別內的偏差Vin
(c)之差所算出。
Vout
(c)表示類別c的樣本與其他類別的樣本偏離了多少;Vin
(c)表示類別c們的樣本偏差了多少。
舉例來說,對第11圖所示的調整距離矩陣123,以所有的類別1~3求出V(c)時,V(2)的值比V(1)以及V(3)還要大。藉此,只有類別2的樣本具有與其他類別的樣本不同的性質這件事情,就可以量化來表示。
V(c)的值較佳的情況,是在資料集的識別對象的標籤(此處為檢查結果標籤)當中所包含的類別中,得出較高的值;並且在可預期與該標籤無關的標籤(此處為量測日標籤)當中所包含的類別中,得出較低的值。
意即,偏差算出部208、308在複數個類別之內,把算出偏差程度V(c)的一個類別作為對象類別時,也可以將被分類到對象類別的樣本,與被分類到扣掉對象類別以外的類別的樣本的相似度的代表值,減去被分類到對象類別的樣本間的相似度的代表值,來算出偏差程度V(c)。
另外,偏差算出部208、308也可以將被分類到對象類別的樣本,與被分類到扣掉對象類別以外的類別的樣本的相似度的代表值,加上被分類到對象類別的樣本間的相似度的代表值,來算出偏差程度V(c)。
順序調整支援部209或偏差算出部308,也可以產生偏差結果畫面影像,並讓顯示部107顯示,該偏差結果畫面影像表示複數個類別,以及複數個類別的各個類別對應的偏差程度V(c)。
這種情況下,如第12圖所示的調整距離矩陣124的類別2那樣的「與其他類別的資料偏離」且「相同類別的資料們的偏差很大」的類別當中,值會變大,可以認為該類別為品質劣化的原因。
如以上所述,偏差算出部208、308可以針對取得的所有標籤,算出標籤造成的偏差程度V,以及該標籤的各類別所產生的偏差程度V(c)。另外,偏差程度V也稱為標籤偏差程度;偏差程度V(c)也稱為類別偏差程度。
另外,上述的V以及V(c)的計算,也可以針對由某個類別進行調整後的部分矩陣Dii
來實施。此情況下,偏差算出部208、308將位於以某個標籤(例如檢查結果標籤)進行調整的調整距離矩陣M的對角線上的部分矩陣Dii
當中所包含的樣本,再進一步以其他的某個標籤來重新排列,求出再調整距離矩陣Mi
之後,用相同的流程,從再調整距離矩陣Mi
當中求出偏差程度Vi
以及Vi
(c)。此時,最終的V以及Vi
(c)舉例來說,能夠藉由取Vi
以及Vi
(c)的平均來算出。這個方法可以在已經事先得知偏差很大的標籤時,在算出除了他以外的標籤的偏差程度之際使用。藉此,就能夠算出其他的標籤所造成的偏差程度,而不會受到最初進行調整的標籤的影響。
如以上所述,偏差算出部208、308也可以算出「特定的標籤當中包含的各類別所造成的資料的偏差程度」。
舉例來說,偏差算出部208也可以透過輸入部101,在使用者執行標籤的指定之際,算出該標籤當中包含的各類別的偏差程度V(c)。另外,偏差算出部208、308也可以算出每個標籤的偏差程度V,以及每個類別的偏差程度V(c),並將該算出結果的V以及V(c)包含在偏差結果畫面影像當中顯示出來。
以上記載的實施形態1、2當中,將調整距離矩陣的欄的值,與事先決定的臨界值進行比較,若不到事先決定的臨界值時,則將該欄的顏色調得比事先決定的臨界值以上的值的欄的顏色還要暗,藉以產生評價畫面影像;然而,實施形態1、2並不限於這樣的範例。舉例來說,可以將調整距離矩陣視覺化為熱度圖,將調整距離矩陣的欄的值以「顏色的濃淡」來表現。舉例來說,可以用熱度圖的方式執行視覺化,該熱度圖的值越小則顏色越暗;值越大則顏色越亮。另外,也可以將熱度圖的表現方式,與臨界值的表現方式組合。舉例來說,可以採取如以下的表現方式:高於事先指定的上限值的欄,全部都以「熱度圖當中最亮的顏色(例如白色)」視覺化;低於事先指定的下限值的欄,全部都以「熱度圖當中最暗的顏色(例如黑色)」視覺化;而其餘的欄,則依照熱度圖進行視覺化。
100:資料視覺化裝置
101:輸入部
102:記憶部
103:資料取得部
104:距離矩陣算出部
105:順序調整部
106:視覺化部
107:顯示部
120~124:調整距離矩陣
130:電腦
131:輸入裝置
132:顯示裝置
133:記憶裝置
134:記憶體
135:處理器
200:資料視覺化裝置
208:偏差算出部
209:順序調整支援部
300:資料視覺化裝置
308:偏差算出部
S10~S15:步驟
S20~S30:步驟
S40~S48:步驟
S50~S56:步驟
第1圖為一方塊圖,概略地表示關於實施形態1的資料視覺化裝置的構成。
第2(A)、2(B)圖表示兩個樣本的分布間的距離。
第3圖為一概略圖,表示距離矩陣的一例。
第4圖為一概略圖,表示調整距離矩陣的第1例。
第5(A)、5(B)圖為一概略圖,表示調整距離矩陣的第2、第3例。
第6(A)、6(B)圖為一概略圖,表示調整距離矩陣的第4、第5例。
第7圖為一概略圖,表示調整距離矩陣的第6例。
第8圖為一概略圖,表示將調整距離矩陣視覺化的評價畫面影像的第1例。
第9圖為一概略圖,表示將調整距離矩陣視覺化的評價畫面影像的第2例。
第10圖為一概略圖,表示將調整距離矩陣視覺化的評價畫面影像的第3例。
第11圖為一概略圖,表示將調整距離矩陣視覺化的評價畫面影像的第4例。
第12圖為一概略圖,表示將調整距離矩陣視覺化的評價畫面影像的第5例。
第13圖為一方塊圖,表示資料視覺化裝置的硬體構成例。
第14圖為一流程圖,表示關於實施形態1的資料視覺化裝置的處理。
第15圖為一方塊圖,概略地表示關於實施形態2的資料視覺化裝置的構成。
第16圖為一概略圖,表示部分矩陣的一例。
第17圖為一概略圖,用以說明算出方法。
第18圖為一流程圖,表示關於實施形態2的資料視覺化裝置的第1處理。
第19圖為一流程圖,表示關於實施形態2的資料視覺化裝置的第2處理。
第20圖為一方塊圖,概略地表示關於實施形態3的資料視覺化裝置的構成。
第21圖為一流程圖,表示關於實施形態3的資料視覺化裝置的處理。
100:資料視覺化裝置
101:輸入部
102:記憶部
103:資料取得部
104:距離矩陣算出部
105:順序調整部
106:視覺化部
107:顯示部
DS:資料集
LI:標籤資訊
Claims (24)
- 一種資訊處理裝置,包含: 相似度矩陣產生部,產生相似度矩陣,該相似度矩陣包含了從包含有複數個樣本的資料集當中,依照該複數個樣本排列的順序橫向排列的複數個列,以及依照該順序縱向排列的複數個行;而且在該複數個列之內的一列與該複數個行之內的一行所特定出的一欄當中,儲存有該一列對應的樣本與該一行對應的樣本間的相似度; 順序調整部,對該複數個樣本的各個樣本,參照表示各個樣本使用了包含有複數個類別的複數個標籤執行標籤化的結果之標籤資訊,調整該相似度矩陣當中的該順序,使得該複數個樣本排在對象標籤當中的該複數個類別的每個類別,藉以產生調整相似度矩陣,該對象標籤即為從該複數個標籤當中指定的標籤; 視覺化部,產生評價畫面影像,該評價畫面影像將該調整相似度矩陣的各個欄,以該相似度相應的明度來表示;以及 顯示部,顯示該評價畫面影像。
- 如請求項1之資訊處理裝置,更包含: 輸入部,從該複數個標籤當中,受理該對象標籤的指定。
- 如請求項1之資訊處理裝置,更包含: 偏差算出部,算出該複數個標籤的各個標籤所產生的,該複數個樣本的偏差程度; 順序調整支援部,產生偏差結果畫面影像,該偏差結果畫面影像顯示該複數個標籤以及該複數個標籤的各個標籤對應的該偏差程度,並且讓該顯示部顯示該偏差結果畫面影像;以及 輸入部,從該複數個標籤當中,受理該對象標籤的指定。
- 如請求項1之資訊處理裝置,更包含: 偏差算出部,算出該複數個標籤的各個標籤所產生的,該複數個樣本的偏差程度,並且將該偏差程度最高的標籤,指定為該對象標籤。
- 如請求項3之資訊處理裝置, 其中,該偏差程度是在該複數個類別當中,由被分類到不同類別的樣本間的相似度的代表值,減去被分類到相同類別的樣本間的相似度的代表值而算出。
- 如請求項4之資訊處理裝置, 其中,該偏差程度是在該複數個類別當中,由被分類到不同類別的樣本間的相似度的代表值,減去被分類到相同類別的樣本間的相似度的代表值而算出。
- 如請求項1之資訊處理裝置,更包含: 偏差算出部,算出該複數個標籤的各個標籤所產生的,該複數個樣本的偏差程度;以及 順序調整支援部,產生偏差結果畫面影像,該偏差結果畫面影像顯示該複數個類別以及該複數個類別的各個類別對應的該偏差程度,並且讓該顯示部顯示該偏差結果畫面影像。
- 如請求項7之資訊處理裝置, 其中,在該複數個類別之內,把算出該偏差程度的一個類別作為對象類別時,該偏差程度是由被分類到該對象類別的樣本,與被分類到扣掉該對象類別以外的該複數個類別的樣本間的相似度的代表值,減去被分類到該對象類別的樣本間的相似度的代表值而算出。
- 如請求項7之資訊處理裝置, 其中,在該複數個類別之內,把算出該偏差程度的一個類別作為對象類別時,該偏差程度是由被分類到該對象類別的樣本,與被分類到扣掉該對象類別以外的該複數個類別的樣本間的相似度的代表值,加上被分類到該對象類別的樣本間的相似度的代表值而算出。
- 如請求項1至9任何一項之資訊處理裝置, 其中,該評價畫面影像對應該調整相似度矩陣的該複數個列以及該複數個行,表示該對象標籤當中的該複數個類別。
- 一種資訊處理裝置,包含: 偏差算出部,對資料集當中包含的複數個樣本的各個樣本,參照表示各個樣本使用了包含有複數個類別的複數個標籤執行標籤化的結果之標籤資訊,算出該複數個標籤的各個標籤所產生的該複數個樣本的偏差程度,並且產生偏差結果畫面影像,該偏差結果畫面影像顯示該複數個標籤當中包含的至少一個標籤,以及該至少一個標籤對應的該偏差程度;以及 顯示部,顯示該偏差結果畫面影像。
- 如請求項10之資訊處理裝置, 其中,該偏差程度是由該複數個類別當中,被分類到不同類別的樣本間的相似度的代表值,減去該複數個類別當中,被分類到相同類別的樣本間的相似度的代表值而算出。
- 一種資訊處理裝置,包含: 偏差算出部,對資料集當中包含的複數個樣本的各個樣本,參照表示各個樣本使用了包含有複數個類別的複數個標籤執行標籤化的結果之標籤資訊,算出該複數個標籤的各個標籤所產生的該複數個樣本的偏差程度,並且產生偏差結果畫面影像,該偏差結果畫面影像顯示該複數個類別,以及該複數個類別的各個類別對應的該偏差程度;以及 顯示部,顯示該偏差結果畫面影像。
- 如請求項12之資訊處理裝置, 其中,在該複數個類別之內,把算出該偏差程度的一個類別作為對象類別時,該偏差程度是由被分類到該對象類別的樣本,與被分類到扣掉該對象類別以外的該複數個類別的樣本間的相似度的代表值,減去被分類到該對象類別的樣本間的相似度的代表值而算出。
- 如請求項12之資訊處理裝置, 其中,在該複數個類別之內,把算出該偏差程度的一個類別作為對象類別時,該偏差程度是由被分類到該對象類別的樣本,與被分類到扣掉該對象類別以外的該複數個類別的樣本間的相似度的代表值,加上被分類到包含該對象類別在內的相同類別的樣本間的相似度的代表值而算出。
- 一種電腦可讀取記錄媒體,記錄有程式,該程式用以使電腦執行以下步驟: 產生相似度矩陣,該相似度矩陣包含了從包含有複數個樣本的資料集當中,依照該複數個樣本排列的順序橫向排列的複數個列,以及依照該順序縱向排列的複數個行;而且在該複數個列之內的一列與該複數個行之內的一行所特定出的一欄當中,儲存有該一列對應的樣本與該一行對應的樣本間的相似度之步驟; 對該複數個樣本的各個樣本,參照表示各個樣本使用了包含有複數個類別的複數個標籤執行標籤化的結果之標籤資訊,調整該相似度矩陣當中的該順序,使得該複數個樣本排在對象標籤當中的該複數個類別的每個類別,藉以產生調整相似度矩陣,該對象標籤即為從該複數個標籤當中指定的標籤之步驟;以及 產生評價畫面影像,該評價畫面影像將該調整相似度矩陣的各個欄,以該相似度相應的明度來表示之步驟。
- 一種電腦可讀取記錄媒體,記錄有程式,該程式用以使電腦執行以下步驟: 對資料集當中包含的複數個樣本的各個樣本,參照表示各個樣本使用了包含有複數個類別的複數個標籤執行標籤化的結果之標籤資訊,算出該複數個標籤的各個標籤所產生的該複數個樣本的偏差程度,並且產生偏差結果畫面影像,該偏差結果畫面影像顯示該複數個標籤當中包含的至少一個標籤,以及該至少一個標籤對應的該偏差程度之步驟;以及 顯示該偏差結果畫面影像之步驟。
- 一種電腦可讀取記錄媒體,記錄有程式,該程式用以使電腦執行以下步驟: 對資料集當中包含的複數個樣本的各個樣本,參照表示各個樣本使用了包含有複數個類別的複數個標籤執行標籤化的結果之標籤資訊,算出該複數個標籤的各個標籤所產生的該複數個樣本的偏差程度,並且產生偏差結果畫面影像,該偏差結果畫面影像顯示該複數個類別,以及該複數個類別的各個類別對應的該偏差程度之步驟;以及 顯示該偏差結果畫面影像之步驟。
- 一種程式產品,內藏有程式,該程式用以使電腦執行以下步驟: 產生相似度矩陣,該相似度矩陣包含了從包含有複數個樣本的資料集當中,依照該複數個樣本排列的順序橫向排列的複數個列,以及依照該順序縱向排列的複數個行;而且在該複數個列之內的一列與該複數個行之內的一行所特定出的一欄當中,儲存有該一列對應的樣本與該一行對應的樣本間的相似度之步驟; 對該複數個樣本的各個樣本,參照表示各個樣本使用了包含有複數個類別的複數個標籤執行標籤化的結果之標籤資訊,調整該相似度矩陣當中的該順序,使得該複數個樣本排在對象標籤當中的該複數個類別的每個類別,藉以產生調整相似度矩陣,該對象標籤即為從該複數個標籤當中指定的標籤之步驟;以及 產生評價畫面影像,該評價畫面影像將該調整相似度矩陣的各個欄,以該相似度相應的明度來表示之步驟。
- 一種程式產品,內藏有程式,該程式用以使電腦執行以下步驟: 對資料集當中包含的複數個樣本的各個樣本,參照表示各個樣本使用了包含有複數個類別的複數個標籤執行標籤化的結果之標籤資訊,算出該複數個標籤的各個標籤所產生的該複數個樣本的偏差程度,並且產生偏差結果畫面影像,該偏差結果畫面影像顯示該複數個標籤當中包含的至少一個標籤,以及該至少一個標籤對應的該偏差程度之步驟;以及 顯示該偏差結果畫面影像之步驟。
- 一種程式產品,內藏有程式,該程式用以使電腦執行以下步驟: 對資料集當中包含的複數個樣本的各個樣本,參照表示各個樣本使用了包含有複數個類別的複數個標籤執行標籤化的結果之標籤資訊,算出該複數個標籤的各個標籤所產生的該複數個樣本的偏差程度,並且產生偏差結果畫面影像,該偏差結果畫面影像顯示該複數個類別,以及該複數個類別的各個類別對應的該偏差程度之步驟;以及 顯示該偏差結果畫面影像之步驟。
- 一種資訊處理方法,包含: 產生相似度矩陣,該相似度矩陣包含了從包含有複數個樣本的資料集當中,依照該複數個樣本排列的順序橫向排列的複數個列,以及依照該順序縱向排列的複數個行;而且在該複數個列之內的一列與該複數個行之內的一行所特定出的一欄當中,儲存有該一列對應的樣本與該一行對應的樣本間的相似度; 對該複數個樣本的各個樣本,參照表示各個樣本使用了包含有複數個類別的複數個標籤執行標籤化的結果之標籤資訊,調整該相似度矩陣當中的該順序,使得該複數個樣本排在對象標籤當中的該複數個類別的每個類別,藉以產生調整相似度矩陣,該對象標籤即為從該複數個標籤當中指定的標籤; 產生評價畫面影像,該評價畫面影像將該調整相似度矩陣的各個欄,以該相似度相應的明度來表示;以及 顯示該評價畫面影像。
- 一種資訊處理方法,包含: 對資料集當中包含的複數個樣本的各個樣本,參照表示各個樣本使用了包含有複數個類別的複數個標籤執行標籤化的結果之標籤資訊,算出該複數個標籤的各個標籤所產生的該複數個樣本的偏差程度,並且產生偏差結果畫面影像,該偏差結果畫面影像顯示該複數個標籤當中包含的至少一個標籤,以及該至少一個標籤對應的該偏差程度;以及 顯示該偏差結果畫面影像。
- 一種資訊處理方法,包含: 對資料集當中包含的複數個樣本的各個樣本,參照表示各個樣本使用了包含有複數個類別的複數個標籤執行標籤化的結果之標籤資訊,算出該複數個標籤的各個標籤所產生的該複數個樣本的偏差程度,並且產生偏差結果畫面影像,該偏差結果畫面影像顯示該複數個類別,以及該複數個類別的各個類別對應的該偏差程度;以及 顯示該偏差結果畫面影像。
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
PCT/JP2020/011066 WO2021181654A1 (ja) | 2020-03-13 | 2020-03-13 | 情報処理装置、プログラム及び情報処理方法 |
WOPCT/JP2020/011066 | 2020-03-13 |
Publications (2)
Publication Number | Publication Date |
---|---|
TW202134922A true TW202134922A (zh) | 2021-09-16 |
TWI807214B TWI807214B (zh) | 2023-07-01 |
Family
ID=77671066
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
TW109129093A TWI807214B (zh) | 2020-03-13 | 2020-08-26 | 資訊處理裝置、記錄媒體、程式產品以及資訊處理方法 |
Country Status (7)
Country | Link |
---|---|
US (1) | US20220383147A1 (zh) |
JP (1) | JP7130153B2 (zh) |
KR (1) | KR102552786B1 (zh) |
CN (1) | CN115280307A (zh) |
DE (1) | DE112020006501T5 (zh) |
TW (1) | TWI807214B (zh) |
WO (1) | WO2021181654A1 (zh) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114286088A (zh) * | 2021-12-21 | 2022-04-05 | 长沙景嘉微电子股份有限公司 | 应用于图形处理器的视频花屏检测方法、设备、存储介质 |
Family Cites Families (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2005108111A (ja) | 2003-10-01 | 2005-04-21 | Research Organization Of Information & Systems | グループ間分別項目決定方法および同方法を実行するためのプログラム |
US8650138B2 (en) * | 2008-11-26 | 2014-02-11 | Nec Corporation | Active metric learning device, active metric learning method, and active metric learning program |
JP2015225637A (ja) | 2014-05-30 | 2015-12-14 | アズビル株式会社 | 相関分析装置、相関分析方法、および相関分析用プログラム |
JP6977715B2 (ja) | 2016-04-11 | 2021-12-08 | ソニーグループ株式会社 | 情報処理装置、及び情報処理方法 |
TWI682368B (zh) * | 2018-07-03 | 2020-01-11 | 緯創資通股份有限公司 | 利用多維度感測器資料之監控系統及監控方法 |
-
2020
- 2020-03-13 KR KR1020227030270A patent/KR102552786B1/ko active IP Right Grant
- 2020-03-13 JP JP2021571818A patent/JP7130153B2/ja active Active
- 2020-03-13 CN CN202080097931.1A patent/CN115280307A/zh active Pending
- 2020-03-13 WO PCT/JP2020/011066 patent/WO2021181654A1/ja active Application Filing
- 2020-03-13 DE DE112020006501.4T patent/DE112020006501T5/de active Pending
- 2020-08-26 TW TW109129093A patent/TWI807214B/zh active
-
2022
- 2022-08-05 US US17/882,296 patent/US20220383147A1/en active Pending
Also Published As
Publication number | Publication date |
---|---|
CN115280307A (zh) | 2022-11-01 |
WO2021181654A1 (ja) | 2021-09-16 |
KR20220127347A (ko) | 2022-09-19 |
DE112020006501T5 (de) | 2022-11-17 |
US20220383147A1 (en) | 2022-12-01 |
TWI807214B (zh) | 2023-07-01 |
JPWO2021181654A1 (zh) | 2021-09-16 |
KR102552786B1 (ko) | 2023-07-06 |
JP7130153B2 (ja) | 2022-09-02 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP6555061B2 (ja) | クラスタリングプログラム、クラスタリング方法、および情報処理装置 | |
KR101102004B1 (ko) | 3차원 입체 영상에 대한 피로도를 정량화하는 방법 및시스템 | |
JP2016062544A (ja) | 情報処理装置、プログラム、及び情報処理方法 | |
CN114730451A (zh) | 使用纹理分析进行图像质量(iq)标准化和系统健康预测的磁共振(mr)图像伪影确定 | |
US10642818B2 (en) | Causal analysis device, causal analysis method, and non-transitory computer readable storage medium | |
JP5995756B2 (ja) | 欠陥検出装置、欠陥検出方法および欠陥検出プログラム | |
TW202134922A (zh) | 資訊處理裝置、記錄媒體、程式產品以及資訊處理方法 | |
CN116664551A (zh) | 基于机器视觉的显示屏检测方法、装置、设备及存储介质 | |
JP6763673B2 (ja) | 教師データ作成支援装置、画像分類装置、教師データ作成支援方法および画像分類方法 | |
US9779524B2 (en) | Visualization that indicates event significance represented by a discriminative metric computed using a contingency calculation | |
US20230055892A1 (en) | Data processing apparatus, data processing method, and storage medium storing program | |
JP6968241B1 (ja) | 情報処理装置、情報処理方法およびプログラム | |
JP2007122682A (ja) | 故障品類似製品の抽出方法および抽出システム | |
US11886513B2 (en) | Data analysis system, data analysis method, and computer program product | |
CN112513892B (zh) | 信息处理装置、计算机可读的记录介质及信息处理方法 | |
JP2010218303A (ja) | Gui評価結果提示装置、gui評価結果提示方法およびgui評価結果提示プログラム | |
KR20180097281A (ko) | 반도체 결함 시각화 방법 및 시스템 | |
JP7003334B2 (ja) | 情報処理装置、プログラム及び情報処理方法 | |
CN113870255B (zh) | Mini LED产品缺陷检测方法及相关设备 | |
WO2022172468A1 (ja) | 画像検査装置、画像検査方法及び学習済みモデル生成装置 | |
RU2756156C1 (ru) | Способ определения смещения срединных структур головного мозга по изображениям компьютерной томографии | |
WO2022172470A1 (ja) | 画像検査装置、画像検査方法及び学習済みモデル生成装置 | |
AU2021316176B2 (en) | Techniques for analyzing and detecting executional artifacts in microwell plates | |
US20220028061A1 (en) | Techniques for analyzing and detecting executional artifacts in microwell plates | |
Paulo et al. | Brain Age Prediction Based on Head Computed Tomography Segmentation |