TW201832070A - 相關變數識別方法和裝置 - Google Patents

相關變數識別方法和裝置 Download PDF

Info

Publication number
TW201832070A
TW201832070A TW106141760A TW106141760A TW201832070A TW 201832070 A TW201832070 A TW 201832070A TW 106141760 A TW106141760 A TW 106141760A TW 106141760 A TW106141760 A TW 106141760A TW 201832070 A TW201832070 A TW 201832070A
Authority
TW
Taiwan
Prior art keywords
variable
target
correlation coefficient
variables
group number
Prior art date
Application number
TW106141760A
Other languages
English (en)
Other versions
TWI662472B (zh
Inventor
曾凡剛
Original Assignee
大陸商平安科技(深圳)有限公司
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 大陸商平安科技(深圳)有限公司 filed Critical 大陸商平安科技(深圳)有限公司
Publication of TW201832070A publication Critical patent/TW201832070A/zh
Application granted granted Critical
Publication of TWI662472B publication Critical patent/TWI662472B/zh

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/23Clustering techniques
    • G06F18/232Non-hierarchical techniques
    • G06F18/2321Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions

Landscapes

  • Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Artificial Intelligence (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Probability & Statistics with Applications (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Testing And Monitoring For Control Systems (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本發明提出一種相關變數識別方法和裝置,該方法包括:獲取相關係數表,該相關係數表中記載多個變數彼此之間的相關係數,查找該相關係數表中相關係數的絕對值大於預設閾值的目標相關係數,並將該目標相關係數進行標記,根據該目標相關係數將相關的多個變數進行聚類歸為同一組,並為該組分配一個唯一的組號,根據分組的組號調整該相關係數表中變數的排列順序,將具有同一組號的多個變數調整為相鄰的變數,將調整後的相關係數表中的具有標記的該目標相關係數進行突出顯示。該方法將多個相關變數聚集在一起,實現快速識別多個相關變數,提高資料建模速度。

Description

相關變數識別方法和裝置
本發明涉及電腦處理領域,特別係涉及一種話題預警的方法和裝置。
在資料建模過程中,當變數彼此高度相關時,即相關係數的絕對值較大時,變數會表現出較強的共線性,此時會造成模型失真。所以在建模過程中,一定會處理變數的相關性,傳統處理相關性只能將兩個變數相關的資料顯示,而三個以上的相關變數則需人工識別,由於處理的資料通常較多,藉由人工識別無疑會耗時耗力,從而降低資料建模的速度。
基於此,有必要針對上述問題,提出一種能夠快速識別相關變數的相關變數識別方法和裝置。
一種相關變數識別方法,該方法包括:獲取待處理的相關係數表,該相關係數表中記載多個變數彼此之間的相關係數;查找該相關係數表中相關係數的絕對值大於預設閾值的相關係數,將該大於預設閾值的相關係數作為目標相關係數,並將該目標相關係數進行標記;根據該目標相關係數將相關的多個變數進行聚類歸為同一組,並為該組分配一個唯一的組號;根據分組的組號調整該相關係數表中變數的排列順序,將具有同一組號的多個變數調整為相鄰的變數;將調整後的相關係數表中具有標記之該目標相關係數進行突出顯示。
一種相關變數識別裝置,該裝置包括:獲取模組,用於獲取待處理的相關係數表,該相關係數表中記載多個變數彼此之間的相關係數;查找模組,用於查找該相關係數表中相關係數的絕對值大於預設閾值的相關係數,將該大於預設閾值的相關係數作為目標相關係數,並將該目標相關係數進行標記;聚類別模組,用於根據該目標相關係數將相關的多個變數進行聚類歸為同一組,並為該組分配一個唯一的組號;調整模組,用於根據分組的組號調整該相關係數表中變數的排列順序,將具有同一組號的多個變數調整為相鄰的變數;顯示模組,用於將調整後的相關係數表中具有標記之該目標相關係數進行突出顯示。
上述相關變數識別方法和裝置,藉由獲取相關係數表,查找相關係數表中相關係數的絕對值大於預設閾值的相關係數,將該大於預設閾值的相關係數作為目標相關係數,根據目標相關係數將相關的多個變數進行聚類歸為同一組,並為該組分配一個唯一的組號,根據分組的組號調整相關係數表中變數的排列順序,將具有同一組號的多個變數調整為相鄰的變數,然後將調整後的相關係數表中具有標記之目標相關係數進行突出顯示,此時,多個相關變數聚集在一起,藉由將相應的目標相關係數進行突出顯示,從而實現快速識別多個相關變數,提高資料建模速度。
為使本發明的目的、技術方案及優點更加清楚明白,下列結合附圖及實施方式,對本發明進行進一步詳細說明。應當理解,此處所描述的具體實施方式僅用以解釋本發明,並不用以限定本發明。
如圖1所示,於一實施例中,終端102之內部結構如圖1所示,包括藉由系統匯流排連接的處理器、記憶體、非易失性存儲介質、網路介面、顯示幕和輸入裝置。其中,該終端102之非易失性存儲介質存儲具有作業系統,進一步包括一種相關變數識別裝置,該相關變數識別裝置用以實現一種相關變數識別方法。該處理器用以提供計算與控制能力,支持整體終端之運行。終端中之記憶體為非易失性存儲介質中之相關變數識別裝置之運行提供環境,該記憶體中存有電腦可讀指令,該電腦可讀指令經處理器執行時,可使處理器執行一種相關變數識別方法。網路介面用於連接到網路進行通訊。該終端102之顯示幕可為液晶顯示幕或電子墨水顯示幕等,輸入裝置可為顯示幕上所覆蓋之觸摸層,亦可為電子設備外殼上所設置之按鍵、軌跡球或觸控板,亦可為外接的鍵盤、觸控板或滑鼠等。該終端可為平板電腦、筆記型電腦、臺式電腦等。本領域技術人員可理解,圖1中所示之結構,僅與本發明相關的部分結構的框圖,並不構成對本申請方案所應用於其上之終端之限定,具體之移動終端可包括比圖中所示更多或更少之部件,或者整合某些部件,或者具有不同的部件配置。
如圖2所示,於一實施例中,提出一種相關變數識別方法,該方法包括:
步驟202,獲取待處理的相關係數表,相關係數表中記載多個變數彼此之間的相關係數。
於本實施例中,於終端中進行資料建模的過程中往往會涉及多個變數,當變數彼此之間的相關性較高時,即變數之間的相關係數的絕對值較大時,變數之間會表現出較強的共線性,容易造成模型失真。為避免模型失真,需要識別出變數相關性比較高的變數進行相應的處理。首先,獲取待處理的相關係數表,其中,相關係數表係預先藉由計算多個變數彼此間之相關性所獲得,於其中記載兩兩變數之間的相關係數,相關係數的絕對值代表兩變數之間的相關性,絕對值越大,說明兩個變數之間的相關性越大。具體而言,為識別出相關性較高的變數,首先,終端根據使用者的指令獲取待處理的相關係數表,相關係數表中記載多個變數彼此間之相關係數,表1為一實施方式中相關係數表的示意圖: 表1
其中,A1,A2,A3,… An表示為各個變數,任兩個變數皆對應一個相關係數,比如,A1和A2對應的相關係數為0.007482(即A1行和A2列對應的值或者A2行和A1列對應的值)。而每一相關係數的絕對值大小代表兩變數彼此之間的相關性,絕對值越大,說明兩個變數之間的相關性越高。
步驟204,查找相關係數表中相關係數的絕對值大於預設閾值的相關係數,將大於預設閾值的相關係數作為目標相關係數,並將目標相關係數進行標記。
於本實施例中,於終端中預先設置相關係數的閾值,兩變數之間的相關係數只有大於該預設閾值才認為兩個變數相關,否則,說明該兩個變數不相關。查找相關係數表中相關係數的絕對值大於預設閾值的相關係數,將查找到的相關係數作為目標相關係數,並將該等目標相關係數進行標記。具體而言,例如,預設閾值設為0.75,只要相關係數的絕對值大於該預設閾值的就說明兩個變數相關。遍歷整個相關係數表,找到所有相關係數的絕對值大於該預設閾值(>0.75)的相關係數,並將該等相關係數作為目標相關係數,然後將該等目標相關係數進行標記,便於後續進行對應的處理。
步驟206,根據目標相關係數將具有相關性的多個變數進行聚類歸為同一組,並為該組分配一個唯一的組號。
於本實施例中,相關係數表中的相關係數代表兩個變數的相關性,只有相關性大於預設閾值,兩個變數才認為相關的,否則為不相關的。故,兩個變數相關定義為:如果相關係數的絕對值大於預設閾值,則對應的兩個變數相關;三個變數相關定義為:如果A和B的相關係數絕對值大於預設閾值,B和C的相關係數絕對值大於預設閾值,則A、B和C相關。意即,三個變數相關並不要求彼此皆相關,僅需兩兩相關的變數具有一個共同的變數即可。即當A和B相關,B和C相關,兩者有共同的變數B就可將三者關聯起來,此時不管A和C的相關係數絕對值是否大於預設閾值,A和B和C皆相關。依此類推,可得到三個以上的變數是否相關。具體而言,由於目標相關係數係指絕對值大於預設閾值的相關係數,所以與目標相關係數對應的兩個變數必然為相關的。兩個相關的變數稱為一對相關變數,若兩對相關變數具有相同的變數,則該兩對中包括的變數皆相關,進一步,若有其他變數與此兩對變數中之任一變數相關,則該其他變數亦與此三個變數相關,依此類推。例如,A和B相關,B和C相關、C和D相關,D和E相關,則A、B、C、D和E該等多個變數相關。於本實施例中,終端藉由聚類將相關的多個變數歸為同一組,即將多個相關的變數分為一組,並為該組分配一個組號,意即,具有相同組號的多個變數相關。
步驟208,根據分組的組號調整相關係數表中變數的排列順序,將具有同一組號的多個變數調整為相鄰的變數。
於本實施例中,終端將相關的多個變數的組號設置為相同後,將具有同一組號的多個變數調整為相鄰的變數,即根據分組的組號重新調整相關係數表中各個變數的排列順序。因此,具有關聯的多個變數就聚集在一起,便於後續可快速識別相關變數。
步驟210,將調整後的相關係數表中具有標記之目標相關係數進行突出顯示。
於本實施例中,將具有同一組號的多個變數調整為相鄰的變數後,將調整後的相關係數表中具有標記之目標相關係數進行突出顯示,圖3B為一實施方式中部分識別結果之示意圖(由於變數數目通常較多,圖3B只顯示部分識別結果),其中,加灰色網底係為目標相關係數,即設置大於0.75的相關係數為目標相關係數。多個目標相關係數聚集在一起所對應的多個變數為相關變數。為將相關的變數聚集在一起,因此打破原有順序排列,使由圖中即可明顯看出多個變數之間的相關性,從而實現快速識別多個相關變數,有利於提高建模過程中的速度,傳統方式只能識別兩個變數相關的資料進行顯示,若要識別三個以上的變數,則需藉由將清單中沒有目標相關係數的行和列隱藏,如3A所示,然後藉由人工識別的方法來找到三個以上的相關變數,如圖3A中所示,目標相關係數分佈較亂,需人工識別三個以上相關變數。
於本實施例中,藉由獲取相關係數表,查找相關係數表中相關係數的絕對值大於預設閾值的目標相關係數,根據目標相關係數將相關的多個變數進行聚類歸為同一組,並為該組分配一個唯一的組號,根據分組的組號調整相關係數表中變數的排列順序,將具有同一組號的多個變數調整為相鄰的變數,然後將調整後的相關係數表中具有標記之目標相關係數進行突出顯示,此時,多個相關變數聚集在一起,藉由將相應的目標相關係數進行突出顯示,從而實現快速識別多個相關變數,從而提高資料建模速度。
如圖4所示,於一實施例中,根據目標相關係數值將相關的多個變數進行聚類歸為同一組,並為該組分配一個唯一的組號的步驟包括:
步驟206A,獲取待聚類的目標變數,判斷目標變數是否已被分組,若已被分組,則進入步驟206B,若未被分組,則進入步驟206C。
於本實施例中,將相關的多個變數採用遍歷的方法進行聚類,首先,確定一待聚類的目標變數,然後找出與此目標變數相關之其他變數。具體而言,將要被聚類的變數稱為目標變數,然後判斷該目標變數是否已被分組,若已被分組,則需根據目標相關係數獲取與目標變數相關的第一變數,因目標相關係數對應的兩個變數為相關變數,因此首先根據目標相關係數獲取與目標變數相關的第一變數,再查找與第一變數組號相同的第二變數,將第一變數和第二變數的組號修改為與目標變數的組號相同。若未被分組,則獲取與目標變數相關的第一變數以及和第一變數組號相同的第二變數,為該目標變數、第一變數和第二變數分配一個新的組號。
步驟206B,根據目標相關係數獲取與目標變數相關的第一變數以及和第一變數組號相同的第二變數,將第一變數和第二變數的組號修改為與目標變數的組號相同。
於本實施例中,若於終端中目標變數已被分組,說明目標變數已有組號,那麼查找與該目標變數相關的第一變數,然後還要查找與該第一變數組號相同的第二變數,第一變數和第二變數組號相同說明兩者已為相關的變數,如此,就可將與目標變數直接相關的第一變數、以及與目標變數間接相關的第二變數全部查找出,從而找到與目標變數相關之所有變數,然後將與該目標變數相關之所有變數的組號修改為與該目標變數的組號相同,即將第一變數和第二變數的組號修改為與目標變數的組號相同。其中,第一變數用來表示與目標變數直接相關的變數,第二變數用來表示藉由第一變數與目標變數相關的變數。第一變數和第二變數分別表示為一類變數,並不用以限制數量。具體而言, 假設目標變數為A,首先,查找與目標變數A相關的第一變數,假設所查找出之第一變數為B、C,然後再查找與第一變數組號相同的第二變數,例如,查找到與B組號相同的為D,與C組號相同的為E,則將B、C、D和E的組號皆設置為與目標變數A的組號相同。
步驟206C,根據目標相關係數獲取與目標變數相關的第一變數以及和第一變數組號相同的第二變數,為目標變數、第一變數和第二變數分配一個新的組號。
於本實施例中,若待聚類的目標變數仍未被分組,則說明該目標變數仍未具有組號,不過,同樣要獲取與該目標變數相關的第一變數,以及和第一變數組號相同的第二變數,然後為該目標變數、第一變數和第二變數分配一個新的組號。具體而言,可依照遞增的順序為該目標變數、第一變數和第二變數分配一個新的組號,例如,若G表示當前的總組數,則分配新的組號為G+1。
如圖5所示,若目標變數未被分組,則獲取與目標變數相關的第一變數以及和第一變數組號相同的第二變數,為目標變數、第一變數和第二變數分配一個新的組號的步驟包括:
步驟502,若目標變數未被分組,則獲取與目標變數相關的第一變數以及和第一變數組號相同的第二變數。
於本實施例中,若目標變數未被分組,說明當前目標變數仍未具有組號,獲取與目標變數相關的第一變數,即根據相關係數獲取與目標變數直接相關的第一變數;當第一變數已被分過組,仍需要獲取與該第一變數組號相同的第二變數。然後為目標變數、第一變數以及第二變數統一分配一個新的組號。
步驟504,將目標變數、第一變數以及第二變數的組號統一賦值為G+1,其中,G表示當前的總組數。
於本實施例中,若變數仍未被分組,則說明變數仍未具有組號,為便於後續可更直觀的看到多個變數之間的關係,採用遞增的順序進行分組,即當目標變數還未被分組,則查找與目標變數相關的第一變數以及和第一變數組號相同的第二變數,然後將目標變數、第一變數以及第二變數的組號統一賦值為G+1,其中,G表示當前的總組數。
於一具體實施方式中,假設有五個變數,A1、A2、A3、A4和A5,若根據相關係數表中的相關係數可知:A1與A2相關、A2和A3相關、A4和A5相關。在開始階段A1、A2、A3、A4和A5皆仍未被分組,採用遍歷聚類的方法,首先,將A1作為目標變數,查找與目標變數A1相關的第一變數,查找到的第一變數只有A2,由於A2此時還未分組,即A2還沒有組號,所以此時不存在與A2組號相同的第二變數,即查找到的與A1相關只有A2,此時,為A1和A2分配一個組號G+1,由於之前沒有組,即 G初始為0,所以分配給A1和A2的組號為1。然後將A2作為目標變數,此時A2已經被分組,同樣的,需要查找與目標變數A2相關的第一變數,查找到的第一變數有A1和A3,然後再分別獲取與第一變數組號相同的第二變數,由於A3還未被分組,所以此時不存在與A3相關的第二變數,而A1已經被分組,而與A1組號相同的只有A2本身,所以,查找到的與A2相關的只有A1和A3,則將A2、A1和A3的組號皆修改為與A2相同,即組號為1,依此類推,藉由該方法將所有相關的變數聚類到同一組,當然不相關的分別在不同的組。
於一實施例中,根據分組的組號調整相關係數表中變數的排列順序,將具有同一組號的多個變數調整為相鄰的變數的步驟包括:將具有同一組號的多個變數調整為相鄰的變數,並根據組號的大小依照由大至小之順序調整相關係數表中變數的排列順序。
於本實施例中,為快速識別相關變數,將具有同一組號的多個變數調整為相鄰的變數,即將同一組號的多個變數聚集在一起,然後根據組號的大小依照由大至小之順序調整相關係數表中變數的排列順序。此便於更有規律識別多個相關變數。
如圖6所示,於一實施方式中,上述相關變數識別方法進一步包括:
步驟212,採用主成分分析由相同組號對應的目標相關係數中篩選出一個代表該組的相關係數。
於本實施例中,終端將調整後的相關係數表中具有標記之目標相關係數進行突出顯示識別出多個相關變數後,為消除共線性,採用主成分分析方法由相同組號對應的多個目標相關係數中篩選出一個代表該組的相關係數,然後根據篩選出的相關係數進行後續的處理,例如,根據篩選出的相關係數建立線性回歸模型等。
如圖7所示,於一實施方式中,提出一種相關變數識別裝置700,該裝置包括:
獲取模組702,用於獲取待處理的相關係數表,相關係數表中記載多個變數彼此之間的相關係數。
查找模組704,用於查找相關係數表中相關係數的絕對值大於預設閾值的相關係數,將大於預設閾值的相關係數作為目標相關係數,並將目標相關係數進行標記。
聚類別模組706,用於根據目標相關係數將相關的多個變數進行聚類歸為同一組,並為該組分配一個唯一的組號。
調整模組708,用於根據分組的組號調整相關係數表中變數的排列順序,將具有同一組號的多個變數調整為相鄰的變數。
顯示模組710,用於將調整後的相關係數表中具有標記之目標相關係數進行突出顯示。
如圖8所示,於一實施方式中,聚類別模組706包括:
判斷模組706A,用於獲取待聚類的目標變數,判斷該目標變數是否已被分組。
組號修改模組706B,用於若目標變數已被分組,則根據目標相關係數獲取與目標變數相關的第一變數以及和第一變數組號相同的第二變數,將第一變數和第二變數的組號修改為與目標變數的組號相同。
組號分配模組706C,用於若目標變數未被分組,則獲取與目標變數相關的第一變數以及和第一變數組號相同的第二變數,為目標變數、第一變數和第二變數分配一個新的組號。
於一實施方式中,組號分配模組進一步用於若目標變數未被分組,則獲取與目標變數相關的第一變數以及和第一變數組號相同的第二變數,按照組號遞增的規則將目標變數、第一變數以及第二變數的組號統一賦值為G+1,其中,G表示當前的總組數。
於一實施方式中,調整模組進一步用於將具有同一組號的多個變數調整為相鄰的變數,並依照組號的大小由大至小之順序調整相關係數表中變數的排列順序。
如圖9所示,於一實施方式中,提出一種相關變數識別裝置900,除了包括該等模組702至模組710之外,進一步包括:
篩選模組712,用於採用主成分分析由相同組號對應的目標相關係數中篩選出一個代表該組的相關係數。
上述相關變數識別裝置中之各個模組可全部或部分透過軟體、硬體及其組合所實現。其中,網路介面可為乙太網卡或無線網卡等。上述各模組可以硬體形式內嵌於或獨立於伺服器中之處理器中,亦可以軟體形式存儲於伺服器中之記憶體中,以便於處理器調用執行以上各個模組對應的操作。該處理器可為中央處理單元(CPU)、微處理器、單片機等。
上述相關變數識別裝置可實現為一種電腦程式的形式,電腦程式可於如圖1所示之電腦設備上運行。
本發明技術領域通常知識者可理解實現上述實施例方法中的全部或部分流程,係可藉由電腦程式指令相關的硬體所完成,該電腦程式可存儲於一電腦可讀取存儲介質中,該程式在執行時,可包括如上述各方法的實施例的流程。其中,前述存儲介質可為磁碟、光碟、唯讀存儲記憶體(Read-Only Memory,ROM)等非易失性存儲介質等。
以上該實施例之各技術特徵可進行任意組合,為使描述簡潔,未對上述實施例中各個技術特徵所有可能的組合均進行描述,然而,只要該等技術特徵之組合不存在矛盾,皆應當認為其係本發明所記載之範圍。
以上實施例僅表達本發明之數種實施方式,其描述較為具體和詳細,但並不能理解為對本發明專利範圍之限制。應當指出,對於本領域之通常知識者3而言,於不脫離本發明構思的前提下,仍可做出若干變化與改良,該等皆屬於本發明的保護範圍。因此,本發明專利之保護範圍應以所附申請專利範圍為準。
102‧‧‧終端
202‧‧‧步驟
204‧‧‧步驟
206‧‧‧步驟
206A‧‧‧步驟
206B‧‧‧步驟
206C‧‧‧步驟
208‧‧‧步驟
210‧‧‧步驟
212‧‧‧步驟
502‧‧‧步驟
504‧‧‧步驟
700‧‧‧相關變數識別裝置
702‧‧‧獲取模組
704‧‧‧查找模組
706‧‧‧聚類別模組
706A‧‧‧判斷模組
706B‧‧‧組號修改模組
706C‧‧‧組號分配模組
708‧‧‧調整模組
710‧‧‧顯示模組
712‧‧‧篩選模組
900‧‧‧相關變數識別裝置
圖1為本發明實施例之終端之內部結構框圖。 圖2為實施方式之相關變數識別方法流程圖。 圖3A為傳統方法的部分識別結果的示意圖。 圖3B為本發明實施例之部分識別結果的示意圖。 圖4為本發明實施例之根據目標相關係數將相關的多個變數聚類為同一組的方法流程圖。 圖5為本發明實施例之若目標變數未被分組則為該目標變數分配組號的方法流程圖。 圖6為本發明實施例另一相關變數識別方法流程圖。 圖7為本發明實施例之相關變數識別裝置的結構框圖。 圖8為本發明實施例之聚類別模組的結構框圖。 圖9為本發明實施例另一相關變數識別裝置的結構框圖。

Claims (10)

  1. 一種相關變數識別方法,該方法包括下列步驟: 獲取待處理的相關係數表,該相關係數表中記載多個變數彼此之間的相關係數; 查找該相關係數表中相關係數的絕對值大於預設閾值的相關係數,將該大於預設閾值的相關係數作為目標相關係數,並將該目標相關係數進行標記; 根據該目標相關係數將相關的多個變數進行聚類歸為同一組,並為該組分配一個唯一的組號; 根據分組的組號調整該相關係數表中變數的排列順序,將具有同一組號的多個變數調整為相鄰的變數; 將調整後的相關係數表中具有標記之該目標相關係數進行突出顯示。
  2. 如請求項1所述之相關變數識別方法,其中,該根據該目標相關係數將相關的多個變數進行聚類歸為同一組,並為該組分配一個唯一的組號的步驟包括: 獲取待聚類的目標變數,判斷該目標變數是否已被分組; 若所述目標變數已被分組,則根據該目標相關係數獲取與該目標變數相關的第一變數以及和該第一變數組號相同的第二變數,將該第一變數和第二變數的組號修改為與該目標變數的組號相同; 若該目標變數未被分組,則根據該目標相關係數獲取與該目標變數相關的第一變數以及和該第一變數組號相同的第二變數,為該目標變數、第一變數和第二變數分配一個新的組號。
  3. 如請求項2所述之相關變數識別方法,其中,該若該目標變數未被分組,則獲取與該目標變數相關的第一變數以及和該第一變數組號相同的第二變數,為該目標變數、第一變數和第二變數分配一個新的組號的步驟包括: 若該目標變數未被分組,則獲取與該目標變數相關的第一變數以及和該第一變數組號相同的第二變數; 按照組號遞增的規則將該目標變數、第一變數以及第二變數的組號統一賦值為G+1,其中,G表示當前的總組數。
  4. 如請求項1所述之相關變數識別方法,其中,該根據分組的組號調整該相關係數表中變數的排列順序,將具有同一組號的多個變數調整為相鄰的變數的步驟包括: 將具有同一組號的多個變數調整為相鄰的變數,並按照組號的大小由大至小之順序調整相關係數表中變數的排列順序。
  5. 如請求項1所述之相關變數識別方法,其中,該方法進一步包括: 採用主成分分析由相同組號對應的目標相關係數中篩選出一個代表該組的相關係數。
  6. 一種相關變數識別裝置,包括: 一獲取模組,用於獲取待處理的相關係數表,該相關係數表中記載多個變數彼此之間的相關係數; 一查找模組,用於查找該相關係數表中相關係數的絕對值大於預設閾值的相關係數,將該大於預設閾值的相關係數作為目標相關係數,並將該目標相關係數進行標記; 一聚類別模組,用於根據該目標相關係數將相關的多個變數進行聚類歸為同一組,並為該組分配一個唯一的組號; 一調整模組,用於根據分組的組號調整該相關係數表中變數的排列順序,將具有同一組號的多個變數調整為相鄰的變數; 一顯示模組,用於將調整後的相關係數表中具有標記之該目標相關係數進行突出顯示。
  7. 如請求項6所述之相關變數識別裝置,其中,該聚類別模組包括: 一判斷模組,用於獲取待聚類的目標變數,判斷該目標變數是否已被分組; 一組號修改模組,用於若該目標變數已被分組,則根據該目標相關係數獲取與該目標變數相關的第一變數以及和該第一變數組號相同的第二變數,將該第一變數和第二變數的組號修改為與該目標變數的組號相同; 一組號分配模組,用於若該目標變數未被分組,則獲取與該目標變數相關的第一變數以及和該第一變數組號相同的第二變數,為該目標變數、第一變數和第二變數分配一個新的組號。
  8. 如請求項7所述之相關變數識別裝置,其中,該組號分配模組進一步用於若該目標變數未被分組,則獲取與該目標變數相關的第一變數以及和該第一變數組號相同的第二變數,按照組號遞增的規則將該目標變數、第一變數以及第二變數的組號統一賦值為G+1,其中,G表示當前的總組數。
  9. 如請求項6所述之相關變數識別裝置,其中,該調整模組進一步用於將具有同一組號的多個變數調整為相鄰的變數,並按照組號的大小由大至小之順序調整相關係數表中變數的排列順序。
  10. 如請求項6所述之相關變數識別裝置,其中,該裝置進一步包括: 一篩選模組,用於採用主成分分析由相同組號對應的目標相關係數中篩選出一個代表該組的相關係數。
TW106141760A 2017-02-17 2017-11-30 相關變數識別方法和裝置 TWI662472B (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
??201710087590.X 2017-02-17
CN201710087590.XA CN106940803B (zh) 2017-02-17 2017-02-17 相关变量识别方法和装置

Publications (2)

Publication Number Publication Date
TW201832070A true TW201832070A (zh) 2018-09-01
TWI662472B TWI662472B (zh) 2019-06-11

Family

ID=59468745

Family Applications (1)

Application Number Title Priority Date Filing Date
TW106141760A TWI662472B (zh) 2017-02-17 2017-11-30 相關變數識別方法和裝置

Country Status (3)

Country Link
CN (1) CN106940803B (zh)
TW (1) TWI662472B (zh)
WO (1) WO2018149084A1 (zh)

Family Cites Families (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7617176B2 (en) * 2004-07-13 2009-11-10 Microsoft Corporation Query-based snippet clustering for search result grouping
WO2007043462A1 (ja) * 2005-10-12 2007-04-19 Tokyo Denki University 脳機能解析方法および脳機能解析プログラム
US20070255512A1 (en) * 2006-04-28 2007-11-01 Delenstarr Glenda C Methods and systems for facilitating analysis of feature extraction outputs
TWI340345B (en) * 2006-08-10 2011-04-11 Uniminer Inc Method for selecting critical variables
JP4368905B2 (ja) * 2007-05-11 2009-11-18 シャープ株式会社 グラフ描画装置および方法、その方法を実行する歩留り解析方法および歩留り向上支援システム、プログラム、並びにコンピュータ読み取り可能な記録媒体
TWI451336B (zh) * 2011-12-20 2014-09-01 Univ Nat Cheng Kung 預測模型之建模樣本的篩選方法及其電腦程式產品
CN103473255A (zh) * 2013-06-06 2013-12-25 中国科学院深圳先进技术研究院 一种数据聚类方法、系统及数据处理设备
CN104252627A (zh) * 2013-06-28 2014-12-31 广州华多网络科技有限公司 Svm分类器训练样本获取方法、训练方法及其系统
CN104281569B (zh) * 2013-07-01 2017-08-01 富士通株式会社 构建装置和方法、分类装置和方法以及电子设备
KR101768438B1 (ko) * 2013-10-30 2017-08-16 삼성에스디에스 주식회사 데이터 분류 장치 및 방법과 이를 이용한 데이터 수집 시스템
CN103699653A (zh) * 2013-12-26 2014-04-02 沈阳航空航天大学 数据聚类方法和装置
CN105956628B (zh) * 2016-05-13 2021-01-26 北京京东尚科信息技术有限公司 数据分类方法和用于数据分类的装置
CN106156791B (zh) * 2016-06-15 2021-03-30 北京京东尚科信息技术有限公司 业务数据分类方法和装置
CN106339354B (zh) * 2016-08-17 2018-11-20 盐城师范学院 基于改进pca的云计算网络中高维数据可视化方法
CN106324405A (zh) * 2016-09-07 2017-01-11 南京工程学院 一种基于改进主成分分析的变压器故障诊断方法

Also Published As

Publication number Publication date
WO2018149084A1 (zh) 2018-08-23
CN106940803A (zh) 2017-07-11
TWI662472B (zh) 2019-06-11
CN106940803B (zh) 2018-04-17

Similar Documents

Publication Publication Date Title
US10310850B2 (en) Methods and systems for determining relevant changes in an API
WO2019019255A1 (zh) 建立预测模型的装置、方法、预测模型建立程序及计算机可读存储介质
WO2019080411A1 (zh) 电子装置、人脸图像聚类搜索方法和计算机可读存储介质
US20150098646A1 (en) Learning user preferences for photo adjustments
JP2016534456A (ja) データを記憶する方法及び装置
TW201610819A (zh) 桌面圖示的分類顯示方法與系統
CN111708931B (zh) 基于移动互联网的大数据采集方法及人工智能云服务平台
US10728297B2 (en) Streaming media play mode determination method and apparatus
JP6178023B2 (ja) モジュール分割支援装置、方法、及びプログラム
US20210182293A1 (en) Candidate projection enumeration based query response generation
WO2019000746A1 (zh) 控件的文字颜色变换方法、系统、电子装置及存储介质
US11361195B2 (en) Incremental update of a neighbor graph via an orthogonal transform based indexing
TWI662472B (zh) 相關變數識別方法和裝置
JP6877959B2 (ja) 情報処理装置及び情報処理プログラム
JP2020525963A (ja) メディア特徴の比較方法及び装置
JP2010072876A (ja) ルール作成プログラム、ルール作成方法及びルール作成装置
US10839519B2 (en) Techniques to improve edge detection for images
CN107959876B (zh) 一种节目编排的方法、装置及电子设备
US8856634B2 (en) Compensating for gaps in workload monitoring data
US10163039B2 (en) Information processing apparatus, method for processing information, and recording medium
US20140325457A1 (en) Searching of line pattern representations using gestures
US20190087481A1 (en) Manufacture parameters grouping and analyzing method, and manufacture parameters grouping and analyzing system
US11727672B1 (en) System and method for generating training data sets for specimen defect detection
CN106055625A (zh) 一种执行业务的方法及装置
CN111712833A (zh) 一种筛选局部特征点的方法及装置