TWI794157B - 自動多閾值特徵過濾方法及裝置 - Google Patents

自動多閾值特徵過濾方法及裝置 Download PDF

Info

Publication number
TWI794157B
TWI794157B TW106104931A TW106104931A TWI794157B TW I794157 B TWI794157 B TW I794157B TW 106104931 A TW106104931 A TW 106104931A TW 106104931 A TW106104931 A TW 106104931A TW I794157 B TWI794157 B TW I794157B
Authority
TW
Taiwan
Prior art keywords
feature
iteration
dimension
filtering
correlation value
Prior art date
Application number
TW106104931A
Other languages
English (en)
Other versions
TW201734840A (zh
Inventor
瞿神全
周俊
崔卿
丁永明
Original Assignee
香港商阿里巴巴集團服務有限公司
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 香港商阿里巴巴集團服務有限公司 filed Critical 香港商阿里巴巴集團服務有限公司
Publication of TW201734840A publication Critical patent/TW201734840A/zh
Application granted granted Critical
Publication of TWI794157B publication Critical patent/TWI794157B/zh

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q30/00Commerce
    • G06Q30/02Marketing; Price estimation or determination; Fundraising
    • G06Q30/0241Advertisements
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9535Search customisation based on user profiles and personalisation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/211Selection of the most significant subset of features
    • G06F18/2113Selection of the most significant subset of features by ranking or filtering the set of features, e.g. using a measure of variance or of feature cross-correlation

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Databases & Information Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Software Systems (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Business, Economics & Management (AREA)
  • Medical Informatics (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Accounting & Taxation (AREA)
  • Development Economics (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Finance (AREA)
  • Evolutionary Biology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Strategic Management (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Marketing (AREA)
  • Game Theory and Decision Science (AREA)
  • Economics (AREA)
  • General Business, Economics & Management (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Image Analysis (AREA)

Abstract

本發明揭示了一種自動多閾值特徵過濾方法及裝置,所述特徵過濾方法在機器學習模型訓練的迭代過程中,根據上一輪迭代的結果來計算本輪迭代的特徵過濾閾值及特徵相關值,並根據計算得到的特徵過濾閾值和特徵相關值,對樣本進行特徵過濾。本發明的特徵過濾裝置包括計算模組和特徵過濾模組。本發明的方法及裝置在每一輪迭代時,都能自動生成不同的特徵過濾閾值,極大地提高了過濾閾值的精準度,與現有固定單一閾值相比,能極大地提高機器自動學習的訓練速度和機器學習模型的準確度。

Description

自動多閾值特徵過濾方法及裝置
本發明係有關人工智慧技術領域,尤其有關一種自動多閾值特徵過濾方法及裝置。
超大規模機器學習演算法是當前互聯網公司實現搜索查詢結果排序、互聯網廣告點擊率預測、商品個性化推薦、語音識別、智慧問答等系統的基礎技術支持。不斷擴大的資料規模在提升演算法應用效果的同時,也對大規模資料處理帶來了極大的理論和工程實踐的挑戰。高效的資料處理成為互聯網大資料應用的核心技術。
互聯網資料通常都非常稀疏,所以在使用互聯網資料對機器學習模型進行訓練後,會得到稀疏模型,而且稀疏模型方便後續儲存和預測。在極度稀疏的互聯網資料訓練中應用高效的特徵過濾演算法,可以有效地去除不相關的特徵和冗餘特徵,提高學習演算法的泛化性能和運行效率,對於訓練機器學習模型具有較大的幫助。
互聯網公司用於機器學習模型訓練的大規模資料,一般由若干樣本資料組成,每個樣本由固定數目的特徵集合 組成。以下是一個例子:一個樣本特徵:{feature_1,feature_2,...,feature_n};由於互聯網大資料樣本特徵非常稀疏,大部分特徵(feature)都是0,所以可以應用某種機制把某些特徵過濾掉,不參與後續的模型訓練,這樣將會極大的提升機器學習模型的訓練效率。
現有的特徵過濾方法通常透過人工設定一個固定的閾值來進行過濾,例如:設定一個固定的過濾閾值r;根據樣本資料而算得梯度g;根據某維梯度值gi和其他模型參數而算得一個值x,比較x與r的大小,如果x小於r則過濾掉該維特徵。
可見現有的特徵過濾方法中用於過濾的閾值需要人工指定,所以過濾的效果強依賴人的經驗,過濾效果不穩定,因為過濾的閾值不能根據樣本資料而自動調整,導致訓練得到的模型預測精度降低;並且閾值只有一個而且是固定的,不能根據訓練的情況而動態調整閾值,所以不能很好地過濾所有特徵。由於閾值的大小不好確定,如果閾值選擇不好,會導致訓練得到的機器學習模型不可靠,預測精度降低。
本發明的目的是提供一種自動多閾值特徵過濾方法及裝置,以解決現有技術的特徵過濾方法只能使用固定閾值 來進行特徵過濾,造成訓練效率不高及訓練得到的機器學習模型不夠精確的問題。
為了實現上述目的,本發明技術方案如下:一種自動多閾值特徵過濾方法,用以在機器學習模型訓練時對樣本資料進行特徵過濾,所述特徵過濾方法包括:根據上一輪迭代的結果來計算本輪迭代的特徵過濾閾值及特徵相關值;根據計算得到的特徵過濾閾值和特徵相關值,對樣本進行特徵過濾。
進一步地,所述特徵過濾閾值為樣本資料中各維度特徵在上一輪迭代時得到的梯度中最大梯度與樣本資料數量的比值。
進一步地,所述根據上一輪迭代的結果來計算本輪迭代的特徵相關值,包括:根據上一輪迭代的結果來計算本輪迭代樣本資料各維度特徵的梯度;根據各維度特徵的梯度來計算對應的特徵相關值。
進一步地,所述各維度特徵的特徵相關值為各維度的梯度的線性函數。
進一步地,所述根據計算得到的特徵過濾閾值和特徵相關值,對樣本進行特徵過濾,包括:如果各維度特徵相關值小於本維度特徵過濾閾值,則本維特徵被過濾掉,不參與後續迭代計算,否則保留本維 特徵,繼續參與後續迭代計算。
本發明同時提出了一種自動多閾值特徵過濾裝置,用以在機器學習模型訓練時對樣本資料進行特徵過濾,所述特徵過濾裝置包括:計算模組,用以根據上一輪迭代的結果來計算本輪迭代的特徵過濾閾值及特徵相關值;特徵過濾模組,用以根據計算得到的特徵過濾閾值和特徵相關值,對樣本進行特徵過濾。
進一步地,所述特徵過濾閾值為樣本資料中各維度特徵在上一輪迭代時得到的梯度中最大梯度與樣本資料數量的比值。
進一步地,所述計算模組在根據上一輪迭代的結果來計算本輪迭代的特徵相關值時,執行如下步驟:根據上一輪迭代的結果來計算本輪迭代樣本資料各維度特徵的梯度;根據各維度特徵的梯度來計算對應的特徵相關值。
進一步地,所述各維度特徵的特徵相關值為各維度的梯度的線性函數。
進一步地,所述特徵過濾模組根據計算得到的特徵過濾閾值和特徵相關值,對樣本進行特徵過濾,執行如下步驟:如果各維度特徵相關值小於本維度特徵過濾閾值,則本維特徵被過濾掉,不參與後續迭代計算,否則保留本維特徵,繼續參與後續迭代計算。
本發明提出了一種自動多閾值特徵過濾方法及裝置,突破了現有人工設定單閾值來進行特徵過濾的方式,可以根據每批樣本資料的迭代結果而自動計算出多個閾值來過濾特徵,極大的提升了訓練速度和訓練得到的機器學習模型的精準度。
圖1為本發明自動多閾值特徵過濾方法流程圖;圖2為本發明自動多閾值特徵過濾裝置結構示意圖。
下面結合附圖和實施例對本發明技術方案做進一步詳細說明,以下實施例不構成對本發明的限定。
互聯網業務中有大量原始用戶資料,比如在廣告點擊和商品推薦業務中為了提升點擊率和商品推薦的精度會使用大量原始樣本資料來訓練一個機器學習模型。樣本資料有多維特徵,比如價格、商品類目等,這些特徵對效果的提升不一樣,有的特徵可能對效果沒有提升作用,可以把這個特徵過濾掉,而有效果的特徵會保留下來,這些保留下來的特徵最後透過訓練會得到不同的權重,這些權重就是得到的機器學習模型對應的模型參數。在機器學習模型的訓練過程中,需要透過不斷迭代計算來得到機器學習模型對應的模型參數。本發明的總體思路就是在機器學習模型訓練的每一輪迭代的過程中,根據當前模型參數來計算 特徵過濾值,並使用計算得到的特徵過濾值來進行特徵過濾。
如圖1所示,本實施例自動多閾值特徵過濾方法,包括:
步驟S1、根據上一輪迭代的結果來計算本輪迭代的特徵過濾閾值及特徵相關值。
本實施例以一個典型的機器學習過程為例,假設機器學習模型的估計函數為:h θ (x)=θ 0+θ 1 x 1+…+θ n x n 公式1
其中,θ為模型參數,x為樣本特徵,兩者皆為向量,x i 為第i維特徵。
在機器學習中還定義了損失函數J(θ)來評估θ是否比較好,調整θ以使得J(θ)取得最小值。為了達到這個目的,需要根據最小二乘法或梯度下降法來進行迭代直到最終收斂取得一個θ值使得J(θ)最小為止。
本實施例以梯度下降法為例,計算第k輪梯度g k 的公式如下:
Figure 106104931-A0202-12-0006-4
關於機器學習模型的訓練過程以及梯度下降方法這裏不再贅述,本實施例利用上述過程中迭代結果來計算特徵過濾閾值。具體計算方法如下:假設第k輪迭代的特徵過濾閾值為r k ,則:
Figure 106104931-A0202-12-0006-1
其中,l為樣本數量,g (k-1)i 為第k-1輪第i維特徵對應的梯度值。
需要說明的是,本實施例根據原始樣本資料樣本數量l以及梯度g k 計算出特徵過濾閾值r k ,該計算可以採用多種演算法來實現,並不依賴某種特定的演算法。例如還可以根據梯度g k 以及樣本特徵的維度來進行計算,或者是根據梯度g k 以及樣本特徵的顯著性參數來進行計算,這裏不一一贅述。
同理,本實施例還需要計算出第k輪第i維特徵對應的特徵相關值s ki ,計算公式如下:s ki =g ki +δ 公式4
其中,δ為固定常數。可見本實施例特徵過濾閾值r k 根據上一輪迭代的梯度g (k-1)i 來計算,而特徵相關值根據本輪的梯度g ki 來計算,各維度特徵的特徵相關值為各維度的梯度的線性函數。
為此,需要根據公式2先計算出本輪迭代的梯度g k ,關於梯度的計算,這裏不再贅述。在第一輪迭代的時候,由於沒有上一輪的梯度資料,不進行特徵過濾。
需要說明的是,本實施例特徵過濾閾值與特徵相關值的計算參數需要統一,即特徵過濾閾值根據梯度來計算,則特徵相關值也根據梯度來計算,但是具體的計算公式根據訓練模型的不同,可以設計的不一樣,即使是訓練相同模型也可以設計的不一樣。比如在邏輯斯特回歸(LR)模型訓練中,固定閾值過濾特徵的KKT方法,計算相關 值的公式就是:s i =g i +δ。本實施例特徵相關值與此不同之處在於,對每輪迭代計算不同的特徵相關值。本發明並不限於具體的特徵過濾閾值與特徵相關值的計算方法。
步驟S2、根據計算得到的特徵過濾閾值和特徵相關值,對樣本進行特徵過濾。
步驟S1已經計算得到特徵過濾閾值和特徵相關值,本步驟透過比較特徵過濾閾值g ki 和過濾閾值s ki 之間的大小,對樣本進行特徵過濾。具體地說:如果s ki 小於g ki ,則第i維特徵被過濾掉,不參與後續計算,否則保留第i維特徵,繼續參與後續計算。
透過特徵過濾後,原始樣本資料將有部分維度的特徵被過濾掉,過濾完成後的資料將作為新的樣本資料導入系統進行下一輪迭代,直到達到迭代終止條件為止。
需要說明的是,由於特徵過濾閾值g ki 以及樣本資料的每維特徵的特徵相關值s ki 都和梯度g ki 相關,而梯度g ki 是根據樣本資料、損失函數和模型參數而算得的,每輪迭代中的樣本資料和模型參數都不同,因此每輪迭代中算出來的特徵過濾閾值和樣本資料的每維特徵的相關值s ki 都不同。
容易理解的是,隨著迭代次數的增加,被過濾掉的無效特徵會越來越多,每輪迭代中計算出來的特徵過濾閾值也會越來越精確,這會極大地加快訓練的速度。
關於迭代計算的終止條件,根據具體的演算法而定,例如完成上一輪迭代後不再有新的特徵被過濾掉,或者迭 代次數超過設定的最大值,這裏不再贅述。迭代完成後保留下來的特徵最後透過訓練會得到不同的模型參數,根據這些模型參數就得到機器學習模型。
如圖2所示,與上述方法對應地,本實施例同時提出了一種自動多閾值特徵過濾裝置,用以在機器學習模型訓練時對樣本資料進行特徵過濾,該裝置包括:計算模組,用以根據上一輪迭代的結果來計算本輪迭代的特徵過濾閾值及特徵相關值;特徵過濾模組,用以根據計算得到的特徵過濾閾值和特徵相關值,對樣本進行特徵過濾。
在本實施例中,特徵過濾閾值為樣本資料中各維度特徵在上一輪迭代時得到的梯度中最大梯度與樣本資料數量的比值。計算模組根據上一輪迭代的結果來計算本輪迭代的特徵過濾閾值及特徵相關值,其中,計算模組在根據上一輪迭代的結果來計算本輪迭代的特徵相關值時,執行如下步驟:根據上一輪迭代的結果來計算本輪迭代樣本資料各維度特徵的梯度;根據各維度特徵的梯度來計算對應的特徵相關值。
本實施例第k輪第i維特徵對應的特徵相關值s ki 根據公式4來進行計算,各維度特徵的特徵相關值為各維度的梯度的線性函數。
在本實施例中,特徵過濾模組根據計算得到的特徵過濾閾值和特徵相關值,對樣本進行特徵過濾,執行如下步 驟:如果各維度特徵相關值小於本維度特徵過濾閾值,則本維特徵被過濾掉,不參與後續迭代計算,否則保留本維特徵,繼續參與後續迭代計算。
以上實施例僅用以說明本發明的技術方案而非對其進行限制,在不背離本發明精神及其實質的情況下,熟悉本領域的技術人員當可根據本發明作出各種相應的改變和變形,但這些相應的改變和變形都應屬於本發明所附的申請專利範圍的保護範圍。

Claims (2)

  1. 一種自動多閾值特徵過濾方法,用以在機器學習模型訓練時對樣本資料進行特徵過濾,該樣本資料包括互聯網業務中的原始用戶資料,其特徵在於,該特徵過濾方法包括:根據上一輪迭代的結果來計算本輪迭代的特徵過濾閾值及特徵相關值;以及根據計算得到的特徵過濾閾值和特徵相關值,對樣本進行特徵過濾,其中,如果各維度特徵相關值小於本維度特徵過濾閾值,則本維度特徵被過濾掉,不參與後續迭代計算,否則保留本維度特徵,繼續參與後續迭代計算,其中,該特徵過濾閾值為樣本資料中各維度特徵在上一輪迭代時得到的梯度中最大梯度與樣本資料數量的比值,其中,該根據上一輪迭代的結果來計算本輪迭代的特徵相關值,包括:根據上一輪迭代的結果來計算本輪迭代樣本資料各維度特徵的梯度;以及根據各維度特徵的梯度來計算對應的特徵相關值,並且其中,該各維度特徵的特徵相關值為各維度的梯度的線性函數。
  2. 一種自動多閾值特徵過濾裝置,用以在機器學習模型訓練時對樣本資料進行特徵過濾,該樣本資料包括互聯網業務中的原始用戶資料,其特徵在於,該特徵過濾裝置包括:計算模組,用以根據上一輪迭代的結果來計算本輪迭代的特徵過濾閾值及特徵相關值;以及特徵過濾模組,用以根據計算得到的特徵過濾閾值和特徵相關值,對樣本進行特徵過濾,其中,如果各維度特徵相關值小於本維度特徵過濾閾值,則本維度特徵被過濾掉,不參與後續迭代計算,否則保留本維度特徵,繼續參與後續迭代計算,其中,該特徵過濾閾值為樣本資料中各維度特徵在上一輪迭代時得到的梯度中最大梯度與樣本資料數量的比值,其中,該計算模組在根據上一輪迭代的結果來計算本輪迭代的特徵相關值時,執行如下步驟:根據上一輪迭代的結果來計算本輪迭代樣本資料各維度特徵的梯度;以及根據各維度特徵的梯度來計算對應的特徵相關值,並且其中,該各維度特徵的特徵相關值為各維度的梯度的線性函數。
TW106104931A 2016-03-17 2017-02-15 自動多閾值特徵過濾方法及裝置 TWI794157B (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
CN201610154296.1 2016-03-17
CN201610154296.1A CN107203891A (zh) 2016-03-17 2016-03-17 一种自动多阀值特征过滤方法及装置

Publications (2)

Publication Number Publication Date
TW201734840A TW201734840A (zh) 2017-10-01
TWI794157B true TWI794157B (zh) 2023-03-01

Family

ID=59850590

Family Applications (1)

Application Number Title Priority Date Filing Date
TW106104931A TWI794157B (zh) 2016-03-17 2017-02-15 自動多閾值特徵過濾方法及裝置

Country Status (5)

Country Link
US (1) US11544618B2 (zh)
JP (1) JP6890607B2 (zh)
CN (1) CN107203891A (zh)
TW (1) TWI794157B (zh)
WO (1) WO2017157183A1 (zh)

Families Citing this family (24)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10609475B2 (en) 2014-12-05 2020-03-31 Stages Llc Active noise control and customized audio system
US10331802B2 (en) 2016-02-29 2019-06-25 Oracle International Corporation System for detecting and characterizing seasons
US10699211B2 (en) 2016-02-29 2020-06-30 Oracle International Corporation Supervised method for classifying seasonal patterns
US10867421B2 (en) 2016-02-29 2020-12-15 Oracle International Corporation Seasonal aware method for forecasting and capacity planning
US10885461B2 (en) 2016-02-29 2021-01-05 Oracle International Corporation Unsupervised method for classifying seasonal patterns
US10198339B2 (en) 2016-05-16 2019-02-05 Oracle International Corporation Correlation-based analytic for time-series data
US10635563B2 (en) 2016-08-04 2020-04-28 Oracle International Corporation Unsupervised method for baselining and anomaly detection in time-series data for enterprise systems
US11082439B2 (en) 2016-08-04 2021-08-03 Oracle International Corporation Unsupervised method for baselining and anomaly detection in time-series data for enterprise systems
US10945080B2 (en) 2016-11-18 2021-03-09 Stages Llc Audio analysis and processing system
US10949436B2 (en) 2017-02-24 2021-03-16 Oracle International Corporation Optimization for scalable analytics using time series models
US10915830B2 (en) 2017-02-24 2021-02-09 Oracle International Corporation Multiscale method for predictive alerting
US10817803B2 (en) * 2017-06-02 2020-10-27 Oracle International Corporation Data driven methods and systems for what if analysis
US10997517B2 (en) 2018-06-05 2021-05-04 Oracle International Corporation Methods and systems for aggregating distribution approximations
US10963346B2 (en) 2018-06-05 2021-03-30 Oracle International Corporation Scalable methods and systems for approximating statistical distributions
US11138090B2 (en) 2018-10-23 2021-10-05 Oracle International Corporation Systems and methods for forecasting time series with variable seasonality
US11526778B2 (en) * 2018-12-19 2022-12-13 T-Mobile Usa, Inc. Future user device preference prediction based on telecom data
US10855548B2 (en) 2019-02-15 2020-12-01 Oracle International Corporation Systems and methods for automatically detecting, summarizing, and responding to anomalies
US11533326B2 (en) 2019-05-01 2022-12-20 Oracle International Corporation Systems and methods for multivariate anomaly detection in software monitoring
US11537940B2 (en) 2019-05-13 2022-12-27 Oracle International Corporation Systems and methods for unsupervised anomaly detection using non-parametric tolerance intervals over a sliding window of t-digests
US11887015B2 (en) 2019-09-13 2024-01-30 Oracle International Corporation Automatically-generated labels for time series data and numerical lists to use in analytic and machine learning systems
CN110825966B (zh) * 2019-10-31 2022-03-04 广州市百果园信息技术有限公司 一种信息推荐的方法、装置、推荐服务器和存储介质
JP2021197108A (ja) 2020-06-18 2021-12-27 富士通株式会社 学習プログラム、学習方法および情報処理装置
JP2022007168A (ja) 2020-06-25 2022-01-13 富士通株式会社 学習プログラム、学習方法および情報処理装置
TWI790769B (zh) * 2021-10-07 2023-01-21 宏碁股份有限公司 電子郵件備份方法與電子郵件管理系統

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102629305A (zh) * 2012-03-06 2012-08-08 上海大学 一种面向snp数据的特征选择方法
CN103955714A (zh) * 2014-04-09 2014-07-30 中国科学院信息工程研究所 基于水军检测模型构建方法和系统及水军检测方法
CN104616031A (zh) * 2015-01-22 2015-05-13 哈尔滨工业大学深圳研究生院 迁移学习方法及装置

Family Cites Families (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20050281457A1 (en) * 2004-06-02 2005-12-22 Murat Dundar System and method for elimination of irrelevant and redundant features to improve cad performance
CN100389429C (zh) * 2006-06-01 2008-05-21 北京中星微电子有限公司 应用于模式识别的基于AdaBoost的特征抽取方法
JP5207870B2 (ja) * 2008-08-05 2013-06-12 日立コンピュータ機器株式会社 次元削減方法、パターン認識用辞書生成装置、及びパターン認識装置
KR100974900B1 (ko) * 2008-11-04 2010-08-09 한국전자통신연구원 동적 임계값을 이용한 마커 인식 장치 및 방법
JP2014160457A (ja) * 2013-02-20 2014-09-04 Nec Corp 対話的変数選択装置、対話的変数選択方法および対話的変数選択プログラム
US20150206069A1 (en) * 2014-01-17 2015-07-23 Matthew BEERS Machine learning-based patent quality metric
US10540606B2 (en) * 2014-06-30 2020-01-21 Amazon Technologies, Inc. Consistent filtering of machine learning data
CN104504373A (zh) * 2014-12-18 2015-04-08 电子科技大学 一种用于fmri数据的特征选择方法
US9275347B1 (en) * 2015-10-09 2016-03-01 AlpacaDB, Inc. Online content classifier which updates a classification score based on a count of labeled data classified by machine deep learning
CN105389480B (zh) * 2015-12-14 2018-03-02 深圳大学 多类不平衡基因组学数据迭代集成特征选择方法及系统
WO2017120579A1 (en) * 2016-01-10 2017-07-13 Presenso, Ltd. System and method for validating unsupervised machine learning models

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102629305A (zh) * 2012-03-06 2012-08-08 上海大学 一种面向snp数据的特征选择方法
CN103955714A (zh) * 2014-04-09 2014-07-30 中国科学院信息工程研究所 基于水军检测模型构建方法和系统及水军检测方法
CN104616031A (zh) * 2015-01-22 2015-05-13 哈尔滨工业大学深圳研究生院 迁移学习方法及装置

Also Published As

Publication number Publication date
JP2019513265A (ja) 2019-05-23
JP6890607B2 (ja) 2021-06-18
TW201734840A (zh) 2017-10-01
CN107203891A (zh) 2017-09-26
US20190042982A1 (en) 2019-02-07
US11544618B2 (en) 2023-01-03
WO2017157183A1 (zh) 2017-09-21

Similar Documents

Publication Publication Date Title
TWI794157B (zh) 自動多閾值特徵過濾方法及裝置
US11829874B2 (en) Neural architecture search
CN110969250B (zh) 一种神经网络训练方法及装置
WO2017219991A1 (zh) 适用于模式识别的模型的优化方法、装置及终端设备
US20180158449A1 (en) Method and device for waking up via speech based on artificial intelligence
WO2022042123A1 (zh) 图像识别模型生成方法、装置、计算机设备和存储介质
WO2015089148A2 (en) Reducing dynamic range of low-rank decomposition matrices
US10747961B2 (en) Method and device for identifying a sentence
CN110929848B (zh) 基于多挑战感知学习模型的训练、跟踪方法
CN110930996B (zh) 模型训练方法、语音识别方法、装置、存储介质及设备
CN108804577B (zh) 一种资讯标签兴趣度的预估方法
CN109871749B (zh) 一种基于深度哈希的行人重识别方法和装置、计算机系统
CN110135681A (zh) 风险用户识别方法、装置、可读存储介质及终端设备
CN113128671B (zh) 一种基于多模态机器学习的服务需求动态预测方法及系统
CN109034953B (zh) 一种电影推荐方法
CN114333062B (zh) 基于异构双网络和特征一致性的行人重识别模型训练方法
CN110019653B (zh) 一种融合文本和标签网络的社交内容表征方法和系统
CN103279581B (zh) 一种利用紧凑视频主题描述子进行视频检索的方法
Huang et al. Transfer learning with efficient convolutional neural networks for fruit recognition
CN112738724B (zh) 一种区域目标人群的精准识别方法、装置、设备和介质
CN107562714B (zh) 一种语句相似度计算方法及装置
CN113887653A (zh) 一种基于三元网络的紧耦合弱监督学习的定位方法及系统
CN111832815A (zh) 科研热点预测方法及系统
CN115481285B (zh) 跨模态的视频文本匹配方法、装置、电子设备及存储介质
CN113160795B (zh) 语种特征提取模型训练方法、装置、设备及存储介质