TW201737194A - 網路用戶健康狀況的評價方法、系統及設備 - Google Patents

網路用戶健康狀況的評價方法、系統及設備 Download PDF

Info

Publication number
TW201737194A
TW201737194A TW105129845A TW105129845A TW201737194A TW 201737194 A TW201737194 A TW 201737194A TW 105129845 A TW105129845 A TW 105129845A TW 105129845 A TW105129845 A TW 105129845A TW 201737194 A TW201737194 A TW 201737194A
Authority
TW
Taiwan
Prior art keywords
user
behavior data
network
health
tested
Prior art date
Application number
TW105129845A
Other languages
English (en)
Inventor
Yu Xu
Yin-Zi Ren
Yan Sun
Bang-Yu Xiang
Ya-Guang Liu
jian-wei Yang
Original Assignee
Alibaba Group Services Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Alibaba Group Services Ltd filed Critical Alibaba Group Services Ltd
Publication of TW201737194A publication Critical patent/TW201737194A/zh

Links

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L67/00Network arrangements or protocols for supporting network services or applications
    • H04L67/50Network services
    • H04L67/535Tracking the activity of the user
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H10/00ICT specially adapted for the handling or processing of patient-related medical or healthcare data
    • G16H10/60ICT specially adapted for the handling or processing of patient-related medical or healthcare data for patient-specific data, e.g. for electronic patient records
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/955Retrieval from the web using information identifiers, e.g. uniform resource locators [URL]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/951Indexing; Web crawling techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
    • G06Q50/10Services
    • G06Q50/22Social work or social welfare, e.g. community support activities or counselling services
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H50/00ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
    • G16H50/30ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for calculating health indices; for individual health risk assessment
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H50/00ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
    • G16H50/50ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for simulation or modelling of medical disorders

Landscapes

  • Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Public Health (AREA)
  • Medical Informatics (AREA)
  • Databases & Information Systems (AREA)
  • Primary Health Care (AREA)
  • Theoretical Computer Science (AREA)
  • General Health & Medical Sciences (AREA)
  • Business, Economics & Management (AREA)
  • Epidemiology (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • Physics & Mathematics (AREA)
  • Biomedical Technology (AREA)
  • Tourism & Hospitality (AREA)
  • Pathology (AREA)
  • Human Resources & Organizations (AREA)
  • Strategic Management (AREA)
  • Economics (AREA)
  • Marketing (AREA)
  • General Business, Economics & Management (AREA)
  • General Engineering & Computer Science (AREA)
  • Operations Research (AREA)
  • Quality & Reliability (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Child & Adolescent Psychology (AREA)
  • Computer Hardware Design (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Medical Treatment And Welfare Office Work (AREA)

Abstract

本發明涉及一種網路用戶健康狀況的評價方法、系統及設備。其中,網路用戶健康狀況的評價方法,包括:獲取包括待測用戶在內的多個用戶在設定歷史時期的網路行為資料;基於所述網路行為資料,評價所述待測用戶的健康狀況。本發明基於用戶的網路行為資料評價用戶的健康狀況,開啟了健康狀況評價的新方式,成本低,可行性高,更新快。

Description

網路用戶健康狀況的評價方法、系統及設備
本發明涉及通訊領域,尤其涉及一種網路用戶健康狀況的評價方法、系統及設備。
目前,一些互聯網應用充當平臺的角色,服務提供者和服務需求者在平臺上註冊,服務提供者為服務需求者提供相關服務。在某些場景下,服務提供者應該是健康的。所以在對服務提供者和服務需求者進行匹配的時候,需要將服務提供者近期的健康狀況作為一個參考指標。
當前的相關技術中,通過醫療檢測資料來評價用戶的健康狀況,該相關技術一般包括以下步驟:採集醫療檢測資料,例如血壓、血糖、BMI(Body Mass Index,身體質量指數),骨密度、心血管、動脈硬化、血氧等基礎項資料;對採集的醫療檢測資料進行篩選,篩選出最新資料參與健康指數計算;對血壓、血糖、BMI、骨密度、心血管等基礎項採用等比法、區間取值法計算單項指標評分; 基於單項指標評分加權平均計算綜合健康指數。
上述相關技術存在以下弊端:
一是,用戶的醫療檢測資料難以獲取。用戶的醫療檢測資料雖然可以反映用戶的健康狀況,但由於該類資料屬於高度隱私資料,用戶往往不願意提供這些資料,這使得基於醫療檢測資料檢測用戶健康狀況的方案可行性非常低。
二是,基於醫療檢測資料獲得的健康狀況更新成本高。由於醫療檢測資料的收集成本較高,受限於高成本,基於醫療檢測資料獲得的健康狀況更不可能週期性地進行更新。
三是,基於醫療檢測資料獲得的健康狀況對可信度低。對單項指標評分進行加權計算綜合健康指數時,權重的選取主觀性較強,導致降低了基於醫療檢測資料獲得的健康狀況的可信度。
本發明的目的在於提供一種網路用戶健康狀況的評價方法、系統及設備,開拓一種新的健康狀況評價方式。
為實現上述目的,本發明提出了一種網路用戶健康狀況的評價方法,包括:獲取包括待測用戶在內的多個用戶在設定歷史時期的網路行為資料;基於所述網路行為資料,評價所述待測用戶的健康狀 況。
進一步地,上述方法還可具有以下特點,所述基於所述網路行為資料,評價所述待測用戶的健康狀況包括:根據所述網路行為資料中的指定網路行為資料從所述多個用戶中選擇樣本用戶;從所述網路行為資料中提取所述待測用戶和所述樣本用戶的特徵資料;以所述特徵資料作為預設的健康指數計算模型的輸入,計算獲得所述待測用戶的健康指數。
進一步地,上述方法還可具有以下特點,所述根據所述網路行為資料中的指定網路行為資料從所述多個用戶中選擇樣本用戶包括:根據所述網路行為資料中的第一指定網路行為資料從所述多個用戶中選擇正樣本用戶,所述正樣本用戶不包括所述待測用戶;根據所述網路行為資料中的第二指定網路行為資料從所述多個用戶中選擇負樣本用戶,所述負樣本用戶不包括所述待測用戶。
進一步地,上述方法還可具有以下特點,所述根據所述網路行為資料中的指定網路行為資料從所述多個用戶中選擇樣本用戶還包括:分別從所述正樣本用戶和所述負樣本用戶中清除重疊樣本用戶,所述重疊樣本用戶指既是正樣本用戶又是負樣本用戶的樣本用戶; 平衡所述正樣本用戶和所述負樣本用戶的數量比例,使所述數量比例處於設定比例範圍內。
進一步地,上述方法還可具有以下特點,所述第一指定網路行為資料為在預設的第一歷史時期內在運動類目下的購買行為資料,所述第二指定網路行為資料為在預設的第二歷史時期內搜索和瀏覽醫療掛號網站的行為資料。
進一步地,上述方法還可具有以下特點,所述以所述特徵資料作為預設的健康指數計算模型的參數,計算獲得所述待測用戶的健康指數,包括:利用所述樣本用戶的特徵資料對所述健康指數計算模型進行訓練,以得到所述健康指數計算模型中的參數值;將所述待測用戶的特徵資料作為以所述參數值為參數的所述健康指數計算模型的輸入,以預測出所述待測用戶的健康概率;對所述待測用戶的健康概率進行歸一化處理,以獲得所述待測用戶的健康指數。
進一步地,上述方法還可具有以下特點,所述特徵資料包括身體質量指數BMI、沉溺於遊戲程度、愛好垃圾食品程度、年齡、性別、是否經常熬夜、過去兩周購買醫藥用品的頻率、是否從事體力工作之中的任意多種。
本發明實施例的網路用戶健康狀況的評價方法,基於用戶的網路行為資料評價用戶的健康狀況,開啟了健康狀況評價的新方式。並且,本發明實施例的網路用戶健康狀況的評價方法,成本低,可行性高,更新快。
為實現上述目的,本發明還提出了一種網路用戶健康狀況的評價系統,包括:獲取裝置,用於獲取包括待測用戶在內的多個用戶在設定歷史時期的網路行為資料;評價裝置,用於基於所述獲取裝置獲取的所述網路行為資料,評價所述待測用戶的健康狀況。
進一步地,上述系統還可具有以下特點,所述評價裝置包括:選擇模組,用於根據所述網路行為資料中的指定網路行為資料從所述多個用戶中選擇樣本用戶;提取模組,用於從所述網路行為資料中提取所述待測用戶和所述選擇模組選擇的所述樣本用戶的特徵資料;計算模組,用於以所述提取模組提取的所述特徵資料作為預設的健康指數計算模型的輸入,計算獲得所述待測用戶的健康指數。
進一步地,上述系統還可具有以下特點,所述選擇模組包括:第一選擇單元,用於根據所述網路行為資料中的第一指定網路行為資料從所述多個用戶中選擇正樣本用戶,所述正樣本用戶不包括所述待測用戶;第二選擇單元,用於根據所述網路行為資料中的第二指定網路行為資料從所述多個用戶中選擇負樣本用戶,所述負樣本用戶不包括所述待測用戶。
進一步地,上述系統還可具有以下特點,所述選擇模 組還包括:清除單元,用於分別從所述正樣本用戶和所述負樣本用戶中清除重疊樣本用戶,所述重疊樣本用戶指既是正樣本用戶又是負樣本用戶的樣本用戶。
平衡單元,用於平衡所述正樣本用戶和所述負樣本用戶的數量比例,使所述數量比例處於設定比例範圍內。
進一步地,上述系統還可具有以下特點,所述第一指定網路行為資料為在預設的第一歷史時期內在運動類目下的購買行為資料,所述第二指定網路行為資料為在預設的第二歷史時期內搜索和瀏覽醫療掛號網站的行為資料。
進一步地,上述系統還可具有以下特點,所述計算模組包括:訓練單元,用於利用所述樣本用戶的特徵資料對所述健康指數計算模型進行訓練,以得到所述健康指數計算模型中的參數值;預測單元,用於將所述待測用戶的特徵資料作為以所述參數值為參數的所述健康指數計算模型的輸入,以預測出所述待測用戶的健康概率;歸一化單元,用於對所述預測單元預測出的所述待測用戶的健康概率進行歸一化處理,以獲得所述待測用戶的健康指數。
進一步地,上述系統還可具有以下特點,所述特徵資料包括身體質量指數BMI、沉溺於遊戲程度、愛好垃圾食品程度、年齡、性別、是否經常熬夜、過去兩周購買醫藥 用品的頻率、是否從事體力工作之中的任意多種。
本發明實施例的網路用戶健康狀況的評價系統,基於用戶的網路行為資料評價用戶的健康狀況,開啟了健康狀況評價的新方式。並且,本發明實施例的網路用戶健康狀況的評價系統,成本低,可行性高,更新快。
為實現上述目的,本發明還提出了一種網路用戶健康狀況的評價設備,包括前述任一項所述的網路用戶健康狀況的評價系統。
本發明實施例的網路用戶健康狀況的評價設備,包括網路用戶健康狀況的評價系統,能夠基於用戶的網路行為資料評價用戶的健康狀況,開啟了健康狀況評價的新方式,成本低,可行性高,更新快。
S101、S102‧‧‧步驟
S201~S204‧‧‧步驟
300‧‧‧網路用戶健康狀況的評價系統
310‧‧‧獲取裝置
320‧‧‧評價裝置
400‧‧‧網路用戶健康狀況的評價系統
410‧‧‧獲取裝置
420‧‧‧評價裝置
421‧‧‧選擇模組
422‧‧‧提取模組
423‧‧‧計算模組
500‧‧‧網路用戶健康狀況的評價設備
圖1為本發明實施例一中網路用戶健康狀況的評價方法的流程圖。
圖2為本發明實施例二中網路用戶健康狀況的評價方法的流程圖。
圖3為本發明實施例三中網路用戶健康狀況的評價系統的方塊圖。
圖4為本發明實施例四中網路用戶健康狀況的評價系統的方塊圖。
圖5為本發明實施例五中網路用戶健康狀況的評價設備的方塊圖。
以下結合圖式對本發明的原理和特徵進行描述,所舉實施例只用於解釋本發明,並非用於限定本發明的範圍。對於本領域具有通常知識者來講,在不付出創造性勞動的前提下,根據本發明精神所獲得的所有實施例,都屬於本發明的保護範圍。
圖1為本發明實施例一中網路用戶健康狀況的評價方法的流程圖。如圖1所示,本實施例中,網路用戶健康狀況的評價方法可以包括如下步驟:
步驟S101,獲取包括待測用戶在內的多個用戶在設定歷史時期的網路行為資料;其中,從網路行為資料中可以提取出電商行為資料、網頁瀏覽行為資料、身體質量指數BMI、沉溺於遊戲程度、愛好垃圾食品程度、年齡、性別、是否經常熬夜、過去兩周購買醫藥用品的頻率、是否從事體力工作等特徵資料。
其中,設定歷史時期一般是過去兩周、過去一個月、過去一年等等。對於不同種類的網路行為資料,設定歷史時期可以不同。例如,當獲取的網路行為資料是電商行為資料時,設定歷史時期可以是過去一個月,當獲取的網路行為資料為是否經常熬夜時,設定歷史時期可以是過去兩周。
網路行為資料是由網路伺服器自動記錄的,可以從網 路伺服器獲取。由於網路行為資料不屬於隱私資料,多數都可以公開,並且也不需要由用戶本人提供,因此獲取非常容易,而且成本很低,這就使得本發明基於網路行為資料評價用戶健康狀況的方案可行性非常高。
步驟S102,基於獲取的網路行為資料,評價待測用戶的健康狀況。
網路行為資料可以在一定程度上反映用戶的健康狀況,而且在當今的互聯網時代,人們的日常生活與網路密不可分,上網行為幾乎無時無處不在,因此本發明開拓性地基於網路行為資料來評價用戶的健康狀況。這相對於傳統的基於醫療檢測資料的健康狀況評價方式具有革命性的意義。並且,網路行為資料不僅更新快,而且其更新幾乎不需要任何成本,因此,基於網路行為資料的更新來更新用戶的健康狀況不僅更新快,而且更新成本非常低廉。
本發明實施例的網路用戶健康狀況的評價方法,基於用戶的網路行為資料評價用戶的健康狀況,開啟了健康狀況評價的新方式。並且,本發明實施例的網路用戶健康狀況的評價方法,成本低,可行性高,更新快。
圖2為本發明實施例二中網路用戶健康狀況的評價方法的流程圖。如圖2所示,本實施例中,網路用戶健康狀況的評價方法可以包括如下步驟:
步驟S201,獲取包括待測用戶在內的多個用戶在設定歷史時期的網路行為資料;
步驟S202,根據該網路行為資料中的指定網路行為 資料從該多個用戶中選擇樣本用戶;在本發明實施例中,根據網路行為資料中的指定網路行為資料從該多個用戶中選擇樣本用戶可以包括:根據網路行為資料中的第一指定網路行為資料從該多個用戶中選擇正樣本用戶,其中,正樣本用戶不包括待測用戶;根據網路行為資料中的第二指定網路行為資料從該多個用戶中選擇負樣本用戶,其中,負樣本用戶不包括待測用戶。
在此基礎上,在本發明其他實施例中,根據網路行為資料中的指定網路行為資料從該多個用戶中選擇樣本用戶還可以進一步包括:分別從正樣本用戶和負樣本用戶中清除重疊樣本用戶,其中,重疊樣本用戶指既是正樣本用戶又是負樣本用戶的樣本用戶;平衡正樣本用戶和負樣本用戶的數量比例,使該數量比例處於設定比例範圍內。
其中,第一指定網路行為資料可以為在預設的第一歷史時期內在運動類目下的購買行為資料,第二指定網路行可以為資料為在預設的第二歷史時期內搜索和瀏覽醫療掛號網站的行為資料。
其中,正樣本用戶表示健康用戶,負樣本用戶表示不健康用戶。
步驟S203,從該網路行為資料中提取待測用戶和樣 本用戶的特徵資料;其中,特徵資料可以包括身體質量指數BMI、沉溺於遊戲程度、愛好垃圾食品程度、年齡、性別、是否經常熬夜、過去兩周購買醫藥用品的頻率、是否從事體力工作等,也可以是其中的任意多種。
步驟S204,以特徵資料作為預設的健康指數計算模型的參數,計算獲得待測用戶的健康指數。
上述的步驟S202至步驟S204是前述步驟S102的一種具體實施方式。
在本發明實施例中,以特徵資料作為預設的健康指數計算模型的參數,計算獲得待測用戶的健康指數可以包括如下子步驟:利用所述樣本用戶的特徵資料對所述健康指數計算模型進行訓練,以得到所述健康指數計算模型中的參數值;將所述待測用戶的特徵資料作為以所述參數值為參數的所述健康指數計算模型的輸入,以預測出所述待測用戶的健康概率;對待測用戶的健康概率進行歸一化處理,以獲得待測用戶的健康指數。
通過將待測用戶的特徵資料與樣本用戶的相應特徵資料進行比較,可以比較客觀地反映待測用戶的健康狀況,使得用戶健康狀況評價結果可信度更高。
下面通過一個具體應用示例對本發明實施例的網路用戶健康狀況的評價方法作進一步說明。
在該示例中,網路用戶健康狀況的評價方法可以包括如下步驟:
步驟a,獲取包括待測用戶在內的多個用戶在設定歷史時期的網路行為資料;
步驟b,根據網路行為資料選擇正樣本用戶;假定愛好運動的人群健康狀況比較好。基於該假設,本步驟根據用戶過去一個月內在運動類目下的購買行為資料篩選出正樣本集。
首先,對用戶過去一個月內在運動類目下的購買行為資料進行初步清洗(即排除)。考慮到網購資料受刷單行為的影響,需要對明顯異常的資料進行清洗,對用戶在過去一年、過去一個月、過去兩個星期內在某一葉子類目下的訂單數分別設置閾值,將在過去一年或者過去一個月或者過去兩個星期內的訂單數大於設定閾值的用戶排除掉。
然後,對初步清洗後的資料統計每個用戶在過去一個月內的總的購買頻率X,計算這些用戶的平均購買頻率μ,方差σ 2,利用z-score方法對購買頻率X標準化得到
>3為小概率事件,可認為這部分為異常值,從而在滿足<3的用戶中選取正樣本用戶。另外,還需要選取購買頻率相對較高的用戶,因此最後將滿足2<<3的用戶標記為正樣本用戶。
步驟c,根據網路行為資料選擇負樣本用戶;具體地,根據用戶過去一個月搜索和瀏覽醫療掛號網站的資料,統計用戶搜索和瀏覽的頻率,選取總頻率大於設定閾值的用戶作為負樣本用戶。
步驟d,將重疊樣本用戶從正、負樣本用戶中去除;正、負樣本用戶可能會有重合,需要將重合的樣本用戶從正、負樣本用戶中去除。其中,重疊樣本用戶指既是正樣本用戶又是負樣本用戶的樣本用戶。
步驟e,對正、負樣本用戶的比例進行調控;調控是為了防止正、負樣本用戶數量不平衡。
步驟f,從網路行為資料中提取待測用戶和正、負樣本用戶的特徵資料;該示例中,特徵資料包括身體質量指數BMI、沉溺於遊戲程度、愛好垃圾食品程度、年齡、性別、是否經常熬夜、過去兩周購買醫藥用品的頻率、是否從事體力工作。
其中,身體質量指數BMI用來衡量人體胖瘦程度以及是否健康,是用體重除以身高的平方得出的數字,即BMI=體重/身高的平方,體重單位為千克,身高單位為米。在計算BMI時要對異常值進行清洗:(1)對於身高為0的情況,將BMI設為空值;(2)將BMI<12或BMI>40的BMI值認為異常資料,將BMI設為空值。
其中,用戶沉溺於遊戲和愛好垃圾食品是一個模糊的概念,而不是非0即1的二值概念。根據用戶過去一個月在遊戲類目和過去兩個星期在垃圾食品類目下的購買行 為,分別計算用戶沉溺於遊戲和愛好垃圾食品的程度,計算出的值位於區間[0,1],用戶沉溺於遊戲和愛好垃圾食品的程度可以採用如下步驟計算:(1)對用戶在過去一年、過去一個月、過去兩個星期內在某一葉子類目下的訂單數分別設置閾值,將在過去一年或者過去一個月或者過去兩個星期內的訂單數大於設定閾值的用戶排除掉;(2)根據初步清理後的資料統計用戶的總購買頻率,計算第一四分位數Q1和第三四分位數Q3,求四分位距IQR;(3)在異常值檢測理論中,位於區間[Q3+1.5IQR,+∞)的點被認為異常點,認為購買頻率大於Q3+1.5IQR的程度比較大,但是考慮到這個結果會受刷單等垃圾資料的影響,選取一個臨界值Q=Q3+2.5IQR,購買頻率大於這個臨界值Q比較多的被認為是垃圾資料,對應的程度值應該比較小,另外購買頻率接近臨界值的對應的程度應該比較大,所以通過公式如下公式(2)計算用戶沉溺於遊戲和愛好垃圾食品的程度,e -|(x-Q)/Q| α 公式(2)
其中,α為可調參數。
其中,對於是否經常熬夜,根據用戶在個人電腦端和移動設備端的上網時間偏好判斷用戶是否經常熬夜,把最 常瀏覽時間段為淩晨0到5點的用戶標記為經常熬夜。
其中,關於過去兩周購買醫藥用品的頻率。基於用戶過去兩周在醫藥類目下的購買資料,首先按照上述正樣本用戶選擇中相同的方法對資料進行初步清洗,然後統計用戶過去兩周在該類目下的總頻率,設定一個閾值,如果用戶的總頻率大於該閾值則設為空值。
其中,關於是否從事體力工作。根據用戶從事的工作(學生,白領,經商,公務員,製造工人,醫務人員,媒體人士,建築從業者,營業員,服務員),把工作為製造工人和建築從業者的用戶標記為從事體力勞動。
步驟g,根據預設的健康指數計算模型計算健康指數。
考慮到特徵資料總存在較多的空資料,這裡選擇隨機森林作為分類模型,根據輸入健康指數計算模型的樣本和特徵,健康指數計算模型先預測用戶是否健康,並輸出用戶健康的概率prb。對輸出的概率值prb作歸一化處理,設所有用戶(正、負樣本用戶和待測用戶)中概率值prb的最大值為max_prb,最小值為min_prb,按照如下的公式(3)計算健康指數:
本發明實施例的網路用戶健康狀況的評價方法,基於用戶的網路行為資料評價用戶的健康狀況,開啟了健康狀 況評價的新方式,成本低,可行性高,更新快。並且,本發明實施例的網路用戶健康狀況的評價方法,能夠比較客觀地反映待測用戶的健康狀況,健康狀況評價結果可信度更高。
圖3為本發明實施例三中網路用戶健康狀況的評價系統的方塊圖。如圖3所示,本實施例中,網路用戶健康狀況的評價系統300可以包括獲取裝置310和評價裝置320。其中,獲取裝置310用於獲取包括待測用戶在內的多個用戶在設定歷史時期的網路行為資料。評價裝置320用於基於獲取裝置310獲取的網路行為資料,評價待測用戶的健康狀況。
其中,網路行為資料可以包括電商行為資料和/或網頁瀏覽行為資料,例如身體質量指數BMI、沉溺於遊戲程度、愛好垃圾食品程度、年齡、性別、是否經常熬夜、過去兩周購買醫藥用品的頻率、是否從事體力工作等。
其中,設定歷史時期一般是過去兩周、過去一個月、過去一年等等。對於不同種類的網路行為資料,設定歷史時期可以不同。例如,當獲取的網路行為資料是電商行為資料時,設定歷史時期可以是過去一個月,當獲取的網路行為資料為是否經常熬夜時,設定歷史時期可以是過去兩周。
網路行為資料是由網路伺服器自動記錄的,可以從網路伺服器獲取。由於網路行為資料不屬於隱私資料,多數都可以公開,並且也不需要由用戶本人提供,因此獲取非 常容易,而且成本很低,這就使得本發明基於網路行為資料評價用戶健康狀況的方案可行性非常高。
網路行為資料可以在一定程度上反映用戶的健康狀況,而且在當今的互聯網時代,人們的日常生活與網路密不可分,上網行為幾乎無時無處不在,因此本發明開拓性地基於網路行為資料來評價用戶的健康狀況。這相對於傳統的基於醫療檢測資料的健康狀況檢測方式具有革命性的意義。並且,網路行為資料不僅更新快,而且其更新幾乎不需要任何成本,因此,基於網路行為資料的更新來更新用戶的健康狀況不僅更新快,而且更新成本非常低廉。
本發明實施例的網路用戶健康狀況的評價系統,基於用戶的網路行為資料評價用戶的健康狀況,開啟了健康狀況評價的新方式。並且,本發明實施例的網路用戶健康狀況的評價系統,成本低,可行性高,更新快。
圖4為本發明實施例四中網路用戶健康狀況的評價系統的方塊圖。如圖4所示,本實施例中,網路用戶健康狀況的評價系統400可以包括獲取裝置410和評價裝置420。其中,獲取裝置410用於獲取包括待測用戶在內的多個用戶在設定歷史時期的網路行為資料。評價裝置420用於基於獲取裝置410獲取的網路行為資料,評價待測用戶的健康狀況。
參見圖4,本實施例中,評價裝置420可以包括選擇模組421、提取模組422和計算模組423。其中,選擇模組421用於根據網路行為資料中的指定網路行為資料從該 多個用戶中選擇樣本用戶。提取模組422用於從網路行為資料中提取待測用戶和選擇模組421選擇的樣本用戶的特徵資料。計算模組423用於以提取模組422提取的特徵資料作為預設的健康指數計算模型的參數,計算獲得待測用戶的健康指數。
在本發明實施例中,選擇模組421可以包括第一選擇單元和第二選擇單元。其中,第一選擇單元用於根據網路行為資料中的第一指定網路行為資料從該多個用戶中選擇正樣本用戶,正樣本用戶不包括所述待測用戶。第二選擇單元用於根據網路行為資料中的第二指定網路行為資料從多個用戶中選擇負樣本用戶,負樣本用戶不包括所述待測用戶。在此基礎上,在本發明其他實施例中,選擇模組421還可以進一步包括清除單元和平衡單元。其中,清除單元用於分別從正樣本用戶和負樣本用戶中清除重疊樣本用戶,其中,重疊樣本用戶指既是正樣本用戶又是負樣本用戶的樣本用戶。平衡單元用於平衡正樣本用戶和負樣本用戶的數量比例,使該數量比例處於設定比例範圍內。
其中,第一指定網路行為資料可以為在預設的第一歷史時期內在運動類目下的購買行為資料,第二指定網路行為資料可以為在預設的第二歷史時期內搜索和瀏覽醫療掛號網站的行為資料。
在本發明實施例中,計算模組423可以包括訓練單元、預測單元和歸一化單元。其中,訓練單元用於利用樣本用戶的特徵資料對所述健康指數計算模型進行訓練,以 得到健康指數計算模型中的參數值。預測單元用於將待測用戶的特徵資料作為以訓練單元得到的參數值為參數的健康指數計算模型的輸入,以預測出待測用戶的健康概率。歸一化單元用於對預測單元預測出的待測用戶的健康概率進行歸一化處理,以獲得待測用戶的健康指數。
其中,特徵資料可以包括身體質量指數BMI、沉溺於遊戲程度、愛好垃圾食品程度、年齡、性別、是否經常熬夜、過去兩周購買醫藥用品的頻率、是否從事體力工作之中的任意多種。
本發明實施例的網路用戶健康狀況的評價系統,基於用戶的網路行為資料評價用戶的健康狀況,開啟了健康狀況評價的新方式,成本低,可行性高,更新快。並且,本發明實施例的網路用戶健康狀況的評價系統,能夠比較客觀地反映待測用戶的健康狀況,健康狀況評價結果可信度更高。
圖5為本發明實施例五中網路用戶健康狀況的評價設備的方塊圖。如圖5所示,本實施例中,網路用戶健康狀況的評價設備500中包括網路用戶健康狀況的評價系統。其中,網路用戶健康狀況的評價系統可以是本發明前述實施例中的任一種網路用戶健康狀況的評價系統。
網路用戶健康狀況的評價系統用於獲取包括待測用戶在內的多個用戶在設定歷史時期的網路行為資料,以及基於獲取的網路行為資料,評價待測用戶的健康狀況。
其中,網路用戶健康狀況的評價設備可以是電腦、伺 服器等。
本發明實施例的網路用戶健康狀況的評價設備,包括網路用戶健康狀況的評價系統,能夠基於用戶的網路行為資料評價用戶的健康狀況,開啟了健康狀況評價的新方式,成本低,可行性高,更新快。並且,本發明實施例的網路用戶健康狀況的評價設備,能夠比較客觀地反映待測用戶的健康狀況,健康狀況評價結果可信度更高。
以上所述僅為本發明的較佳實施例,並不用以限制本發明,凡在本發明的精神和原則之內,所作的任何修改、等同替換、改進等,均應包含在本發明的保護範圍之內。

Claims (15)

  1. 一種網路用戶健康狀況的評價方法,其特徵在於,包括:獲取包括待測用戶在內的多個用戶在設定歷史時期的網路行為資料;基於該網路行為資料,評價該待測用戶的健康狀況。
  2. 如申請專利範圍第1項所述的網路用戶健康狀況的評價方法,其中,該基於該網路行為資料,評價該待測用戶的健康狀況包括:根據該網路行為資料中的指定網路行為資料從該多個用戶中選擇樣本用戶;從該網路行為資料中提取該待測用戶和該樣本用戶的特徵資料;以該特徵資料作為預設的健康指數計算模型的輸入,計算獲得該待測用戶的健康指數。
  3. 如申請專利範圍第2項所述的網路用戶健康狀況的評價方法,其中,該根據該網路行為資料中的指定網路行為資料從該多個用戶中選擇樣本用戶包括:根據該網路行為資料中的第一指定網路行為資料從該多個用戶中選擇正樣本用戶,該正樣本用戶不包括該待測用戶;根據該網路行為資料中的第二指定網路行為資料從該多個用戶中選擇負樣本用戶,該負樣本用戶不包括該待測用戶。
  4. 如申請專利範圍第3項所述的網路用戶健康狀況的評價方法,其中,該根據該網路行為資料中的指定網路行為資料從該多個用戶中選擇樣本用戶還包括:分別從該正樣本用戶和該負樣本用戶中清除重疊樣本用戶,該重疊樣本用戶指既是正樣本用戶又是負樣本用戶的樣本用戶;平衡該正樣本用戶和該負樣本用戶的數量比例,使該數量比例處於設定比例範圍內。
  5. 如申請專利範圍第3項所述的網路用戶健康狀況的評價方法,其中,該第一指定網路行為資料為在預設的第一歷史時期內在運動類目下的購買行為資料,該第二指定網路行為資料為在預設的第二歷史時期內搜索和瀏覽醫療掛號網站的行為資料。
  6. 如申請專利範圍第2項所述的網路用戶健康狀況的評價方法,其中,該以該特徵資料作為預設的健康指數計算模型的輸入,計算獲得該待測用戶的健康指數,包括:利用該樣本用戶的特徵資料對該健康指數計算模型進行訓練,以得到該健康指數計算模型中的參數值;將該待測用戶的特徵資料作為以該參數值為參數的該健康指數計算模型的輸入,以預測出該待測用戶的健康概率;對該待測用戶的健康概率進行歸一化處理,以獲得該待測用戶的健康指數。
  7. 如申請專利範圍第2項所述的網路用戶健康狀況的評價方法,其中,該特徵資料包括身體質量指數BMI、沉溺於遊戲程度、愛好垃圾食品程度、年齡、性別、是否經常熬夜、過去兩周購買醫藥用品的頻率、是否從事體力工作之中的任意多種。
  8. 一種網路用戶健康狀況的評價系統,其特徵在於,包括:獲取裝置,用於獲取包括待測用戶在內的多個用戶在設定歷史時期的網路行為資料;評價裝置,用於基於該獲取裝置獲取的該網路行為資料,評價該待測用戶的健康狀況。
  9. 如申請專利範圍第8項所述的網路用戶健康狀況的評價系統,其中,該評價裝置包括:選擇模組,用於根據該網路行為資料中的指定網路行為資料從該多個用戶中選擇樣本用戶;提取模組,用於從該網路行為資料中提取該待測用戶和該選擇模組選擇的該樣本用戶的特徵資料;計算模組,用於以該提取模組提取的該特徵資料作為預設的健康指數計算模型的輸入,計算獲得該待測用戶的健康指數。
  10. 如申請專利範圍第9項所述的網路用戶健康狀況的評價系統,其中,該選擇模組包括:第一選擇單元,用於根據該網路行為資料中的第一指定網路行為資料從該多個用戶中選擇正樣本用戶,該正樣 本用戶不包括該待測用戶;第二選擇單元,用於根據該網路行為資料中的第二指定網路行為資料從該多個用戶中選擇負樣本用戶,該負樣本用戶不包括該待測用戶。
  11. 如申請專利範圍第10項所述的網路用戶健康狀況的評價系統,其中,該選擇模組還包括:清除單元,用於分別從該正樣本用戶和該負樣本用戶中清除重疊樣本用戶,該重疊樣本用戶指既是正樣本用戶又是負樣本用戶的樣本用戶;平衡單元,用於平衡該正樣本用戶和該負樣本用戶的數量比例,使該數量比例處於設定比例範圍內。
  12. 如申請專利範圍第10項所述的網路用戶健康狀況的評價系統,其中,該第一指定網路行為資料為在預設的第一歷史時期內在運動類目下的購買行為資料,該第二指定網路行為資料為在預設的第二歷史時期內搜索和瀏覽醫療掛號網站的行為資料。
  13. 如申請專利範圍第9項所述的網路用戶健康狀況的評價系統,其中,該計算模組包括:訓練單元,用於利用該樣本用戶的特徵資料對該健康指數計算模型進行訓練,以得到該健康指數計算模型中的參數值;預測單元,用於將該待測用戶的特徵資料作為以該參數值為參數的該健康指數計算模型的輸入,以預測出該待測用戶的健康概率; 歸一化單元,用於對該預測單元預測出的該待測用戶的健康概率進行歸一化處理,以獲得該待測用戶的健康指數。
  14. 如申請專利範圍第9項所述的網路用戶健康狀況的評價系統,其中,該特徵資料包括身體質量指數BMI、沉溺於遊戲程度、愛好垃圾食品程度、年齡、性別、是否經常熬夜、過去兩周購買醫藥用品的頻率、是否從事體力工作之中的任意多種。
  15. 一種網路用戶健康狀況的評價設備,其特徵在於,包括申請專利範圍第8至14項中任一項所述的網路用戶健康狀況的評價系統。
TW105129845A 2016-03-31 2016-09-13 網路用戶健康狀況的評價方法、系統及設備 TW201737194A (zh)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201610201241.1A CN107291739A (zh) 2016-03-31 2016-03-31 网络用户健康状况的评价方法、系统及设备

Publications (1)

Publication Number Publication Date
TW201737194A true TW201737194A (zh) 2017-10-16

Family

ID=59961657

Family Applications (1)

Application Number Title Priority Date Filing Date
TW105129845A TW201737194A (zh) 2016-03-31 2016-09-13 網路用戶健康狀況的評價方法、系統及設備

Country Status (4)

Country Link
US (1) US20170286624A1 (zh)
EP (1) EP3411850A4 (zh)
CN (1) CN107291739A (zh)
TW (1) TW201737194A (zh)

Families Citing this family (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108766512B (zh) * 2018-05-31 2023-04-07 康键信息技术(深圳)有限公司 健康数据管理方法、装置、计算机设备和存储介质
CN109214444B (zh) * 2018-08-24 2022-01-07 小沃科技有限公司 基于孪生神经网络和gmm的游戏防沉迷判定系统及方法
CN109800139A (zh) * 2018-12-18 2019-05-24 东软集团股份有限公司 服务器健康度分析方法,装置,存储介质及电子设备
CN110175247B (zh) * 2019-03-13 2021-06-08 北京邮电大学 一种优化基于深度学习的异常检测模型的方法
CN111798978A (zh) * 2019-04-09 2020-10-20 Oppo广东移动通信有限公司 用户健康评估方法、装置、存储介质及电子设备
CN110110633B (zh) * 2019-04-28 2022-05-13 华东交通大学 一种基于机器学习的偏瘫步态自动识别和分析的方法
CN114787937A (zh) * 2019-12-09 2022-07-22 皇家飞利浦有限公司 用于基于家庭互联网业务模式来监测健康状况的系统和方法
CN112016844A (zh) * 2020-09-04 2020-12-01 平安科技(深圳)有限公司 区域健康建设进程评估方法、装置、设备及存储介质
CN113792734A (zh) * 2021-09-18 2021-12-14 深圳市商汤科技有限公司 神经网络训练及图像处理的方法、装置、设备及存储介质
CN114496250A (zh) * 2022-01-17 2022-05-13 无锡市第二人民医院 一种螺旋体系下的老年综合评估方法及系统
CN116245555B (zh) * 2023-03-09 2023-12-08 张家口巧工匠科技服务有限公司 一种基于大数据的用户信息收集分析系统

Family Cites Families (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20070106538A1 (en) * 2005-11-08 2007-05-10 The Regence Group Employing user interaction to generate health care rewards
US8930204B1 (en) * 2006-08-16 2015-01-06 Resource Consortium Limited Determining lifestyle recommendations using aggregated personal information
JP2010003222A (ja) * 2008-06-23 2010-01-07 Focus Systems Corp 健康支援システム
US8738534B2 (en) * 2010-09-08 2014-05-27 Institut Telecom-Telecom Paristech Method for providing with a score an object, and decision-support system
EP2622568A4 (en) * 2010-09-29 2014-04-02 Dacadoo Ag AUTOMATED SYSTEM FOR COLLECTING, PROCESSING AND TRANSMITTING HEALTH DATA
CN102521656B (zh) * 2011-12-29 2014-02-26 北京工商大学 非平衡样本分类的集成迁移学习方法
US10172581B2 (en) * 2013-09-09 2019-01-08 Dana-Farber Cancer Institute, Inc. Methods of assessing tumor growth
AU2015201602A1 (en) * 2014-03-27 2015-10-15 MyCognition Limited Adaptive cognitive skills assessment and training
CN104143165A (zh) * 2014-06-13 2014-11-12 朱健鹏 面向抑郁情绪的心理干预方案个性化推荐方法
US11080732B2 (en) * 2016-06-13 2021-08-03 Adobe Inc. Audience comparison

Also Published As

Publication number Publication date
CN107291739A (zh) 2017-10-24
EP3411850A4 (en) 2019-11-13
EP3411850A1 (en) 2018-12-12
US20170286624A1 (en) 2017-10-05

Similar Documents

Publication Publication Date Title
TW201737194A (zh) 網路用戶健康狀況的評價方法、系統及設備
Leal et al. The influence of geographic life environments on cardiometabolic risk factors: a systematic review, a methodological assessment and a research agenda
Hystad et al. Sense of community-belonging and health-behaviour change in Canada
Holguín-Veras et al. Econometric estimation of deprivation cost functions: A contingent valuation experiment
Gianni et al. A systematic review of factors associated with accidental falls in people with multiple sclerosis: a meta-analytic approach
Hallegraeff et al. Expectations about recovery from acute non-specific low back pain predict absence from usual work due to chronic low back pain: a systematic review
Ward et al. Risk factors for functional limitations in patients with long‐standing ankylosing spondylitis
Ewald et al. Pedometer counts superior to physical activity scale for identifying health markers in older adults
Devlin et al. A comparison of alternative variants of the lead and lag time TTO
Karlsdotter et al. Multilevel analysis of income, income inequalities and health in Spain
WO2015168250A2 (en) Decision support system for hospital quality assessment
CN107370614A (zh) 网络用户活跃度评估方法和预测方法
KR20120076477A (ko) 상점 추천 방법 및 시스템
JP2018005284A (ja) 情報処理方法、情報処理装置及び情報処理プログラム
Howard et al. Multicriteria decision analysis (MCDA) for health technology assessment: the Queensland Health experience
Bojke et al. How should hospital reimbursement be refined to support concentration of complex care services?
Xin et al. Assessment of the construct validity and responsiveness of preference-based quality of life measures in people with Parkinson’s: a systematic review
JP2012078768A (ja) 人物マッチング装置、方法及びプログラム
Shahin et al. Prioritisation of departments based on service quality dimensions in Isfahan Steel Company: a multiple criteria decision making approach
KR101693015B1 (ko) 개인 질병 예측 방법, 개인 질병 예측 시스템 및 개인 질병 예측을 위한 프로그램을 저장하는 저장매체
Veley et al. Do measures of physical capacity and walking self-efficacy relate to frailty in older adults with difficulty walking outdoors? A secondary data analysis
KR101274431B1 (ko) 설문 정보를 이용한 건강 상태 판단 장치 및 방법, 건강 분류 함수 생성 장치 및 그 방법
CN112116969A (zh) 信息推荐方法、装置、存储介质及计算机设备
CN115620223A (zh) 基于图像识别的餐饮店铺卫生检测及店铺推荐方法
KR20190000350A (ko) 헤비 사용자와 허위 평가 사용자를 구분하는 온라인 콘텐츠의 허위 평가 정보 적발 장치 및 방법