TWI673617B

TWI673617B - 使用者背景資訊的收集方法及裝置

Info

Publication number: TWI673617B
Application number: TW106115860A
Authority: TW
Inventors: 李輝; 鐘觀海; 操穎平
Original assignee: 香港商阿里巴巴集團服務有限公司
Priority date: 2016-07-07
Filing date: 2017-05-12
Publication date: 2019-10-01
Also published as: MX2019000101A; WO2018009823A1; JP2019530046A; JP6777807B2; RU2718422C1; US20180011928A1; PH12019500052A1; BR112019000188A2; EP3482301A4; CA3030075A1; AU2017292019A1; KR102202326B1; CN106909600A; KR20190026853A; US10936636B2; SG11201900102YA; TW201810093A; CA3030075C; EP3482301A1

Abstract

本發明揭露了一種使用者背景資訊的收集方法及裝置，涉及資訊技術領域，可以提高使用者背景資訊的收集效率。本發明的主要技術方案為：首先從使用者日常業務資訊中獲取與使用者背景資訊相關的文本資訊；然後根據預設列表中的預設背景標識資訊，對該文本資訊進行逐層匹配，其中，不同層次匹配分別對應不同匹配方式，該預設列表中保存有與使用者背景資訊相關的不同預設背景標識資訊；最後根據逐層匹配結果，收集使用者相關的背景資訊。

Description

使用者背景資訊的收集方法及裝置

本發明係有關於一種資訊技術領域，尤其是一種使用者背景資訊的收集方法及裝置。

隨著網際網路的不斷發展，特別是近些年來興起的行動網際網路的發展，人類產生資訊的速度呈現出指數型增長，如何從這些大量資料中挖掘出有價值的資訊是一個至關重要的事情，合理的利用大資料對公司的運營、生產以及決策都具有重大的價值。

目前，傳統基於使用者教育、工作等背景資訊的收集方式主要是透過使用者主動填寫資訊的形式，例如，使用者在傳統銀行申請信用卡的時候，需要填寫使用者的學校和學歷的資訊，透過這些資訊挖掘出使用者的教育背景資訊。

然而，這種傳統的資料收集方式需要使用者主動填寫資訊，當需要收集大量使用者的背景資訊時，會影響使用者背景資訊的收集效率，而且這種方式大多在線下進行，在當今這個行動網際網路時代已經越來越不適用。

有鑑於此，本發明實施例提供了一種使用者背景資訊的收集方法及裝置，主要目的是解決目前透過使用者主動填寫資訊的方式，會影響使用者背景資訊的收集效率的問題。

為達到上述目的，本發明提供如下技術方案：一方面，本發明提供了一種使用者背景資訊的收集方法，包括：從使用者日常業務資訊中獲取與使用者背景資訊相關的文本資訊；根據預設列表中的預設背景標識資訊，對該文本資訊進行逐層匹配，其中，不同層次匹配分別對應不同匹配方式，該預設列表中保存有與使用者背景資訊相關的不同預設背景標識資訊；根據逐層匹配結果，收集使用者相關的背景資訊。

另一方面，本發明提供了一種使用者背景資訊的收集裝置，包括：獲取單元，從使用者日常業務資訊中獲取與使用者背景資訊相關的文本資訊；匹配單元，根據預設列表中的預設背景標識資訊，對該文本資訊進行逐層匹配，其中，不同層次匹配分別對應不同匹配方式，該預設列表中保存有與使用者背景資訊相關的不同預設背景標識資訊；收集單元，根據逐層匹配結果，收集使用者相關的背景資訊。

藉由上述技術方案，本發明實施例提供的技術方案至少具有下列優點：本發明實施例提供的一種使用者背景資訊的收集方法及裝置，首先從使用者日常業務資訊中獲取與使用者背景資訊相關的文本資訊；然後根據預設列表中的預設背景標識資訊，對該文本資訊進行逐層匹配，其中，不同層次匹配分別對應不同匹配方式，該預設列表中保存有與使用者背景資訊相關的不同預設背景標識資訊；最後根據逐層匹配結果，收集使用者相關的背景資訊。與目前透過使用者主動填寫資訊的方式收集使用者相關的背景資訊相比，本發明對從使用者日常業務資訊中獲取的與使用者背景資訊相關的文本資訊進行分析，透過與預設列表中的預設背景標識資訊進行逐層匹配的方式進行配準歸一化，提取得到與使用者對應的如學校名稱、公司名稱等資訊，進而收集使用者相關的背景資訊，可以實現在不需要使用者主動填寫資訊的情況下，對使用者相關的背景資訊進行收集，可以提高使用者背景資訊的收集效率，並且本發明可以在線上進行，可以適用於當今這個行動網際網路時代。

上述說明僅是本發明技術方案的概述，為了能夠更清楚瞭解本發明的技術手段，而可依照說明書的內容予以實施，並且為了讓本發明的上述和其它目的、特徵和優點能夠更明顯易懂，以下特舉本發明的具體實施方式。

101‧‧‧步驟

102‧‧‧步驟

103‧‧‧步驟

201‧‧‧步驟

202‧‧‧步驟

203‧‧‧步驟

204‧‧‧步驟

205‧‧‧步驟

206‧‧‧步驟

41‧‧‧獲取單元

42‧‧‧匹配單元

43‧‧‧收集單元

51‧‧‧獲取單元

52‧‧‧匹配單元

521‧‧‧計算模組

522‧‧‧獲取模組

523‧‧‧匹配模組

53‧‧‧收集單元

531‧‧‧獲取模組

532‧‧‧收集模組

54‧‧‧更新單元

55‧‧‧清理單元

透過閱讀下文較佳實施方式的詳細描述，各種其他的優點和益處對於本領域普通技術人員將變得清楚明瞭。圖式僅用於示出較佳實施方式的目的，而並不認為是對本發明的限制。而且在整個圖式中，用相同的參考符號表示相同的部件。在圖式中：圖1示出了本發明實施例提供的一種使用者背景資訊的收集方法的流程圖；圖2示出了本發明實施例提供的另一種使用者背景資訊的收集方法的流程圖；圖3示出了本發明實施例提供的一種具體應用場景實例的流程示意圖；圖4示出了本發明實施例提供的一種使用者背景資訊的收集裝置的結構示意圖；圖5示出了本發明實施例提供的另一種使用者背景資訊的收集裝置的結構示意圖。

下面將參照圖式更詳細地描述本揭露的示例性實施例。雖然圖式中顯示了本揭露的示例性實施例，然而應當理解，可以以各種形式實現本揭露而不應被這裡闡述的實施例所限制。相反，提供這些實施例是為了能夠更透徹地理解本揭露，並且能夠將本揭露的範圍完整的傳達給本領域的技術人員。

本發明實施例提供了一種使用者背景資訊的收集方法，如圖1所示，該方法包括：

101、從使用者日常業務資訊中獲取與使用者背景資訊相關的文本資訊。

其中，該使用者日常業務資訊可以包含使用者日常使用的交易、備註、聊天或者其他業務中的資訊。該使用者背景資訊可以包含如使用者教育背景、工作背景等資訊。

具體地，對於本發明實施例，可以根據業務需求進行選擇配置，例如，當需要收集使用者相關的教育背景資訊時，可以收集使用者在各個業務場景中與學校相關的文本資訊，譬如學校宿舍登記資訊、助學貸款資訊、校園一卡通儲值資訊、學校繳費資訊等；當需要收集使用者相關的工作背景資訊時，可以收集使用者在各個業務場景中與公司單位相關的文本資訊，譬如使用者收貨地址資訊、公司單位地址資訊等。

102、根據預設列表中的預設背景標識資訊，對文本資訊進行逐層匹配。

其中，不同層次匹配分別對應不同匹配方式，具體地，匹配方式對應的具體實現過程、匹配方式之間的實施順序、以及匹配方式的數量等可以根據實際需求進行配置。該預設列表中保存有與使用者背景資訊相關的不同預設背景標識資訊。該預設背景標識資訊可以為與使用者背景資訊相關的學校名稱、公司名稱等。例如，當需要收集使用者相關的教育背景資訊時，可以預先從國家公開的資料中提取現有的國家標準化後的學校名稱資訊列表，作為預設列表，該列表中保存有現有的國家標準化後的不同學校名稱資訊，需要說明的是，考慮到一部分學校進行了改名和合併，該列表中還保存有學校的曾用名資訊，並且會對學校曾用名和現有名稱進行一一對應處理，以及考慮到學校存在簡稱的情況，如北大、浙大、北航等，因此該列表中還保存有這些學校的簡稱資訊，且同樣會對學校簡稱和現有名稱進行一一對應處理。

需要說明的是，不同的匹配方式對應的匹配精度也可能不同，因此，對於本發明實施例，可以根據匹配精度從高到低的順序，對文本資訊進行逐層匹配，確定與使用者對應的學校名稱、公司名稱等資訊。

例如，首先對文本資訊進行精確匹配，即將文本資訊與預設列表中每個預設背景標識資訊進行一一比對，只要能嚴格與其中一個預設背景標識資訊相同，則構成一個精確的匹配，將精確匹配的結果保存在第一集合中；如果不存在精確匹配結果，接下來對文本資訊進行模糊匹配，即如果文本資訊包含或者被包含在預設列表中，這裡會確定其是能夠模糊匹配的，並且保留對應匹配關係，譬如文本資訊“復旦”包含在預設背景標識資訊“復旦大學”中，而文本資訊“復旦大學學生宿舍”包含預設背景標識資訊“復旦大學”。進一步地，在預設列表中，如果文本資訊能夠模糊匹配到有且僅有一個預設背景標識資訊，會確定模糊匹配滿足唯一性原則，可以將與其對應的模糊匹配結果保存在第二集合中。

如果不存在模糊匹配結果或者模糊匹配不滿足唯一性原則，再然後可以利用最長公共子序列算法，對文本資訊進行匹配，即對文本資訊與預設列表中每個預設背景標識資訊進行字符串相似度的計算，確定在預設列表中與文本資訊最相似的預設背景標識資訊作為與文本資訊對應的匹配結果，保存在第三集合中。

103、根據逐層匹配結果，收集使用者相關的背景資訊。

例如，根據上述步驟的實例中對文本資訊進行的逐層匹配過程，對與使用者a教育背景資訊相關的文本資訊進行了逐層匹配，並且從上述三個集合中獲取得到了匹配結果，從該匹配結果中獲取得到使用者a對應的學校名稱，具體為北京大學，進而可以確定使用者a的學習經歷，從而得到使用者a相關的教育背景資訊。

本發明實施例提供的一種使用者背景資訊的收集方法，首先從使用者日常業務資訊中獲取與使用者背景資訊相關的文本資訊；然後根據預設列表中的預設背景標識資訊，對該文本資訊進行逐層匹配，其中，不同層次匹配分別對應不同匹配方式，該預設列表中保存有與使用者背景資訊相關的不同預設背景標識資訊；最後根據逐層匹配結果，收集使用者相關的背景資訊。與目前透過使用者主動填寫資訊的方式收集使用者相關的背景資訊相比，本發明對從使用者日常業務資訊中獲取的與使用者背景資訊相關的文本資訊進行分析，透過與預設列表中的預設背景標識資訊進行逐層匹配的方式進行配準歸一化，提取得到與使用者對應的如學校名稱、公司名稱等資訊，進而收集使用者相關的背景資訊，可以實現在不需要使用者主動填寫資訊的情況下，對使用者相關的背景資訊進行收集，可以提高使用者背景資訊的收集效率，並且本發明可以在線上進行，可以適用於當今這個行動網際網路時代。

進一步地，本發明實施例提供了另一種使用者背景資訊的收集方法，如圖2所示，該方法包括：

201、從使用者日常業務資訊中獲取與使用者背景資訊相關的文本資訊。

其中，該使用者日常業務資訊和該使用者背景資訊的概念解釋可以參考步驟101中相應描述，在此不再贅述。

需要說明的是，為了收集使用者的背景資訊，可以對使用者散落在日常業務中的文本資訊進行梳理，由於這些文本資訊中可能蘊含著大量有用的能反映出使用者相關的背景資訊，需要對這些文本資訊進行逐層匹配分析，即執行步驟202至步驟204，進而識別出使用者的學校資訊、公司資訊等，從而收集使用者相關的背景資訊。

202、透過檢測預設列表中是否存在與文本資訊相同的預設背景標識資訊，對文本資訊進行第一匹配。

其中，該預設列表中保存有與使用者背景資訊相關的不同預設背景標識資訊。該預設背景標識資訊可以為與使用者背景資訊相關的學校名稱、公司名稱等。

例如，將文本資訊與預設學校名稱資訊列表中每個學校名稱進行一一比對，檢測該列表中是否存在與文本資訊相同的學校名稱，若存在，則構成一個精確的匹配，進而得到第一匹配結果，反之，若不存在，則不存在第一匹配結果。

對於本發明實施例，在步驟202之前，還包括：對該文本資訊進行資料清理。在對文本資訊進行資料清理之後，根據預設列表中的預設背景標識資訊，對資料清理後的文本資訊進行逐層匹配，即執行步驟202至步驟204的操作過程。

具體地，會根據具體的資料情況，對文本資訊進行資料清理。例如，一個業務場景下的短文本資訊是“浙江工業大學(教材費和考試報名費)”，為使該短文本資訊能夠與預設學校名稱資訊列表中的學校名稱構成一個精確匹配，可以將括號連同括號中的文本資訊進行刪除，進而只保留了“浙江工業大學”的短文本資訊，以便能夠得到第一匹配結果。再例如，對一些如“中國醫科大學沈北校區”、“東北石油大學秦皇島分校”的短文本資訊，這個“**大學|**校區(分校)”格式的資料，可以將文本資訊中如“**校區(分校)”形式的資料過濾掉，以便這類短文本資訊能夠構成精確匹配，得到第一匹配結果。

需要說明的是，第一匹配方式的精度要高於第二匹配方式，因此，對於本發明實施例，在對文本資訊進行逐層匹配之前，對文本資訊進行資料處理，然後根據預設列表中的預設背景標識資訊，對資料清理後的文本資訊進行逐層匹配，可以提高文本資訊在進行第一匹配過程中的成功率，進而可以提高使用者背景資訊的收集精度，並且還可以提高文本資訊的逐層匹配效率。

203、若不存在第一匹配結果，則透過檢測文本資訊中是否僅存在預設列表中的一個預設背景標識資訊，或檢測預設列表中是否僅存在一個包含文本資訊的預設背景標識資訊，對文本資訊進行第二匹配。

例如，若文本資訊為“北京大學宿舍樓”，該文本資訊中僅存在預設學校名稱資訊列表中的一個學校名稱，即北京大學，說明該文本資訊模糊匹配且滿足唯一性原則，即該文本資訊第二匹配過程成功，進而得到第二匹配結果；若文本資訊為“清華大學教學樓和北京大學宿舍樓”，該文本資訊中存在預設學校名稱資訊列表中兩個學校名稱，即清華大學和北京大學，說明該文本資訊模糊匹配不滿足唯一性原則，即該文本資訊第二匹配過程不成功，不存在第二匹配結果。

再例如，若文本資訊為“復旦”，預設學校名稱資訊列表中僅存在一個包含該文本資訊的學校名稱，即復旦大學，說明該文本資訊模糊匹配且滿足唯一性原則，即該文本資訊第二匹配過程成功，進而得到第二匹配結果；若文本資訊為“北京”，預設學校名稱資訊列表中存在多個包含該文本資訊的學校名稱，即北京大學、北京理工大學、北京航空航天大學等，說明該文本資訊模糊匹配不滿足唯一性原則，即該文本資訊第二匹配過程不成功，不存在第二匹配結果。

需要說明的是，透過檢測文本資訊中是否僅存在預設列表中的一個預設背景標識資訊，或檢測預設列表中是否僅存在一個包含該文本資訊的預設背景標識資訊，對文本資訊進行第二匹配，可以解決背景標識簡寫和冗餘等問題，以較高的精度對文本資訊進行匹配。

對於本發明實施例，該步驟203之後，還可以包括：若存在第二匹配結果，則根據該第二匹配結果，對該預設列表進行更新。

例如，若存在第二匹配結果，並且對應的文本資訊為“復旦”，將該文本資訊保存在預設學校名稱資訊列表中，並且對該文本資訊和匹配的學校名稱進行對應處理，以便得到更多文本資訊的匹配結果。具體地，根據這個更新後的預設學校名稱資訊列表，對其他文本資訊進行第二匹配，以便得到更多第二匹配結果。

需要說明的是，根據第二匹配結果，對預設列表進行更新，可以得到更多文本資訊的匹配結果，可以提高對文本資訊進行逐層匹配的精度，進而可以提高使用者背景資訊的收集精度。

204、若不存在第二匹配結果，則根據預設列表中的預設背景標識資訊以及預置相似度公式，對文本資訊進行第三匹配。

其中，該預置相似度公式可以根據實際需求進行選擇配置，例如，可以根據最長公共子序列算法，預先配置相似度公式。

對於本發明實施例，該步驟204具體包括：透過預置相似度公式，將該文本資訊與預設列表中每個預設背景標識資訊進行相似度計算；獲取與該文本資訊之間相似度最大的預設背景標識資訊；透過檢測該預設背景標識資訊與該文本資訊之間的相似度是否大於或等於預置閾值，對該文本資訊進行第三匹配。其中，該預置閾值可以實際需求進行配置，例如，預置閾值可以配置為60%、70%等。需要說明的是，考慮到與文本資訊最相似的匹配未必是正確的匹配，因此，可以透過指定預置閾值，確定是否將與文本資訊最相似的匹配作為輸出，並且透過這個預置閾值，可以實現對匹配精準度進行量化評分。例如，如果需要對匹配精準度要求較高，可以將預置閾值配置得較大；如果需要對匹配精準度要求較低，可以將預置閾值配置得較小。

具體地，該透過預置相似度公式，將該文本資訊與預設列表中每個預設背景標識資訊進行相似度計算包括：計算該文本資訊與預設背景標識資訊之間的最長公共子串長度；將該最長公共子串長度除以該預設背景標識資訊的字符串長度，得到該文本資訊與該預設背景標識資訊之間的相似度。

例如，經過以上步驟均無法匹配的文本資訊A，以及預設學校名稱資訊列表中的標準化學校名稱B，A和B是由一些漢子組成的字符串，那麼A與B的匹配相似度可以透過以下預置相似度公式計算求得：D(A，B)=A與B最長公共子串長度/B字符串的長度

其中，D(A，B)為A與B的匹配相似度。具體地，A為“同濟宿舍樓”，字符串長度為5，B為“同濟大學”，字符串長度為4，A與B的最長公共子串為“同濟”，長度為2，那麼D(A，B)=2/4，即A與B兩個字符串的相似度。

205、從第一匹配結果或第二匹配結果或第三匹配結果中獲取使用者對應的背景標識資訊。

206、根據背景標識資訊，收集使用者相關的背景資訊。

對於本發明實施例，透過上述步驟中的三種匹配方式，若匹配成功，會得到對應的匹配結果，並且具體會是第一匹配結果，或第二匹配結果，或第三匹配結果，從第一匹配結果或第二匹配結果或第三匹配結果中獲取使用者對應的背景標識資訊，進而收集與該使用者相關的背景資訊。例如，對於使用者b教育背景資訊相關的文本資訊進行了上述匹配過程，並最終得到了第二匹配結果，從該第二匹配結果中獲取得到使用者b對應的學校名稱，具體為清華大學，進而可以確定使用者b的學習經歷，從而得到使用者b相關的教育背景資訊。

對於本發明實施例的具體應用場景可以如下所示，但不限於此，包括：如圖3所示，當需要收集使用者A相關的教育背景資訊時，可以收集使用者A在各個業務場景中與學校相關的短文本資訊，譬如使用者收貨地址資訊、助學貸款資訊等；之後對收集到的短文本資訊進行資料清理，並將名稱清理後的資料定義為“學校記錄”；從國家公開的資料中提取現有的國家標準化後的學校名稱資訊列表，並考慮到一部分學校進行了改名和合併，這裡會對學校曾用名和現有名稱進行一一對應；對學校記錄與學校名稱資訊列表中每個學校名稱進行一一比對，只要能嚴格與其中一個名稱相等，則構成一個精確的匹配，即得到第一匹配結果，並將第一匹配結果保存到S1中。

對於無法精確匹配的學校記錄，接下來進行第二匹配，具體地，檢測學校記錄中是否僅存在學校名稱列表中的一個學校名稱，或檢測學校名稱列表中是否僅存在一個包含該學校記錄的學校名稱，若學校記錄中僅存在學校名稱列表中的一個學校名稱，或學校名稱列表中僅存在一個包含該學校記錄的學校名稱，說明該學校記錄模糊匹配且滿足唯一性原則，即該學校記錄第二匹配過程成功，將對應的第二匹配結果保存在S2中，同時根據二匹配結果更新學校名稱列表，並根據這個更新後的學校名稱列表，對其他未匹配的學校記錄進行一次第二匹配過程的迭代，並將成功匹配的第二匹配結果保存在S2中。

對於經過以上匹配方式還無法匹配的學校記錄，根據學校名稱列表中的學校名稱以及預置相似度公式，對該學校記錄進行第三匹配。具體地，透過預置相似度公式，將學校記錄與學校名稱列表中每個學校名稱進行相似度計算，獲取與該學校記錄之間相似度最大的學校名稱，檢測這個學校名稱與該學校記錄之間的相似度是否大於或等於預先設定的閾值，若是，則說明該學校記錄第三匹配過程成功，得到第三匹配結果，並保存在S3中。

最後，從S1、S2、S3中獲取使用者A對應的學校名稱，具體是從S3中獲取得到使用者A對應的學校名稱“浙江大學”，進而可以確定使用者A的學習經歷，從而得到使用者A相關的教育背景資訊。

本發明實施例提供的另一種使用者背景資訊的收集方法，首先從使用者日常業務資訊中獲取與使用者背景資訊相關的文本資訊；然後根據預設列表中的預設背景標識資訊，對該文本資訊進行逐層匹配，其中，不同層次匹配分別對應不同匹配方式，該預設列表中保存有與使用者背景資訊相關的不同預設背景標識資訊；最後根據逐層匹配結果，收集使用者相關的背景資訊。與目前透過使用者主動填寫資訊的方式收集使用者相關的背景資訊相比，本發明對從使用者日常業務資訊中獲取的與使用者背景資訊相關的文本資訊進行分析，透過與預設列表中的預設背景標識資訊進行逐層匹配的方式進行配準歸一化，提取得到與使用者對應的如學校名稱、公司名稱等資訊，進而收集使用者相關的背景資訊，可以實現在不需要使用者主動填寫資訊的情況下，對使用者相關的背景資訊進行收集，可以提高使用者背景資訊的收集效率，並且本發明可以在線上進行，可以適用於當今這個行動網際網路時代。

進一步地，作為圖1所示方法的具體實現，本發明實施例提供了一種使用者背景資訊的識別裝置，如圖4所示，該裝置可以包括：獲取單元41、匹配單元42、收集單元43。

該獲取單元41，可以用於從使用者日常業務資訊中獲取與使用者背景資訊相關的文本資訊。該獲取單元41為本裝置中獲取與使用者背景資訊相關文本資訊的主要功能模組。

該匹配單元42，可以用於根據預設列表中的預設背景標識資訊，對該文本資訊進行逐層匹配，其中，不同層次匹配分別對應不同匹配方式，該預設列表中保存有與使用者背景資訊相關的不同預設背景標識資訊。該匹配單元42為裝置中對文本資訊進行背景標識歸一化配準的主要功能模組。

該收集單元43，可以用於根據逐層匹配結果，收集使用者相關的背景資訊。該收集單元43為本裝置中收集使用者相關背景資訊的主要功能模組。

需要說明的是，該裝置實施例與前述方法實施例對應，具體可以參考圖1中的對應描述，為便於閱讀，本裝置實施例不再對前述方法實施例中的細節內容進行逐一贅述，但應當明確，本實施例中的裝置能夠對應實現前述方法實施例中的全部內容。

本發明實施例提供的一種使用者背景資訊的收集裝置，首先從使用者日常業務資訊中獲取與使用者背景資訊相關的文本資訊；然後根據預設列表中的預設背景標識資訊，對該文本資訊進行逐層匹配，其中，不同層次匹配分別對應不同匹配方式，該預設列表中保存有與使用者背景資訊相關的不同預設背景標識資訊；最後根據逐層匹配結果，收集使用者相關的背景資訊。與目前透過使用者主動填寫資訊的方式收集使用者相關的背景資訊相比，本發明對從使用者日常業務資訊中獲取的與使用者背景資訊相關的文本資訊進行分析，透過與預設列表中的預設背景標識資訊進行逐層匹配的方式進行配準歸一化，提取得到與使用者對應的如學校名稱、公司名稱等資訊，進而收集使用者相關的背景資訊，可以實現在不需要使用者主動填寫資訊的情況下，對使用者相關的背景資訊進行收集，可以提高使用者背景資訊的收集效率，並且本發明可以在線上進行，可以適用於當今這個行動網際網路時代。

進一步地，作為圖2所示方法的具體實現，本發明實施例提供了另一種使用者背景資訊的收集裝置，如圖5所示，該裝置可以包括：獲取單元51、匹配單元52、收集單元53。

該獲取單元51，可以用於從使用者日常業務資訊中獲取與使用者背景資訊相關的文本資訊。該獲取單元51為本裝置中獲取與使用者背景資訊相關文本資訊的主要功能模組。

該匹配單元52，可以用於根據預設列表中的預設背景標識資訊，對該文本資訊進行逐層匹配，其中，不同層次匹配分別對應不同匹配方式，該預設列表中保存有與使用者背景資訊相關的不同預設背景標識資訊。該匹配單元52為裝置中對文本資訊進行背景標識歸一化配準的主要功能模組。

該收集單元53，可以用於根據逐層匹配結果，收集使用者相關的背景資訊。該收集單元53為本裝置中收集使用者相關背景資訊的主要功能模組。

該匹配單元52，具體可以用於透過檢測預設列表中是否存在與該文本資訊相同的預設背景標識資訊，對該文本資訊進行第一匹配。

該匹配單元52，具體還可以用於若不存在第一匹配結果，則透過檢測該文本資訊中是否僅存在預設列表中的一個預設背景標識資訊，或檢測預設列表中是否僅存在一個包含該文本資訊的預設背景標識資訊，對該文本資訊進行第二匹配。

該匹配單元52，具體還可以用於若不存在第二匹配結果，則根據預設列表中的預設背景標識資訊以及預置相似度公式，對該文本資訊進行第三匹配。

具體地，該匹配單元52包括：計算模組521、獲取模組522、匹配模組523。

該計算模組521，可以用於透過預置相似度公式，將該文本資訊與預設列表中每個預設背景標識資訊進行相似度計算。

該獲取模組522，可以用於獲取與該文本資訊之間相似度最大的預設背景標識資訊。

該匹配模組523，可以用於透過檢測該預設背景標識資訊與該文本資訊之間的相似度是否大於或等於預置閾值，對該文本資訊進行第三匹配。

該計算模組521，具體可以用於計算該文本資訊與預設背景標識資訊之間的最長公共子串長度。

該計算模組521，具體還可以用於將該最長公共子串長度除以該預設背景標識資訊的字符串長度，得到該文本資訊與該預設背景標識資訊之間的相似度。

進一步地，該裝置還包括：更新單元54。

該更新單元54，可以用於若存在第二匹配結果，則根據該第二匹配結果，對該預設列表進行更新。

具體地，該收集單元53包括：獲取模組531、收集模組532。

該獲取模組531，可以用於從第一匹配結果或第二匹配結果或第三匹配結果中獲取使用者對應的背景標識資訊。

該收集模組532，可以用於根據該獲取模組獲取的背景標識資訊，收集該使用者相關的背景資訊。

進一步地，該裝置還包括：清理單元55。

該清理單元55，可以用於對該文本資訊進行資料清理。

該匹配單元52，具體可以用於根據預設列表中的預設背景標識資訊，對資料清理後的文本資訊進行逐層匹配。

需要說明的是，該裝置實施例與前述方法實施例對應，具體可以參考圖2中的對應描述，為便於閱讀，本裝置實施例不再對前述方法實施例中的細節內容進行逐一贅述，但應當明確，本實施例中的裝置能夠對應實現前述方法實施例中的全部內容。

該使用者背景資訊的收集裝置包括處理器和儲存器，上述獲取單元、匹配單元、收集單元、更新單元、清理單元等均作為程式單元儲存在儲存器中，由處理器執行儲存在儲存器中的上述程式單元來實現相應的功能。

處理器中包含內核，由內核去儲存器中調取相應的程式單元。內核可以設置一個或以上，透過調整內核參數來解決目前透過使用者主動填寫資訊的方式，會影響使用者背景資訊的收集效率的問題。

儲存器可能包括電腦可讀媒介中的非永久性儲存器，隨機存取儲存器(RAM)及/或非易失性內存等形式，如唯讀儲存器(ROM)或快閃隨機存取記憶體(flash RAM)，儲存器包括至少一個儲存晶片。

本發明實施例提供的另一種使用者背景資訊的收集裝置，首先從使用者日常業務資訊中獲取與使用者背景資訊相關的文本資訊；然後根據預設列表中的預設背景標識資訊，對該文本資訊進行逐層匹配，其中，不同層次匹配分別對應不同匹配方式，該預設列表中保存有與使用者背景資訊相關的不同預設背景標識資訊；最後根據逐層匹配結果，收集使用者相關的背景資訊。與目前透過使用者主動填寫資訊的方式收集使用者相關的背景資訊相比，本發明對從使用者日常業務資訊中獲取的與使用者背景資訊相關的文本資訊進行分析，透過與預設列表中的預設背景標識資訊進行逐層匹配的方式進行配準歸一化，提取得到與使用者對應的如學校名稱、公司名稱等資訊，進而收集使用者相關的背景資訊，可以實現在不需要使用者主動填寫資訊的情況下，對使用者相關的背景資訊進行收集，可以提高使用者背景資訊的收集效率，並且本發明可以在線上進行，可以適用於當今這個行動網際網路時代。

本發明還提供了一種電腦程式產品，當在資料處理設備上執行時，適於執行初始化有如下方法步驟的程式代碼：首先從使用者日常業務資訊中獲取與使用者背景資訊相關的文本資訊；然後根據預設列表中的預設背景標識資訊，對該文本資訊進行逐層匹配，其中，不同層次匹配分別對應不同匹配方式，該預設列表中保存有與使用者背景資訊相關的不同預設背景標識資訊；最後根據逐層匹配結果，收集使用者相關的背景資訊。

本領域內的技術人員應明白，本發明的實施例可提供為方法、系統、或電腦程式產品。因此，本發明可採用完全硬體實施例、完全軟體實施例、或結合軟體和硬體方面的實施例的形式。而且，本發明可採用在一個或多個其中包含有電腦可用程式代碼的電腦可用儲存媒介(包括但不限於磁盤儲存器、CD-ROM、光學儲存器等)上實施的電腦程式產品的形式。

本發明是參照根據本發明實施例的使用者背景資訊的收集方法、裝置、和電腦程式產品的流程圖及/或方塊圖來描述的。應理解可由電腦程式指令實現流程圖及/或方塊圖中的每一流程及/或方塊、以及流程圖及/或方塊圖中的流程及/或方塊的結合。可提供這些電腦程式指令到通用電腦、專用電腦、嵌入式處理機或其他可編程資料處理設備的處理器以產生一個機器，使得透過電腦或其他可編程資料處理設備的處理器執行的指令產生用於實現在流程圖一個流程或多個流程及/或方塊圖一個方塊或多個方塊中指定的功能的裝置。

這些電腦程式指令也可儲存在能引導電腦或其他可編程資料處理設備以特定方式工作的電腦可讀儲存器中，使得儲存在該電腦可讀儲存器中的指令產生包括指令裝置的製造品，該指令裝置實現在流程圖一個流程或多個流程及/或方塊圖一個方塊或多個方塊中指定的功能。

這些電腦程式指令也可裝載到電腦或其他可編程資料處理設備上，使得在電腦或其他可編程設備上執行一系列操作步驟以產生電腦實現的處理，從而在電腦或其他可編程設備上執行的指令提供用於實現在流程圖一個流程或多個流程及/或方塊圖一個方塊或多個方塊中指定的功能的步驟。

在一個典型的配置中，計算設備包括一個或多個處理器(CPU)、輸入/輸出介面、網路介面和內存。

儲存器可能包括電腦可讀媒介中的非永久性儲存器，隨機存取儲存器(RAM)及/或非易失性內存等形式，如唯讀儲存器(ROM)或快閃隨機存取記憶體(flash RAM)。儲存器是電腦可讀媒介的示例。

電腦可讀媒介包括永久性和非永久性、可行動和非可行動媒體可以由任何方法或技術來實現資訊儲存。資訊可以是電腦可讀指令、資料結構、程式的模組或其他資料。電腦的儲存媒介的例子包括，但不限於相變內存(PRAM)、靜態隨機存取儲存器(SRAM)、動態隨機存取儲存器(DRAM)、其他類型的隨機存取儲存器(RAM)、唯讀儲存器(ROM)、電可抹除可編程唯讀儲存器(EEPROM)、快閃記憶體或其他內存技術、唯讀光碟唯讀儲存器(CD-ROM)、數位多功能光碟(DVD)或其他光學儲存、卡式磁帶，磁帶磁磁盤儲存或其他磁性儲存設備或任何其他非傳輸媒介，可用於儲存可以被計算設備存取的資訊。按照本文中的界定，電腦可讀媒介不包括暫存電腦可讀媒體(transitory media)，如調變的資料信號和載波。

以上僅為本發明的實施例而已，並不用於限制本發明。對於本領域技術人員來說，本發明可以有各種更改和變化。凡在本發明的精神和原理之內所作的任何修改、等同替換、改進等，均應包含在本發明的申請專利範圍之內。

Claims

一種使用者背景資訊的收集方法，包括：從使用者日常業務資訊中獲取與使用者背景資訊相關的文本資訊；根據預設列表中的預設背景標識資訊，對該文本資訊進行逐層匹配，其中，不同層次匹配分別對應不同匹配方式，該預設列表中保存有與使用者背景資訊相關的不同預設背景標識資訊；根據逐層匹配結果，收集使用者相關的背景資訊，其中，該根據預設列表中的預設背景標識資訊，對該文本資訊進行逐層匹配包括：透過檢測預設列表中是否存在與該文本資訊相同的預設背景標識資訊，對該文本資訊進行第一匹配；以及若不存在第一匹配結果，則透過檢測該文本資訊中是否僅存在預設列表中的一個預設背景標識資訊，或檢測預設列表中是否僅存在一個包含該文本資訊的預設背景標識資訊，對該文本資訊進行第二匹配。
根據請求項1所述的使用者背景資訊的收集方法，其中，該根據預設列表中的預設背景標識資訊，對該文本資訊進行逐層匹配還包括：若不存在第二匹配結果，則根據預設列表中的預設背景標識資訊以及預置相似度公式，對該文本資訊進行第三匹配。
根據請求項2所述的使用者背景資訊的收集方法，其中，該根據預設列表中的預設背景標識資訊以及預置相似度公式，對該文本資訊進行第三匹配包括：透過預置相似度公式，將該文本資訊與預設列表中每個預設背景標識資訊進行相似度計算；獲取與該文本資訊之間相似度最大的預設背景標識資訊；透過檢測該預設背景標識資訊與該文本資訊之間的相似度是否大於或等於預置閾值，對該文本資訊進行第三匹配。
根據請求項3所述的使用者背景資訊的收集方法，其中，該透過預置相似度公式，將該文本資訊與預設列表中每個預設背景標識資訊進行相似度計算包括：計算該文本資訊與預設背景標識資訊之間的最長公共子串長度；將該最長公共子串長度除以該預設背景標識資訊的字符串長度，得到該文本資訊與該預設背景標識資訊之間的相似度。
根據請求項2所述的使用者背景資訊的收集方法，其中，該若不存在第一匹配結果，則透過檢測該文本資訊中是否僅存在預設列表中的一個預設背景標識資訊，或檢測預設列表中是否僅存在一個包含該文本資訊的預設背景標識資訊，對該文本資訊進行第二匹配之後，該方法還包括：若存在第二匹配結果，則根據該第二匹配結果，對該預設列表進行更新。
根據請求項2所述的使用者背景資訊的收集方法，其中，該根據逐層匹配結果，收集使用者相關的背景資訊包括：從第一匹配結果或第二匹配結果或第三匹配結果中獲取使用者對應的背景標識資訊；根據該背景標識資訊，收集該使用者相關的背景資訊。
根據請求項1所述的使用者背景資訊的收集方法，其中，該根據預設列表中的預設背景標識資訊，對該文本資訊進行逐層匹配之前，該方法還包括：對該文本資訊進行資料清理；該根據預設列表中的預設背景標識資訊，對該文本資訊進行逐層匹配包括：根據預設列表中的預設背景標識資訊，對資料清理後的文本資訊進行逐層匹配。
一種使用者背景資訊的收集裝置，包括：獲取單元，從使用者日常業務資訊中獲取與使用者背景資訊相關的文本資訊；匹配單元，根據預設列表中的預設背景標識資訊，對該文本資訊進行逐層匹配，其中，不同層次匹配分別對應不同匹配方式，該預設列表中保存有與使用者背景資訊相關的不同預設背景標識資訊；收集單元，根據逐層匹配結果，收集使用者相關的背景資訊，其中，該匹配單元，具體透過檢測預設列表中是否存在與該文本資訊相同的預設背景標識資訊，對該文本資訊進行第一匹配；以及該匹配單元，若不存在第一匹配結果，則具體還透過檢測該文本資訊中是否僅存在預設列表中的一個預設背景標識資訊，或檢測預設列表中是否僅存在一個包含該文本資訊的預設背景標識資訊，對該文本資訊進行第二匹配。
根據請求項8所述的使用者背景資訊的收集裝置，其中，該匹配單元，若不存在第二匹配結果，則具體還根據預設列表中的預設背景標識資訊以及預置相似度公式，對該文本資訊進行第三匹配。
根據請求項9所述的使用者背景資訊的收集裝置，其中，該匹配單元包括：計算模組，透過預置相似度公式，將該文本資訊與預設列表中每個預設背景標識資訊進行相似度計算；獲取模組，獲取與該文本資訊之間相似度最大的預設背景標識資訊；匹配模組，透過檢測該預設背景標識資訊與該文本資訊之間的相似度是否大於或等於預置閾值，對該文本資訊進行第三匹配。
根據請求項10所述的使用者背景資訊的收集裝置，其中，該計算模組，具體計算該文本資訊與預設背景標識資訊之間的最長公共子串長度；該計算模組，具體將該最長公共子串長度除以該預設背景標識資訊的字符串長度，得到該文本資訊與該預設背景標識資訊之間的相似度。
根據請求項9所述的使用者背景資訊的收集裝置，其中，該裝置還包括：更新單元，若存在第二匹配結果，則根據該第二匹配結果，對該預設列表進行更新。
根據請求項9所述的使用者背景資訊的收集裝置，其中，該收集單元包括：獲取模組，從第一匹配結果或第二匹配結果或第三匹配結果中獲取使用者對應的背景標識資訊；收集模組，根據該獲取模組獲取的背景標識資訊，收集該使用者相關的背景資訊。
根據請求項8所述的使用者背景資訊的收集裝置，其中，該裝置還包括：清理單元；該清理單元，對該文本資訊進行資料清理；該匹配單元，具體根據預設列表中的預設背景標識資訊，對資料清理後的文本資訊進行逐層匹配。