TWI668579B

TWI668579B - 職務工作說明資料庫之建立方法

Info

Publication number: TWI668579B
Application number: TW106138906A
Authority: TW
Inventors: 金仁; 張凱閔; 洪維均
Original assignee: 全球華人股份有限公司
Priority date: 2017-11-10
Filing date: 2017-11-10
Publication date: 2019-08-11
Also published as: TW201918915A

Abstract

一種職務工作說明資料庫之建立方法，係由一伺服器進行下列步驟。所述步驟包括：一資料庫連接步驟，係連接一樣本廠商職缺資料庫。一工作說明分類步驟，係將由樣本廠商職缺資料庫所提供的多筆資料依一產業類別及一職務類別進行分類。一文字探勘步驟，係用以將對應所述職缺名稱的所述職缺職務工作說明進行詞句比對，並依重複次數進行記錄。一資料儲存步驟，將所述職缺名稱所對應的一廠商排名、一重複度、一產業類別、一職務類別與一工作說明單句進行儲存至一職務工作說明資料庫。

Description

職務工作說明資料庫之建立方法

本發明是關於一種資料庫之建立方法，且特別是關於一種職務工作說明資料庫之建立方法。

近年來，隨著經濟發展，各個產業對於人才需求也逐漸提高。在求職過程中，例如透過人力網站，同一職缺名稱在不同產業類別內的工作內容很可能有所不同。舉例來說，在「金融業」的產業類別中，職缺名稱為「系統分析師」的工作內容可能是執行股務作業系統、電子交易平台、法金現金管理系統等系統的開發作業，而在「軟體業」的產業類別中，職缺名稱為「系統分析師」的工作內容則可能聚焦於決策支援系統、BI(商業智慧)系統等系統的開發作業或者資料探勘。由此可知，即使是同一職缺名稱(例如同樣是「系統分析師」的職缺名稱)，其工作內容在不同產業類別中可能存在相當差異。

然而，目前坊間的相關職涯輔導產品都僅探究不同職務類別之職缺名稱之間的工作內容的差異(例如分析同一產業類別或同一廠商的「系統分析師」與「程式設計師」之間的工作內容的差異供求職者參考)，但並沒有針對同一職務類別之職缺名稱的工作內容於不同產業類別之間的差異進行比較，對於求職者而言較難以判斷所述職缺名稱之職務類別於相對應產業類別內的工作內容是否適合自已，即求職者無法僅依據同一職務類別之職缺名稱的工作內容了解不同產業類別內的工作內容的差別。

本發明的職務工作說明資料庫之建立方法可用於提供使用者辨別同一職務類別之職缺名稱於不同產業類別中的工作內容的差異性。

本發明的職務工作說明資料庫之建立方法係由一伺服器進行下列步驟，包括下列步驟：一資料庫連接步驟，係連接一樣本廠商職缺資料庫。樣本廠商職缺資料庫包含：一職缺名稱、一廠商所屬產業類別、一職缺所屬職務類別、一職缺職務工作說明與一廠商排名資料，其中所述廠商排名資料，係依建立職缺名稱的複數廠商所對應的資本額或員工人數進行篩選或排序而得。一工作說明分類步驟，係將由樣本廠商職缺資料庫所提供的多筆資料依一產業類別及一職務類別進行分類。一文字探勘步驟，係用以將對應所述職缺名稱的所述職缺職務工作說明進行詞句比對，並依重複次數進行記錄。一資料儲存步驟，將所述職缺名稱所對應的一廠商排名、一重複度、一產業類別、一職務類別與一工作說明單句進行儲存至一職務工作說明資料庫。

在本發明的一實施例中，其中所述文字探勘步驟進一步包括一高頻詞分析步驟，係將相同產業類別與相同職務類別的所述職缺職務工作說明進行分析以取得複數高頻詞。

在本發明的一實施例中，其中文字探勘步驟進一步包括一剔除停用詞步驟，於取得所述高頻詞後，將所述高頻詞與預設之停用詞組進行比對，並刪除屬於所述停用詞組內的所述高頻詞，以定義剩餘的所述高頻詞為複數重要高頻詞。

在本發明的一實施例中，其中所述職務工作說明資料庫之建立方法更包括下列步驟：一工作說明切割步驟，將所述職缺職務工作說明以句為單位進行切割成複數工作說明單句。一工作說明單句配對步驟，將所述工作說明單句與所述重要高頻詞進行比對，將未出現所述重要高頻詞中任一者的所述工作說明單句刪除，或將出現所述重要高頻詞中至少一者的所述工作說明單句取出並定義為一重要工作說明單句。

在本發明的一實施例中，其中所述職務工作說明資料庫之建立方法更包括一標點符號優化步驟與一錯別字修正步驟。

在本發明的一實施例中，其中所述職務工作說明資料庫之建立方法更包括下列步驟：一重要工作說明單句篩選步驟，用以剔除非實質說明工作內容的所述重要工作說明單句。一重要工作說明單句再切割步驟，係判斷經過所述標點符號優化步驟或所述錯別字修正步驟或重要工作說明單句篩選步驟的所述重要工作說明單句是否需要再次切割，並將需要再次切割者進行切割完成後並判斷是否符合定義為一重要工作說明單句。

在本發明的一實施例中，其中所述職務工作說明資料庫之建立方法更包括一重覆度計算步驟，係將所述重要工作說明單句進行比對，並記錄重覆的次數數值，亦依所記錄的次數或數值，以完成排列。

在本發明的一實施例中，其中所述職務工作說明資料庫之建立方法更包括一相似單句刪除步驟，用以將重覆出現的所述重要工作說明單句刪除，並記錄重覆出現的次數。

基於上述，本發明所提供的職務工作說明資料庫之建立方法係由伺服器進行下列步驟：資料庫連接步驟、工作說明分類步驟、文字探勘步驟以及資料儲存步驟，即透過連接樣本廠商職缺資料庫(如人力銀行資料庫)即時蒐集各種職缺名稱及其職務類別於各個產業類別中的工作內容描述，再藉由前述步驟分類及分析所蒐集到的各種工作內容描述後，產生對應於同一職務類別之職缺名稱於不同產業類別中的工作說明的相關資訊。據此，本發明所提供的職務工作說明資料庫之建立方法可用於提供使用者辨別同一職務類別之職缺名稱於不同產業類別中的工作內容的差異性。

S110至S132、S210至S220‧‧‧步驟

圖1是本發明一實施例的職務工作說明資料庫之建立方法的流程圖。

圖2是圖1的職務工作說明資料庫應用於產生工作說明的流程圖。

圖1是本發明一實施例的職務工作說明資料庫之建立方法的流程圖。請參考圖1，在本實施例中，職務工作說明資料庫之建立方法係由未繪示的伺服器進行下列步驟，包括：步驟S110：一資料庫連接步驟；步驟S112：一工作說明分類步驟；步驟S114：一文字探勘步驟；步驟S116：一工作說明切割步驟；步驟S118：一工作說明單句配對步驟；步驟S120：一標點符號優化步驟；步驟S122：一錯別字修正步驟；步驟S124：一重要工作說明單句篩選步驟；步驟S126：一重要工作說明單句再切割步驟；步驟S128：一重覆度計算步驟；步驟S130：一相似單句刪除步驟；步驟S132：一資料儲存步驟。藉由伺服器執行上述步驟，即可建立出職務工作說明資料庫。上述各個步驟的具體內容請參考下列說明。

首先，在步驟S110中，所述資料庫連接步驟，係連接未繪示的樣本廠商職缺資料庫。所述樣本廠商職缺資料庫，例如是人力銀行現有已儲存有相關資料的資料庫(但不限於此)，其包含：一職缺名稱、一廠商所屬產業類別、一職缺所屬職務類別、一職缺職務工作說明與一廠商排名資料，但不限於上述內容。

更進一步地說，在所述樣本廠商職缺資料庫中，將複數廠商所提供的相關資料依據特定參數進行篩選或排序。例如，所述廠商排名資料，係依建立職缺名稱的複數廠商所對應的資本額或員工人數進行篩選或排序而得。類似地，所述職缺名稱及其他資料項目亦可依據將複數廠商所提供的相關資料進行篩選或排序。所述篩選與排序動作可透過連接至伺服器或者伺服器內建的篩選模組與排序模組執行，但不限於此。藉此，透過步驟S110的資料庫連接步驟，可連接至樣本廠商職缺資料庫，以擷取相關資料並應用於後續步驟。

接著，在步驟S112中，所述工作說明分類步驟，係將由樣本廠商職缺資料庫所提供的多筆職缺職務工作說明依一產業類別及一職務類別進行分類。所述分類序可透過連接至伺服器或者伺服器內建的分類模組執行，但不限於此。藉此，透過步驟S112的工作說明分類步驟，可將由樣本廠商職缺資料庫所提供的資料分類後應用於後續步驟。

接著，在步驟S114中，所述文字探勘步驟，係用以將對應所述職缺名稱之多筆職缺職務工作說明進行詞句比對，並依重複次數進行記錄。其中，所述文字探勘步驟進一步包括一高頻詞分析步驟與一剔除停用詞步驟。所述高頻詞分析步驟，係將相同產業類別與相同職務類別的所述職缺職務工作說明進行分析以取得複數高頻詞。所述剔除停用詞步驟，於取得所述高頻詞後，將所述高頻詞與預設之停用詞組進行比對，並刪除屬於所述停用詞組內的所述高頻詞，以定義剩餘的所述高頻詞為複數重要高頻詞。所述停用詞例如是較無職務代表意義的用詞或者連接性用詞(如「與」、「或者」、介系詞等用詞)。所述分析與剔除動作可參照前述步驟透過分析模組與剔除模組執行，但不限於此。

舉例而言，在所述文字探勘步驟(即步驟S114)中，首先在所述高頻詞分析步驟中將相同產業類別(例如金融產業)與相同職務類別(例如系統分析師)的所述職缺職務工作說明進行分析，藉由取得複數高頻詞(例如：「維護」、「管理」、「需求」、「分析」、「專案」、「具備」、「與」、「使用」等用詞)等。之後，在所述剔除停用詞步驟中，於取得上述高頻詞後，將上述高頻詞與預設之停用詞組進行比對，並刪除屬於所述停用詞組內的所述高頻詞(如「具備」、「與」、「使用」等用詞)，以定義剩餘的所述高頻詞為複數重要高頻詞(即「維護」、「管理」、「需求」、「分析」、「專案」等用詞)。藉此，透過步驟S114的文字探勘步驟，可依據樣本廠商職缺資料庫所提供的資料分析獲得於同一職缺名稱之職務類別與同一產業類別內於職缺職務工作說明中的重要高頻詞(即常用的代表用詞)。

接著，在步驟S116中，所述工作說明切割步驟，將已經文字探勘步驟處理之職缺職務工作說明以句為單位進行切割成複數工作說明單句。所述分割動作可參照前述步驟透過分割模組執行，但不限於此。

舉例而言，以在前述步驟中取得的職缺職務工作說明之「1.銀行應用系統開發、維護與管理.用戶需求訪談；2.客戶需求程式設計.分析；3.專案執行與支援；4.產品功能驗證。」為例，以句為單位進行切割後，可得到：「銀行應用系統開發、維護與管理.用戶需求訪談」、「客戶需求程式設計.分析」、「專案執行與支援」、「產品功能驗證」這四句工作說明單句。雖然上面是以一則職缺職務工作說明之分割動作作為舉例說明，但於此步驟中可同時或依序執行多筆職缺職務工作說明之分割步驟，亦可在執行所有步驟後重新執行上述步驟而針對其他筆職缺職務工作說明進行分割步驟，但不限於此。

接著，在步驟S118中，所述工作說明單句配對步驟，將所述工作說明單句與所述重要高頻詞進行比對，將未出現所述重要高頻詞中任一者的所述工作說明單句刪除，或將出現所述重要高頻詞中至少一者的所述工作說明單句取出並定義為一重要工作說明單句。所述配對動作可參照前述步驟透過配對模組執行，但不限於此。

舉例而言，將前述步驟中所得之重要高頻詞(即「維護」、「管理」、「需求」、「分析」、「專案」等用詞)與工作說明單句(即「銀行應用系統開發、維護與管理.用戶需求訪談」、「客戶需求程式設計.分析」、「專案執行與支援」、「產品功能驗證」等單句)進行比對，可得到單句「銀行應用系統開發、維護與管理.用戶需求訪談」對應於重要高頻詞「維護」、「管理」、「需求」、單句「客戶需求程式設計.分析」對應於重要高頻詞「需求」、「分析」、且單句「專案執行與支援」對應於重要高頻詞「專案」，故這三個單句得以保存，而單句「產品功能驗證」未對應任何重要高頻詞，則刪除此單句。上述僅為用於說明的範例，本發明不限於此。

接著，在步驟S120中，所述標點符號優化步驟，將各個工作說明單句中的標點符號進行優化(即調整修正使用不恰當的標點符號)。並且，在步驟S122中，所述錯別字修正步驟，係將各個工作說明單句進行錯別字修正。此二步驟具有相似概念，即分析判斷通過前述步驟後所存留的工作說明單句是否有標點符號或錯別字需調整。所述優化與修正動作可參照前述步驟透過優化模組與修正模組執行，但不限於此。

舉例而言，前述單句「銀行應用系統開發、維護與管理.用戶需求訪談」可優化成單句「銀行應用系統開發、維護與管理。用戶需求訪談」、而「客戶需求程式設計.分析」可優化成單句「客戶需求程式設計、分析」，但不以此為限。錯別字修正步驟也具有類似概念，即針對每一單句判斷是否有錯別字，若有，則進行修正。若沒有任何標點符號不適當或者錯別字存在的情況，則可不進行任何優化或修正。因此，此二步驟可為選擇性的設置，即省略此二步驟並不影響本實施例之實施方式。

接著，在步驟S124中，所述重要工作說明單句篩選步驟，用以剔除非實質說明工作內容的所述重要工作說明單句。所述篩選動作可參照前述步驟透過篩選模組執行，但不限於此。

舉例而言，有些職缺職務工作內容中記載有廠商的聯絡方式(如出現「系統分析團隊之徵才專線：」等字樣)，所述聯絡方式可能通過前述步驟，例如在步驟S116的切割步驟中切割成工作說明單句，並在步驟S118的配對步驟中因含有重要高頻詞(如「分析」)被保留下來，並進入步驟S124的篩選步驟。此工作說明單句實際上與工作說明無關，則在此步驟中被踢除，使得存留的工作說明單句之內容更為貼近實際工作內容。

接著，在步驟S126中，所述重要工作說明單句再切割步驟，係判斷經過所述標點符號優化步驟(即步驟S120)或所述錯別字修正步驟(即步驟S122)或所述重要工作說明單句篩選步驟(即步驟S124)後的重要工作說明單句是否需要再次切割，並將需要再次切割者進行切割完成後並判斷是否符合定義為一重要工作說明單句。所述判斷與切割動作可參照前述步驟透過判斷模組與切割模組執行，但不限於此。

舉例而言，通過上述步驟而存留的單句「銀行應用系統開發、維護與管理。用戶需求訪談」經判斷後再次以句為單位再切割成單句「銀行應用系統開發、維護與管理」與單句「用戶需求訪談」。之後，再次判斷所述單句是否符合定義為重要工作說明單句，即判斷所述單句是否具有前述重要高頻詞(如「維護」、「管理」、「需求」等用詞)，若有，則可被定義為重要工作說明單句，若無，則刪除所述單句(如前述步驟)。相對地，通過上述步驟而存留的單句「客戶需求程式設計、分析」經判斷後則不需再次切割，則直接進入下一步驟，以此類推。

接著，在步驟S128中，所述重覆度計算步驟，係將所述重要工作說明單句進行比對，並記錄重覆的次數數值，亦依所記錄的次數或數值，以完成排列。所述比對與計算動作可參照前述步驟透過比對模組與計算模組執行，但不限於此。

具體而言，在此步驟中，將單一單句與其它所有單句進行兩兩模糊比對，並逐一計算所述單句與其他單句之間的相似度(由數值0到1進行表示，其中數值1代表兩個單句完全相同)。接著，將所述單句對應於其他單句比較後所得的所有相似度之數值進行加總平均，取得所述單句的重複度。如此重複計算每一單句與其他單句之間的重複度，而後依據重複度的數值高低而針對每一單句給予一重複度排名。重複度的數值越大者，其重複度排名越大，且其在排行榜上的位置越下方，但本發明不限於此。

接著，在步驟S130中，所述相似單句刪除步驟，用以將重覆出現的所述重要工作說明單句刪除，並記錄重覆出現的次數。所述比對與刪除動作可參照前述步驟透過比對模組與刪除模組執行，但不限於此。

具體而言，由第一筆單句開始，首先比較第一筆單句與第二筆單句，若兩者相似度高，則刪除第二筆單句(即刪除排行靠後的單句)。接著，比較第一筆單句與第三筆單句，若兩者相似度高，則刪除第三筆單句(排行靠後的單句)。之後，再比較第一筆單句與第四筆單句，以此類推。相對地，若比較第一筆單句與第二筆單句後，發現兩者相似度低，則第一筆單句與第二筆單句均保留，並接著比較第二筆單句與第三筆單句，若兩者相似度高，則刪除第三筆單句，再比較第二筆單句與第四筆單句，以此類推。若第二筆單句與第三筆單句的相似度低，則第二筆單句與第三筆單句均保留，並比較第三筆單句與第四筆單句，以此類推。

最後，在步驟S132中，所述資料儲存步驟，將所述職缺名稱所對應的一廠商排名、一重複度、重覆度排名、一產業類別、一職務類別與一工作說明單句進行儲存至一職務工作說明資料庫。換言之，經由上述步驟，可將各個職缺名稱所對應的所有資料，即廠商排名、重複度、重覆度排名、產業類別、職務類別與工作說明單句等，儲存至未繪示的職務工作說明資料庫。上述資料並非限制於指單一名稱、單一數值或者單一單句，而可以是多筆資料的統稱(例如「將所述職缺名稱之職務類別所對應的工作說明單句儲存至職務工作說明資料庫」的步驟不限於將單一工作說明單句儲存至職務工作說明資料庫，而是指所有已經透過上述步驟處理完(即已經完成分類、文字探勘、切割、配對、篩選、比對與排序等動作)並且對應於所述職缺名稱之職務類別的工作說明單句都可以在此步驟中儲存至職務工作說明資料庫中對應於所述職缺名稱之職務類別的資料群組下，但不限於此。

如此，從步驟S110的連接資料庫步驟到S132的資料儲存步驟，本實施例所提供的職務工作說明資料庫之建立方法藉由連接至樣本廠商職缺資料庫，進一步經由具有可執行上述步驟之多個模組的執行系統(連接至伺服器或內建於伺服器)執行上述步驟，而後將從樣本廠商職缺資料庫所得之資料(如廠商排名)及/或透過上述步驟處理完(即已經完成分類、文字探勘、切割、配對、篩選、比對與排序等動作)之資料(如工作說明單句)進行儲存，即可建立出本實施例的職務工作說明資料庫。

圖2是圖1的職務工作說明資料庫應用於產生工作說明的流程圖。請參考圖2，在本實施例的職務工作說明資料庫透過圖1之流程圖所述的建立方法建立完成後，當廠商刊登新職缺(即步驟S210)時，所述新職缺之相關資料(如職缺名稱、產業類別、職務類別、工作說明等)可儲存至樣本廠商職缺資料庫，以更新樣本廠商職缺資料庫(即步驟S212)。在樣本廠商職缺資料庫更新之後，經由上述建立方法建立完成後的職務工作說明資料庫亦可即時或依據需求再次連線至樣本廠商職缺資料庫，並再次透過上述建立方法將新職缺之相關資訊(例如工作說明、經由分類、文字探勘、切割、配對、篩選、比對與排序等動作後)儲存於職務工作說明資料庫，藉以更新職務工作說明資料庫(即步驟S214)。上述動作可依據廠商是否提供新職缺而即時地或依據需求被執行，但不限於此。

再者，在所述職務工作說明資料庫被建立及/或被更新後，所述職務工作說明資料庫可作為使用者(如徵才廠商或求職者)的查詢系統。詳細而言，使用者可依據需求輸入欲查詢之資料(即步驟S216)，如欲查詢的產業類別、職務類別、或廠商排名、重複度之數值範圍、重複度排名等參數。隨後，未繪示的伺服器即可執行所述職務工作說明資料庫，並依據使用者輸入(即使用者所設定之產業類別、職務類別或相關參數)而設定欲查詢之資訊(即步驟S218)，進而在職務工作說明資料庫內搜尋到對應的工作說明單句。所述工作說明單句係已經由前述建立方法建立在所述職務工作說明資料庫，而後依據使用者輸入之設定內容而被擷取出。將對應於使用者輸入的所有工作單句擷取出，即可產生對應之工作說明(即步驟S220)。如此，使用者可透過職務工作說明資料庫逐一或同時查詢單一或多個產業類別/職務類別中的同一職缺名稱之工作說明，藉以辨別同一職缺名稱於不同產業類別中的工作內容的差異性。圖2所提出的流程僅為本實施例的職務工作說明資料庫應用於產生工作說明的一種可能實施手段，並非用於限制本發明。

綜上所述，本發明所提供的職務工作說明資料庫之建立方法係由伺服器進行下列步驟：資料庫連接步驟、工作說明分類步驟、文字探勘步驟、工作說明切割步驟、工作說明單句配對步驟、標點符號優化步驟、錯別字修正步驟、重要工作說明單句篩選步驟、重要工作說明單句再切割步驟、重覆度計算步驟、相似單句刪除步驟以及資料儲存步驟，即透過連接樣本廠商職缺資料庫(如人力銀行資料庫)即時蒐集各種職缺名稱及其職務類別於各個產業類別中的工作內容描述，再藉由前述步驟分類及分析所蒐集到的各種工作內容描述後，產生對應於同一職務類別之職缺名稱於不同產業類別中的工作說明的相關資訊。據此，本發明所提供的職務工作說明資料庫之建立方法可用於提供使用者辨別同一職務類別之職缺名稱於不同產業類別中的工作內容的差異性。

Claims

一種職務工作說明資料庫之建立方法，係由一伺服器進行下列步驟，包括：一資料庫連接步驟，係連接一樣本廠商職缺資料庫，該樣本廠商職缺資料庫包含：一職缺名稱、一廠商所屬產業類別、一職缺所屬職務類別、一職缺職務工作說明與一廠商排名資料，其中該廠商排名資料，係依建立該職缺名稱的複數廠商所對應的資本額或員工人數進行篩選或排序而得；一工作說明分類步驟，係將由該樣本廠商職缺資料庫所提供的多筆資料依一產業類別及一職務類別進行分類；一文字探勘步驟，係用以將對應該職缺名稱的該職缺職務工作說明進行詞句比對，並依詞句重複次數進行記錄；一資料儲存步驟，將各該職缺名稱所對應的一廠商排名、一重覆度、一產業類別、一職務類別與一工作說明單句進行儲存至一職務工作說明資料庫；一重要工作說明單句篩選步驟，由伺服器內建的篩選模組剔除非實質說明工作內容的該重要工作說明單句；一重要工作說明單句再切割步驟，係判斷經過該標點符號優化步驟或該錯別字修正步驟或該重要工作說明單句篩選步驟的該重要工作說明單句是否需要再次切割，並將需要再次切割者進行切割完成後並判斷是否符合定義為一重要工作說明單句；以及，一相似單句刪除步驟，用以將重覆出現的該重要工作說明單句刪除，並記錄重覆出現的次數；以及，一重覆度計算步驟進行計算，其係將該些重要工作說明單句進行比對，並記錄該些重要工作說明單句重覆的次數數值而取得該重覆度。
如請求項1所述之職務工作說明資料庫之建立方法，其中該文字探勘步驟進一步包括：一高頻詞分析步驟，係將相同產業類別與相同職務類別的該職缺職務工作說明進行分析以取得複數高頻詞。
如請求項2所述之職務工作說明資料庫之建立方法，其中該文字探勘步驟進一步包括：一剔除停用詞步驟，於取得該些高頻詞後，將該些高頻詞與預設之停用詞組進行比對，並刪除屬於該停用詞組內的該些高頻詞，以定義剩餘的該些高頻詞為複數重要高頻詞。
如請求項3所述之職務工作說明資料庫之建立方法，更包括：一工作說明切割步驟，將該職缺職務工作說明以句為單位進行切割成複數工作說明單句；以及一工作說明單句配對步驟，將該些工作說明單句與該些重要高頻詞進行比對，將未出現該些重要高頻詞中任一者的該工作說明單句刪除，或將出現該些重要高頻詞中至少一者的該工作說明單句取出並定義為一重要工作說明單句。
如請求項4所述之職務工作說明資料庫之建立方法，更包括一標點符號優化步驟與一錯別字修正步驟。