TWI689825B - 一種文件品質指標獲取方法及裝置 - Google Patents

一種文件品質指標獲取方法及裝置 Download PDF

Info

Publication number
TWI689825B
TWI689825B TW107127945A TW107127945A TWI689825B TW I689825 B TWI689825 B TW I689825B TW 107127945 A TW107127945 A TW 107127945A TW 107127945 A TW107127945 A TW 107127945A TW I689825 B TWI689825 B TW I689825B
Authority
TW
Taiwan
Prior art keywords
vectors
sentence
sentences
document
word
Prior art date
Application number
TW107127945A
Other languages
English (en)
Other versions
TW201931164A (zh
Inventor
王琪
何東杰
楊潔
Original Assignee
大陸商中國銀聯股份有限公司
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 大陸商中國銀聯股份有限公司 filed Critical 大陸商中國銀聯股份有限公司
Publication of TW201931164A publication Critical patent/TW201931164A/zh
Application granted granted Critical
Publication of TWI689825B publication Critical patent/TWI689825B/zh

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Machine Translation (AREA)

Abstract

本發明公開了一種文件品質指標獲取方法及裝置,該方法包括獲取文件的名稱和關鍵字,生成文件資料來源,使用預設的神經網路語言模型對文件資料來源中的詞條進行訓練,得到多個詞語的詞向量,確定出多個語句的句子向量,對多個語句的句子向量進行去重,分為P類品質指標,保存P類品質指標的句子向量對應的內容,並基於隨機森林確定P類品質指標的重要程度值,根據P類品質指標的句子向量對應的內容和P類品質指標的重要程度值,獲取需要評測的品質指標的明細和重要性排序。通過將開源軟體的語句量化為向量,得到品質指標集合,提高了後續排序的準確率,基於隨機森林得到品質指標的重要程度值,使得獲取的品質指標結果更加準確和細化。

Description

一種文件品質指標獲取方法及裝置
本發明實施例屬於語句分析技術領域,尤其是關於一種文件品質指標獲取方法及裝置。
開源軟體的廣泛應用已經成為一種趨勢。金融行業出於技術成熟度和安全合規方面的考慮,對開源軟體的應用保持審慎的態度。所以在使用一個開源軟體之前應對軟體進行完備科學的評估,通常通過建立評測模型對開源軟體進行評測,基於模型評測諸如kakfa,rabbitmq,rootwrap等開源軟體,在此過程中,我們發現了如下問題:首先,由於缺乏自動化的過程和工具,部分步驟通過人工抓取,每個評測指標及相應內容選取非常耗時並相對主觀。其次,開源軟體評測指標數量大,不同軟體對於不同指標評測的敏感度不盡相同,有效地選取評測指標才能有效地評估軟體。
現有的軟體自動分類方法通常利用包含網頁,日誌等內容的文件來表徵物件,通過資料採擷技術對軟體文件進行自動分類,將軟體文件集合按照主題進行聚類,聚類的結果是每個文件自動歸屬於某個主題,從而間接實現對詞條等物件的自動分類。現有方案下的資料來源只是簡單利用關鍵字進行聚類,不包含語義以及和上下文的關聯,這樣孤立的分類 對更加抽象或者是表徵含義更豐富的物件進行分類效果很差,同時很難對更長的量如句子進行識別分類。
本發明實施例提供一種文件品質指標獲取方法及裝置,用以實現自動化獲取文件的品質指標,提高準確性。
第一方面,本發明實施例提供的一種文件品質指標獲取方法,包括:獲取文件的名稱和關鍵字,並根據該文件的名稱和關鍵字,在搜尋引擎中提取詞條,生成文件資料來源;使用預設的神經網路語言模型對該文件資料來源中的詞條進行訓練,得到多個詞語的詞向量;根據該多個詞語的詞向量和該文件的多個語句,確定出該多個語句的句子向量;對該多個語句的句子向量進行去重,分為P類品質指標,保存該P類品質指標的句子向量對應的內容,並基於隨機森林確定該P類品質指標的重要程度值,P為正整數;根據該P類品質指標的句子向量對應的內容和該P類品質指標的重要程度值,獲取需要評測的品質指標的明細和重要性排序。
可選的,該使用預設的神經網路語言模型對該文件資料來源中的詞條進行訓練,得到多個詞語的詞向量,包括:使用預設的神經網路語言模型對該文件資料來源中的詞條進行訓練, 通過詞條語句中當前詞語的前後文詞語預測該當前詞語的詞向量;對每個詞條進行遍歷,得到多個詞語的詞向量。
可選的,該根據該多個詞語的詞向量和該文件的多個語句,確定出該多個語句的句子向量,包括:將該文件的多個語句進行分詞;使用該多個詞語的詞向量對分詞後的語句進行遍歷,將該多個語句中的詞語轉換為詞向量,確定出多個語句的句子向量。
可選的,該對多個語句的句子向量進行去重,分為P類品質指標,包括:將該多個語句的句子向量進行補齊;針對該多個句子向量中任意一個句子向量,遍歷其他的句子向量,計算向量之間的歐式距離;將歐式距離小於第一閾值的兩個句子向量確定為同一類品質指標,將歐式距離小於第二閾值的兩個句子向量確定為相同的句子向量,進行去重,得到P類品質指標。
可選的,該基於隨機森林確定該P類品質指標的重要程度值,包括:根據該P類品質指標,確定每次形成決策樹利用的樣本個數和構建森林的樹的棵數;根據該樣本個數和構建森林的樹的棵數構建決策樹;遍歷所有的決策樹中品質指標的特徵,在一次循環中,該特徵出現一次計數值加1,得到該特徵在森林中出現的次數; 根據每個特徵在森林中出現的次數,得到各類品質指標的重要程度值。
第二方面,本發明實施例還提高了一種文件品質指標獲取裝置,包括:生成單元,用於獲取文件的名稱和關鍵字,並根據該文件的名稱和關鍵字,在搜尋引擎中提取詞條,生成文件資料來源;確定單元,用於使用預設的神經網路語言模型對該文件資料來源中的詞條進行訓練,得到多個詞語的詞向量;以及根據該多個詞語的詞向量和該文件的多個語句,確定出該多個語句的句子向量;去重單元,用於對該多個語句的句子向量進行去重,分為P類品質指標,保存該P類品質指標的句子向量對應的內容,並基於隨機森林確定該P類品質指標的重要程度值,P為正整數;處理單元,用於根據該P類品質指標的句子向量對應的內容和該P類品質指標的重要程度值,獲取需要評測的品質指標的明細和重要性排序。
可選的,該確定單元具體用於:使用預設的神經網路語言模型對該文件資料來源中的詞條進行訓練,通過詞條語句中當前詞語的前後文詞語預測該當前詞語的詞向量;對每個詞條進行遍歷,得到多個詞語的詞向量。
可選的,該確定單元具體用於:將該文件的多個語句進行分詞;使用該多個詞語的詞向量對分詞後的語句進行遍歷,將該多個語句中的詞語轉換為詞向量,確定出多個語句的句子向量。
可選的,該去重單元具體用於:將該多個語句的句子向量進行補齊;針對該多個句子向量中任意一個句子向量,遍歷其他的句子向量,計算向量之間的歐式距離;將歐式距離小於第一閾值的兩個句子向量確定為同一類品質指標,將歐式距離小於第二閾值的兩個句子向量確定為相同的句子向量,進行去重,得到P類品質指標。
可選的,該去重單元具體用於:根據該P類品質指標,確定每次形成決策樹利用的樣本個數和構建森林的樹的棵數;根據該樣本個數和構建森林的樹的棵數構建決策樹;遍歷所有的決策樹中品質指標的特徵,在一次循環中,該特徵出現一次計數值加1,得到該特徵在森林中出現的次數;根據每個特徵在森林中出現的次數,得到各類品質指標的重要程度值。
相應的,本發明實施例還提供了一種計算設備,包括:記憶體,用於存儲程式指令;處理器,用於調用該記憶體中存儲的程式指令,按照獲得的程式執行上述文件品質指標獲取方法。
相應的,本發明實施例還提供了一種電腦存儲介質,該電腦可讀存儲介質存儲有電腦可執行指令,該電腦可執行指令用於使電腦執行上述文件品質指標獲取方法。
第三方面,本發明實施例提供一種電子設備,包括:處理器、記憶體、收發機、匯流排介面,其中處理器、記憶體與收發機之間通過匯流排介面連接;該收發機,用於獲取文件的名稱和關鍵字;該處理器,用於根據該文件的名稱和關鍵字,在搜尋引擎中提取詞條,生成文件資料來源;使用預設的神經網路語言模型對該文件資料來源中的詞條進行訓練,得到多個詞語的詞向量;根據該多個詞語的詞向量和該文件的多個語句,確定出該多個語句的句子向量;對該多個語句的句子向量進行去重,分為P類品質指標,保存該P類品質指標的句子向量對應的內容,並基於隨機森林確定該P類品質指標的重要程度值,P為正整數;根據該P類品質指標的句子向量對應的內容和該P類品質指標的重要程度值,獲取需要評測的品質指標的明細和重要性排序;該記憶體,用於存儲一個或多個可執行程式,可以存儲該處理器在執行操作時所使用的資料;該匯流排介面,用於提供介面。
第四方面,本發明實施例提供一種非暫態電腦可讀存儲介質,該非暫態電腦可讀存儲介質存儲電腦指令,該電腦指令用於使該電腦執行上述第一方面中任一實施例該文件品質指標獲取方法。
第五方面,本發明實施例提供一種電腦程式產品,該電腦程 式產品包括存儲在非暫態電腦可讀存儲介質上的計算程式,該電腦程式包括程式指令,當該程式指令被電腦執行時,使該電腦執行上述第一方面中任一實施例該文件品質指標獲取方法。
本發明實施例表明,通過獲取文件的名稱和關鍵字,在搜尋引擎中提取詞條,生成文件資料來源,使用預設的神經網路語言模型對文件資料來源中的詞條進行訓練,得到多個詞語的詞向量,根據多個詞語的詞向量和該文件的多個語句,確定出該多個語句的句子向量,對多個語句的句子向量進行去重,分為P類品質指標,保存P類品質指標的句子向量對應的內容,並基於隨機森林確定P類品質指標的重要程度值,根據P類品質指標的句子向量對應的內容和P類品質指標的重要程度值,獲取需要評測的品質指標的明細和重要性排序。通過將文件的語句量化為向量,得到品質指標集合,提高了後續排序的準確率,基於隨機森林得到品質指標的重要程度值,使得獲取的品質指標結果更加準確和細化。
101~105‧‧‧步驟
301‧‧‧生成單元
302‧‧‧確定單元
303‧‧‧去重單元
304‧‧‧處理單元
401‧‧‧處理器
402‧‧‧記憶體
403‧‧‧收發機
404‧‧‧匯流排介面
為了更清楚地說明本發明實施例中的技術方案,下面將對實施例描述中所需要使用的附圖作簡要介紹,顯而易見地,下面描述中的附圖僅僅是本發明的一些實施例,對於本領域的普通技術人員來講,在不付出進步性勞動的前提下,還可以根據這些附圖獲得其他的附圖。
圖1為本發明實施例提供的一種文件品質指標獲取方法的流程示意圖; 圖2為本發明實施例提供的一種生成詞向量的示意圖;圖3為本發明實施例提供的一種文件品質指標獲取裝置的結構示意圖;圖4為本發明實施例提供的一種電子設備的結構示意圖。
為了使本發明的目的、技術方案和優點更加清楚,下面將結合附圖對本發明作進一步地詳細描述,顯然,所描述的實施例僅僅是本發明一部分實施例,而不是全部的實施例。基於本發明中的實施例,本領域普通技術人員在沒有做出進步性勞動前提下所獲得的所有其它實施例,都屬於本發明保護的範圍。
圖1示例性的示出了本發明實施例提供的一種文件品質指標獲取方法的流程,該流程可以由文件品質指標獲取裝置執行。在本發明實施例中,為了更好的解釋本發明實施例所提供的文件品質指標獲取方法,下面將以分散式開源軟體kaska為例,來描述該文件品質指標獲取的流程。
如圖1所示,該流程具體包括:
步驟101,獲取文件的名稱和關鍵字,並根據該文件的名稱和關鍵字,在搜尋引擎中提取詞條,生成文件資料來源。
在本發明實施例中,文件可以包括各種軟體等使用文件來表達內容的事物。以開源軟體為例,通過在搜尋引擎中輸入需要評測的開源軟體的名稱和關鍵字,提取詞條,可以形成文件資料來源。例如,通過搜尋引擎搜索開源軟體「Kafka」,「kafka功能」等關鍵片語合,得到搜索結 果。通過通用的爬蟲技術對搜索結果的前N個詞條(假設為1000條,詞條越多,指標越全面),獲取結果資訊的HTML(HyperText Markup Language,超文字標記語言)標籤如title(標題)、text(文件)等,將結果存為一個文字檔。
可選的,文件資料來源的獲取方式不限於通過搜尋引擎獲取詞條的Title標籤,也可以通過解析網頁,進行聚類分析等更多複雜預處理方式得到。
步驟102,使用預設的神經網路語言模型對該文件資料來源中的詞條進行訓練,得到多個詞語的詞向量。
具體的,可以使用預設的神經網路語言模型對文件資料來源中的詞條進行訓練,通過詞條語句中當前詞語的前後文詞語預測當前詞語的詞向量。然後對每個詞條進行遍歷,就可以得到多個詞語的詞向量。該預設的神經網路語言模型(如CBOW(Continuous Bagof-Words,連續詞袋)模型)可以是預設了一些參數的神經網路語言模型。
舉例來說,使用基於神經網路語言模型對文件資料來源中的詞條進行訓練,得到每個詞語的詞向量,通過詞條語句中前後文單詞如w t-2,w t-1,w t+1,w t+2來預測當前單詞w t 的向量表示。例如,其中一個單詞為「發佈」,則通過其前後文的單詞如「版本」、「發佈」、「時間」、「週期」、「產品」、「活躍度」等前後文,具體的可以如圖2所示的預測詞向量的流程。
可選的,上述CBOW模型也可以替換為改進CBOW模型或其他類似功能的模型。
步驟103,根據該多個詞語的詞向量和該文件的多個語句, 確定出該多個語句的句子向量。
在得到多個詞語的詞向量之後,就可以先將開源軟體的多個語句進行分詞,然後使用該多個詞語的詞向量對分詞後的語句進行遍歷,將多個語句中的詞語轉換為詞向量,確定出多個語句的句子向量。
針對開源軟體中的每一個語句進行分詞,並使用步驟102中得到的詞向量對分詞後的結果進行遍歷,得到每一個語句的句子向量(共N個句子向量,N為正整數)。例如,其中一個語句的內容為「軟體的貢獻者人數」,則提取「軟體」、「貢獻者」、「人數」三個詞的對應向量為V 1,V 2,V 3,那麼對應的句子向量就可以得到V=(V 1V 2V 3)。
步驟104,對該多個語句的句子向量進行去重,分為P類品質指標,保存P類品質指標的句子向量對應的內容,並基於隨機森林確定該P類品質指標的重要程度值,P為正整數。
將步驟103中得到的多個語句的句子向量進行補齊,針對該多個句子向量中任意一個句子向量,遍歷其他的句子向量,計算向量之間的歐式距離,可以將歐式距離小於第一閾值的兩個句子向量確定為同一類品質指標,將歐式距離小於第二閾值的兩個句子向量確定為相同的句子向量,進行去重,得到P類品質指標。該第一閾值和第二閾值可以依據經驗設置,其中,第一閾值大於第二閾值。例如,第一閾值可以設置為1,第二閾值可以設置為0.1。
對得到的N個句子向量進行補齊(以最長的向量長度為準)。對每一個句子向量,遍歷其他句子向量,計算向量之間的歐式距離。如果距離小於閾值(假設取值為1),那麼兩個句子向量可以認為是同一類。如 果兩個向量之間的距離小於0.1,說明兩個句子幾乎相同,保留其中之一即可,完成去重。最終,所有的語句在去掉相同句子向量的基礎上被分為P類,也就是P類品質指標。完成分類後,保存每一類的句子向量對應的內容。
可選的,上述句子向量的分類、去重、確定品質指標除了本發明實施例所示提供的方法得到外,也能通過改進演算法,分類聚類過程得到近似處理結果。
得到該P類品質指標之後,可以根據該P類品質指標,確定每次形成決策樹利用的樣本個數和構建森林的樹的棵數,根據樣本個數和構建森林的樹的棵數構建決策樹,然後遍歷所有的決策樹中品質指標的特徵,在一次循環中,特徵出現一次計數值加1,得到特徵在森林中出現的次數,最後再根據每個特徵在森林中出現的次數,就可以得到各類品質指標的重要程度值。
經過去重後的P類品質指標集合,經過補齊後的向量深度相同為n,則所有的特徵數為P*n。通過隨機森林生成決策樹訓練集的策略,從P類句子向量中通過重採樣來獲得訓練樣本。重複S次,產生S棵樹。然後採用下述的流程對結果進行統計:Begin
{F 1,F 2,...,F n}=BuildRandomForest(F,N,f s ) //隨機森林訓練
for 1
Figure 107127945-A0101-12-0011-9
n
Figure 107127945-A0101-12-0011-11
S do //遍歷所有的樹
for 1
Figure 107127945-A0101-12-0011-12
i
Figure 107127945-A0101-12-0011-14
M do //遍歷所有的特徵數
if f i
Figure 107127945-A0101-12-0011-16
F n then
θ i =θ i +1, for 1
Figure 107127945-A0101-12-0012-17
p
Figure 107127945-A0101-12-0012-19
P do //遍歷所有的指標
Figure 107127945-A0101-12-0012-3
其中,需要說明的是,Q n 為品質指標的重要程度值;S是森林中樹的個數;P為品質指標的個數;n為每個品質指標對應的句子向量的深度;f i 為選取的特徵;M為選取的特徵數(P*n)。
首先,確定每次形成決策樹利用的樣本個數以及構建森林的樹的棵樹S(隨機選取),根據確定的每次隨機選取的樣本個數和樹的棵樹構建決策樹。然後,遍歷所有的決策樹中的特徵,在一次循環中,特徵數出現過一次就在計數值上加1,θ i =θ i +1。特徵遍歷結束後,得到每一個特徵在森林中出現的次數。最後,對P類品質指標進行排序計算。根據每個特徵在整個森林中出現的次數,得到針對某一類指標的重要程度值。即各個評測的品質指標對應的Q的值,值越大說明評測的品質指標越重要。如表1所示,表1中各個評測的品質指標對應的Q的值即為統計結果,值越大說明品質指標越重要,如果一些值遠遠小於其他值,那麼這個評測的品質指標可以忽略不計。
Figure 107127945-A0101-12-0012-2
Figure 107127945-A0101-12-0013-4
步驟105,根據該P類品質指標的句子向量對應的內容和該P類品質指標的重要程度值,獲取需要評測的品質指標的明細和重要性排序。
具體的,根據步驟104中保存P類品質指標的句子向量對應的內容,找出各類品質指標p n 的每個特徵對應的名稱,最終根據p n 篩選和排序得到需要評測的品質指標的明細,以及重要性排序。該品質指標的明細也就是該品質指標的句子向量對應的內容。
上述實施例表明,通過獲取文件的名稱和關鍵字,在搜尋引擎中提取詞條,生成文件資料來源,使用預設的神經網路語言模型對文件資料來源中的詞條進行訓練,得到多個詞語的詞向量,根據多個詞語的詞向量和該文件的多個語句,確定出該多個語句的句子向量,對多個語句的句子向量進行去重,分為P類品質指標,保存P類品質指標的句子向量對應的內容,並基於隨機森林確定P類品質指標的重要程度值,根據P類品質指標的句子向量對應的內容和P類品質指標的重要程度值,獲取需要評測的品質指標的明細和重要性排序。通過將文件的語句量化為向量,得到品質指標集合,提高了後續排序的準確率,基於隨機森林得到品質指標的重要程度值,使得獲取的品質指標結果更加準確和細化。
基於相同的技術構思,圖3示例性的示出了本發明實施例提高的一種文件品質指標獲取裝置,該裝置可以執行文件品質指標獲取的流 程。
如圖3所示,該裝置包括:生成單元301,用於獲取文件的名稱和關鍵字,並根據該文件的名稱和關鍵字,在搜尋引擎中提取詞條,生成文件資料來源;確定單元302,用於使用預設的神經網路語言模型對該文件資料來源中的詞條進行訓練,得到多個詞語的詞向量;以及根據該多個詞語的詞向量和該文件的多個語句,確定出該多個語句的句子向量;去重單元303,用於對該多個語句的句子向量進行去重,分為P類品質指標,保存該P類品質指標的句子向量對應的內容,並基於隨機森林確定該P類品質指標的重要程度值,P為正整數;處理單元304,用於根據該P類品質指標的句子向量對應的內容和該P類品質指標的重要程度值,獲取需要評測的品質指標的明細和重要性排序。
可選的,該確定單元302具體用於:使用預設的神經網路語言模型對該文件資料來源中的詞條進行訓練,通過詞條語句中當前詞語的前後文詞語預測該當前詞語的詞向量;對每個詞條進行遍歷,得到多個詞語的詞向量。
可選的,該確定單元302具體用於:將該文件的多個語句進行分詞;使用該多個詞語的詞向量對分詞後的語句進行遍歷,將該多個語句中的詞語轉換為詞向量,確定出多個語句的句子向量。
可選的,該去重單元303具體用於: 將該多個語句的句子向量進行補齊;針對該多個句子向量中任意一個句子向量,遍歷其他的句子向量,計算向量之間的歐式距離;將歐式距離小於第一閾值的兩個句子向量確定為同一類品質指標,將歐式距離小於第二閾值的兩個句子向量確定為相同的句子向量,進行去重,得到P類品質指標。
可選的,該去重單元303具體用於:根據該P類品質指標,確定每次形成決策樹利用的樣本個數和構建森林的樹的棵數;根據該樣本個數和構建森林的樹的棵數構建決策樹;遍歷所有的決策樹中品質指標的特徵,在一次循環中,該特徵出現一次計數值加1,得到該特徵在森林中出現的次數;根據每個特徵在森林中出現的次數,得到各類品質指標的重要程度值。
基於相同的構思,本發明還提供一種電子設備,如圖4所示,包括處理器401、記憶體402、收發機403、匯流排介面404,其中處理器401、記憶體402與收發機403之間通過匯流排介面404連接;該收發機403,用於獲取文件的名稱和關鍵字;該處理器401,用於根據該文件的名稱和關鍵字,在搜尋引擎中提取詞條,生成文件資料來源;使用預設的神經網路語言模型對該文件資料來源中的詞條進行訓練,得到多個詞語的詞向量; 根據該多個詞語的詞向量和該文件的多個語句,確定出該多個語句的句子向量;對該多個語句的句子向量進行去重,分為P類品質指標,保存該P類品質指標的句子向量對應的內容,並基於隨機森林確定該P類品質指標的重要程度值,P為正整數;根據該P類品質指標的句子向量對應的內容和該P類品質指標的重要程度值,獲取需要評測的品質指標的明細和重要性排序;該記憶體402,用於存儲一個或多個可執行程式,可以存儲該處理器在執行操作時所使用的資料;該匯流排介面404,用於提供介面。
該處理器401具體用於,使用預設的神經網路語言模型對該文件資料來源中的詞條進行訓練,通過詞條語句中當前詞語的前後文詞語預測該當前詞語的詞向量;對每個詞條進行遍歷,得到多個詞語的詞向量。
該處理器401具體用於:將該文件的多個語句進行分詞;使用該多個詞語的詞向量對分詞後的語句進行遍歷,將該多個語句中的詞語轉換為詞向量,確定出多個語句的句子向量。
該處理器401具體用於:將該多個語句的句子向量進行補齊;針對該多個句子向量中任意一個句子向量,遍歷其他的句子向量,計算向量之間的歐式距離; 將歐式距離小於第一閾值的兩個句子向量確定為同一類品質指標,將歐式距離小於第二閾值的兩個句子向量確定為相同的句子向量,進行去重,得到P類品質指標。
可選的,該處理器401具體用於:根據該P類品質指標,確定每次形成決策樹利用的樣本個數和構建森林的樹的棵數;根據該樣本個數和構建森林的樹的棵數構建決策樹;遍歷所有的決策樹中品質指標的特徵,在一次循環中,該特徵出現一次計數值加1,得到該特徵在森林中出現的次數;根據每個特徵在森林中出現的次數,得到各類品質指標的重要程度值。
本發明實施例提供一種非暫態電腦可讀存儲介質,該非暫態電腦可讀存儲介質存儲電腦指令,該電腦指令用於使該電腦執行上述第一方面中任一實施例該文件品質指標獲取方法。
本發明實施例提供一種電腦程式產品,該電腦程式產品包括存儲在非暫態電腦可讀存儲介質上的計算程式,該電腦程式包括程式指令,當該程式指令被電腦執行時,使該電腦執行上述第一方面中任一實施例該文件品質指標獲取方法。
本發明是參照根據本發明實施例的方法、設備(系統)、和電腦程式產品的流程圖和/或方框圖來描述的。應理解可由電腦程式指令實現流程圖和/或方框圖中的每一流程和/或方框、以及流程圖和/或方框圖中的流程和/或方框的結合。可提供這些電腦程式指令到通用電腦、 專用電腦、嵌入式處理機或其他可程式設計資料處理設備的處理器以產生一個機器,使得通過電腦或其他可程式設計資料處理設備的處理器執行的指令產生用於實現在流程圖一個流程或多個流程和/或方框圖一個方框或多個方框中指定的功能的裝置。
這些電腦程式指令也可存儲在能引導電腦或其他可程式設計資料處理設備以特定方式工作的電腦可讀記憶體中,使得存儲在該電腦可讀記憶體中的指令產生包括指令裝置的製造品,該指令裝置實現在流程圖一個流程或多個流程和/或方框圖一個方框或多個方框中指定的功能。
這些電腦程式指令也可裝載到電腦或其他可程式設計資料處理設備上,使得在電腦或其他可程式設計設備上執行一系列操作步驟以產生電腦實現的處理,從而在電腦或其他可程式設計設備上執行的指令提供用於實現在流程圖一個流程或多個流程和/或方框圖一個方框或多個方框中指定的功能的步驟。
儘管已描述了本發明的優選實施例,但本領域內的技術人員一旦得知了基本進步性概念,則可對這些實施例作出另外的變更和修改。所以,所附申請專利範圍意欲解釋為包括優選實施例以及落入本發明範圍的所有變更和修改。
顯然,本領域的技術人員可以對本發明進行各種改動和變型而不脫離本發明的精神和範圍。這樣,倘若本發明的這些修改和變型屬於本發明申請專利範圍及其等同技術的範圍之內,則本發明也意圖包含這些改動和變型在內。
101~105‧‧‧步驟

Claims (12)

  1. 一種文件品質指標獲取方法,其特徵在於,包括:獲取文件的名稱和關鍵字,並根據該文件的名稱和關鍵字,在搜尋引擎中提取詞條,生成文件資料來源;使用預設的神經網路語言模型對該文件資料來源中的詞條進行訓練,得到多個詞語的詞向量;根據該多個詞語的詞向量和該文件的多個語句,確定出該多個語句的句子向量;對該多個語句的句子向量中確定為相同的句子向量進行去重,分為P類品質指標,保存該P類品質指標的句子向量對應的內容,並基於隨機森林確定該P類品質指標的重要程度值,P為正整數;根據該P類品質指標的句子向量對應的內容和該P類品質指標的重要程度值,獲取需要評測的品質指標的明細和重要性排序。
  2. 如請求項1所述的文件品質指標獲取方法,其中,該使用預設的神經網路語言模型對該文件資料來源中的詞條進行訓練,得到多個詞語的詞向量,包括:使用預設的神經網路語言模型對該文件資料來源中的詞條進行訓練,通過詞條語句中當前詞語的前後文詞語預測該當前詞語的詞向量;對每個詞條進行遍歷,得到多個詞語的詞向量。
  3. 如請求項1所述的文件品質指標獲取方法,其中,該根據該多個詞語的詞向量和該文件的多個語句,確定出該多個語句的句子向量,包括:將該文件的多個語句進行分詞;使用該多個詞語的詞向量對分詞後的語句進行遍歷,將該多個語句中的詞語轉換為詞向量,確定出多個語句的句子向量。
  4. 如請求項1所述的文件品質指標獲取方法,其中,該對多個語句的句子向量進行去重,分為P類品質指標,包括: 將該多個語句的句子向量進行補齊;針對該多個句子向量中任意一個句子向量,遍歷其他的句子向量,計算向量之間的歐式距離;將歐式距離小於第一閾值的兩個句子向量確定為同一類品質指標,將歐式距離小於第二閾值的兩個句子向量確定為相同的句子向量,進行去重,得到P類品質指標。
  5. 如請求項1所述的文件品質指標獲取方法,其中,該基於隨機森林確定該P類品質指標的重要程度值,包括:根據該P類品質指標,確定每次形成決策樹利用的樣本個數和構建森林的樹的棵數;根據該樣本個數和構建森林的樹的棵數構建決策樹;遍歷所有的決策樹中品質指標的特徵,在一次循環中,該特徵出現一次計數值加1,得到該特徵在森林中出現的次數;根據每個特徵在森林中出現的次數,得到各類品質指標的重要程度值。
  6. 一種電子設備,其特徵在於,包括處理器、記憶體、收發機、匯流排介面,其中處理器、記憶體與收發機之間通過匯流排介面連接;該收發機,用於獲取文件的名稱和關鍵字;該處理器,用於根據該文件的名稱和關鍵字,在搜尋引擎中提取詞條,生成文件資料來源;使用預設的神經網路語言模型對該文件資料來源中的詞條進行訓練,得到多個詞語的詞向量;根據該多個詞語的詞向量和該文件的多個語句,確定出該多個語句的句子向量;對該多個語句的句子向量中確定為相同的句子向量進行去重,分為P類品質指標,保存該P類品質指標的句子向量對應的內容,並基於隨機森林確定該P類品質指標的重要程度值,P為正整數;根據該P類品質指標的句子向量對應的內容和該P類品質指標的重要程 度值,獲取需要評測的品質指標的明細和重要性排序;該記憶體,用於存儲一個或多個可執行程式,可以存儲該處理器在執行操作時所使用的資料;該匯流排介面,用於提供介面。
  7. 如請求項6所述的電子設備,其中,該處理器具體用於:使用預設的神經網路語言模型對該文件資料來源中的詞條進行訓練,通過詞條語句中當前詞語的前後文詞語預測該當前詞語的詞向量;對每個詞條進行遍歷,得到多個詞語的詞向量。
  8. 如請求項6所述的電子設備,其中,該處理器具體用於:將該文件的多個語句進行分詞;使用該多個詞語的詞向量對分詞後的語句進行遍歷,將該多個語句中的詞語轉換為詞向量,確定出多個語句的句子向量。
  9. 如請求項6所述的電子設備,其中,該處理器具體用於:將該多個語句的句子向量進行補齊;針對該多個句子向量中任意一個句子向量,遍歷其他的句子向量,計算向量之間的歐式距離;將歐式距離小於第一閾值的兩個句子向量確定為同一類品質指標,將歐式距離小於第二閾值的兩個句子向量確定為相同的句子向量,進行去重,得到P類品質指標。
  10. 如請求項6所述的電子設備,其中,該處理器具體用於:根據該P類品質指標,確定每次形成決策樹利用的樣本個數和構建森林的樹的棵數;根據該樣本個數和構建森林的樹的棵數構建決策樹;遍歷所有的決策樹中品質指標的特徵,在一次循環中,該特徵出現一次計數值加1,得到該特徵在森林中出現的次數;根據每個特徵在森林中出現的次數,得到各類品質指標的重要程度值。
  11. 一種電腦存儲介質,其特徵在於,該電腦可讀存儲介質存儲有電腦可執 行指令,該電腦可執行指令用於使電腦執行請求項1至5中任一項所述的文件品質指標獲取方法。
  12. 一種電腦程式產品,其特徵在於,該電腦程式產品包括存儲在非暫態電腦可讀存儲介質上的計算程式,該電腦程式包括程式指令,當該程式指令被電腦執行時,使該電腦執行請求項1至5中任一項所述的文件品質指標獲取方法。
TW107127945A 2017-12-29 2018-08-10 一種文件品質指標獲取方法及裝置 TWI689825B (zh)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
CN201711484243.7A CN108182175B (zh) 2017-12-29 2017-12-29 一种文本质量指标获取方法及装置
CN201711484243.7 2017-12-29
??201711484243.7 2017-12-29

Publications (2)

Publication Number Publication Date
TW201931164A TW201931164A (zh) 2019-08-01
TWI689825B true TWI689825B (zh) 2020-04-01

Family

ID=62549266

Family Applications (1)

Application Number Title Priority Date Filing Date
TW107127945A TWI689825B (zh) 2017-12-29 2018-08-10 一種文件品質指標獲取方法及裝置

Country Status (3)

Country Link
CN (1) CN108182175B (zh)
TW (1) TWI689825B (zh)
WO (1) WO2019128124A1 (zh)

Families Citing this family (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108984675B (zh) 2018-07-02 2019-08-13 北京百度网讯科技有限公司 基于评价的数据查询方法和装置
CN109472305A (zh) * 2018-10-31 2019-03-15 国信优易数据有限公司 答案质量确定模型训练方法、答案质量确定方法及装置
CN110032723B (zh) * 2018-12-17 2023-06-02 创新先进技术有限公司 句子分类的测试方法、装置、服务器及可读存储介质
US11080317B2 (en) * 2019-07-09 2021-08-03 International Business Machines Corporation Context-aware sentence compression
KR102296420B1 (ko) * 2019-09-30 2021-09-01 한국과학기술원 개인정보보호 정책서 분석 기반 개인정보 수집/활용자의 신뢰도 평가 방법 및 장치
CN111144546B (zh) * 2019-10-31 2024-01-02 平安创科科技(北京)有限公司 评分方法、装置、电子设备及存储介质
CN110853649A (zh) * 2019-11-05 2020-02-28 集奥聚合(北京)人工智能科技有限公司 基于智能语音技术的标签提取方法、系统、设备及介质
CN111259665B (zh) * 2020-01-14 2023-05-30 成都潜在人工智能科技有限公司 一种基于神经网络的交互式歌词生成方法及系统
CN111414748A (zh) * 2020-03-17 2020-07-14 集奥聚合(北京)人工智能科技有限公司 话务数据处理方法及装置
CN112287664B (zh) * 2020-12-28 2021-04-06 望海康信(北京)科技股份公司 文本指标数据解析方法、系统及相应设备和存储介质

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
TW201227594A (en) * 2010-12-31 2012-07-01 104 Corp Method for analyzing resume
CN103744984A (zh) * 2014-01-15 2014-04-23 北京理工大学 一种利用语义信息检索文档的方法
CN105975555A (zh) * 2016-05-03 2016-09-28 成都数联铭品科技有限公司 一种基于双向递归神经网络的企业简称提取方法
CN107423304A (zh) * 2016-05-24 2017-12-01 百度在线网络技术(北京)有限公司 检索词分类方法及装置

Family Cites Families (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8990124B2 (en) * 2010-01-14 2015-03-24 Microsoft Technology Licensing, Llc Assessing quality of user reviews
KR101241330B1 (ko) * 2010-11-17 2013-03-11 한국과학기술정보연구원 술어-논항구조 기반의 관계 식별 방법 및 장치
CN103150303B (zh) * 2013-03-08 2016-01-20 北京理工大学 汉语语义格分层识别方法
CN104573046B (zh) * 2015-01-20 2018-07-31 成都品果科技有限公司 一种基于词向量的评论分析方法及系统
CN106021410A (zh) * 2016-05-12 2016-10-12 中国科学院软件研究所 一种基于机器学习的源代码注释质量评估方法
CN106326346A (zh) * 2016-08-06 2017-01-11 上海高欣计算机系统有限公司 文本分类方法及终端设备
CN107404473A (zh) * 2017-06-06 2017-11-28 西安电子科技大学 基于Mshield机器学习多模式Web应用防护方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
TW201227594A (en) * 2010-12-31 2012-07-01 104 Corp Method for analyzing resume
CN103744984A (zh) * 2014-01-15 2014-04-23 北京理工大学 一种利用语义信息检索文档的方法
CN105975555A (zh) * 2016-05-03 2016-09-28 成都数联铭品科技有限公司 一种基于双向递归神经网络的企业简称提取方法
CN107423304A (zh) * 2016-05-24 2017-12-01 百度在线网络技术(北京)有限公司 检索词分类方法及装置

Also Published As

Publication number Publication date
WO2019128124A1 (zh) 2019-07-04
TW201931164A (zh) 2019-08-01
CN108182175B (zh) 2021-01-05
CN108182175A (zh) 2018-06-19

Similar Documents

Publication Publication Date Title
TWI689825B (zh) 一種文件品質指標獲取方法及裝置
AU2017243270B2 (en) Method and device for extracting core words from commodity short text
TWI735543B (zh) 網頁文本分類的方法和裝置,網頁文本識別的方法和裝置
WO2019200806A1 (zh) 文本分类模型的生成装置、方法及计算机可读存储介质
US20180357302A1 (en) Method and device for processing a topic
CN111783394B (zh) 事件抽取模型的训练方法、事件抽取方法和系统及设备
CN103995876A (zh) 一种基于卡方统计和smo算法的文本分类方法
CN106021410A (zh) 一种基于机器学习的源代码注释质量评估方法
CN108021651B (zh) 一种网络舆情风险评估方法及装置
CN107506389B (zh) 一种提取职位技能需求的方法和装置
CN105528422A (zh) 一种主题爬虫处理方法及装置
CN104850617B (zh) 短文本处理方法及装置
CN110287409B (zh) 一种网页类型识别方法及装置
CN113590764B (zh) 训练样本构建方法、装置、电子设备和存储介质
CN110134799A (zh) 一种基于bm25算法的文本语料库的搭建和优化方法
US20230401249A1 (en) Document classification method and apparatus, and electronic device
CN111475651A (zh) 文本分类方法、计算设备及计算机存储介质
CN103020286A (zh) 基于排名网站的互联网排行榜抓取系统
CN109753646B (zh) 一种文章属性识别方法以及电子设备
CN111488452A (zh) 一种网页篡改检测方法、检测系统及相关设备
CN114896398A (zh) 一种基于特征选择的文本分类系统及方法
CN105183894B (zh) 过滤网站内链的方法及装置
CN111341404B (zh) 一种基于ernie模型的电子病历数据组解析方法及系统
CN109597879B (zh) 一种基于“引文关系”数据的业务行为关系抽取方法及装置
TWI712948B (zh) 文本情緒分析的方法,裝置與電腦程式產品