TW202016765A - 文本還原方法、裝置及電子設備 - Google Patents

文本還原方法、裝置及電子設備 Download PDF

Info

Publication number
TW202016765A
TW202016765A TW108127355A TW108127355A TW202016765A TW 202016765 A TW202016765 A TW 202016765A TW 108127355 A TW108127355 A TW 108127355A TW 108127355 A TW108127355 A TW 108127355A TW 202016765 A TW202016765 A TW 202016765A
Authority
TW
Taiwan
Prior art keywords
text
word segmentation
matched
characters
texts
Prior art date
Application number
TW108127355A
Other languages
English (en)
Other versions
TWI749349B (zh
Inventor
周書恆
劉金星
祝慧佳
趙智源
郭亞
Original Assignee
香港商阿里巴巴集團服務有限公司
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 香港商阿里巴巴集團服務有限公司 filed Critical 香港商阿里巴巴集團服務有限公司
Publication of TW202016765A publication Critical patent/TW202016765A/zh
Application granted granted Critical
Publication of TWI749349B publication Critical patent/TWI749349B/zh

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/232Orthographic correction, e.g. spell checking or vowelisation

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Machine Translation (AREA)

Abstract

本申請實施例涉及一種文本還原方法、裝置及電子設備。文本還原方法包括:獲取目標文本;對所述目標文本進行分詞處理,得到所述目標文本分詞後的分詞文本,所述分詞文本包含無法組成分詞的字元;基於拆字樣本集,對所述分詞文本中無法組成分詞的字元進行匹配,得到至少一種匹配後分詞文本;將所述至少一組匹配後分詞文本輸入預設語言模型,得到所述至少一組匹配後分詞文本的置信度;基於所述至少一組匹配後分詞文本的置信度,從所述至少一種匹配後分詞文本中選取出所述目標文本的還原文本。

Description

文本還原方法、裝置及電子設備
本申請實施例涉及網路安全技術領域,尤其涉及一種文本還原方法、裝置及電子設備。
隨著網際網路的興起,資訊傳遞的便捷性使得網際網路資訊量成幾何級增長。用戶常常會收到網際網路灰黑產發送的垃圾資訊,比如推銷資訊、詐騙資訊、非法宣傳資訊等。對於這些垃圾資訊,一般可以通過網路平臺進行攔截。然而,目前灰黑產為了繞過平臺的各種防控手段,會以拆字表達的方式傳播垃圾資訊。比如正常內容是“我是閃電借款,可以強開借唄5000-10000w”,通過拆字方式表達為“我是閃電亻昔款,可以弓
Figure 02_image001
開亻昔唄5000-10000w”。 有鑑於此,為了提高網路平臺針對垃圾資訊的識別能力,如何將拆字表達的變異文本還原回正常文本,是本申請所要解決的技術問題。
本申請實施例的目的是提供一種文本還原方法、裝置及電子設備,能夠將拆字表達的變異文本還原回正常文本。 為了實現上述目的,本申請實施例是這樣實現的: 第一方面,提供一種文本還原方法,包括: 獲取目標文本; 對所述目標文本進行分詞處理,得到所述目標文本分詞後的分詞文本,所述分詞文本包含無法組成分詞的字元; 基於拆字樣本集,對所述分詞文本中無法組成分詞的字元進行匹配,得到至少一種匹配後分詞文本; 將所述至少一組匹配後分詞文本輸入預設語言模型,得到所述至少一組匹配後分詞文本的置信度; 基於所述至少一組匹配後分詞文本的置信度,從所述至少一種匹配後分詞文本中選取出所述目標文本的還原文本。 第二方面,提供了一種文本還原裝置,包括: 獲取模組,獲取目標文本; 分詞模組,對所述目標文本進行分詞處理,得到所述目標文本分詞後的分詞文本,所述分詞文本包含無法組成分詞的字元; 匹配模組,基於拆字樣本集,對所述分詞文本中無法組成分詞的字元進行匹配,得到至少一種匹配後分詞文本; 評估模組,將所述至少一組匹配後分詞文本輸入預設語言模型,得到所述至少一組匹配後分詞文本的置信度; 選取模組,基於所述至少一組匹配後分詞文本的置信度,從所述至少一種匹配後分詞文本中選取出所述目標文本的還原文本。 第三方面,提供了一種電子設備,包括:記憶體、處理器及儲存在所述記憶體上並可在所述處理器上執行的電腦程式,所述電腦程式被所述處理器執行: 獲取目標文本; 對所述目標文本進行分詞處理,得到所述目標文本分詞後的分詞文本,所述分詞文本包含無法組成分詞的字元; 基於拆字樣本集,對所述分詞文本中無法組成分詞的字元進行匹配,得到至少一種匹配後分詞文本; 將所述至少一組匹配後分詞文本輸入預設語言模型,得到所述至少一組匹配後分詞文本的置信度; 基於所述至少一組匹配後分詞文本的置信度,從所述至少一種匹配後分詞文本中選取出所述目標文本的還原文本。 第四方面,提供了一種電腦可讀儲存媒介,所述電腦可讀儲存媒介上儲存有電腦程式,所述電腦程式被處理器執行時實施如下步驟: 獲取目標文本; 對所述目標文本進行分詞處理,得到所述目標文本分詞後的分詞文本,所述分詞文本包含無法組成分詞的字元; 基於拆字樣本集,對所述分詞文本中無法組成分詞的字元進行匹配,得到至少一種匹配後分詞文本; 將所述至少一組匹配後分詞文本輸入預設語言模型,得到所述至少一組匹配後分詞文本的置信度; 基於所述至少一組匹配後分詞文本的置信度,從所述至少一種匹配後分詞文本中選取出所述目標文本的還原文本。 由以上本申請實施例提供的技術方案可見,本申請實施例首先對目標文本進行分詞處理,確定出無法組成分詞的字元,這些無法組成分詞的字元作為拆字匹配的物件進行匹配還原,得到至少一種匹配後分詞文本。之後,通過預設語言模型對至少一種匹配後分詞文本進行置信度的評估,並基於置信度擇優篩選出最優的匹配後分詞文本作為目標文本的還原文本。本申請實施例的方案能夠有效將拆字表達的變異文本還原成正常文本,可提高網路平臺對垃圾資訊的識別能力。
為了使本技術領域的人員更好地理解本申請中的技術方案,下面將結合本申請實施例中的附圖,對本申請實施例中的技術方案進行清楚、完整地描述,顯然,所描述的實施例僅僅是本申請一部分實施例,而不是全部的實施例。基於本申請中的實施例,本領域普通技術人員在沒有作出創造性勞動前提下所獲得的所有其他實施例,都應當屬於本申請保護的範圍。 如前所述,目前灰黑產會發送拆字方式表達的垃圾資訊,以繞過網路平臺的監管。有鑑於此,本申請旨在提供一種能夠將拆字表達的變異文本還原回正常文本的技術方案,可提高網路平臺對垃圾資訊的識別能力。 圖1是本申請的一個實施例文本還原方法的流程圖。圖1的文本還原方法可由文本還原裝置執行。該方法包括: 步驟S102,獲取目標文本。 針對步驟S102而言: 本申請實施例並不對目標文本的來源作具體限定。 作為示例性介紹,目標文本可以是從網路社交平臺中獲取到的使用者發送的文本資訊。 比如,可以從網路購物平臺中獲取使用者發送的評價資訊、聊天資訊等。 應理解的是,但凡是網路平臺需要監管的資訊物件,都可以作為目標文本。 步驟S104,對目標文本進行分詞處理,得到目標文本分詞後的分詞文本,分詞文本包含無法組成分詞的字元。 針對步驟S104而言: 本實施例可以使用現有任意分詞方法,對目標文本進行分詞處理,從而確定出目標文本中無法組成分詞的字元。 作為示例性介紹,確定出的無法組成分詞的字元可以包括:漢字、漢字的偏旁、漢字的字根中任意一者,這些無法組成分詞的字元較高概率是以拆字方式表達的,是後續進行拆字識別的重點對象。 步驟S106,基於拆字樣本集,對分詞文本中無法組成分詞的字元進行匹配,得到至少一種匹配後分詞文本。 針對步驟S106而言: 拆字樣本集包括預先設置的拆字表達形式。比如,“花口貝”對應“花唄”、“借口貝”對應“借唄”、“亻昔款”對應“借款”、“亻昔錢”對應“借錢”等針對某些詞語的拆字表達形式,也可以是“亻昔”對應借、“口貝”對應“唄”等針對某一漢字的拆字表達形式。 本步驟中,通過拆字樣本集,可以對分詞文本中無法組成分詞的字元進行拆字匹配,還原回正常表達的資訊。 具體地,可以對分詞文本中行方向相鄰的無法組成分詞的字元進行匹配。 比如,分詞文本為“六合采彡月貝兼百萬¥”,拆字樣本集記錄“采彡”對應為“彩”,“貝兼”對應為“賺”。可以知道的“采”、“彡”、“月”、“貝”、“兼”“¥”是分詞文本中無法確定為分子的字元,則基於拆字樣本集對上述相鄰的“采”、“彡”、“月”、“貝”、“兼”進行匹配,得到的匹配後分子文本為:“六合彩月賺百萬”。 同理,也可以對分詞文本中列方向相鄰的無法組成分詞的字元進行匹配; 比如,分詞文本為:“加手機號xx,可低自套現心”; 則可以基於拆字樣本集,對列方向相鄰的“自”、“心”進行匹配,確定到的匹配後分子文本為:“加手機號xx,可低息套現”。 步驟S108,將至少一組匹配後分詞文本輸入預設語言模型,得到該至少一組匹配後分詞文本的置信度; 針對步驟108而言: 應理解的是,基於拆字樣本集所確定到的匹配後分詞文本並不一定是正確的還原文本,因此需要使用預設語言模型評估對匹配後分詞文本的置信度進行評估。匹配後分詞文本的置信度的大小,能夠反映該匹配後分詞文本的還原準確率。 應理解的是,預設語言模型是根據實際的應用場景靈活設置的,本申請實施例對此不作具體限定。 作為示例性介紹,假設本申請實施例的方案用於還原網路中以拆字方式表達的垃圾資訊。預設語言模型可以藉由垃圾資訊樣本集訓練得到。在將至少一組匹配後分詞文本輸入預設語言模型後,預設語言模型基於垃圾資訊的評估標準,對至少一組匹配後分詞文本的置信度進行打分。其中,匹配後分詞文本的置信度分值越高,則越可能是垃圾資訊,對應的還原準確率也越高。 或者,本申請實施例的預設語言模型將正確語句的表達方式作為評估標準,對至少一組匹配後分詞文本的置信度進行打分。比如,基於“主、謂、賓”的正確語句結構,對至少一組匹配後分詞文本的置信度進行打分。其中,匹配後分詞文本的置信度分值越高,則對應的還原準確率也越高。 由於預設語言模型的實施方式並不唯一,本文不再舉例贅述。 步驟S110,基於上述至少一組匹配後分詞文本的置信度,從該至少一種匹配後分詞文本中選取出目標文本的還原文本。 針對步驟S110而言: 本步驟可以從上述至少一種匹配後分詞文本中選取置信度最高的一者作為目標文本的還原文本。 本申請實施例中,首先對目標文本進行分詞處理,確定出無法組成分詞的字元,這些無法組成分詞的字元作為拆字匹配的物件進行匹配還原,得到至少一種匹配後分詞文本。之後,藉由預設語言模型對至少一種匹配後分詞文本進行置信度的評估,並基於置信度擇優篩選出最優的匹配後分詞文本作為目標文本的還原文本。本申請實施例的方案能夠有效將拆字表達的變異文本還原成正常文本,可提高網路平臺對垃圾資訊的識別能力。 下面對本申請實施例的文本還原方法在實際應用中的流程進行詳細介紹。 本申請實施例的文本還原方法的主要流程包括: 步驟一,獲取目標文本; 本步驟中,可以從網路社交平臺(比如通訊軟體、網購軟體)中,獲取由使用者發送的目標文本。 作為示例性介紹,假設目標文本的內容為“需要亻昔錢,力口我手機號”。顯然,該目標文本是以拆字方式表達的垃圾資訊。 步驟二,確定分詞文本; 本步驟中,可以對“需要亻昔錢,力口我手機號”進行分詞處理。為方便理解,分詞之間以空格分隔,對應得到的分詞文本為:“需要亻昔錢,力口我手機號”。 應理解,上述目標文本中“需要”、“我”、“手機號”可以確定為分詞,“亻”、“昔”、“錢”、“力”、“口”為無法作為分詞的字元。 步驟三,拆字匹配; 本步驟中,利用拆字表資源對上述分詞文本進行拆字匹配,其中“亻昔”可以匹配為“借”,“力口”可以匹配為“加”,“口我”可以匹配為匹配“哦”,基於拆字表資源,最終得到的匹配後分詞文本包括以下兩種: 第一種為“需要借錢,加我手機號”; 第二種為“需要借錢,力哦手機號”。 步驟四,置信度評估; 本步驟中,將步驟三種的兩種匹配後分詞文本輸入預設語言模型,以計算出“需要借錢,加我手機號”的置信度P1以及“需要借錢,力哦手機號”的置信度P2。 其中,預設語言模型可以是分類模型,由非法借錢的垃圾資訊樣本訓練得到。 比如,可以將一些與非法借款常見的特徵作為預設語言模型的輸入向量,並藉由垃圾資訊樣本對預設語言模型進行訓練,從而不斷優化輸入向量的權重。 在將“需要借錢,加我手機號”和“需要借錢,力哦手機號”輸入至訓練完成的預設語言模型後,顯然前者具有非法借錢常見特徵“加我手機號”,因此輸入分類模型後,可以得到更高的置信度。 需要說明的是,本申請實施例並不預設語言模型所採用函數作具體限定。但凡是用於分類的函數都可以適用於本申請實施例的預設語言模型。 步驟五,概率比較; 本步驟中,對第一種匹配後分詞文本的置信度和第二種匹配後分詞文本的置信度進行大小比較(P1>P2)。顯然,置信度較大的一者作為正確的還原文本的概率更高。 步驟六,還原文本輸出; 本步驟中,基於步驟五的比較結果(P1>P2),最終輸出的還原文本為“需要借錢,加我手機號”。 綜上所述,本申請實施例的文本還原方法可以識別目標文本的拆字表示的字元,並進行匹配還原。在具體實施時,先對目標文本進行分詞處理,可以僅將無法作為分詞的字元作為拆字匹配的物件,從而有效降低匹配次數,並提高了匹配的準確率。之後,再結合語言模型進一步擇優篩選最佳的匹配後分詞文本作為目標文本的文本。整個方案的計算簡單,需要佔用處理資源相對較少,因此特別適用於網路平臺識別拆字表達的垃圾資訊。 圖3是本申請的一個實施例電子設備的結構示意圖。請參考圖3,在硬體層面,該電子設備包括處理器,可選地還包括內部匯流排、網路介面、記憶體。其中,記憶體可能包含記憶體,例如高速隨機存取記憶體(Random-Access Memory,RAM),也可能還包括非揮發性記憶體(non-volatile memory),例如至少1個磁碟記憶體等。當然,該電子設備還可能包括其他業務所需要的硬體。 處理器、網路介面和記憶體可以通過內部匯流排相互連接,該內部匯流排可以是ISA(Industry Standard Architecture,工業標準架構)匯流排、PCI(Peripheral Component Interconnect,周邊組件互連標準)匯流排或EISA(Extended Industry Standard Architecture,延伸工業標準架構)匯流排等。所述匯流排可以分為位址匯流排、資料匯流排、控制匯流排等。為便於表示,圖3中僅用一個雙向箭頭表示,但並不表示僅有一根匯流排或一種類型的匯流排。 記憶體,用於存放程式。具體地,程式可以包括程式碼,所述程式碼包括電腦操作指令。記憶體可以包括記憶體和非揮發性記憶體,並向處理器提供指令和資料。 處理器從非揮發性記憶體中讀取對應的電腦程式到記憶體中然後運行,在邏輯層面上形成問答對資料採擷裝置。處理器,執行記憶體所存放的程式,並具體用於執行以下操作: 獲取目標文本; 對所述目標文本進行分詞處理,得到所述目標文本分詞後的分詞文本,所述分詞文本包含無法組成分詞的字元; 基於拆字樣本集,對所述分詞文本中無法組成分詞的字元進行匹配,得到至少一種匹配後分詞文本; 將所述至少一組匹配後分詞文本輸入預設語言模型,得到所述至少一組匹配後分詞文本的置信度; 基於所述至少一組匹配後分詞文本的置信度,從所述至少一種匹配後分詞文本中選取出所述目標文本的還原文本。 本申請圖1所示實施例揭示的文本還原方法可以應用於處理器中,或者由處理器實施。處理器可能是一種積體電路晶片,具有信號的處理能力。在實施過程中,上述方法的各步驟可以通過處理器中的硬體的集成邏輯電路或者軟體形式的指令完成。上述的處理器可以是通用處理器,包括中央處理器(Central Processing Unit,CPU)、網路處理器(Network Processor,NP)等;還可以是數位訊號處理器(Digital Signal Processor,DSP)、特用積體電路(Application Specific Integrated Circuit,ASIC)、現場可程式閘陣列(Field-Programmable Gate Array,FPGA)或者其他可程式邏輯裝置、離散閘或者電晶體邏輯裝置、分立硬體元件。可以實施或者執行本申請實施例中的公開的各方法、步驟及邏輯方塊圖。通用處理器可以是微處理器或者該處理器也可以是任何常規的處理器等。結合本申請實施例所公開的方法的步驟可以直接體現為硬體解碼處理器執行完成,或者用解碼處理器中的硬體及軟體模組組合執行完成。軟體模組可以位於隨機記憶體,快閃記憶體、唯讀記憶體,可程式唯讀記憶體或者電可讀寫可程式記憶體、暫存器等本領域成熟的儲存媒介中。該儲存媒介位於記憶體,處理器讀取記憶體中的資訊,結合其硬體完成上述方法的步驟。 該電子設備還可執行圖1所示的方法,並實施文本還原裝置在圖1、圖2所示實施例的功能,本文不再進行贅述。 當然,除了軟體實現方式之外,本申請的電子設備並不排除其他實施方式,比如邏輯裝置抑或軟硬體結合的方式等等,也就是說以下處理流程的執行主體並不限定於各個邏輯單元,也可以是硬體或邏輯裝置。 本申請實施例還提出了一種電腦可讀儲存媒介,該電腦可讀儲存媒介儲存一個或多個程式,該一個或多個程式包括指令,該指令當被包括多個應用程式的可攜式電子設備執行時,能夠使該可攜式電子設備執行圖1所示實施例的方法,並具體用於執行以下方法: 獲取目標文本; 對所述目標文本進行分詞處理,得到所述目標文本分詞後的分詞文本,所述分詞文本包含無法組成分詞的字元; 基於拆字樣本集,對所述分詞文本中無法組成分詞的字元進行匹配,得到至少一種匹配後分詞文本; 將所述至少一組匹配後分詞文本輸入預設語言模型,得到所述至少一組匹配後分詞文本的置信度; 基於所述至少一組匹配後分詞文本的置信度,從所述至少一種匹配後分詞文本中選取出所述目標文本的還原文本。 應理解的是,本申請的電腦可讀儲存媒介在本處理執行時,可以實施文本還原裝置在圖1、圖2所示實施例的功能,本文不再進行贅述。 圖4是本申請的一個實施例文本還原裝置400的結構示意圖,包括: 獲取模組410,獲取目標文本; 分詞模組420,對所述目標文本進行分詞處理,得到所述目標文本分詞後的分詞文本,所述分詞文本包含無法組成分詞的字元; 匹配模組430,基於拆字樣本集,對所述分詞文本中無法組成分詞的字元進行匹配,得到至少一種匹配後分詞文本; 評估模組440,將所述至少一組匹配後分詞文本輸入預設語言模型,得到所述至少一組匹配後分詞文本的置信度; 選取模組450,基於所述至少一組匹配後分詞文本的置信度,從所述至少一種匹配後分詞文本中選取出所述目標文本的還原文本。 本申請實施例首先對目標文本進行分詞處理,確定出無法組成分詞的字元,這些無法組成分詞的字元作為拆字匹配的物件進行匹配還原,得到至少一種匹配後分詞文本。之後,通過預設語言模型對至少一種匹配後分詞文本進行置信度的評估,並基於置信度擇優篩選出最優的匹配後分詞文本作為目標文本的還原文本。本申請實施例的方案能夠有效將拆字表達的變異文本還原成正常文本,可提高網路平臺對垃圾資訊的識別能力。 可選地,作為一個實施例,匹配模組430具體用於: 基於拆字樣本集,對所述分詞文本中行方向相鄰的無法組成分詞的字元進行匹配。 可選地,作為一個實施例,匹配模組430具體用於: 基於拆字樣本集,對所述分詞文本中行列向相鄰的無法組成分詞的字元進行匹配。 可選地,作為一個實施例,選取模組450具體用於: 從所述至少一種匹配後分詞文本中選取置信度最高的一者作為所述目標文本的還原文本。 可選地,作為一個實施例,所述分詞文本中無法組成分詞的字元包括:漢字、漢字的偏旁、漢字的字根中任意一者。 可選地,作為一個實施例,所述預設語言模型係基於垃圾資訊樣本集訓練得到。 可選地,作為一個實施例,獲取模組410具體用於: 從網路社交平臺中,獲取使用者發送的目標文本。 應理解的是,本申請實施例的文本還原裝置可執行圖1的方法,並實施該方法在圖1、圖2所示實施例的功能,本文不再進行贅述。 本領域技術人員應明白,本說明書的實施例可提供為方法、系統或電腦程式產品。因此,本說明書可採用完全硬體實施例、完全軟體實施例或結合軟體和硬體方面的實施例的形式。而且,本說明書可採用在一個或多個其中包含有電腦可用程式碼的電腦可用儲存媒介(包括但不限於磁碟記憶體、CD-ROM、光學記憶體等)上實施的電腦程式產品的形式。 上述對本說明書特定實施例進行了描述。其它實施例在所附申請專利範圍的範圍內。在一些情況下,在申請專利範圍中記載的動作或步驟可以按照不同於實施例中的順序來執行並且仍然可以實現期望的結果。另外,在附圖中描繪的過程不一定要求示出的特定順序或者連續順序才能實現期望的結果。在某些實施方式中,多工處理和並行處理也是可以的或者可能是有利的。 以上僅為本說明書的實施例而已,並不用於限制本說明書。對於本領域技術人員來說,本說明書可以有各種更改和變化。凡在本說明書的精神和原理之內所作的任何修改、等同替換、改進等,均應包含在本說明書的申請專利範圍的範圍之內。
400:文本還原裝置 410:獲取模組 420:分詞模組 430:匹配模組 440:評估模組 450:選取模組
為了更清楚地說明本申請實施例或現有技術中的技術方案,下面將對實施例或現有技術描述中所需要使用的附圖作簡單地介紹,顯而易見地,下面描述中的附圖僅僅是本申請實施例中記載的一些實施例,對於本領域普通技術人員來講,在不付出創造性勞動性的前提下,還可以根據這些附圖獲得其他的附圖。 圖1為本申請實施例提供的文本還原方法的步驟示意圖; 圖2為本申請實施例提供的文本還原方法在實際應用中的流程示意圖; 圖3為本申請實施例提供的電子設備的硬體結構示意圖; 圖4為本申請實施例提供的文本還原裝置的邏輯結構示意圖。

Claims (10)

  1. 一種文本還原方法,包含: 獲取目標文本; 對所述目標文本進行分詞處理,得到所述目標文本分詞後的分詞文本,所述分詞文本包含無法組成分詞的字元; 基於拆字樣本集,對所述分詞文本中無法組成分詞的字元進行匹配,得到至少一種匹配後分詞文本; 將所述至少一組匹配後分詞文本輸入預設語言模型,得到所述至少一組匹配後分詞文本的置信度; 基於所述至少一組匹配後分詞文本的置信度,從所述至少一種匹配後分詞文本中選取出所述目標文本的還原文本。
  2. 如申請專利範圍第1項所述的文本還原方法,其中, 所述基於拆字樣本集,對所述分詞文本中無法組成分詞的字元進行匹配,包括: 基於拆字樣本集,對所述分詞文本中行方向相鄰的無法組成分詞的字元進行匹配。
  3. 如申請專利範圍第1項所述的文本還原方法,其中, 所述基於拆字樣本集,對所述分詞文本中無法組成分詞的字元進行匹配,包括: 基於拆字樣本集,對所述分詞文本中列方向相鄰的無法組成分詞的字元進行匹配。
  4. 如申請專利範圍第1項所述的文本還原方法,其中, 所述基於所述至少一組匹配後分詞文本的置信度,從所述至少一種匹配後分詞文本中選取出所述目標文本的還原文本,包括: 從所述至少一種匹配後分詞文本中選取置信度最高的一者作為所述目標文本的還原文本。
  5. 如申請專利範圍第1項所述的文本還原方法,其中, 所述分詞文本中無法組成分詞的字元包括:漢字、漢字的偏旁、漢字的字根中任意一者。
  6. 如申請專利範圍第1項所述的文本還原方法,其中, 所述預設語言模型係基於垃圾資訊樣本集訓練得到。
  7. 如申請專利範圍第1項所述的文本還原方法,其中, 所述獲取目標文本,包括: 從網路社交平臺中,獲取使用者發送的目標文本。
  8. 一種文本還原裝置,包含: 獲取模組,獲取目標文本; 分詞模組,對所述目標文本進行分詞處理,得到所述目標文本分詞後的分詞文本,所述分詞文本包含無法組成分詞的字元; 匹配模組,基於拆字樣本集,對所述分詞文本中無法組成分詞的字元進行匹配,得到至少一種匹配後分詞文本; 評估模組,將所述至少一組匹配後分詞文本輸入預設語言模型,得到所述至少一組匹配後分詞文本的置信度; 選取模組,基於所述至少一組匹配後分詞文本的置信度,從所述至少一種匹配後分詞文本中選取出所述目標文本的還原文本。
  9. 一種電子設備包含:記憶體、處理器及儲存在所述記憶體上並可在所述處理器上執行的電腦程式,所述電腦程式被所述處理器執行,用以: 獲取目標文本; 對所述目標文本進行分詞處理,得到所述目標文本分詞後的分詞文本,所述分詞文本包含無法組成分詞的字元; 基於拆字樣本集,對所述分詞文本中無法組成分詞的字元進行匹配,得到至少一種匹配後分詞文本; 將所述至少一組匹配後分詞文本輸入預設語言模型,得到所述至少一組匹配後分詞文本的置信度; 基於所述至少一組匹配後分詞文本的置信度,從所述至少一種匹配後分詞文本中選取出所述目標文本的還原文本。
  10. 一種電腦可讀儲存媒介,所述電腦可讀儲存媒介上儲存有電腦程式,所述電腦程式被處理器執行時實施如下步驟: 獲取目標文本; 對所述目標文本進行分詞處理,得到所述目標文本分詞後的分詞文本,所述分詞文本包含無法組成分詞的字元; 基於拆字樣本集,對所述分詞文本中無法組成分詞的字元進行匹配,得到至少一種匹配後分詞文本; 將所述至少一組匹配後分詞文本輸入預設語言模型,得到所述至少一組匹配後分詞文本的置信度; 基於所述至少一組匹配後分詞文本的置信度,從所述至少一種匹配後分詞文本中選取出所述目標文本的還原文本。
TW108127355A 2018-10-25 2019-08-01 文本還原方法、裝置及電子設備與電腦可讀儲存媒體 TWI749349B (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
CN201811248320.3 2018-10-25
CN201811248320.3A CN109597987A (zh) 2018-10-25 2018-10-25 一种文本还原方法、装置及电子设备

Publications (2)

Publication Number Publication Date
TW202016765A true TW202016765A (zh) 2020-05-01
TWI749349B TWI749349B (zh) 2021-12-11

Family

ID=65957463

Family Applications (1)

Application Number Title Priority Date Filing Date
TW108127355A TWI749349B (zh) 2018-10-25 2019-08-01 文本還原方法、裝置及電子設備與電腦可讀儲存媒體

Country Status (3)

Country Link
CN (1) CN109597987A (zh)
TW (1) TWI749349B (zh)
WO (1) WO2020082890A1 (zh)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109597987A (zh) * 2018-10-25 2019-04-09 阿里巴巴集团控股有限公司 一种文本还原方法、装置及电子设备
CN114040409B (zh) * 2021-11-11 2023-06-06 中国联合网络通信集团有限公司 短信识别方法、装置、设备及存储介质
CN117408248A (zh) * 2022-07-07 2024-01-16 马上消费金融股份有限公司 文本分词方法、装置、计算机设备及存储介质

Family Cites Families (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6167367A (en) * 1997-08-09 2000-12-26 National Tsing Hua University Method and device for automatic error detection and correction for computerized text files
US7257564B2 (en) * 2003-10-03 2007-08-14 Tumbleweed Communications Corp. Dynamic message filtering
US8396927B2 (en) * 2004-12-21 2013-03-12 Alcatel Lucent Detection of unwanted messages (spam)
CN101876968A (zh) * 2010-05-06 2010-11-03 复旦大学 对网络文本与手机短信进行不良内容识别的方法
CN102567304B (zh) * 2010-12-24 2014-02-26 北大方正集团有限公司 一种网络不良信息的过滤方法及装置
CN102231873A (zh) * 2011-06-22 2011-11-02 中兴通讯股份有限公司 垃圾短信监控方法、系统和监控处理装置
CN102999533A (zh) * 2011-09-19 2013-03-27 腾讯科技(深圳)有限公司 一种火星文识别方法和系统
CN103874033B (zh) * 2012-12-12 2017-11-24 上海粱江通信系统股份有限公司 一种基于中文分词识别不规则垃圾短信的方法
CN106156017A (zh) * 2015-03-23 2016-11-23 北大方正集团有限公司 信息识别方法和信息识别系统
CN105574090B (zh) * 2015-12-10 2017-12-26 北京中科汇联科技股份有限公司 一种敏感词过滤方法及系统
CN106874253A (zh) * 2015-12-11 2017-06-20 腾讯科技(深圳)有限公司 识别敏感信息的方法及装置
CN105550169A (zh) * 2015-12-11 2016-05-04 北京奇虎科技有限公司 一种基于字符长度识别兴趣点名称的方法和装置
CN107239447B (zh) * 2017-06-05 2020-12-18 厦门美柚股份有限公司 垃圾信息识别方法及装置、系统
CN107357778B (zh) * 2017-06-22 2020-10-30 达而观信息科技(上海)有限公司 一种变形词的识别验证方法及系统
CN109597987A (zh) * 2018-10-25 2019-04-09 阿里巴巴集团控股有限公司 一种文本还原方法、装置及电子设备

Also Published As

Publication number Publication date
CN109597987A (zh) 2019-04-09
WO2020082890A1 (zh) 2020-04-30
TWI749349B (zh) 2021-12-11

Similar Documents

Publication Publication Date Title
KR102061987B1 (ko) 위험 평가 방법 및 시스템
WO2020244066A1 (zh) 一种文本分类方法、装置、设备及存储介质
WO2020073673A1 (zh) 一种文本分析方法及终端
CN106919661B (zh) 一种情感类型识别方法及相关装置
CN106874253A (zh) 识别敏感信息的方法及装置
TWI749349B (zh) 文本還原方法、裝置及電子設備與電腦可讀儲存媒體
US10291629B2 (en) Cognitive detection of malicious documents
CN109284502B (zh) 一种文本相似度计算方法、装置、电子设备及存储介质
US11100148B2 (en) Sentiment normalization based on current authors personality insight data points
CN111506708A (zh) 一种文本审核方法、装置、设备和介质
US9348901B2 (en) System and method for rule based classification of a text fragment
CN110046648B (zh) 基于至少一个业务分类模型进行业务分类的方法及装置
US10387467B2 (en) Time-based sentiment normalization based on authors personality insight data points
US20180107953A1 (en) Content delivery method, apparatus, and storage medium
CN108960574A (zh) 问答的质量确定方法、装置、服务器和存储介质
WO2022116419A1 (zh) 域名侵权的自动化判定方法、装置、电子设备和存储介质
CN111930623A (zh) 一种测试案例构建方法、装置及电子设备
CN112966081A (zh) 处理问答信息的方法、装置、设备和存储介质
CN111062490B (zh) 一种包含隐私数据的网络数据的处理、识别方法及装置
US20180032907A1 (en) Detecting abusive language using character n-gram features
US20180150748A1 (en) Enhanced Ingestion of Question-Answer Pairs into Question Answering Systems by Preprocessing Online Discussion Sites
US20180150747A1 (en) Enhancing Time-to-Answer for Community Questions in Online Discussion Sites
US10530889B2 (en) Identifying member profiles containing disallowed content in an online social network
CN111353514A (zh) 模型训练方法、图像识别方法、装置及终端设备
CN112492606A (zh) 垃圾短信的分类识别方法、装置、计算机设备及存储介质