TW201824027A - 字串驗證方法、字串擴充方法與驗證模型訓練方法 - Google Patents

字串驗證方法、字串擴充方法與驗證模型訓練方法 Download PDF

Info

Publication number
TW201824027A
TW201824027A TW105142572A TW105142572A TW201824027A TW 201824027 A TW201824027 A TW 201824027A TW 105142572 A TW105142572 A TW 105142572A TW 105142572 A TW105142572 A TW 105142572A TW 201824027 A TW201824027 A TW 201824027A
Authority
TW
Taiwan
Prior art keywords
string
strings
classification
verification
query
Prior art date
Application number
TW105142572A
Other languages
English (en)
Other versions
TWI645303B (zh
Inventor
劉昭宏
闕志克
郭志忠
李崇漢
洪健詠
Original Assignee
財團法人工業技術研究院
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 財團法人工業技術研究院 filed Critical 財團法人工業技術研究院
Priority to TW105142572A priority Critical patent/TWI645303B/zh
Priority to CN201611243457.0A priority patent/CN108228682B/zh
Priority to US15/653,536 priority patent/US20180173694A1/en
Publication of TW201824027A publication Critical patent/TW201824027A/zh
Application granted granted Critical
Publication of TWI645303B publication Critical patent/TWI645303B/zh

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • G06N20/10Machine learning using kernel methods, e.g. support vector machines [SVM]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • G06F40/295Named entity recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/3332Query translation
    • G06F16/3338Query expansion
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/903Querying
    • G06F16/90335Query processing
    • G06F16/90344Query processing by using string matching techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N5/00Computing arrangements using knowledge-based models
    • G06N5/04Inference or reasoning models

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Software Systems (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • Databases & Information Systems (AREA)
  • Computing Systems (AREA)
  • Medical Informatics (AREA)
  • Mathematical Physics (AREA)
  • Evolutionary Computation (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • General Health & Medical Sciences (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Machine Translation (AREA)

Abstract

一種字串驗證方法、字串擴充方法與驗證模型訓練方法被揭露,其中字串驗證方法包含下列步驟:擷取一個待驗名稱字串。依據前述待驗名稱字串產生一個待查詢字串。對前述待查詢字串使用自動語彙推薦功能以取得至少一個回傳字串。從前述至少一個回傳字串中擷取至少一筆特徵資料。依據前述至少一筆特徵資料與一個驗證模型判斷前述待驗名稱字串的分類。

Description

字串驗證方法、字串擴充方法與驗證模型訓練方法
本揭露係關於一種字串驗證方法、字串擴充方法與驗證模型訓練方法。
在以人工智慧作文字分析處理的領域中,機器學習仰賴大量的訓練文本。而文本內的字串對應的意義也是機器所需要學習的基礎知識。字串往往有其分類,例如「惡魔四伏」指涉的是一部007系列的電影,而「惡魔高校」指涉的是一部小說。於這樣的例子中,惡魔四伏與惡魔高校這樣的字串可分別被視為電影及小說此二類具名實體(Named Entity)。具體來說,這樣的字串實際對應到一個特定的人、事、物等,並且屬於各個不同的具名實體類型。
傳統的具名實體辨識需仰賴訓練文本的事前人工標記建構,而且具名實體之類型亦需事先加以定義。因此若無此類已經標記好的文本,便無法進行具名實體的辨識工作。實際在應用上,若使用者僅提供一些詞組、字串或部分短句等就要做具名實體辨識的工作,在傳統方法必須要有文本的前提下,很難加以應用。並且,傳統的辨識方法只能根據前後文的特徵來辨識出具名實體,但這些前後文特徵為語言相依的,無法處理多種語言混雜的情形。現有具備具名實體辨識功能之產品大多都有地域性限制,不同地區因語系差異,無法一體適用,必須個別量身訂做,且發展時程長,且對新類型的具名實體之辨識無法迅速因應,業務推展受到侷限。
綜上所述,本揭露旨在提供一種具名實體字串的驗證方法、擴充方法與驗證模型的訓練方法。藉以使得具名實體的辨識能自動化。
依據本揭露一實施例的字串驗證方法,包含下列步驟:擷取一個待驗名稱字串、依據前述待驗名稱字串產生一個待查詢字串、對前述待查詢字串使用自動語彙推薦功能以取得至少一個回傳字串、從前述至少一個回傳字串中擷取至少一筆特徵資料,依據前述至少一筆特徵資料與驗證模型判斷前述待驗名稱字串的分類。
依據本揭露一實施例的字串擴充方法,包含:從字串庫中的多個字串中產生一個待查詢字串。對前述待查詢字串使用自動語彙推薦功能以取得至少一個回傳字串。分析前述回傳字串以擴充字串庫。
依據本揭露一實施例的驗證模型訓練方法,包含:擷取屬於第一分類的多個第一字串。以前述多個第一字串產生一個第一待查詢字串。對前述第一待查詢字串使用自動語彙推薦功能以取得至少一個第一回傳字串。依據前述第一待查詢字串與前述第一回傳字串,擷取用於驗證第一分類的至少一筆第一特徵資料。依據前述至少一筆第一特徵資料,訓練關於第一分類的驗證模型。
綜上所述,本揭露提供的字串驗證方法、字串擴充方法與驗證模型訓練方法,藉由使用具備自動語彙推薦功能之系統,獲取多數人使用來檢索、搜尋的字串等以作為字串分類判斷的基準。因此,字串的分類與擴充得以自動化地進行。
以上之關於本揭露內容之說明及以下之實施方式之說明係用以示範與解釋本揭露之精神與原理,並且提供本揭露之專利申請範圍更進一步之解釋。
以下在實施方式中詳細敘述本揭露之詳細特徵以及優點,其內容足以使任何熟習相關技藝者了解本揭露之技術內容並據以實施,且根據本說明書所揭露之內容、申請專利範圍及圖式,任何熟習相關技藝者可輕易地理解本揭露相關之目的及優點。以下之實施例係進一步詳細說明本揭露之觀點,但非以任何觀點限制本揭露之範疇。
請參照圖1與圖2,其中圖1係用以實現本揭露的方法的系統架構圖,而圖2係依據本揭露一實施例的方法流程圖。如圖1所示,本揭露一實施例的系統包含字串驗證系統1000與驗證模型2000。於一實施例中,前述系統係運行於一個伺服器上的軟體函式,而前述驗證模型係儲存於伺服器的儲存媒介中。如圖2所示,當字串驗證系統1000運行時,首先執行步驟S210,字串驗證系統1000的輸入模組1100擷取一個待驗名稱字串。於一種實施態樣中,待驗名稱字串可以是使用者想要查詢並輸入至系統的一個字串。於另一實施態樣中,待驗名稱字串是系統執行機器學習時,從一篇文章中辨識出來的一個非連接詞字串。當從文章辨識待查詢字串時,於一實施例中係使用TF-IDF(Term Frequency-Inverse Document Frequency)方法來抓取待驗名稱字串。
於一實施例中,如圖1所示,輸入模組1100具有語言辨識單元1110,因此,所擷取到的待驗名稱字串的語言就會被語言辨識單元1110所辨識。舉例來說,輸入模組1100從一篇德文文章中擷取到字串「die」的時候,該字串會被辨識為德文。並且因為「die」在德文中用作冠詞使用,因此最終不會被選擇為待驗名稱字串。另一方面,如果輸入模組1100是從一篇英文文章中擷取到字串「die」的時候,則該字串被辨識為英文,且因為「die」在英文中的意義是死亡,因此輸入模組1100有機會將字串「die」擷取為待驗名稱字串或待驗名稱字串的一部分。
於另一實施例中,輸入模組1100得具有地區辨識單元1120。因此若是在台灣的使用者輸入待驗名稱字串「惡魔島」的時候,待驗名稱字串「惡魔島」的地區會被設定為台灣。反之,若是在加州的使用者輸入待驗名稱字串「惡魔島」的時候,待驗名稱字串「惡魔島」的地區會被設定為加州。於後面的實施例中介紹其作用。
接著執行步驟S220,字串驗證系統1000的查詢字串組合模組1200將待驗名稱字串設定為待查詢字串。於一實施例中,待驗名稱字串「美國隊長」中的元素有「美國」、「隊長」、「美國隊」與「美國隊長」。而待驗名稱字串「托斯卡尼艷陽下」中的元素有「托斯卡尼」、「艷陽」、「艷陽下」與「托斯卡尼艷陽下」。因此查詢字串組合模組1200於一實施例中可直接將待驗名稱字串「美國隊長」設定為待查詢字串。於另一實施例中,查詢字串組合模組1200可以用「美國」作為待查詢字串。於再一實施例中,如果輸入模組1100同時有擷取到待驗名稱字串「美國隊長」對應的一個待驗分類「電影」。則查詢字串組合模組1200以待驗名稱字串「美國隊長」與待驗分類「電影」所對應的伴隨字串「線上看」來產生待查詢字串「美國隊長 線上看」。於另一些實施例中,在產生待查詢字串的時候,也可以在待驗名稱字串「美國隊長」後加入空白字元、數字、空白字元加數字等,來產生「美國隊長 」、「美國隊長2」、「美國隊長 2」等待查詢字串。本揭露並不限制產生待查詢字串的方法如上。於此,伴隨字串是可能與待驗名稱字串有關聯的字串,被用來輔助字串的驗證。
接著如步驟S230,字串驗證系統1000的特徵資料擷取模組1300對待查詢字串使用自動語彙推薦功能以取得回傳字串。所謂的自動語彙推薦功能一般或稱為關聯詞提示或相關查詢詞建議。於此所指涉的自動語彙推薦功能(Automatic Term Suggestion)也可以是自動完成功能(Auto-Complete)或具有類似作動的服務。也就是當一個字串被輸入具有所述功能的系統時,會對應產生基於(包含)這個輸入的字串而產生的一個或多個字串。舉例來說,特徵資料擷取模組1300將待查詢字串填入具有自動語彙推薦功能或是自動完成功能的搜尋引擎3000或是檢索資料庫。例如將待查詢字串「托斯卡尼艷陽下」填入網路搜尋引擎所提供的自動完成(Auto-Complete)服務系統中(例如谷歌(Google®)搜尋引擎),則能得到回傳字串為「托斯卡尼艷陽下 線上看」、「托斯卡尼艷陽下台詞」、「托斯卡尼艷陽下 書」、「托斯卡尼艷陽下 景點」與「托斯卡尼艷陽下 下載」。如步驟S240,特徵資料擷取模組1300從回傳字串擷取特徵資料。舉例來說,前述的例子中,特徵資料擷取模組1300得以擷取到特徵資料「台詞」、「線上看」、「書」、「景點」與「下載」。實際上,並非每次都能擷取導多筆特徵資料,因此於一些實施例中,即使擷取到一筆特徵資料,也能繼續後續的步驟。
接著在步驟S250中,字串驗證系統1000的類型驗證計算模組1400依據擷取到的特徵資料與驗證模型2000來判斷待驗名稱字串的分類。於一實施例中,步驟S250具有下列步驟:依據擷取到的特徵資料,計算對應的特徵值。並依據 特徵值與驗證模型2000,判斷待驗名稱字串的分類。於一實施例中,在計算特徵值時,係依據驗證模型中其中一個分類對應的多個驗證詞組,判斷待查詢字串對應的一個或多個特徵資料是否對應前述分類的驗證詞組。所謂的驗證詞組,就是驗證模型2000中,用於驗證一個待驗字串是否屬於某個分類的一個或多個字(詞)組合。通常是由關於該分類的關聯詞組中選擇出來的,其方法於後續段落中討論。而關聯詞組就是將該分類所對應的詞組送至具有自動語彙推薦功能的系統/服務時,所獲得的回傳字串中所擷取的多個特徵資料的部分(例如一個或兩個特徵資料)或全部的特徵資料。具體來說,一個分類的驗證詞組是此分類的關聯詞組的子集合。而關聯詞組係分析所擷取的特徵資料而得到的。而於一個實施例中,前述的伴隨字串可以是選自待驗分類的關聯詞組。關於分析特徵資料得到關聯詞組的實作方式於後續實施例解釋。
並依據前述多個判斷結果,產生特徵向量作為特徵值。舉例來說,如果驗證模型2000中,電影分類的驗證詞組有「電影」、「影評」、「演員」、「台詞」、「場景」、「奧斯卡」、「票房」與「線上看」等等,則前述關於「托斯卡尼艷陽下」的特徵資料符合了線上看、電影、台詞。因此托斯卡尼艷陽下的特徵向量可以被定義為[線上看,電影,台詞]。依照這樣的特徵向量以及驗證模型2000,類型驗證計算模組1400可以判斷托斯卡尼艷陽下是否該被分類為電影。於一實施例中,驗證模型2000具有三個分類:餐廳、電影與歌曲。每個分類各具有15個驗證詞組,其中在每個分類選取驗證詞組時,係選擇該分類中的字串被填入搜尋引擎3000時,回傳的字串中出現次數(詞頻)最高的15個特徵資料作為驗證詞組。由於有些驗證詞組同時對應於兩個或三個分類,因此三個分類總計有38個驗證詞組。類型驗證計算模組1400係將這38個驗證詞組作為基底。於一實施例中,類型驗證計算模組1400將待查詢字串「托斯卡尼艷陽下」的特徵向量擴充為38維的特徵向量,並且每個分類自己的特徵向量也是38維的特徵向量。類型驗證計算模組1400係將待查詢字串的特徵向量分別與三個分類的特徵向量以深度神經網路(Deep Neural Network, DNN)或是支持向量機(Support Vector Machine, SVM)或是多層感知器(Multilayer Perceptron, MLP)進行估算,從而得到三個判斷結果,也就是判斷「托斯卡尼艷陽下」是否屬於餐廳類型、電影類型或歌曲類型。
於一實施例中,類型驗證計算模組1400並非以特徵向量以及類神經網路等人工智慧的方式來進行分類驗證。相對地類型驗證計算模組1400從驗證模型2000選擇一個分類,所選擇的分類對應的多個關聯詞組中部分被選為驗證詞組。舉例來說,在比對餐廳分類時,關聯詞組為「菜單」、「食記」、「餐廳」、「價位」、「台北」、「推薦」、「台中」、「分店」等等。於一實施例中,前述關聯詞組中,詞頻較高的幾個關聯詞組「菜單」、「食記」、「餐廳」、「價位」與「分店」作為餐廳分類的驗證詞組。而托斯卡尼艷陽下對應的特徵資料比對餐廳分類的多個驗證詞組的結果是全部不符合。反之托斯卡尼艷陽下的特徵資料在比對電影分類的多個驗證詞組的結果是有三個符合。因此類型驗證計算模組1400把托斯卡尼艷陽下分類為電影而非餐廳。
於一實施例中,待驗名稱字串例如「惡魔島」在不同的地區有不同的意涵。舉例來說,在台灣,惡魔島是一間餐廳的名稱,在加州,惡魔島是一個旅遊景點。因此,如同前述地,當輸入模組1100的地區辨識單元1120擷取到使用者是在台灣,或是地區辨識單元1120判斷系統當前處理的文件所討論的環境是在台灣,則查詢字串組合模組1200所產生的查詢字串例如為「台灣 惡魔島」或是「惡魔島 台灣」。如此,回傳字串會被限制而不會關聯於加州的惡魔島。又或者特徵資料擷取模組1300在對待查詢字串「惡魔島」使用自動語彙推薦功能的時候,限定回傳字串關聯的地區是台灣。類似地,輸入模組1100的語言辨識單元1110如果判斷所擷取的待驗名稱字串的語言是英文,則在使用自動語彙推薦功能時,特徵資料擷取模組1300得以限制回傳字串的語言是英文,如此可以避免回傳字串中帶有太多非目標地區/語言的干擾資料。
此外,於本揭露一實施例中,還揭示了一種字串擴充方法。具體來說,隨著人們使用語言溝通,所用到的語彙(字串)必然不再只限於辭典中的字串。舉例來說,辭典中就不會有「九十後」、「尼特」、「淡定紅茶」或是「藍瘦香菇」這樣的字串。因此本揭露還提供了一種應用前述字串驗證系統1000來擴充辭典的字串數量的方法。請參照圖3與圖4,其中圖3係依據本揭露一實施例的字串擴充方法流程圖,而圖4係依據本揭露一實施例的字串擴充系統功能方塊圖。其中圖4的字串擴充系統4000具有輸入模組4100、查詢字串組合模組4200與候選名稱字串擷取模組4300。其中輸入模組4100與查詢字串組合模組4200的功能與前述字串驗證系統1000的輸入模組1100與查詢字串組合模組1200相同。如圖3所示,於步驟S310中,輸入模組4100從字串庫的多個字串中產生一個待查詢字串。同樣的於一實施例中,輸入模組4100的語言辨識單元4110與地區辨識單元4120也能辨識字串庫的語言/地區。而如步驟S330所示,候選名稱字串擷取模組4300對待查詢字串使用自動語彙推薦功能或是自動完成功能(例如使用具此類功能的搜尋引擎3000)以取得對應的回傳字串。再如步驟S340,候選名稱字串擷取模組4300分析回傳字串,取得其中除了待查詢字串以外的部分為候選名稱字串。並且比較候選名稱字串與字串庫的字串來判斷候選名稱字串是否已屬於字串庫的該些字串其中之一。當候選名稱字串不同於字串庫中所有的字串,則候選名稱字串擷取模組4300將候選名稱字串新增進字串庫來擴充字串庫中的字串數量。在一種實作方式中,會限制待查詢字串中包含第一字串的數量的上限。舉例來說,待查詢字串中的字串數上限被設定為3,則待查詢字串中最多由三個第一字串所構成。於另一種實作方式中,當字串數上限被設定為3,則待查詢字串就是由三個第一字串所構成。於一實施例中,此處的第一字串可以是一個英文字(word)或是一個中文字。然而,於其他實施例中,第一字串也可以是辭典中的一個詞,例如「今日」。於再一些實施例中,當字串數上限被設定為3,表示字串中的單字總數限定為3,因此所產生的待查詢字串就會是三字詞。此處的待查詢字串例如直接選用三字詞如「幸運草」、「千里馬」等,或是選用二字詞與一字詞構成的字串,例如由「線上」與「看」構成的「線上看」。因此,即使辭典中原來沒有「線上看」這樣的詞組,經由上述流程後能夠將「線上看」作為待查詢字串,進而取得與線上看有關的回傳字串。
於另一實施例中,假設所選取的第一字串屬於電影類別,因此在用第一字串組成待查詢字串時,還可以選擇關聯於所選取的第一字串的伴隨字串。舉例來說,當所選取的第一字串例如為「超人」與「蝙蝠俠」的時候,伴隨字串例如可以是電影類別的驗證詞組「線上看」、「影評」、「演員」等等。因此產生的待查詢字串例如為「超人 蝙蝠俠 線上看」,而收到的回傳字串中包含有「正義曙光」、「蝙蝠俠對超人」,且這些回傳字串並不存在於原本對應該類別之字串庫中。因此可以新增字串「正義曙光」與「蝙蝠俠對超人」。由上述多個實施例可知,將前述的各模組撰寫為電腦程式,並由電腦執行,則字串庫中具名實體字串的數量可以自動地被擴充。
於一實施例中,本揭露還揭示了一種使用前述字串驗證系統1000來建立驗證模型2000的方法。請參照圖5,其係依據本揭露一實施例的驗證模型建立方法流程圖。如圖5所示,首先如步驟S410,輸入模組1100擷取多個第一字串,第一字串均屬於第一分類。舉例來說,從辭典或資料庫中擷取1000部電影名稱。也就是所擷取的1000個第一字串(電影名稱)的類別都是電影。接著如步驟S420所示,查詢字串組合模組1200以所選擇的多個第一字串來產生第一待查詢字串。具體來說,例如直接以電影名稱作為第一待查詢字串,或是在電影名稱後面加入空白字元,或是在電影名稱後面加入數字來產生第一待查詢字串。並且如步驟S430所示,特徵資料擷取模組1300對第一待查詢字串使用自動語彙推薦功能來取得一個或多個第一回傳字串。再如步驟S440所示,特徵資料擷取模組1300依據第一待查詢字串與第一回傳字串,來擷取用於驗證第一分類的第一特徵資料。具體來說,就是前述的對應於第一分類(電影)的關聯詞組。於一實施例中,接著如步驟S450所示,字串驗證系統1000的驗證詞組產生模組1600從得到的多個關聯詞組中,選擇詞頻較高的關聯詞組來得到用來驗證第一分類的驗證詞組,以建立關於第一分類的驗證模型2000。此處,驗證詞組產生模組1600可以使用TF-IDF(Term Frequency-Inverse Document Frequency)方法來特徵資料中過濾出多個關聯詞組,並從關聯詞組中過濾出詞頻較高又有意義的驗證詞組。
於另一實施例中,在步驟S440後,如步驟S460所示,字串驗證系統1000的驗證模型訓練模組1700依照前述得到的多個關聯詞組,以深度神經網路、支持向量機、模糊邏輯、類神經網路、多層感知器或是其他人工智慧的方法來建立/訓練關於第一分類的驗證模型2000。
於另一實施例中,除了擷取屬於第一分類(電影)的1000個字串以外,輸入模組1100還擷取多個第二字串,而這些第二字串不屬於第一分類。並且查詢字串組合模組1200以這些第二字串來產生第二待查詢字串。而特徵資料擷取模組1300對第二待查詢字串使用自動語彙推薦功能則能取得第二回傳字串。同樣的,特徵資料擷取模組1300得以從第二回傳字串中取得第二特徵資料(第二關聯詞組)。這些第二特徵資料都是非相關於第一類別(電影類別)的,因此於一實施例中,驗證詞組產生模組1600得以利用這些第二特徵資料,來更精確的從關於第一類別的關聯詞組中過濾出驗證詞組。於另一實施例中,這些第二特徵資料也能被驗證模型訓練模組1700用來訓練驗證模型2000。於此實施例中,僅需輸入足量之資料,並將上述圖5的流程以程式由電腦執行,即能自動地訓練出驗證模型。
綜上所述,依據本揭露的實施例,字串驗證系統得以自動的判別待驗名稱字串的地區、語言,並且自動地驗證其類型。此外,於本揭露另一實施例中,驗證模型得以自動地被訓練。於本揭露再一實施例中,字串庫中的字串數量得以自動地擴充最新的具名實體字串。
雖然本揭露以前述之實施例揭露如上,然其並非用以限定本揭露。在不脫離本揭露之精神和範圍內,所為之更動與潤飾,均屬本揭露之專利保護範圍。關於本揭露所界定之保護範圍請參考所附之申請專利範圍。
1000‧‧‧字串驗證系統
1100、4100‧‧‧輸入模組
1110、4110‧‧‧語言辨識單元
1120、4120‧‧‧地區辨識單元
1200、4200‧‧‧查詢字串組合模組
1300‧‧‧特徵資料擷取模組
1400‧‧‧類型驗證計算模組
1600‧‧‧驗證詞組產生模組
1700‧‧‧驗證模型訓練模組
2000‧‧‧驗證模型
3000‧‧‧搜尋引擎
4000‧‧‧字串擴充系統
4300‧‧‧候選名稱字串擷取模組
圖1係用以實現本揭露的方法的系統架構圖。 圖2係依據本揭露一實施例的方法流程圖。 圖3係依據本揭露一實施例的字串擴充方法流程圖。 圖4係依據本揭露一實施例的字串擴充系統功能方塊圖。 圖5係依據本揭露一實施例的驗證模型建立方法流程圖。

Claims (18)

  1. 一種字串驗證方法,包含: 擷取一待驗名稱字串; 依據該待驗名稱字串產生一待查詢字串; 對該待查詢字串使用一自動語彙推薦功能以取得至少一回傳字串; 從該至少一回傳字串中擷取至少一特徵資料;以及 依據該至少一特徵資料與一驗證模型判斷該待驗名稱字串的分類。
  2. 如請求項1的方法,其中於擷取該待驗名稱字串時,更包含擷取關聯於該待驗名稱字串的一語言或一地區,並且於產生該待查詢字串的步驟更依據該語言或該地區產生該待查詢字串。
  3. 如請求項2的方法,其中於從該至少一回傳字串中擷取該至少一特徵資料的步驟係依據該語言或該地區。
  4. 如請求項1的方法,其中於依據該至少一特徵資料與該驗證模型判斷該待驗名稱字串的分類步驟中包含: 依據該至少一特徵資料計算一特徵值;以及 依據該特徵值與該驗證模型,判斷該待驗名稱字串的分類。
  5. 如請求項4的方法,其中於依據該至少一特徵資料計算該特徵值的步驟中,包含: 依據該驗證模型中一分類的多個驗證詞組,判斷該至少一特徵資料是否對應該些驗證詞組;以及 依據前述多個判斷結果,產生一特徵向量作為該特徵值。
  6. 如請求項4的方法,其中該特徵值包含該至少一特徵資料,且於依據該特徵值與該驗證模型判斷該待驗名稱字串的分類的步驟中包含: 從該驗證模型中選擇一第一分類,該第一分類對應於至少一驗證詞組;以及 判斷該至少一特徵資料是否對應該至少一驗證詞組,以判斷該待驗名稱字串是否屬於該第一分類。
  7. 如請求項4的方法,其中於依據該至少一特徵資料計算該特徵值的步驟中,包含以該至少一特徵資料產生一特徵向量,且於依據該特徵值與該驗證模型,判斷該待驗名稱字串的分類的步驟中,係依據該特徵向量與該驗證模型以判斷該待驗名稱字串的分類。
  8. 如請求項1的方法,其中於擷取該待驗名稱字串的步驟中,更擷取一分類,且於判斷該待驗名稱字串的分類的步驟中係判斷該待驗名稱字串是否屬於該分類。
  9. 如請求項8的方法,其中於產生該待查詢字串的步驟中更依據關於該分類的至少一伴隨字串產生該待查詢字串。
  10. 一種字串擴充方法,包含: 從一字串庫中的多個字串產生一待查詢字串; 對該待查詢字串使用一自動語彙推薦功能以取得至少一回傳字串;以及 分析該至少一回傳字串以擴充該字串庫。
  11. 如請求項10的方法,更包含取得一字串數上限,並且於產生該待查詢字串的步驟中,包含: 從該字串庫的該些字串選擇N個第一字串,其中N為小於等於該字串數上限的正整數;以及 依據該N個被選擇的第一字串產生該待查詢字串。
  12. 如請求項10的方法,其中於分析該至少一回傳字串以擴充該字串庫的步驟中包含: 比對該至少一回傳字串其中之一與該字串庫的該些字串;以及 當所比對的該回傳字串不屬於該字串庫的該些字串時,以所比對的該回傳字串擴充該字串庫的該些字串。
  13. 如請求項10的方法,其中於擷取該些第一字串時,更擷取關於每一該第一字串的一地區或一語言,且於產生該待查詢字串的步驟中,更依據該地區或該語言產生該待查詢字串。
  14. 如請求項10的方法,其中於產生該待查詢字串的步驟中,包含: 從該字串庫的該些字串中選擇屬於一第一分類的多個第一字串; 選擇部分該些第一字串; 選擇關聯於該第一分類的至少一伴隨字串;以及 依據被選擇的部分該些第一字串與該至少一伴隨字串以得到該待查詢字串。
  15. 一種驗證模型訓練方法,包含: 擷取多個第一字串,該些第一字串屬於一第一分類; 以該些第一字串產生一第一待查詢字串; 對該第一待查詢字串使用一自動語彙推薦功能以取得至少一第一回傳字串; 依據該第一待查詢字串與該至少一第一回傳字串,擷取用於驗證該第一分類的至少一第一特徵資料;以及 依據該至少一第一特徵資料,訓練關於該第一分類的一驗證模型。
  16. 如請求項15的方法,更包含: 擷取多個第二字串,該些第二字串不屬於該第一分類; 以該些第二字串產生一第二待查詢字串; 對該第二待查詢字串使用該自動語彙推薦功能以取得至少一第二回傳字串;以及 依據該第二待查詢字串與該至少一第二回傳字串,擷取至少一第二特徵資料; 其中於訓練關於該第一分類的該驗證模型的步驟中,更依據該至少一第二特徵資料訓練該驗證模型。
  17. 如請求項15或16的方法,其中該至少一第一回傳字串係多個第一回傳字串,且該至少一第一特徵資料包含有該些第一回傳字串與每一該第一回傳字串的詞頻,且於訓練關於該第一分類得該驗證模型的步驟中,依據詞頻選擇部分的該些第一回傳字串作為用於驗證該第一分類的多個驗證詞組。
  18. 如請求項15或16的方法,其中於訓練該驗證模型的步驟中係依據該至少一第一特徵資料,以類神經網路、模糊邏輯、多層感知器(Multilayer Perceptron, MLP)、深度神經網路(Deep Neural Network, DNN)或支持向量機(Support Vector Machine, SVM)訓練該驗證模型。
TW105142572A 2016-12-21 2016-12-21 字串驗證方法、字串擴充方法與驗證模型訓練方法 TWI645303B (zh)

Priority Applications (3)

Application Number Priority Date Filing Date Title
TW105142572A TWI645303B (zh) 2016-12-21 2016-12-21 字串驗證方法、字串擴充方法與驗證模型訓練方法
CN201611243457.0A CN108228682B (zh) 2016-12-21 2016-12-29 字符串验证方法、字符串扩充方法与验证模型训练方法
US15/653,536 US20180173694A1 (en) 2016-12-21 2017-07-19 Methods and computer systems for named entity verification, named entity verification model training, and phrase expansion

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
TW105142572A TWI645303B (zh) 2016-12-21 2016-12-21 字串驗證方法、字串擴充方法與驗證模型訓練方法

Publications (2)

Publication Number Publication Date
TW201824027A true TW201824027A (zh) 2018-07-01
TWI645303B TWI645303B (zh) 2018-12-21

Family

ID=62562594

Family Applications (1)

Application Number Title Priority Date Filing Date
TW105142572A TWI645303B (zh) 2016-12-21 2016-12-21 字串驗證方法、字串擴充方法與驗證模型訓練方法

Country Status (3)

Country Link
US (1) US20180173694A1 (zh)
CN (1) CN108228682B (zh)
TW (1) TWI645303B (zh)

Families Citing this family (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106874467B (zh) * 2017-02-15 2019-12-06 百度在线网络技术(北京)有限公司 用于提供搜索结果的方法和装置
US10896222B1 (en) * 2017-06-28 2021-01-19 Amazon Technologies, Inc. Subject-specific data set for named entity resolution
CN110532445A (zh) 2019-04-26 2019-12-03 长佳智能股份有限公司 提供类神经网络训练模型的云端交易系统及其方法
KR102079970B1 (ko) * 2019-04-30 2020-04-07 (주)에스투더블유랩 지식 그래프를 이용하여 사이버 시큐리티를 제공하는 방법, 장치 및 컴퓨터 프로그램
CN110502629B (zh) * 2019-08-27 2020-09-11 桂林电子科技大学 一种基于lsh的过滤验证字符串相似性连接方法
CN111222335A (zh) * 2019-11-27 2020-06-02 上海眼控科技股份有限公司 语料修正方法、装置、计算机设备和计算机可读存储介质
CN111506803B (zh) 2020-03-17 2023-10-31 阿波罗智联(北京)科技有限公司 内容推荐方法、装置、电子设备及存储介质
CN111931509A (zh) * 2020-08-28 2020-11-13 北京百度网讯科技有限公司 实体链指方法、装置、电子设备及存储介质
CN113010638B (zh) * 2021-02-25 2024-02-09 北京金堤征信服务有限公司 实体识别模型生成方法及装置、实体提取方法及装置
CN112966513B (zh) * 2021-03-05 2023-08-01 北京百度网讯科技有限公司 用于实体链接的方法和装置
CN114065741B (zh) * 2021-11-16 2023-08-11 北京有竹居网络技术有限公司 用于验证表述的真实性的方法、设备、装置和介质

Family Cites Families (39)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8438142B2 (en) * 2005-05-04 2013-05-07 Google Inc. Suggesting and refining user input based on original user input
US7624099B2 (en) * 2005-10-13 2009-11-24 Microsoft Corporation Client-server word-breaking framework
US7970766B1 (en) * 2007-07-23 2011-06-28 Google Inc. Entity type assignment
US8594996B2 (en) * 2007-10-17 2013-11-26 Evri Inc. NLP-based entity recognition and disambiguation
US8000956B2 (en) * 2008-02-08 2011-08-16 Xerox Corporation Semantic compatibility checking for automatic correction and discovery of named entities
US8316296B2 (en) * 2008-10-01 2012-11-20 Microsoft Corporation Phrase generation using part(s) of a suggested phrase
EP2341450A1 (en) * 2009-08-21 2011-07-06 Mikko Kalervo Väänänen Method and means for data searching and language translation
US9009134B2 (en) * 2010-03-16 2015-04-14 Microsoft Technology Licensing, Llc Named entity recognition in query
US20110238491A1 (en) * 2010-03-26 2011-09-29 Microsoft Corporation Suggesting keyword expansions for advertisement selection
JP2012027845A (ja) * 2010-07-27 2012-02-09 Sony Corp 情報処理装置、関連文提供方法、及びプログラム
CA2747153A1 (en) * 2011-07-19 2013-01-19 Suleman Kaheer Natural language processing dialog system for obtaining goods, services or information
CN103020066B (zh) * 2011-09-21 2016-09-07 北京百度网讯科技有限公司 一种识别搜索需求的方法和装置
CN103106220B (zh) * 2011-11-15 2016-08-03 阿里巴巴集团控股有限公司 一种搜索方法、搜索装置及一种搜索引擎系统
US9613165B2 (en) * 2012-11-13 2017-04-04 Oracle International Corporation Autocomplete searching with security filtering and ranking
US9135330B2 (en) * 2012-12-18 2015-09-15 Ebay Inc. Query expansion classifier for E-commerce
US9268880B2 (en) * 2013-03-14 2016-02-23 Google Inc. Using recent media consumption to select query suggestions
US9298694B2 (en) * 2013-04-11 2016-03-29 International Business Machines Corporation Generating a regular expression for entity extraction
CN103177126B (zh) * 2013-04-18 2015-07-29 中国科学院计算技术研究所 用于搜索引擎的色情用户查询识别方法及设备
US20160041991A1 (en) * 2013-05-20 2016-02-11 Google Inc. Systems, methods, and computer-readable media for providing query suggestions based on environmental contexts
US9495420B2 (en) * 2013-05-22 2016-11-15 International Business Machines Corporation Distributed feature collection and correlation engine
US9230041B2 (en) * 2013-12-02 2016-01-05 Qbase, LLC Search suggestions of related entities based on co-occurrence and/or fuzzy-score matching
US9661067B2 (en) * 2013-12-23 2017-05-23 24/7 Customer, Inc. Systems and methods for facilitating dialogue mining
US10325205B2 (en) * 2014-06-09 2019-06-18 Cognitive Scale, Inc. Cognitive information processing system environment
US20160203221A1 (en) * 2014-09-12 2016-07-14 Lithium Technologies, Inc. System and apparatus for an application agnostic user search engine
US9858262B2 (en) * 2014-09-17 2018-01-02 International Business Machines Corporation Information handling system and computer program product for identifying verifiable statements in text
US11017312B2 (en) * 2014-12-17 2021-05-25 International Business Machines Corporation Expanding training questions through contextualizing feature search
US20160196313A1 (en) * 2015-01-02 2016-07-07 International Business Machines Corporation Personalized Question and Answer System Output Based on Personality Traits
US20160196336A1 (en) * 2015-01-02 2016-07-07 International Business Machines Corporation Cognitive Interactive Search Based on Personalized User Model and Context
CN104899304B (zh) * 2015-06-12 2018-02-16 北京京东尚科信息技术有限公司 命名实体识别方法及装置
RU2626663C2 (ru) * 2015-06-30 2017-07-31 Общество С Ограниченной Ответственностью "Яндекс" Способ и сервер для создания предложений по завершению поисковых запросов
US20170018268A1 (en) * 2015-07-14 2017-01-19 Nuance Communications, Inc. Systems and methods for updating a language model based on user input
US10380190B2 (en) * 2015-11-18 2019-08-13 International Business Machines Corporation Optimized autocompletion of search field
TWM523901U (zh) * 2016-01-04 2016-06-11 信義房屋仲介股份有限公司 可語意分析關鍵字的搜尋引擎裝置
US10127274B2 (en) * 2016-02-08 2018-11-13 Taiger Spain Sl System and method for querying questions and answers
CN106227762B (zh) * 2016-07-15 2019-06-28 苏群 一种基于用户协助的垂直搜索方法和系统
US10462545B2 (en) * 2016-07-27 2019-10-29 Amazon Technologies, Inc. Voice activated electronic device
US10296659B2 (en) * 2016-09-26 2019-05-21 International Business Machines Corporation Search query intent
US11373100B2 (en) * 2016-11-29 2022-06-28 Microsoft Technology Licensing, Llc Using various artificial intelligence entities as advertising media
US10558686B2 (en) * 2016-12-05 2020-02-11 Sap Se Business intelligence system dataset navigation based on user interests clustering

Also Published As

Publication number Publication date
US20180173694A1 (en) 2018-06-21
CN108228682B (zh) 2020-09-29
TWI645303B (zh) 2018-12-21
CN108228682A (zh) 2018-06-29

Similar Documents

Publication Publication Date Title
TWI645303B (zh) 字串驗證方法、字串擴充方法與驗證模型訓練方法
US9626622B2 (en) Training a question/answer system using answer keys based on forum content
US20170228372A1 (en) System and method for querying questions and answers
US9659259B2 (en) Latency-efficient multi-stage tagging mechanism
US20150074112A1 (en) Multimedia Question Answering System and Method
US20180075013A1 (en) Method and system for automating training of named entity recognition in natural language processing
US10235604B2 (en) Automatic wearable item classification systems and methods based upon normalized depictions
KR20160107187A (ko) 검색 결과에서의 논리적인 질문 응답 기법
US20180300407A1 (en) Query Generation for Social Media Data
US11429792B2 (en) Creating and interacting with data records having semantic vectors and natural language expressions produced by a machine-trained model
CN116628229B (zh) 一种利用知识图谱生成文本语料的方法及装置
CN111400584A (zh) 联想词的推荐方法、装置、计算机设备和存储介质
Aletras et al. Labeling topics with images using a neural network
JP5812534B2 (ja) 質問応答装置、方法、及びプログラム
Garrido et al. The GENIE project-a semantic pipeline for automatic document categorisation
CN117252186A (zh) 基于xai的信息处理方法、装置、设备及存储介质
CN116562280A (zh) 一种基于通用信息抽取的文献分析系统及方法
Vieira et al. Towards the effective linking of social media contents to products in E-commerce catalogs
Arnold et al. Free-form multi-modal multimedia retrieval (4MR)
Oosthuizen et al. Analysis of INCOSE Systems Engineering journal and international symposium research topics
US12032915B2 (en) Creating and interacting with data records having semantic vectors and natural language expressions produced by a machine-trained model
Reddy et al. Automatic caption generation for annotated images by using clustering algorithm
Ghaffari et al. Generative-AI in E-Commerce: Use-Cases and Implementations
Amoualian et al. An E-Commerce Dataset in French for Multi-modal Product Categorization and Cross-Modal Retrieval
Panda et al. HOLMES: Hyper-Relational Knowledge Graphs for Multi-hop Question Answering using LLMs