TWI800982B - 文章標記資料的產生裝置及其產生方法 - Google Patents

文章標記資料的產生裝置及其產生方法 Download PDF

Info

Publication number
TWI800982B
TWI800982B TW110142549A TW110142549A TWI800982B TW I800982 B TWI800982 B TW I800982B TW 110142549 A TW110142549 A TW 110142549A TW 110142549 A TW110142549 A TW 110142549A TW I800982 B TWI800982 B TW I800982B
Authority
TW
Taiwan
Prior art keywords
word segmentation
result
word
article
processor
Prior art date
Application number
TW110142549A
Other languages
English (en)
Other versions
TW202321944A (zh
Inventor
林意淳
蔡岳洋
林品銓
潘可涵
朱昇瑋
Original Assignee
宏碁股份有限公司
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 宏碁股份有限公司 filed Critical 宏碁股份有限公司
Priority to TW110142549A priority Critical patent/TWI800982B/zh
Priority to US17/568,687 priority patent/US11954441B2/en
Application granted granted Critical
Publication of TWI800982B publication Critical patent/TWI800982B/zh
Publication of TW202321944A publication Critical patent/TW202321944A/zh

Links

Classifications

    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • G06F40/295Named entity recognition
    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/103Formatting, i.e. changing of presentation of documents
    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/284Lexical analysis, e.g. tokenisation or collocates
    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Machine Translation (AREA)
  • Character Discrimination (AREA)

Abstract

一種文章標記資料的產生裝置及其產生方法。文章標記資料產生方法包含:將文章執行分詞處理以產生分詞結果;對分詞結果進行命名實體識別處理以產生第一識別結果;判斷分詞結果是否包括有擴充列表中的任一字組;對第一識別結果進行擴充實體類別轉換以產生第二識別結果;將第二識別結果以及分詞結果作為標記資料。

Description

文章標記資料的產生裝置及其產生方法
本發明是有關於一種文章標記資料的產生裝置及其產生方法,且特別是有關於一種可以自動產生標記資料的文章標記資料的產生裝置及其產生方法。
在人工智慧、機器學習模型及深度學習模型的建立中,訓練資料為重要的要件之一。其中,用於監督式學習的訓練資料,每筆資料都需要有相對應的答案標記。
目前的技術是透過人工手動地進行逐筆資料的標記,導致耗費時間且容易發生標記錯誤的情況,進而造成後續模型訓練表現不佳或是訓練過程中發生錯誤。因此,現有產生用於訓練模型的標記資料仍有改善的空間。
本發明提供一種文章標記資料的產生裝置及其產生方法,可根據預設的字組以及實體類別產生標記文章中的字組,進而自動產生可用於訓練模型的標記資料。
本發明的一種文章標記資料的產生裝置,包含處理器、以及收發器。處理器耦接收發器,且處理器用以:將文章執行分詞處理以產生分詞結果;依據命名實體識別模型對分詞結果進行命名實體識別處理以產生第一識別結果;依據擴充列表判斷分詞結果是否包括有擴充列表中的任一個字組;當分詞結果包括有擴充列表中的字組,依據擴充列表以及分詞結果對第一識別結果進行擴充實體類別轉換以產生第二識別結果;以及,將第二識別結果以及分詞結果作為標記資料且輸出標記資料。
本發明的文章標記資料的產生方法包括:處理器將文章執行分詞處理以產生分詞結果;依據命名實體識別模型處理器對分詞結果進行命名實體識別處理以產生第一識別結果;依據擴充列表處理器判斷分詞結果是否包括有擴充列表中的任一個字組;當分詞結果包括有擴充列表中的字組,依據擴充列表以及分詞結果處理器對第一識別結果進行擴充實體類別轉換以產生第二識別結果;以及,處理器將第二識別結果以及分詞結果作為標記資料,且輸出標記資料。
基於上述,本發明的文章標記的產生裝置可自動地產生具有關於擴充列表的實體類別的文章標記資料。並且,標記資料可用於做為命名實體識別模型的訓練資料。
為了使本發明之內容可以被更容易明瞭,以下特舉實施例作為本發明確實能夠據以實施的範例。另外,凡可能之處,在圖式及實施方式中使用相同標號的元件/構件/步驟,係代表相同或類似部件。
圖1根據本發明的一實施例繪示一種文章標記資料的產生裝置的示意圖。文章標記資料的產生裝置1可包含處理器110、以及收發器120。文章標記資料的產生裝置1可用於自動地產生標記資料,以用於擴充命名實體識別模型的訓練樣本,進而強化與擴充命名實體識別模型的識別範圍與功效。
處理器110例如是中央處理單元(central processing unit,CPU),或是其他可程式化之一般用途或特殊用途的微控制單元(micro control unit,MCU)、微處理器(microprocessor)、數位信號處理器(digital signal processor,DSP)、可程式化控制器、特殊應用積體電路(application specific integrated circuit,ASIC)、圖形處理器(graphics processing unit,GPU)、影像訊號處理器(image signal processor,ISP)、影像處理單元(image processing unit,IPU)、算數邏輯單元(arithmetic logic unit,ALU)、複雜可程式邏輯裝置(complex programmable logic device,CPLD)、現場可程式化邏輯閘陣列(field programmable gate array,FPGA)或其他類似元件或上述元件的組合。處理器110可耦接至收發器120。
收發器120以無線或有線的方式傳送及接收訊號。收發器130還可以執行例如低噪聲放大、阻抗匹配、混頻、向上或向下頻率轉換、濾波、放大以及類似的操作。
於另一實施例中,產生裝置1更可包括儲存媒體130,儲存媒體130耦接處理器110。儲存媒體130例如是任何型態的固定式或可移動式的隨機存取記憶體(random access memory,RAM)、唯讀記憶體(read-only memory,ROM)、快閃記憶體(flash memory)、硬碟(hard disk drive,HDD)、固態硬碟(solid state drive,SSD)或類似元件或上述元件的組合,而用於儲存可由處理器110執行的多個模組或各種應用程式。如圖2在本實施例中,儲存媒體130可儲存包含爬蟲模組131、分詞處理模型132、命名實體識別(named entity recognition,NER)模型133以及訓練模組134等多個模組,其功能將於後續說明。處理器110,並且存取和執行儲存於儲存媒體130中的多個模組和各種應用程式。
下文中,將搭配文章標記資料的產生裝置1中的各項裝置、元件及/或模組說明本發明實施例所述之方法。本方法的各個流程可依照實施情形而隨之調整,且並不僅限於此。
圖3根據本發明的一實施例繪示一種文章標記資料的產生方法的流程圖,其中這文章標記資料的產生方法可由如圖1所示的文章標記資料的產生裝置1實施。在本實施例中,處理器110將文章執行分詞處理以產生一分詞結果(步驟S210)。於一實施例中,處理器110依據爬蟲模組,而透過爬蟲技術取得多篇文章(article)。舉例來說,爬蟲模組可通過收發器130存取新聞網站或醫療網站,並且利用爬蟲技術以從這新聞網站或醫療網站中取得多篇新聞與文章。在另一實施例中,爬蟲模組可根據預設週期重複地儲存文章至儲存媒體130之中。
在一實施例中,處理器110透過分詞處理模型132對待標記文章(即,文章)進行分詞處理。舉例來說,本發明所述之分詞處理模型132可透過雙向編碼器表徵(bidirectional encoder representations from transformers,BERT)演算法的詞法分析器(Tokenizer)等執行,但本案不應以此為限。舉例來說,待標記文章為「John believes that only around 20% of the country’s 126 million population has been fully vaccinated against Covid-19.」,經過處理器110對這待標記文章執行分詞處理以獲得對應標記文章的分詞結果。在這實施例中,這分詞結果為「John,believes,that,only,around,2,%,of,the,country,’,s,126,million,population,has,been,fully,vaccinated,against,Covid,-,19,.」。由上述可以得知,本實施例所使用的分詞處理為標點符號與字詞皆進行分詞的分詞處理,但本案不應以此為限。
在一實施例中,在處理器110獲得分詞結果之後,處理器110依據命名實體識別模型133對分詞結果進行命名實體識別處理以產生第一識別結果(步驟S220)。具體而言,處理器110透過命名實體識別模型133對分詞結果執行命名實體識別處理。在另一實施例中,步驟S210與步驟S220可整合於一個步驟之中,也就是說處理器110依據命名實體識別模型133將文章進行命名實體識別處理後,即可獲得分詞結果以及對應分詞結果的第一識別結果。
舉例來說,命名實體識別模型133是基於包括Transformer架構的自然語言處理演算法的深度學習所訓練的。舉例來說,命名實體識別模型133可透過雙向編碼器表徵(bidirectional encoder representations from transformers,BERT)演算法、ELMo演算法或GPT-2演算法所訓練。藉由命名實體識別模型133,處理器110將分詞結果中與命名實體識別模型133中相同的字組標記為對應的實體類別。舉例來說,處理器110根據命名實體識別模型133對上述分詞結果執行命名實體識別處理後,處理器110可以獲得對應的第一識別結果。這第一識別結果為「B-PER,O,O,O,O,O,O,O,O,O,O,O,O,O,O,O,O,O,O,O,O,O,O,O」。在本實施例中,B-PER表示人名,O表示非命名實體或其他,但本案不應以此為限。命名實體識別模型133可產生對應於字組的實體類別(entity classification)。舉例來說,命名實體識別模型126可將字組分類為「人名」、「地名」、「機構名」、「時間」、「數字」、「其他實體」或「其他」等實體類別的其中之一。
在處理器110獲得第一識別結果之後,在一實施例中,處理器110依據擴充列表判斷分詞結果是否具有擴充列表中的任一個字組(步驟S230)。在一實施例中,這擴充列表中的多個字組是經分詞處理且/或經格式統一處理的字組,且上述格式統一處理可以為將每一字組中的文字統一轉換為大寫形式,或將每一字組中的文字統一轉換為小寫形式的文字。並且,擴充列表為使用者預先設定的字組列表。
舉例來說,這擴充列表為使用者預先設定的傳染病字組列表,字組的實體類別均為DIS,例如,表(1): 表(1)
字組 同義字組 同義字組 同義字組 同義字組
Covid-19 Wuhan pneumonia SARS-CoV-2 Corona virus 2019 Coronavirus pandemic
Dengue fever dengue virus dengue DEN-1 NS1 rapid test
ZIKA ZIKV Zika virus Zika virus infection Microcephaly
novel influenza avian flu Novel Influenza A Virus Infections Pandemic influenza H5N1
由擴充列表的範例(即,表(1))可以得知,擴充列表包括字組、同義字組。使用者可自行設定與擴充這擴充列表中的字組以及同義字組,舉例來說,使用者可新增關於書名的擴充列表、法律用語的擴充列表或其他專有名詞的擴充列表。並且,於步驟S230中,處理器110透過擴充列表所包括的字組以及同義字組以提高其判斷的精準度。舉例來說,當文章(即,待標記文章)中的dengue是以「DEN-1」、「Dengue fever」,或以其他方式描述dengue之時,或是文章中的West Nile Fever是以「West Nile virus」、「WNV」等其他方式描述West Nile Fever之時,處理器110皆能夠根據擴充列表中的字組及對應的同義字組以判斷分詞結果中是否包括擴充列表中任一字組或任一同義字組,以具有高精準度的效益。擴充列表中的同義字詞也可用於統一疾病名稱(或實體類別)使用,例如文章中dengue fever可被標示為DIS實體類別或是Dengue名稱,本發明不在此限。
換句話說,在步驟S230中,處理器110可判斷擴充列表中的字組與分詞結果(即,經分詞處理後的文章)中任一字組是否匹配。若擴充列表中的字組與分詞文章中的字組匹配,則進入步驟S240。若擴充列表中的字組與分詞結果中的字組不匹配,則進入步驟S260。舉例來說,若分詞結果中包括「(dengue, fever)」字組,則處理器110可依據擴充列表(如表(1))中字組的分詞結果包括「(dengue, fever)」分詞字組,而判斷分詞結果與擴充文章的字組匹配。若分詞結果中不包含擴充列表中的任一字組的分詞,處理器110則判斷分詞結果與擴充列表的字組不匹配。
在一實施例中,當分詞結果(即,經分詞處理的文章)包括有擴充列表中的任一個字組/任一字組的分詞結果,處理器110依據擴充列表以及分詞結果對第一識別結果進行擴充實體類別轉換以產生一第二識別結果(步驟S240)。在擴充實體類別轉換中,處理器110根據分詞結果中的文字(即,單詞或字組)與擴充列表的字組/字組的分詞結果相匹配(即,相同),而將第一識別結果中對應的實體類別轉換成擴充列表中的對應的實體類別。舉例來說,分詞結果為「John,believes,that,only,around,2,%,of,the,country,’,s,126,million,population,has,been,fully,vaccinated,against,Covid,-,19,.」,且第一識別結果為「B-PER,O,O,O,O,O,O,O,O,O,O,O,O,O,O,O,O,O,O,O,O,O,O,O」,而擴充列表(如表(1))中字組的分詞結果包括「Covid,-,19」。處理器110根據分詞結果中的「Covid,-,19」把第一識別結果中對應於「Covid,-,19」的原實體類別「O,O,O」的轉換為「B-DIS,I-DIS,I-DIS」,以獲得第二識別結果。在這實施例中,第二識別結果為「B-PER,O,O,O,O,O,O,O,O,O,O,O,O,O,O,O,O,O,O,O, B-DIS,I-DIS,I-DIS,O」。需補充說明的是,經過分詞處理之後的文章,這文章之中的標點符號也會被逐一斷開。
在一實施例中,處理器110獲得第二識別結果之後,處理器110將第二識別結果以及分詞結果作為標記資料,且輸出標記資料(步驟S250)。
在一實施例中,當分詞結果中不包括擴充列表中的任一字組/任一字組的分詞結果,處理器110將分詞結果以及第一識別結果作為標記資料,且處理器110輸出標記資料(步驟S260)。在本發明之中,處理器110將標記資料作為訓練資料以及驗證資料,進而用以訓練命名實體識別模型。在另一實施例中,處理器110將標記資料根據不同命名實體識別模型所對應的標記資料格式及檔案類型寫成對應的檔案類型(例如,csv、xml、json或txt)。如此一來,透過本發明的產生裝置以及產生方法,可以正確無誤地進行大量資料的自動標記,進而自動地產生可用於訓練模型的標記資料、節省人力成本以及提升模型的效能。值得說明的是,透過本發明的文章標記資料的產生裝置1與產生方法也可應用於其他需要重新標記文件的情況,本案不應僅以用於訓練模型為限。
在另一實施例中,在步驟S230中,處理器110更依據擴充列表中的每一字組的分詞結果以及對應字組的分詞結果的多個窗口長度,對分詞結果進行搜尋處理以提高識別文字時的準確度以及降低錯誤發生率,來判斷分詞結果是否包括任一字組。具體而言,運算模組122可判斷分詞結果中的字組是否為擴充列表中多個字組的分詞結果的其中之一,並且判斷過程中包括比對擴充列表中字組的分詞結果的窗(window)尺寸(即,窗口長度)。每一字組的分詞結果皆具有對應的窗尺寸,舉例來說,字組「Covid-19」的分詞結果為(Covid,-,19),窗尺寸為3(即,搜尋長度為3);字組「Dengue」的分詞結果為(Dengue),窗尺寸為1(即,搜尋長度為1) ;字組「SARS-CoV2」的分詞結果為(SARS,-,CoV2),窗尺寸為3(即,搜尋長度為3)。以字組「Covid-19」為例,處理器110在步驟S230中以搜尋長度為3且字組的分詞結果為(Covid,-,19)對文章的分詞結果進行逐字的搜尋處理。
圖4根據本發明的另一實施例繪示一種文章標記資料的產生方法的流程圖。如圖4所示,步驟S240中更包括:依據擴充列表與第一識別結果,處理器110將分詞結果與擴充列表中字組的分詞結果進行比對以獲得至少一字組於分詞結果中對應的多個位置(index)(步驟S241);以及依據上述位置及擴充列表的預設實體類別,處理器110將第一識別結果中的對應於這些位置的實體類別轉換為擴充列表的預設實體類別,以產生第二識別結果(步驟S242)。舉例來說,分詞結果為「John,believes,that,only,around,2,%,of,the,country,’,s,126,million,population,has,been,fully,vaccinated,against,Covid,-,19,.」,第一識別結果為「B-PER,O,O,O,O,O,O,O,O,O,O,O,O,O,O,O,O,O,O,O,O,O,O,O」,且擴充列表如表(1)所示,經過比對處理,處理器110獲得擴充列表中的字組「Covid-19」對應於分詞結果中第21個、第22個以及第23個的字組。接著,處理器110將第一識別結果中第21個、第22個以及第23個的實體類別「O,O,O」轉換為「B-DIS, I-DIS, I-DIS」的實體類別。據此,第二識別結果為「B-PER,O,O,O,O,O,O,O,O,O,O,O,O,O,O,O,O,O,O,O, B-DIS,I-DIS,I-DIS,O」。據此,本發明將對應字組的第一個字的實體類別標記為「B-實體類別名稱」,且將對應字組的其餘字標記為「I-實體類別名稱」,實體類別名稱為DIS,但本發明不在此限。 在另一實施例中,若對應字組為單詞,舉例來說「dengue」,第一識別結果為「O」,第二識別結果為「B-DIS」。換句話說,I-實體類別名稱只會出現在複數對應字詞中。當文章中包含多個疾病名時,透過本發明的文章標記資料的產生方法,進而將文章中所有疾病名的實體類別進行修正。換句話說,本發明會對待標記文章掃過一遍擴充列表中的字組及其同義詞,如果待標記文章有多個疾病(即,與擴充列表的字組相對應),例如疾病A、疾病B、疾病C,且疾病A、疾病B、疾病C可為相同疾病名或互為同義詞或為不同疾病名,本發明的產生裝置1及產生方法會依序記住疾病A、疾病B、疾病C於待標記文章及對應的分詞結果中的位置。據此,本發明會將識別結果中對應於疾病A、疾病B、疾病C位置的實體類別轉換為擴充列表中的實體類別(例如,DIS)。舉例來說,待標記文章為「Brazil study: People who have had dengue in the past are twice as likely to develop symptoms of COVID-19 if infected.」,則這待標記文章的分詞結果為「Brazil,study,:,People,who,have,had,dengue,in,the,past,are,twice,as,likely,to,develop,symptoms,of,COVID,-,19,if,infected,.」。並且,這分詞結果的第一識別結果為「B-LOC,O,O,O,O,O,O,O,O,O,O,O,O,O,O,O,O,O,O,O,O,O,O,O,O」,而第二識別結果為 「B-LOC,O,O,O,O,O,O,B-DIS,O,O,O,O,O,O,O,O,O,O,O,B-DIS,I-DIS,I-DIS,O,O,O」。如此一來,本發明的產生裝置1標記的文章,可以確保對應的每一字組都有被標記,而不會發生產生修正了疾病名A的命名實體類別卻漏掉修正疾病名B的命名實體類別的情況,進而提高文章標記的準確度。換句話說,透過本發明於步驟S241中,處理器110紀錄文章中與擴充列表的字組相對應的文字,以及紀錄這些文字於分詞結果中的位置(index)。再者,處理器110根據這些位置將第一識別結果中的實體類別轉換為擴充列表中對應的實體類別,進而提高轉換實體類別時的正確率。
在本發明中,透過將複數個的字組中的第一個字組的實體類別標記為B-DIS或B-BOOK,且將其餘的字組的實體類別標記為I-DIS或I-BOOK,以增加實體類別之間的明確度,進而提升後續使用(例如,將識別結果作為訓練資料及驗證資料用於訓練模型)的便利性。值得說明的是,擴充列表的預設實體類別可以是「車子品牌」、「疾病名稱」等實體類別,及包括對應的複數字組。
在一實施例中,於步驟S210之中,處理器110將文章將執行分詞處理以及形式轉換以產生分詞結果。形式轉換為將文章中的每一個為大寫形式的文字轉換為對應的小寫形式的文字。易於理解的,處理器也可透過形式轉換將文章中的每一個文字轉換為大寫形式的文字,本案不應以此為限。處理器110透過將文章中的文字形式轉換為同一形式(統一為大寫或小寫)以提高處理器110在識別文字時的準確度與正確率。具體來說,在本實施例中,處理器110將文章執行分詞處理以產生未經形式轉換的分詞結果,且處理器110將文章執行分詞處理以及形式轉換以產生分詞結果。接著,於步驟S220、步驟S230與步驟S240中,處理器110所使用的分詞結果皆是經形式轉換與分詞處理的。值得說明的是,於步驟S250與步驟S260中,作為標記資料的分詞結果為未經形式轉換的。也就是說,作為標記資料的分詞結果中的文字形式與未經處理的文章中的文字形式(例如,大寫形式、小寫形式)一致,進而提高本發明輸出資料(即,標記資料)的相容性。
圖4根據本發明的另一實施例繪示一種文章標記資料的產生方法的流程圖。在一實施例中,處理器110取得多篇文章(步驟S410)。在本發明中,處理器110可透過爬蟲模組131以利用爬蟲技術取得多篇文章(article)。舉例來說,爬蟲模組131可通過收發器120存取新聞網站,並且利用爬蟲技術從新聞網站中取得多篇新聞文章。在一實施例中,爬蟲模組121可根據預設週期以及設定值重複地執行步驟S410。
在一實施例中,在取得多篇文章後,處理器110從多篇文章中每次提取一篇文章(步驟S420)。另一方面,在步驟S260以及步驟S250之後,處理器110判斷這文章是否為多篇文章中的最後一篇文章(步驟S430)。若文章為最後一篇文章則結束流程,若文章不是最後一篇文章則回到步驟S420。
綜上所述,本發明可突破現有的命名實體識別模型的限制而自動地擴充與產生訓練資料,且訓練資料可用於訓練命名實體模型。如此一來,本發明的產生裝置所產生的文章標記資料可以用於擴充命名實體識別模型的識別範圍。其中,在轉換實體類別的過程中,透過記錄對應的字組於分詞結果的位置,用以逐一轉換對應字組的實體類別,進而提高轉換實體類別的正確率。另一方面,透過將待標記文章及擴充列表中的文字轉換為同一形式(統一為大寫或小寫)以提高識別文字時的準確度以及降低錯誤發生率。
1:文章標記裝置 110:處理器 120:收發器 130:儲存媒體 131:爬蟲模組 132:分詞處理模型 133:命名實體識別模型 134:訓練模組 S210、S220、S230、S240、S241、S242、S250、S260、S410、S420、S430:步驟
圖1根據本發明的一實施例繪示一種文章標記資料的產生裝置的示意圖。 圖2根據本發明的一實施例繪示儲存媒體的示意圖。 圖3根據本發明的一實施例繪示一種文章標記資料的產生方法的流程圖。 圖4根據本發明的另一實施例繪示一種文章標記資料的產生方法的流程圖。
S210、S220、S230、S240、S250、S260:步驟

Claims (10)

  1. 一種文章標記資料的產生裝置,包括:一收發器;以及一處理器,耦接該收發器,用以:將一文章執行分詞處理以產生一分詞結果;依據命名實體識別模型對該分詞結果進行命名實體識別處理以產生一第一識別結果;依據一擴充列表判斷該分詞結果是否具有該擴充列表中的多個字組的任一個字組;當該分詞結果包括有該擴充列表中的任一個該些字組,依據該擴充列表以及該分詞結果對該第一識別結果進行擴充實體類別轉換以產生一第二識別結果;以及將該第二識別結果以及該分詞結果作為一標記資料,且輸出該標記資料;其中將該文章執行分詞處理以產生該分詞結果的步驟中,該處理器更用以:將該文章執行分詞處理以及形式轉換以產生該分詞結果,其中形式轉換為將該文章中的每一個為大寫形式的文字轉換為對應的小寫形式的文字;其中,作為該標記資料的該分詞結果為未經形式轉換。
  2. 如請求項1所述的文章標記資料的產生裝置,其中當該分詞結果不包括該擴充列表中的任一個該些字組,該處理器以該分詞結果以及該第一識別結果作為該標記資料,且該處理器輸出該標記資料。
  3. 如請求項1所述的文章標記資料的產生裝置,其中該分詞處理是透過一分詞處理模型所執行,且該分詞處理模型與該命名實體識別模型分別是基於一深度學習所訓練的,且該深度學習包括基於Transformer架構的自然語言處理演算法。
  4. 如請求項1所述的文章標記資料的產生裝置,其中該依據該擴充列表對該分詞結果判斷是否包括有該擴充列表中的任一該些字組的步驟之中,該處理器更用以:依據該擴充列表中的每一該些字組以及對應該些字組的多個窗口長度,對該分詞結果進行搜尋處理以判斷該分詞結果是否包括任一該些字組。
  5. 如請求項1所述的文章標記資料的產生裝置,其中對該第一識別結果進行擴充實體類別轉換以產生該第二識別結果的步驟之中,該處理器更用以:依據該擴充列表與該第一識別結果將該分詞結果與該擴充列表進行比對以獲得該些字組於該分詞結果中對應的多個位置;依據該些位置以及該擴充列表將該第一識別結果中的對應於該些位置的實體類別轉換為該擴充列表的擴充實體類別,以產生該第二識別結果。
  6. 如請求項1所述的文章標記資料的產生裝置,其中該命名實體模型是基於一深度學習,該深度學習包括基於Transformer架構的自然語言處理演算法以及一預設字組列表所訓練。
  7. 如請求項6所述的文章標記資料的產生裝置,其中該處理器更用以:依據該標記資料訓練該命名實體模型,以產生一擴充命名實體模型。
  8. 如請求項1所述的文章標記資料的產生裝置,其中該擴充列表中的該些字組為經分詞處理且/或經格式統一處理的字組,其中該格式統一處理為將每一字組中的文字統一轉換為大寫形式的文字或小寫形式的文字。
  9. 一種文章標記資料的產生方法,包括:一處理器將一文章執行分詞處理以產生一分詞結果;該處理器依據命名實體識別模型對該分詞結果進行命名實體識別處理以產生一第一識別結果;該處理器依據一擴充列表判斷該分詞結果是否包括有該擴充列表中的多個字組的任一個字組;當該分詞結果包括有該擴充列表中的任一個該些字組,該處理器依據該擴充列表以及該分詞結果對該第一識別結果進行擴充實體類別轉換以產生一第二識別結果;以及該處理器將該第二識別結果以及該分詞結果作為一標記資料, 且輸出該標記資料;其中將該文章執行分詞處理以產生該分詞結果的步驟中,更包括:該處理器將該文章執行分詞處理以及形式轉換以產生該分詞結果,其中形式轉換為將該文章中的每一個為大寫形式的文字轉換為對應的小寫形式的文字,其中作為該標記資料的該分詞結果為未經形式轉換。
  10. 如請求項9所述的文章標記資料的產生方法,包括:該處理器依據該擴充列表將該分詞結果與該擴充列表進行比對以獲得該些字組於該分詞結果中對應的多個位置;該處理器依據該些位置以及該擴充列表將該第一識別結果中的對應於該些位置的實體類別轉換為該擴充列表對應的擴充實體類別,以產生該第二識別結果。
TW110142549A 2021-11-16 2021-11-16 文章標記資料的產生裝置及其產生方法 TWI800982B (zh)

Priority Applications (2)

Application Number Priority Date Filing Date Title
TW110142549A TWI800982B (zh) 2021-11-16 2021-11-16 文章標記資料的產生裝置及其產生方法
US17/568,687 US11954441B2 (en) 2021-11-16 2022-01-04 Device and method for generating article markup information

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
TW110142549A TWI800982B (zh) 2021-11-16 2021-11-16 文章標記資料的產生裝置及其產生方法

Publications (2)

Publication Number Publication Date
TWI800982B true TWI800982B (zh) 2023-05-01
TW202321944A TW202321944A (zh) 2023-06-01

Family

ID=86323517

Family Applications (1)

Application Number Title Priority Date Filing Date
TW110142549A TWI800982B (zh) 2021-11-16 2021-11-16 文章標記資料的產生裝置及其產生方法

Country Status (2)

Country Link
US (1) US11954441B2 (zh)
TW (1) TWI800982B (zh)

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
TW201117024A (en) * 2009-11-13 2011-05-16 Yu-Chieh Wu A unified machine learning-based Chinese word segmentation and part-of-speech tagging algorithm
TW201931170A (zh) * 2018-01-08 2019-08-01 香港商阿里巴巴集團服務有限公司 內容推薦方法及裝置
CN110688491A (zh) * 2019-09-25 2020-01-14 暨南大学 基于深度学习的机器阅读理解方法、系统、设备及介质
CN111159416A (zh) * 2020-04-02 2020-05-15 腾讯科技(深圳)有限公司 语言任务模型训练方法、装置、电子设备及存储介质
TW202129533A (zh) * 2020-01-21 2021-08-01 卓騰語言科技股份有限公司 中文斷詞方法及系統

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9582493B2 (en) 2014-11-10 2017-02-28 Oracle International Corporation Lemma mapping to universal ontologies in computer natural language processing
US10229674B2 (en) * 2015-05-15 2019-03-12 Microsoft Technology Licensing, Llc Cross-language speech recognition and translation
CN105095444A (zh) 2015-07-24 2015-11-25 百度在线网络技术(北京)有限公司 信息获取方法和装置

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
TW201117024A (en) * 2009-11-13 2011-05-16 Yu-Chieh Wu A unified machine learning-based Chinese word segmentation and part-of-speech tagging algorithm
TW201931170A (zh) * 2018-01-08 2019-08-01 香港商阿里巴巴集團服務有限公司 內容推薦方法及裝置
CN110688491A (zh) * 2019-09-25 2020-01-14 暨南大学 基于深度学习的机器阅读理解方法、系统、设备及介质
TW202129533A (zh) * 2020-01-21 2021-08-01 卓騰語言科技股份有限公司 中文斷詞方法及系統
CN111159416A (zh) * 2020-04-02 2020-05-15 腾讯科技(深圳)有限公司 语言任务模型训练方法、装置、电子设备及存储介质

Also Published As

Publication number Publication date
US11954441B2 (en) 2024-04-09
US20230153535A1 (en) 2023-05-18
TW202321944A (zh) 2023-06-01

Similar Documents

Publication Publication Date Title
CN112464662B (zh) 医学短语匹配方法、装置、设备及存储介质
CN107729392B (zh) 文本结构化方法、装置、系统和非易失性存储介质
CN112084746A (zh) 一种实体识别方法、系统、存储介质及设备
CN110688855A (zh) 基于机器学习的中文医疗实体识别方法及系统
CN114912456B (zh) 一种医学实体关系的识别方法、装置及存储介质
CN112084381A (zh) 一种事件抽取方法、系统、存储介质以及设备
CN106897559B (zh) 一种面向多数据源的症状体征类实体识别方法及装置
CN108959566B (zh) 一种基于Stacking集成学习的医疗文本去隐私方法和系统
US8239349B2 (en) Extracting data
CN110019749A (zh) 生成vqa训练数据的方法、装置、设备和计算机可读介质
CN111488468A (zh) 地理信息知识点抽取方法、装置、存储介质及计算机设备
WO2025044865A1 (zh) 跨领域问题处理方法、装置、电子设备及存储介质
CN111666350A (zh) 一种基于bert模型的医疗文本关系抽取的方法
CN114385784B (zh) 命名实体识别方法、装置、介质及电子设备
CN114722204A (zh) 多标签文本分类方法及装置
CN106951437B (zh) 适于多个中文敏感词句的识别处理方法及装置
CN110188359A (zh) 一种文本实体抽取方法
CN103999079A (zh) 对准文档的字段的注解
TWI800982B (zh) 文章標記資料的產生裝置及其產生方法
CN113221576B (zh) 一种基于序列到序列架构的命名实体识别方法
CN109993190B (zh) 一种本体匹配方法、装置和计算机存储介质
KR101663038B1 (ko) 개체의 표면형 문자열 용례학습기반에 의한 텍스트에서의 개체 범위 인식 장치 및 그 방법
CN114582449A (zh) 基于XLNet-BiGRU-CRF模型的电子病历命名实体标准化方法和系统
CN112380854A (zh) 一种中文分词方法、装置、电子设备及存储介质
CN107844474A (zh) 基于层叠条件随机场的疾病数据命名实体识别方法及系统