TWI736250B

TWI736250B - 資料標註系統及資料標註方法

Info

Publication number: TWI736250B
Application number: TW109115083A
Authority: TW
Inventors: 邵志杰; 劉正邦
Original assignee: 台達電子工業股份有限公司
Priority date: 2020-05-06
Filing date: 2020-05-06
Publication date: 2021-08-11
Also published as: TW202143092A

Abstract

一種資料標註方法，包含下列步驟：建立標註規範，根據標註規範產生至少一個問題；透過終端裝置，根據問題在文字檔中標註至少一個答案；根據標註格式，將問題及答案轉換為標註資料；判斷標註資料中的問題的數量是否大於或等於門檻值；若問題的數量大於或等於門檻值，根據標註資料產生閱讀理解資料集。

Description

資料標註系統及資料標註方法

本揭示內容關於一種資料標註系統，其能對文字檔進行標註，並根據標註後的結果調整資料分析模型。

在機器學習與深度學習領域中，電腦利用資料分析模型對檔案進行分析與解讀。由於資料分析模型的建立需要大量的訓練資料來進行訓練，而訓練資料的品質好壞對於模型的準確率至關重要。因此，在不耗費大量成本之情境下，要如何有效率且有系統地整合訓練資料，將是一個值得探究的重要課題。

本揭示內容的一實施例為一種資料標註方法，包括下列步驟：建立標註規範，根據標註規範產生至少一個問題。透過終端裝置，根據問題在文字檔中標註至少一個答案。根據標註格式，將些問題及答案轉換為標註資料。判斷標註資料中的問題的數量是否大於或等於門檻值。若問題的數量大於或等於門檻值，根據標註資料產生閱讀理解資料集。

本揭示內容的一實施例為一種資料標註方法，包括下列步驟：透過終端裝置，根據標註規範在原始資料中標註至少一組分析資料，其中每一組分析資料包含至少一個問題及至少一個答案。根據標註格式，將該些分析資料轉換為標註資料。透過伺服器，判斷標註資料中的該至少一組分析資料的數量是否大於或等於門檻值。將標註資料作為資料分析模型的訓練資料，以對資料分析模型進行訓練。

本揭示內容的一實施例為一種資料標註系統，包含伺服器及終端裝置。伺服器儲存原始資料及標註規範。終端裝置連線於伺服器，以接收原始資料及標註規範。終端裝置用以根據標註規範及原始資料產生至少一個問題，且於原始資料中標註至少一個答案。終端裝置還用以將問題及該答案轉換為標註資料。在標註資料中的問題的數量大於或等於門檻值時，伺服器根據標註資料產生閱讀理解資料集。

據此，透過標註規範，即可確保終端裝置產生的分析資料、問題及答案的標註方式具有統一的水準，使得伺服器產生的閱讀理解資料集能有效地對資料分析模型進行訓練。

以下將以圖式揭露本發明之複數個實施方式，為明確說明起見，許多實務上的細節將在以下敘述中一併說明。然而，應瞭解到，這些實務上的細節不應用以限制本發明。也就是說，在本發明部分實施方式中，這些實務上的細節是非必要的。此外，為簡化圖式起見，一些習知慣用的結構與元件在圖式中將以簡單示意的方式繪示之。

於本文中，當一元件被稱為「連接」或「耦接」時，可指「電性連接」或「電性耦接」。「連接」或「耦接」亦可用以表示二或多個元件間相互搭配操作或互動。此外，雖然本文中使用「第一」、「第二」、…等用語描述不同元件，該用語僅是用以區別以相同技術用語描述的元件或操作。除非上下文清楚指明，否則該用語並非特別指稱或暗示次序或順位，亦非用以限定本發明。

請參閱第1圖所示，係本揭示內容之部份實施例的資料標註系統100的示意圖。資料標註系統100包含伺服器110及至少一個終端裝置120。伺服器110儲存有原始資料D1及標註規範112a。在部份實施例中，伺服器110包含處理器111及儲存單元112。處理器111用以執行資料運算。處理器160可為中央處理器(central processing unit, CPU)、系統單晶片(System on Chip, SoC)、應用處理器或特定功能的處理晶片或控制器。此外，處理器111可透過資料分析模型111a，對檔案進行分析判讀。

儲存單元112用以儲存原始資料D1、測試資料D2、標註規範112a及門檻值112b。在部份實施例中，儲存單元112可以被實作為唯讀記憶體、快閃記憶體、軟碟、硬碟、隨身碟、可由網路存取之資料庫或熟悉此技藝者可輕易思及具有相同功能之儲存媒體或裝置。原始資料D1包含文字檔，例如一篇文章或一個網頁的文字內容。在其他實施例中，原始資料D1還可包含圖檔、音訊檔或影片檔。

終端裝置120係連線至伺服器110，以接收原始資料D1及標註規範112a。每個終端裝置120根據標註規範112a及原始資料D1產生至少一組分析資料。每組分析資料包含問題及對應的答案。意即，終端裝置120用以產生至少一個問題及至少一個答案，且每個問題將對應到至少一個答案。

標註規範112a包含多個分析原始資料D1的規則，使終端裝置產生的分析資料能具有一致的水準。在部份實施例中，標註規範112a包含問題擷取規則、答案擷取規則、答案標註規則、字元整理規則、格式編排規則。標註規範112a能以程式指令之形式建立，使終端裝置120能據以對原始資料D1進行分析。在其他部份實施例中，標註規範112a亦可包含口語化的描述文字，使終端裝置的使用者能進行人工檢查。

在此舉例說明標註規範112a的內容，「問題擷取規則」可包含「問題需明確」、「不可單純地將文句轉換為問句」等。此外，在部份實施例中，終端裝置120將針對分析資料中的任一個問題（或所有問題），擷取文字檔中的對應內容。舉例而言，對於一段「運動控制器」相關的文字檔，終端裝置120擷取出的問題為「客戶在改造臥式包裝機時，於哪些功能上存在無法解決的技術問題？」，且對應的答案為「旋切、嚙合及物料長度偏移補償功能」。此時，終端裝置120會同時在文字檔中標註出「客戶欲利用運動控制器來改造臥式包裝機，自行完成伺服軸的原點復歸、吋動、定點運動功能，但再進階運用旋切、嚙合及物料長度偏移補償功能時有技術上的問題無法解決…」的文字段落。在一實施例中，因為該段文字段落是用以說明該問題的最相關內容，所以答案亦會出現於該段文字段落中。

此外，在部份實施例中，「答案擷取規則」可包含「答案簡潔且明確」、「必須出現於標註出的文字段落中」。此外，由於答案可能於文字檔中多次出現，因此，「答案標註規則」可包含答案於文字檔或文字段落中的出現位置。意即，終端裝置120將標註出答案位於原始資料D1中的出現位置。「出現位置」可為答案在文字段落中的排列順序，亦可為答案在文字檔中出現的順序（如：「物料長度偏移補償功能」一詞第三次出現）。終端裝置120用以計算答案出現於文字檔中的次數，再標註出答案對應於文字段落的次序（如：第三次出現的位置，對應於答案）。

在前述實施例中，終端裝置120係標記出原始資料D1中對應於問題的文字段落，且在文字檔中標註出答案的出現位置。在其他部份實施例中，若原始資料D1並非文字檔，則終端裝置120可標註與問題相對應的音訊段落或者圖片座標。同理，終端裝置120亦可標註答案出現的影片播放時刻。

「字元整理規則」可包含「將所有數字以阿拉伯數字呈現」，使終端裝置120產生的內文格式統一。同樣地，「格式編排規則」可包含：「擷取的文字段落、問題、答案中間以分行符號隔開」。前述說明僅為標註規範112a的舉例說明，本揭示內容並不以此為限。此外，前述實施例係以口語化描述呈現，在其他實施例中，可轉換為程式語言或其他終端裝置120可辨識的指令集。

在產生多組分析資料後，終端裝置120可根據預先儲存的標註格式（或由伺服器110提供），將多組分析資料中的問題及答案轉換為標註資料。接著，終端裝置120會將標註資料傳送給伺服器110。在伺服器110判斷接收到的標註資料中的問題數量大於門檻值112b（如：500筆或2000筆）時，伺服器110根據標註資料產生閱讀理解資料集。閱讀理解資料集為根據資料分析模型111a之檔案格式，整合標註資料中所有問題與對應之答案的資料集合。標註資料或閱讀理解資料集係可作為資料分析模型111a的訓練資料，使伺服器110得以對資料分析模型111a進行調整與訓練。

在一實施例中，前述「標註格式」係指檔案的格式，亦為跨裝置、跨程式語言之間得以溝通的通用標準，例如：JSON格式、HTML格式等。透過標註格式，伺服器110與終端裝置120之間即可透過相同的解析程式或解析模組（如：網頁、APP、分析程式等）傳輸及分析資料，避免讀取上的錯誤。

據此，由於資料標註系統100先根據標註規範112a對原始資料D1進行整理，以產生問題及答案組成的分析資料D3，因此，不同終端裝置120之間產生的分析資料D3將能根據標註規範112a而維持相同的分析水準，使得伺服器110能有效率且省時地產生閱讀理解資料集，以對資料分析模型111a進行機器學習與深度學習，提昇其分析的準確性。

在部份實施例中，資料分析模型111a係用以執行機器閱讀與分析處理。意即，伺服器110接收到文字檔後（如：使用者上傳一份論文），可透過資料分析模型111a對該文字檔進行運算。接著，當伺服器110收到一個針對文字檔的問題時（如：使用者提出一個該論文內的疑問），伺服器110可再透過資料分析模型111a，對該問題進行解析，並從文字檔中取得對應的答案。

資料分析模型111a需要大量的訓練資料，進行機器學習或深度學習，以建立其運算資料庫。一種訓練方法是以人工來對原始資料D1進行標註。然而，人工標註的方式產生的分析資料（即，問題與答案），常會有水準落差太大、格式不統一等問題，導致無法有效地訓練資料分析模型111a。如果聘用專業人士進行標註，則又存在成本過高的問題。本揭示內容係透過建立標註規範112a，使得終端裝置110能據以產生分析資料，進而確保了分析資料中問題、答案的水準。同樣地，在本揭示內容的其他部份實施例中，可根據類似概念，由終端裝置120的使用者檢閱原始檔，再透過終端裝置120標註出問題、答案及對應的文字段落，以產生分析資料。

請參閱第2A及2B圖所示，係原始資料D1中文字檔的示意圖，以及分析資料D3的示意圖。舉例而言，原始資料D1係一篇關於「小行星衛星」的短文。終端裝置120接收到原始資料D1後，將根據標註規範112a，產生多個問題（如：「小行星衛星的定義？」）。接著，針對問題，在原始資料D1中標註出對應的答案（如：「環繞另一顆小行星運行的小行星」）。在部份實施例中，終端裝置120標註出的問題與答案可能不是口語化的描述，但這並不影響資料標註系統100產生標註資料。資料標註系統100係根據標註資料（或由標註資料整合而成的閱讀理解資料集）訓練資料分析模型111a。因此，只要伺服器110之處理器111能辨識出分析資料D3中的問題與答案，即可對資料分析模型111a訓練。

在一實施例中，終端裝置120係根據文意解析模組，在原始資料D1中標註分析資料D3。文意解析模組設定有文意解析參數，用以分析原始資料D1內的文字內容。舉例而言，當終端裝置120接收到原始資料D1後，終端裝置120將根據文意解析參數，對原始資料D1中的文字檔進行分析，以擷取出複數個關鍵句。接著，終端裝置120根據標註規範112a對些關鍵句進行分析，以取得多組分析資料D3。由於本領域人士理解文意解析模組的組成及運作方式，故在此即不另贅述。

承上，在終端裝置120將分析資料D3轉換為標註資料，且將標註資料傳送給伺服器110後，伺服器110將先判斷標註資料是否符合標註規範112a（因為終端裝置120的標註結果仍可能存在不符合標註規範112a的問題或答案）。在標註資料不符合標註規範112a的情況下，伺服器110將調整文意解析參數。終端裝置120將根據標註規範112a及調整後之文意解析參數，更新該些問題（即，再次根據標註規範112a，重新產生新的分析資料D3）。

請參閱第3圖，係本揭示內容之部份實施例的資料標註方法的流程圖。資料標註方法包含步驟S301～S311。在步驟S301中，伺服器110先建立標註規範112a。如前所述，標註規範112a可包含問題擷取規則、答案擷取規則、答案標註規則、字元整理規則、格式編排規則。在部份實施例中，標註規範112a可由專家透過其中之一個終端裝置120編輯產生，並上傳至伺服器110的儲存單元。

在部份實施例中，資料標註方法包含檢測程序P1與標註程序P2。在進行正式的標註程序P2前，為了確保終端裝置120的標註能力符合標準，可先透過檢測程序P1，測試終端裝置120的標註能力。在步驟S302中，伺服器110傳送測試資料D2至終端裝置120。測試資料D2與前述原始檔案相似，可包含文字檔、圖檔、音訊檔或影片檔。終端裝置120對測試資料D2進行標註，以產生複數組測試分析內容。每組測試分析內容包含測試問題及測試答案。

在步驟S303中，在終端裝置120對測試資料D2進行標註後，伺服器110接收終端裝置120回傳的測試分析內容，以分析終端裝置120的標註能力。若標註能力不如預期，則很可能是標註規範112a不夠完整，因此伺服器110還將判斷是否需要調整標註規範112a。在部份實施例中，伺服器110內可儲存有事先以人工標註完成的多組人工分析內容，使伺服器110可比對人工分析內容與測試分析內容的相似性，判斷出終端裝置120的標註能力。在其他實施例中，伺服器110則可根據每一組測試分析內容彼此間的相似性，來判斷終端裝置120的標註能力是否穩定且統一。

在伺服器110分析終端裝置120的標註能力後，若伺服器110判斷須調整標註規範112a，則回到步驟S301，重新調整標註規範112a，例如是調整標註規範112a的參數範圍。若伺服器110判斷無須調整標註規範112a，則在步驟S304中，進一步判斷是否需要調整終端裝置120內的標註參數？因為終端裝置120內用以執行標註功能的參數亦將影響其標註能力。

若伺服器110判斷需要調整終端裝置120內的標註參數，則進入步驟S305，對終端裝置120進行調整。在部份實施例中，終端裝置120係根據文意解析模組中的文意解析參數，對測試資料D2中的文字檔進行分析，以產生測試問題與答案。因此，伺服器110係重新調整文意解析參數（如：重新更新資料庫、重新對文意解析模組進行深度學習）。

若伺服器110判斷無需調整終端裝置120內的標註參數，則代表通過「測試程序P1」，而可執行正式的「標註程序P2」。在步驟S306中，終端裝置120接收伺服器110傳來的原始資料D1，並在原始資料D1（如：文字檔、圖檔、音檔或影片）中標註至少一組分析資料D3。每一組分析資料D3包含至少一個問題及至少一個答案。如前所述，本揭示內容之資料標註系統100用以根據問題與答案產生標註資料，並依據標註資料（或閱讀理解資料集）作為資料分析模型111a的訓練資料，使伺服器110得以對資料分析模型111a進行調整與訓練。標註資料可分別由多個終端裝置120產生，再統一由伺服器110對資料分析模型111a進行機器學習與深度學習。因此，在步驟S306中，每個終端裝置120係用以標註至少一組分析資料D3，而伺服器110則可由多個終端裝置120接收到多組分析資料D3。

在其他實施例中，終端裝置120可針對一個問題標註出多個對應的候選答案，例如：列出三個答案，並分別列出分析後的預測正確率（如：答案A之正確機率80％、答案B正確機率60％…等）。

在部份實施例中，終端裝置120係先根據標註規範112a產生複數個問題。接著，再由原始內容中標註出對應的答案，以取得多組分析資料D3。

在步驟S307中，終端裝置120將根據標註格式，將分析資料D3中的所有問題及對應之答案轉換為標註資料，並將標註資料上傳至伺服器110。

在部份實施例中，「原始資料D1」係包含有多個待分析的文字檔（或圖檔、音檔），且終端裝置120能根據每個文字檔（或圖檔、音檔），產生多組分析資料D3。舉例而言，伺服器110傳送5000個檔案（即「原始資料D1」，可包含有文字檔、圖檔、音檔）給終端裝置120。終端裝置120則會對每一個檔案分別產生至少一個問題與答案。

在步驟S308中，伺服器110先判斷標註資料是否符合標註格式？雖然終端裝置120係根據標註格式，將分析資料D3轉換為標註資料，但在實際運作上，終端裝置120仍可能在轉換時產生誤差，這誤差可能是因為步驟S306產出之分析資料D3品質不佳所致。因此，伺服器110接收到標註資料後，將會再進行格式之檢查。若伺服器110判斷標註資料不符合標註格式，則進入到步驟S309，調整終端裝置120內的標註參數(如：文意解析參數)，再回到步驟S306，終端裝置120基於調整後的標註參數重新產生分析資料D3，轉換成標註資料後再上傳至伺服器110重新進行步驟S308檢查。

若伺服器110判斷標註資料符合標註格式，則在步驟S310中，伺服器110進一步判斷標註資料中的該些問題的數量是否大於門檻值112b。在部份實施例中，伺服器110係判斷所有問題的總數量（如：是否大於5000筆）。在其他實施例中，若原始資料D1包含3000筆文字檔，伺服器110將判斷每一個文字檔的問題是否大於5個。

在步驟S310中，若伺服器110判斷標註資料中問題的數量小於門檻值112b，代表伺服器110判斷終端裝置120尚未完成標註資料流程，回到步驟S306；若伺服器110判斷標註資料中問題的數量大於門檻值112b，則進入步驟S311中，伺服器110根據標註資料產生閱讀理解資料集。伺服器110可將標註資料作為資料分析模型111a的訓練資料，以對資料分析模型111a進行訓練。

前述各實施例中的各項元件、方法步驟或技術特徵，係可相互結合，而不以本揭示內容中的文字描述順序或圖式呈現順序為限。

雖然本揭示內容已以實施方式揭露如上，然其並非用以限定本發明內容，任何熟習此技藝者，在不脫離本揭示內容之精神和範圍內，當可作各種更動與潤飾，因此本揭示內容之保護範圍當視後附之申請專利範圍所界定者為準。

100:資料標註系統 110:伺服器 111:處理器 111a:資料分析模型 112:儲存單元 112a:標註規範 112b:門檻值 120:終端裝置 D1:原始資料 D2:測試資料 D3:分析資料 S301-S311:步驟 P1:測試程序 P2:標註程序

第1圖為根據本揭示內容之部份實施例的資料標註系統的示意圖。第2A及2B圖為根據本揭示內容之部份實施例的原始檔案及分析資料的示意圖。第3圖為根據本揭示內容之部份實施例的資料標註方法的步驟流程圖。

國內寄存資訊(請依寄存機構、日期、號碼順序註記) 無國外寄存資訊(請依寄存國家、機構、日期、號碼順序註記) 無

S301-S311:步驟

P1:測試程序

P2:標註程序

Claims

一種資料標註方法，包括：建立一標註規範，根據該標註規範產生至少一個問題；透過一終端裝置，根據該問題在一文字檔中標註至少一個答案；根據一標註格式，將該問題及該答案轉換為一標註資料；判斷該標註資料中的該至少一問題的數量是否大於或等於一門檻值；以及若該至少一問題的數量大於或等於該門檻值，根據該標註資料產生一閱讀理解資料集；其中該資料標註方法還包含：接收該終端裝置傳送的一測試分析內容；根據該測試分析內容分析該終端裝置的一標註能力；在該終端裝置的該標註能力不符合一預期值的情況下，調整該標註規範。
如請求項1所述之資料標註方法，還包括：透過一伺服器，將該閱讀理解資料集作為一資料分析模型的一訓練資料，以對該資料分析模型進行訓練。
如請求項1所述之資料標註方法，其中每一個該問題係對應於一個該答案，該資料標註方法還包括：透過該終端裝置，根據該問題，取得該文字檔中的一段文字內容。
如請求項3所述之資料標註方法，還包含：在該文字內容中，標註該答案的一出現位置。
如請求項1所述之資料標註方法，其中該終端裝置係根據一文意解析參數標註該至少一問題，該資料標註方法還包含：判斷該標註資料是否符合該標註規範；在該標註資料不符合該標註規範的情況下，調整該文意解析參數；以及根據該標註規範及該文意解析參數，更新該至少一問題。
一種資料標註方法，包括：透過一終端裝置，根據一標註規範在一原始資料中標註至少一組分析資料，其中每一組分析資料包含一個問題及一答案；根據一標註格式，將該些分析資料轉換為一標註資料；透過一伺服器，判斷該標註資料中的該些分析資料的數量是否大於一門檻值；以及將該標註資料作為一資料分析模型的一訓練資料，以對該資料分析模型進行訓練；其中該資料標註方法還包含：接收該終端裝置傳送的一測試分析內容；根據該測試分析內容分析該終端裝置的一標註能力；在該終端裝置的該標註能力不符合一預期值的情況下，調整該標註規範。
如請求項6所述之資料標註方法，其中該原始資料包含一文字檔，該資料標註方法還包括：透過該終端裝置，根據該至少一組分析資料中之該問題，取得該文字檔中的一段文字內容。
如請求項7所述之資料標註方法，還包含：透過該終端裝置，標註該至少一組分析資料中之該答案於該文字內容的一出現位置。
如請求項7所述之資料標註方法，還包含：根據一文意解析參數對該文字檔進行分析，以擷取出複數個關鍵句；以及根據該標註規範對該些關鍵句進行分析，以取得該至少一組分析資料。
如請求項9所述之資料標註方法，還包含：判斷該標註資料內的該至少一組分析資料是否符合該標註規範；在該至少一組分析資料不符合該標註規範的情況下，調整該文意解析參數；以及根據該標註規範及該文意解析參數，更新該至少一組分析資料。
一種資料標註系統，包含：一伺服器，儲存一原始資料及一標註規範；一終端裝置，連線於該伺服器，以接收該原始資料及該標註規範，其中該終端裝置用以根據該標註規範及該原始資料產生至少一個問題，且於該原始資料中標註至少一個答案；以及該終端裝置還用以將該至少一問題及該至少一答案轉換為一標註資料，在該標註資料中的該至少一問題的數量大於或等於一門檻值時，該伺服器根據該標註資料產生一閱讀理解資料集；其中該伺服器還用以接收該終端裝置傳送的一測試分析內容，並根據該測試分析內容分析該終端裝置的一標註能力；在該終端裝置的該標註能力不符合一預期值的情況下，該伺服器調整該標註規範。
如請求項11所述之資料標註系統，其中該終端裝置用以根據一標註格式，將該至少一問題及該至少一答案轉換為該標註資料；以及在該伺服器接收到該標註資料時，該伺服器還用以判斷該標註資料是否符合該標註格式。
如請求項11所述之資料標註系統，其中該伺服器還用以將該閱讀理解資料集作為一資料分析模型的一訓練資料，以對該資料分析模型進行訓練。
如請求項11所述之資料標註系統，其中該原始資料包含一文字檔，該終端裝置還用以根據其中一個該問題，取得該文字檔中的一段文字內容。
如請求項14所述之資料標註系統，其中該終端裝置還用以標註其中一個答案於該文字內容的一出現位置。
如請求項15所述之資料標註系統，其中該伺服器在判斷該標註資料中的該至少一問題不符合該標註規範時，控制該終端裝置調整該終端裝置內的一文意解析參數，且該終端裝置根據該文意解析參數對該文字檔進行分析，以更新該至少一問題及該至少一答案。