TWI701565B - 資料標記系統及資料標記方法 - Google Patents

資料標記系統及資料標記方法 Download PDF

Info

Publication number
TWI701565B
TWI701565B TW107145816A TW107145816A TWI701565B TW I701565 B TWI701565 B TW I701565B TW 107145816 A TW107145816 A TW 107145816A TW 107145816 A TW107145816 A TW 107145816A TW I701565 B TWI701565 B TW I701565B
Authority
TW
Taiwan
Prior art keywords
data
marking
information
database
mark
Prior art date
Application number
TW107145816A
Other languages
English (en)
Other versions
TW202024946A (zh
Inventor
張如瑩
林柏霖
潘桓毅
謝佳恩
黃玟瑜
Original Assignee
財團法人工業技術研究院
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 財團法人工業技術研究院 filed Critical 財團法人工業技術研究院
Priority to TW107145816A priority Critical patent/TWI701565B/zh
Priority to CN201811596379.1A priority patent/CN111339325A/zh
Publication of TW202024946A publication Critical patent/TW202024946A/zh
Application granted granted Critical
Publication of TWI701565B publication Critical patent/TWI701565B/zh

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/40Information retrieval; Database structures therefor; File system structures therefor of multimedia data, e.g. slideshows comprising image and additional audio data
    • G06F16/43Querying
    • G06F16/435Filtering based on additional data, e.g. user or group profiles

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Multimedia (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本揭露提出一種資料標記系統及資料標記方法。此資料標記系統包括一標記資料庫、一未標記資料庫、一標記資料擴增模組,及一操作平台,該操作平台訊號連接該標記資料庫、該未標記資料庫及該標記資料擴增模組,並且包括一標記模式編修介面,且該標記模式編修介面可供輸入資料與執行編修操作以產生至少一確認標記模式,其中該標記資料擴增模組依據該至少一確認標記模式與該未標記資料庫執行運算以產生至少一新增標記資料,並將該至少一新增標記資料儲存至該標記資料庫。

Description

資料標記系統及資料標記方法
本揭露是有關於一種資料處理系統以及一種資料處理方法。
大部分人工智慧的運作,需要經過訓練與學習,通常是利用標記資料作為訓練學習的樣本。隨著市場應用的需求,當人工智慧要解決更複雜的問題時,為了維持相當的精確度,勢必需要更大量的標記資料,而且人工智慧在不同領域的運用時,所需要的標記資料也有所差異,因此人工智慧更廣泛的應用及更佳的表現,需仰賴大量的標記資料作為後盾。
資料標記常見的作法是人工標記,相當耗費人力與時間成本,為了能縮短開發時間或成本而發展了自動標記的技術作為輔助。目前自動標記的運作是採用遞迴的方式,也就是標記系統對文本執行自動標記預測後,人工對整個文本的預測結果進行檢視與校對,再將校對後的預測結果回授給系統以建立預測模組,此作法是由人工對文本的完整預測結果進行校對,在校對的資料為整個文本而資料量偏大的情況下,較容易發生校對不完全,錯誤的標記資料持續累積,將對系統表現造成影響。
本揭露提供一種資料標記系統,以及一種資料標記方法。
在一示範的實施例中,本揭露係有關於一種資料標記系統,包括一標記資料庫、一未標記資料庫、一標記資料擴增模組,及一操作平台,該操作平台訊號連接該標記資料庫、該未標記資料庫及該標記資料擴增模組,並且包括一標記模式編修介面,且該標記模式編修介面可供輸入資料與執行編修操作以產生至少一確認標記模式,其中該標記資料擴增模組依據該至少一確認標記模式與該未標記資料庫執行運算以產生至少一新增標記資料,並將該至少一新增標記資料儲存至該標記資料庫。
在一示範的實施例中,本揭露係有關於一種資料標記方法,適用於一資料標記系統,並包括接收資料或編修操作、依據接收的該資料或編修操作,產生至少一確認標記模式、依據該至少一確認標記模式與一未標記資料庫執行運算以產生至少一新增標記資料,及將該至少一新增標記資料儲存至一標記資料庫。
基於上述,本揭露實施例提出的資料標記系統及資料標記方法,其中該操作平台可接收編修操作以產生確認標記模式,並且該標記資料擴增模組是依據經過編修操作後產生的確認標記模式來執行運算,以產生新增標記資料而擴增該標記資料庫,同時提高標記資料庫中的正確度。
為讓本揭露的上述特徵和優點能更明顯易懂,下文特舉實施例,並配合所附圖式作詳細說明如下。
在本案說明書全文(包括申請專利範圍)中所使用的「訊號連接」一詞可指任何直接或間接的連接手段。舉例而言,若文中描述處理器訊號連接於儲存器,則應該被解釋成該處理器可以直接連接於該儲存器,或者該處理器可以透過其他裝置或某種連接手段而間接地連接至該儲存器。另外,凡可能之處,在圖式及實施方式中使用相同標號的元件/構件/步驟代表相同或類似部分。不同實施例中使用相同標號或使用相同用語的元件/構件/步驟可以相互參照相關說明。
圖1是依據本揭露之一實施例繪示之資料標記系統1。所述資料標記系統1包括一標記資料庫2、一未標記資料庫3、一標記資料擴增模組4,及訊號連接該標記資料庫2、該未標記資料庫3及該標記資料擴增模組4的一操作平台5。其中,該標記資料庫2用以儲存已被標記的資料,而該未標記資料庫3則用以儲存未被標記的資料。
該操作平台5包括一標記模式編修介面51,並且該標記模式編修介面51可供輸入資料與執行編修操作以產生至少一確認標記模式。本實施例的操作平台5可供使用者輸入資料與執行編輯、新增及刪減,此外該操作平台5還可以是經由應用程式介面輸入資料以與執行編輯、新增及刪減。
該標記資料擴增模組4依據該至少一確認標記模式與該未標記資料庫3執行運算以產生至少一新增標記資料,並將該至少一新增標記資料儲存至該標記資料庫2,以擴充該標記資料庫2。
進一步參照圖2,其是依據本揭露之一實施例繪示之資料標記方法之流程圖,並適用於圖1所示之資料標記系統1。本實施例的資料標記方法的步驟說明如下:執行步驟S1,該操作平台5的標記模式編修介面51接收資料或編修操作後,執行步驟S2,該標記模式編修介面51依據接收的資料或編修操作產生至少一確認標記模式。而所述確認標記模式為標記模式(pattern)資料,其定義了執行資料標記的規則。
接著執行步驟S3,該標記資料擴增模組4依據該至少一確認標記模式與該未標記資料庫3執行運算以產生該至少一新增標記資料,並且執行步驟S4,將該至少一新增標記資料儲存至該標記資料庫2。具體而言,在本實施例的步驟S3、S4中,該標記資料擴增模組4是依據該至少一確認標記模式對該未標記資料庫3中的資料執行標記演算法,以標記該未標記資料庫3中的資料,並產生該至少一新增標記資料,進而將產生的新增標記資料儲存至該標記資料庫2以擴增該標記資料庫2。
圖1、2所示之資料標記系統1及資料標記方法,可用以處理語料資料、影像資料或聲音資料。在用以處理語料資料的情況下,該未標記資料庫3為語料資料庫,並且該標記資料庫2是標記語料庫,也就是儲存被標記完成的語料資料。而該確認標記模式則是用以標記語料資料,其可包括詞形資訊、句法資訊及語意資訊等其中至少一。所述標記模式具體上的資料態樣,以3C產品的產品保固相關的標記模式為例,可以是[*Number*‘-Year’,‘ Limited’,‘Warranty’],其中*Number*表示數值類語意類別。
在圖1、2所示之資料標記系統1及資料標記方法用以處理影像資料的情況下,該未標記資料庫3為影像資料庫,並且該標記資料庫2是標記影像資料庫,也就是儲存被標記完成的影像資料。而該確認標記模式則是可用以對影像資料進行標記的規則,其可包括特徵資訊、線條資訊、光源資訊、輪廓資訊、色彩資訊及材質資訊等其中至少一。
在圖1、2所示之資料標記系統1及資料標記方法用以處理聲音資料的情況下,該未標記資料庫3為聲音資料庫,並且該標記資料庫2是標記聲音資料庫,也就是儲存被標記完成的聲音資料。而該確認標記模式則是可用以對聲音資料進行標記的規則,其可包括能量資訊、頻率資訊、節奏資訊及語言資訊等其中至少一。
參照圖3,其是依據本揭露之另一實施例繪示之資料標記系統1。本實施例的資料標記系統1與圖1類似,其同樣包括一標記資料庫2、一未標記資料庫3、一標記資料擴增模組4,及訊號連接該標記資料庫2、該未標記資料庫3及該標記資料擴增模組4的一操作平台5。而本實施例的資料標記系統1進一步還包括訊號連接該標記資料庫2的一自動資料標記模組6。其中,該標記資料庫2用以儲存已被標記的資料,而該未標記資料庫3則用以儲存未被標記的資料。
本實施例的標記資料擴增模組4可存取該未標記資料庫3及該標記資料庫2,並包括可儲存標記模式的一標記模式資料集42及可執行一標記演算法的一擴增單元41。
該操作平台5包括訊號連接該擴增單元41的一標記模式編修介面51,及訊號連接該自動資料標記模組6且可供輸入資料的一資料標記預測介面52。本實施例的操作平台5可供使用者輸入資料與執行編輯、新增及刪減,此外該操作平台5還可以是經由應用程式介面輸入資料以或執行編輯、新增及刪減。
該標記模式編修介面51可供輸入資料與執行編修操作,並且該資料標記預測介面52可供輸入資料及顯示預測結果。本實施例的自動資料標記模組6可經配置以執行資料標記預測。
參照圖3、4,其中圖4是依據本揭露之另一實施例繪示之資料標記方法之流程圖,並適用於圖3所示之資料標記系統1。本實施例的資料標記方法的步驟說明如下:執行步驟S1,該操作平台5的標記模式編修介面51接收資料或編修操作,並執行步驟S21,該標記模式編修介面51接收至少一標記模式。接著執行步驟S22,該標記模式編修介面51將接收的該至少一標記模式設為該至少一確認標記模式。在本實施例中,使用者是在標記模式編修介面51上執行編修,以輸入標記模式,並且該標記模式編修介面51以使用者輸入的標記模式作為確認標記模式。補充說明的是,在其他實施方式中,該標記模式編修介面51也可以是接收經由外部應用程式介面輸入資料或執行編輯、新增及刪減。
在取得該至少一確認標記模式後,執行步驟S23,該標記資料擴增模組4將該至少一確認標記模式儲存至該標記模式資料集42,在本實施例中,該標記資料擴增模組4先依據該標記模式資料集42中的標記模式與該至少一確認標記模式執行檢驗,檢驗確認後將該至少一確認標記模式儲存及更新至該標記模式資料集42,其中該標記資料擴增模組4是檢驗該至少一確認標記模式是否與該標記模式資料集42中的資料重複或衝突,以排除標記模式間發生重複或衝突的情況,在其他實施方式中也可以是由該擴增單元41執行前述檢驗。
接著執行步驟S31,該標記資料擴增模組4的擴增單元41依據該標記模式資料集42與該未標記資料庫3執行該標記演算法以產生至少一新增標記資料,並且執行步驟S4,將該至少一新增標記資料儲存至該標記資料庫2。具體而言,在本實施例的步驟S31中,該擴增單元41是依據在標記模式資料集42的該至少一確認標記模式及原已儲存在該標記模式資料集42中的標記模式,對該未標記資料庫3中的資料執行標記演算法,以標記該未標記資料庫3中的資料,並產生該至少一新增標記資料。在執行步驟S31後,該擴增單元41將產生的新增標記資料儲存至該標記資料庫2以擴增該標記資料庫2。本實施例的標記演算法可以是字串搜尋演算法或長詞優先演算法。
在該標記模式資料集42中未預先存在資料的情況下,本實施例的步驟S23可選擇性地不執行,此情況下步驟S31中,該擴增單元41是只依據步驟S22中產生的該至少一確認標記模式來標記該未標記資料庫3中的資料。
本實施例的資料標記方法還可進一步執行步驟S51,該操作平台5的資料標記預測介面52接收一未標記資料,並執行步驟S52,該自動資料標記模組6依據該標記資料庫2對該未標記資料執行資料標記預測,並將對應於該未標記資料的預測結果傳送至該操作平台5,本實施例的自動資料標記模組6可以是執行Conditional Random Field、Maximum-Entropy Markov Model、Recurrent Neural Network演算法。接著,該操作平台5顯示對應於該未標記資料的預測結果。
圖3、4所示之資料標記系統1及資料標記方法,可用以處理語料資料、影像資料或聲音資料。在用以處理語料資料的情況下,該未標記資料庫3為語料資料庫,並且該標記資料庫2是標記語料庫,也就是儲存被標記完成的語料資料,此外,該未標記資料為語料資料。而該確認標記模式則是用以標記語料資料,其可包括詞形資訊、句法資訊及語意資訊等其中至少一。所述標記模式具體上的資料態樣,以3C產品的產品保固相關的標記模式為例,可以是[*Number*‘-Year’,‘ Limited’,‘Warranty’],其中*Number*表示數值類語意類別。
在圖3、4所示之資料標記系統1及資料標記方法用以處理影像資料的情況下,該未標記資料庫3為影像資料庫,並且該標記資料庫2是標記影像資料庫,也就是儲存被標記完成的影像資料,此外,該未標記資料為影像資料。而該確認標記模式則是可用以對影像資料進行標記的規則,其可包括特徵資訊、線條資訊、光源資訊、輪廓資訊、色彩資訊及材質資訊等其中至少一。
在圖3、4所示之資料標記系統1及資料標記方法用以處理聲音資料的情況下,該未標記資料庫3為聲音資料庫,並且該標記資料庫2是標記聲音資料庫,也就是儲存被標記完成的聲音資料,此外,該未標記資料為聲音資料。而該確認標記模式則是可用以對聲音資料進行標記的規則,其可包括能量資訊、頻率資訊、節奏資訊及語言資訊等其中至少一。
參照圖5,其是依據本揭露之另一實施例繪示之資料標記系統1。本實施例的資料標記系統1與圖3所示之實施例類似,同樣包括一標記資料庫2、一未標記資料庫3、一標記資料擴增模組4、訊號連接該標記資料庫2的一自動資料標記模組6,及訊號連接該標記資料庫2、該未標記資料庫3及該標記資料擴增模組4的一操作平台5。相似地,本實施例的標記資料擴增模組4包括一擴增單元41及一標記模式資料集42。而本實施例與圖3所示之實施例主要差異在於,本實施例的操作平台5是包括訊號連接該標記資料擴增模組4的一擴增單元41的一標記模式編修介面51、訊號連接該自動資料標記模組6且可供輸入資料的一資料標記預測介面52,及訊號連接該標記資料庫2的一人工標記介面53,其中,該人工標記介面53可供輸入資料及執行資料標記。
參照圖5、6,其中圖6是依據本揭露之另一實施例繪示之資料標記方法之流程圖,並適用於圖5所示之資料標記系統1。本實施例的資料標記方法與圖4所示的實施例類似,同樣執行步驟S1、步驟S21至步驟S23、步驟S31及步驟S4,來產生至少一確認標記模式及至少一新增標記資料以儲存於標記資料庫2中,並且同樣可執行步驟S51、S52,對一未標記資料執行資料標記預測。
而本實施例的資料標記方法可進一步執行步驟S61,該操作平台5的人工標記介面53接收並顯示該未標記資料,並且執行步驟S62,該人工標記介面53接收對應該未標記資料的至少一資料標記操作,並產生對應該未標記資料的標記結果;也就是使用者可將預計要人工標記的未標記資料輸入該人工標記介面53,並在該人工標記介面53上執行資料標記操作。接著執行步驟S63,該人工標記介面53將對應該未標記資料的該標記結果儲存至該標記資料庫2。
在其他實施方式中,所述人工標記介面53可以與該資料標記預測介面52整合為同一介面,以供輸入未標記資料,並進一步依配置執行人工標記或標記預測。
圖5、6所示之資料標記系統1及資料標記方法,可用以處理語料資料、影像資料或聲音資料。在用以處理語料資料的情況下,該未標記資料庫3為語料資料庫,並且該標記資料庫2是標記語料庫,也就是儲存被標記完成的語料資料,此外,輸入的未標記資料為語料資料。而該確認標記模式則是用以標記語料資料,其可包括詞形資訊、句法資訊及語意資訊等其中至少一。所述標記模式具體上的資料態樣,以3C產品的產品保固相關的標記模式為例,可以是[*Number*‘-Year’,‘ Limited’,‘Warranty’],其中*Number*表示數值類語意類別。
在圖5、6所示之資料標記系統1及資料標記方法用以處理影像資料的情況下,該未標記資料庫3為影像資料庫,並且該標記資料庫2是標記影像資料庫,也就是儲存被標記完成的影像資料,此外,輸入的未標記資料為影像資料。而該確認標記模式則是可用以對影像資料進行標記的規則,其可包括特徵資訊、線條資訊、光源資訊、輪廓資訊、色彩資訊及材質資訊等其中至少一。
在圖5、6所示之資料標記系統1及資料標記方法用以處理聲音資料的情況下,該未標記資料庫3為聲音資料庫,並且該標記資料庫2是標記聲音資料庫,也就是儲存被標記完成的聲音資料,此外,輸入的未標記資料為聲音資料。而該確認標記模式則是可用以對聲音資料進行標記的規則,其可包括能量資訊、頻率資訊、節奏資訊及語言資訊等其中至少一。
參照圖7,其是依據本揭露之另一實施例繪示之資料標記系統1。本實施例的資料標記系統1與圖1所示之實施例類似,其同樣包括一標記資料庫2、一未標記資料庫3、一標記資料擴增模組4,及訊號連接該標記資料庫2、該未標記資料庫3及該標記資料擴增模組4的一操作平台5。其中,該標記資料庫2用以儲存已被標記的資料,而該未標記資料庫3則用以儲存未被標記的資料。
而本實施例的標記資料擴增模組4可存取該未標記資料庫3及該標記資料庫2,並包括可儲存標記模式的一標記模式資料集42、可執行一模式生成演算法的一標記模式生成單元43,及可執行一標記演算法的一擴增單元41。
該操作平台5包括訊號連接該標記模式生成單元43與該擴增單元41的一標記模式編修介面51,及可供輸入資料的一資料標記預測介面52。本實施例的操作平台5可供使用者輸入執行編輯、新增及刪減,此外該操作平台5還可供經由應用程式介面輸入資料以或執行編輯、新增及刪減。
進一步參照圖8,其是依據本揭露之另一實施例繪示之資料標記方法之流程圖,並適用於圖7所示之資料標記系統1。本實施例的資料標記方法的步驟說明如下:執行步驟71,該標記資料擴增模組4的標記模式生成單元43依據該未標記資料庫3執行模式生成演算法,以產生至少一候選標記模式。在該標記資料擴增模組4將該至少一候選標記模式傳送至該操作平台5後,執行步驟72,該操作平台5顯示該至少一候選標記模式。本實施例的標記模式生成單元43執行的模式生成演算法可以是N-Gram, Apriori algorithm, AprioriAll algorithm 或 AprioriSome  algorithm。
在產生並顯示該至少一候選標記模式後,執行步驟S11,該操作平台5接收資料或編修操作,其中該操作平台5是接收對應該至少一候選標記模式的編修操作。在本實施例的步驟S11中,使用者經由該操作平台5的標記模式編修介面51對該至少一候選標記模式執行編修操作,並且可一或多次的修改、新增及刪減該至少一候選標記模式。接著執行步驟S24,該操作平台5依據該至少一編修操作產生至少一確認標記模式,其中該標記模式編修介面51依據該至少一候選標記模式及接收到的編修操作,產生至少一確認標記模式,換言之,本實施例的該至少一確認標記模式即是使用者對該至少一候選標記模式進行修改、新增及刪減後所產生。
在取得該至少一確認標記模式後,執行步驟S23,該標記資料擴增模組4將該至少一確認標記模式儲存至該標記模式資料集42,在本實施例中,該標記資料擴增模組4先依據該標記模式資料集42中的標記模式與該至少一確認標記模式執行檢驗,檢驗確認後將該至少一確認標記模式儲存及更新至該標記模式資料集42,其中該標記資料擴增模組4執行的檢驗,是檢驗該至少一確認標記模式是否與該標記模式資料集42中的資料重複或衝突,以排除標記模式間發生重複或衝突的情況,在其他實施方式中可由該擴增單元41執行前述檢驗。
接著執行步驟S31,該標記資料擴增模組4的擴增單元41依據該標記模式資料集42與該未標記資料庫3執行該標記演算法以產生至少一新增標記資料,並且執行步驟S4,將該至少一新增標記資料儲存至該標記資料庫2。具體而言,在本實施例的步驟S31中,該擴增單元41是依據在標記模式資料集42的該至少一確認標記模式及原已儲存在該標記模式資料集42中的標記模式,對該未標記資料庫3中的資料執行標記演算法,以標記該未標記資料庫3中的資料,並產生該至少一新增標記資料,進而儲存至該標記資料庫2以擴增該標記資料庫2。本實施例的標記演算法可以是字串搜尋演算法或長詞優先演算法。
在該標記模式資料集42中未預先存在資料的情況下,本實施例的步驟S23可選擇性地不執行,此情況下步驟S31中,該擴增單元41是只依據步驟S22中產生的該至少一確認標記模式來標記該未標記資料庫3中的資料。
圖7、8所示之資料標記系統1及資料標記方法,可用以處理語料資料、影像資料或聲音資料。在用以處理語料資料的情況下,該未標記資料庫3為語料資料庫,並且該標記資料庫2是標記語料庫,也就是儲存被標記完成的語料資料,此外,該候選標記模式與確認標記模式則是用以標記語料資料,其可包括詞形資訊、句法資訊及語意資訊等其中至少一。所述標記模式具體上的資料態樣,以3C產品的產品保固相關的標記模式為例,可以是[*Number*‘-Year’,‘ Limited’,‘Warranty’],其中*Number*表示數值類語意類別。
在圖7、8所示之資料標記系統1及資料標記方法用以處理影像資料的情況下,該未標記資料庫3為影像資料庫,並且該標記資料庫2是標記影像資料庫,也就是儲存被標記完成的影像資料,此外,該候選標記模式與確認標記模式則是可用以對影像資料進行標記的規則,其可包括特徵資訊、線條資訊、光源資訊、輪廓資訊、色彩資訊及材質資訊等其中至少一。
在圖7、8所示之資料標記系統1及資料標記方法用以處理聲音資料的情況下,該未標記資料庫3為聲音資料庫,並且該標記資料庫2是標記聲音資料庫,也就是儲存被標記完成的聲音資料,此外,該候選標記模式與確認標記模式則是可用以對聲音資料進行標記的規則,其可包括能量資訊、頻率資訊、節奏資訊及語言資訊等其中至少一。
參照圖9,其是依據本揭露之另一實施例繪示之資料標記系統1。本實施例的資料標記系統1與圖7示之實施例類似,同樣包括一標記資料庫2、一未標記資料庫3、一標記資料擴增模組4,及訊號連接該標記資料庫2、該未標記資料庫3及該標記資料擴增模組4的一操作平台5。相似地,該標記資料擴增模組4包括一擴增單元41、一標記模式資料集42及一標記模式生成單元43,而該操作平台5亦包括一標記模式編修介面51及一資料標記預測介面52;本實施例與圖7的差異在於,本實施例的資料標記系統1還進一步包括訊號連接該標記資料庫2的一自動資料標記模組6,其中該自動資料標記模組6經配置以執行資料標記預測。
參照圖9、10,其中圖10是依據本揭露之另一實施例,繪示之資料標記方法之流程圖,並適用於圖9所示之資料標記系統1。本實施例的資料標記方法的與圖8所示的實施例類似,同樣執行步驟S71、S72,以產生至少一候選標記模式及執行步驟S11、S24、S23,以取得至少一確認標記模式且儲存至該標記模式資料集42,並執行步驟S31、S4,產生至少一新增標記資料以擴增該標記資料庫2。
而本實施例資料標記方法進一步執行步驟S51,該操作平台5的資料標記預測介面52接收一未標記資料,並執行步驟S52,該自動資料標記模組6依據該標記資料庫2對該未標記資料執行資料標記預測,並將對應於該未標記資料的預測結果傳送至該操作平台5,本實施例的自動資料標記模組6可以是執行Conditional Random Field、 Maximum-Entropy Markov Model或Recurrent Neural Network演算法。接著,該操作平台5顯示對應於該未標記資料的預測結果。
圖9、10所示之資料標記系統1及資料標記方法,可用以處理語料資料、影像資料或聲音資料。在用以處理語料資料的情況下,該未標記資料庫3為語料資料庫,並且該標記資料庫2是標記語料庫,也就是儲存被標記完成的語料資料。此外,該未標記資料是語料資料,並且該候選標記模式與確認標記模式則是用以標記語料資料,其可包括詞形資訊、句法資訊及語意資訊等其中至少一。所述標記模式具體上的資料態樣,以3C產品的產品保固相關的標記模式為例,可以是[*Number*‘-Year’,‘ Limited’,‘Warranty’],其中*Number*表示數值類語意類別。
在圖9、10所示之資料標記系統1及資料標記方法用以處理影像資料的情況下,該未標記資料庫3為影像資料庫,並且該標記資料庫2是標記影像資料庫,也就是儲存被標記完成的影像資料。此外,該未標記資料是聲音資料,並且該候選標記模式與確認標記模式則是可用以對影像資料進行標記的規則,其可包括特徵資訊、線條資訊、光源資訊、輪廓資訊、色彩資訊及材質資訊等其中至少一。
在圖9、10所示之資料標記系統1及資料標記方法用以處理聲音資料的情況下,該未標記資料庫3為聲音資料庫,並且該標記資料庫2是標記聲音資料庫,也就是儲存被標記完成的聲音資料。此外,該未標記資料是影像資料,該候選標記模式與確認標記模式則是可用以對聲音資料進行標記的規則,其可包括能量資訊、頻率資訊、節奏資訊及語言資訊等其中至少一。
參照圖11,其是依據本揭露之另一實施例繪示之資料標記系統1。本實施例的資料標記系統1與圖9所示之實施例類似,同樣包括一標記資料庫2、一未標記資料庫3、一標記資料擴增模組4、訊號連接該標記資料庫2的一自動資料標記模組6,及訊號連接該標記資料庫2、該未標記資料庫3及該標記資料擴增模組4的一操作平台5。此外,本實施例的標記資料擴增模組4同樣包括一標記模式資料集42、一擴增單元41,及一標記模式生成單元43。而本實施例與圖9所示之實施例主要差異在於,本實施例的操作平台5是包括訊號連接該擴增單元41的一標記模式編修介面51、訊號連接該自動資料標記模組6且可供輸入資料的一資料標記預測介面52,及訊號連接該標記資料庫2的一人工標記介面53,其中,該人工標記介面53可供輸入資料及執行資料標記。
參照圖11、12,其中圖12是依據本揭露之另一實施例繪示之資料標記方法之流程圖,並適用於圖11所示之資料標記系統1。本實施例的資料標記方法與圖10所示的實施例類似,同樣執行步驟S71、S72,以產生至少一候選標記模式及執行步驟S11、S24、S23,以取得至少一確認標記模式且儲存至該標記模式資料集42,並執行步驟S31、S4,依據該至少一確認標記模式產生至少一新增標記資料以擴增該標記資料庫2,還執行步驟S51、S52,對未標記資料執行資料標記預測。
而本實施例的資料標記方法可進一步執行步驟S61,該操作平台5的人工標記介面53接收並顯示一未標記資料,並且執行步驟S62,該人工標記介面53接收對應該未標記資料的至少一資料標記操作,並產生對應該未標記資料的標記結果;也就是使用者可將預計要人工標記的未標記資料輸入該人工標記介面53,並在該人工標記介面53上執行資料標記操作。接著執行步驟S63,該人工標記介面53將對應該未標記資料的該標記結果儲存至該標記資料庫2。
在其他實施方式中,所述人工標記介面53可以與該資料標記預測介面52整合為同一介面,以供輸入未標記資料,並進一步依配置執行人工標記或標記預測。
圖11、12所示之資料標記系統1及資料標記方法,可用以處理語料資料、影像資料或聲音資料。在用以處理語料資料的情況下,該未標記資料庫3為語料資料庫,並且該標記資料庫2是標記語料庫,也就是儲存被標記完成的語料資料。此外,輸入的未標記資料是語料資料,並且該候選標記模式與確認標記模式則是用以標記語料資料,其可包括詞形資訊、句法資訊及語意資訊等其中至少一。所述標記模式具體上的資料態樣,以3C產品的產品保固相關的標記模式為例,可以是[*Number*‘-Year’,‘ Limited’,‘Warranty’],其中*Number*表示數值類語意類別。
在圖11、12所示之資料標記系統1及資料標記方法用以處理影像資料的情況下,該未標記資料庫3為影像資料庫,並且該標記資料庫2是標記影像資料庫,也就是儲存被標記完成的影像資料。此外,輸入的未標記資料是聲音資料,並且該候選標記模式與確認標記模式則是可用以對影像資料進行標記的規則,其可包括特徵資訊、線條資訊、光源資訊、輪廓資訊、色彩資訊及材質資訊等其中至少一。
在圖11、12所示之資料標記系統1及資料標記方法用以處理聲音資料的情況下,該未標記資料庫3為聲音資料庫,並且該標記資料庫2是標記聲音資料庫,也就是儲存被標記完成的聲音資料。此外,輸入的未標記資料是影像資料,該候選標記模式與確認標記模式則是可用以對聲音資料進行標記的規則,其可包括能量資訊、頻率資訊、節奏資訊及語言資訊等其中至少一。
補充說明的是,本發明的資料標記方法可以由一或多個伺服器來運行,並且經由網際網路與該操作平台提供服務。
雖然本揭露已經以實施例揭露如上,然其並非用以限定本揭露,任何所屬技術領域中具有通常知識者,在不脫離本揭露的精神和範圍內,當可作些許的更動與潤飾,故本揭露的保護範圍當以後附的申請專利範圍所界定者為準。
1:資料標記系統 2:標記資料庫 3:未標記資料庫 4:標記資料擴增模組 41:擴增單元 42:標記模式資料集 43:標記模式生成單元 5:操作平台 51:標記模式編修介面 52:資料標記預測介面 53:人工標記介面 6:自動資料標記模組 S1~S5:步驟 S11、S21~S24、S31、S51、S52、S61~S63、S71、S72:步驟
圖1是依據本揭露之一實施例繪示之資料標記系統的方塊圖。 圖2是依據本揭露之一實施例繪示之資料標記方法的流程圖。 圖3是依據本揭露之另一實施例繪示之資料標記系統的方塊圖。 圖4是依據本揭露之另一實施例繪示之資料標記方法的流程圖。 圖5是依據本揭露之另一實施例繪示之資料標記系統的方塊圖。 圖6是依據本揭露之另一實施例繪示之資料標記方法的流程圖。 圖7是依據本揭露之另一實施例繪示之資料標記系統的方塊圖。 圖8是依據本揭露之另一實施例繪示之資料標記方法的流程圖。 圖9是依據本揭露之另一實施例繪示之資料標記系統的方塊圖。 圖10是依據本揭露之另一實施例繪示之資料標記方法的流程圖。 圖11是依據本揭露之另一實施例繪示之資料標記系統的方塊圖。 圖12是依據本揭露之另一實施例繪示之資料標記方法的流程圖。
1:資料標記系統 2:標記資料庫 3:未標記資料庫 4:標記資料擴增模組 5:操作平台 51:標記模式編修介面

Claims (26)

  1. 一種資料標記系統,包括: 一標記資料庫; 一未標記資料庫; 一標記資料擴增模組;及 一操作平台,訊號連接該標記資料庫、該未標記資料庫及該標記資料擴增模組,並包括一標記模式編修介面,且該標記模式編修介面可供輸入資料與執行編修操作以產生至少一確認標記模式, 其中,該標記資料擴增模組依據該至少一確認標記模式與該未標記資料庫執行運算以產生至少一新增標記資料,並將該至少一新增標記資料儲存至該標記資料庫。
  2. 如申請專利範圍第1項所述的資料標記系統,其中該標記模式編修介面顯示至少一候選標記模式,並依據該至少一候選標記模式及使用者對該至少一候選標記模式的編修操作,產生該至少一確認標記模式。
  3. 如申請專利範圍第2項所述的資料標記系統,其中該標記資料擴增模組包括: 一標記模式生成單元,訊號連接該標記模式編修介面,並依據該未標記資料庫執行一模式生成演算法以產生該至少一候選標記模式;及 一擴增單元,訊號連接該標記模式編修介面,並依據該未標記資料庫及該至少一確認標記模式執行一標記演算法以產生該至少一新增標記資料,並將該至少一新增標記資料儲存至該標記資料庫。
  4. 如申請專利範圍第1項所述的資料標記系統,還包括訊號連接該標記資料庫的一自動資料標記模組,其中該操作平台還包括: 一資料標記預測介面,可供輸入一未標記資料並顯示預測結果, 其中,該自動資料標記模組依據該標記資料庫對該未標記資料執行資料標記預測,並將對應該未標記資料的預測結果傳送至該資料標記預測介面。
  5. 如申請專利範圍第1項所述的資料標記系統,其中該標記模式編修介面可供使用者輸入至少一標記模式,並且將輸入的該至少一標記模式設為該至少一確認標記模式。
  6. 如申請專利範圍第1項所述的資料標記系統,其中該編修操作包括修改、新增及刪減其中至少一者。
  7. 如申請專利範圍第1項所述的資料標記系統,其中該操作平台還包括可供輸入一未標記資料及執行資料標記的一人工標記介面,該人工標記介面可顯示該未標記資料,並將使用者對該未標記資料執行資料標記的結果儲存至該標記資料庫。
  8. 如申請專利範圍第1項所述的資料標記系統,其中該標記資料庫是語料標記資料庫、影像標記資料庫或聲音標記資料庫,且該未標記資料庫為語料資料庫、影像資料庫或聲音資料庫,並且該至少一確認標記模式是語料標記模式、影像標記模式或聲音標記模式。
  9. 如申請專利範圍第2項所述的資料標記系統,其中該至少一候選標記模式是語料標記模式、影像標記模式或聲音標記模式。
  10. 如申請專利範圍第1項所述的資料標記系統,其中該至少一確認標記模式包括詞形資訊、句法資訊及語意資訊其中至少一,或特徵資訊、線條資訊、光源資訊、輪廓資訊、色彩資訊及材質資訊其中至少一,或能量資訊、音頻資訊、節奏資訊及語言資訊其中至少一。
  11. 如申請專利範圍第2項所述的資料標記系統,其中該至少一候選標記模式包括詞形資訊、句法資訊及語意資訊其中至少一,或特徵資訊、線條資訊、光源資訊、輪廓資訊、色彩資訊及材質資訊其中至少一,或能量資訊、音頻資訊、節奏資訊及語言資訊其中至少一。
  12. 如申請專利範圍第5項所述的資料標記系統,其中使用者輸入的該至少一標記模式包括詞形資訊、句法資訊及語意資訊其中至少一者,或特徵資訊、線條資訊、光源資訊、輪廓資訊、色彩資訊及材質資訊其中至少一者,或能量資訊、音頻資訊、節奏資訊及語言資訊其中至少一者。
  13. 如申請專利範圍第4或第7項所述的資料標記系統,其中該未標記資料是文字資料、影像資料或聲音資料。
  14. 一種資料標記方法,適用於一資料標記系統,並包括: 接收資料或編修操作; 依據接收的該資料或編修操作,產生至少一確認標記模式; 依據該至少一確認標記模式與一未標記資料庫執行運算以產生至少一新增標記資料;及 將該至少一新增標記資料儲存至一標記資料庫。
  15. 如申請專利範圍第14項所述的資料標記方法,還包括該資料標記系統的一操作平台顯示至少一候選標記模式,其中該操作平台是接收對應該至少一候選標記模式的編修操作,並且依據該至少一編修操作產生至少一確認標記模式,該操作平台依據該至少一編修操作產生至少一確認標記模式之步驟包括: 該操作平台依據該至少一候選標記模式及接收到的編修操作,產生該至少一確認標記模式。
  16. 如申請專利範圍第15項所述的資料標記方法,還包括該資料標記系統的一標記資料擴增模組依據該未標記資料庫執行一模式生成演算法以產生該至少一候選標記模式,其中該至少一新增標記資料是該標記資料擴增模組依據該至少一確認標記模式與該未標記資料庫執行一標記演算法所產生。
  17. 如申請專利範圍第14項所述的資料標記方法,還包括: 該資料標記系統的一操作平台接收一未標記資料; 該資料標記系統的一自動資料標記模組依據該標記資料庫對該未標記資料執行資料標記預測,並將對應該未標記資料的預測結果傳送至該操作平台;及 該操作平台顯示對應該未標記資料的預測結果。
  18. 如申請專利範圍第14項所述的資料標記方法,其中由該資料標記系統的一操作平台依據該至少一編修操作產生該至少一確認標記模式,並且該操作平台依據該至少一編修操作產生該至少一確認標記模式之步驟包括: 該操作平台接收至少一標記模式;及 該操作平台將接收的該至少一標記模式設為該至少一確認標記模式。
  19. 如申請專利範圍第14項所述的資料標記方法,其中該至少一編修操作是執行修改、新增及刪減其中至少一者。
  20. 如申請專利範圍第14項所述的資料標記方法,還包括: 該資料標記系統的一操作平台接收並顯示一未標記資料; 該操作平台接收對應該未標記資料的至少一資料標記操作,並產生對應該未標記資料的標記結果;及 將對應該未標記資料的該標記結果儲存至該標記資料庫。
  21. 如申請專利範圍第14項所述的資料標記方法,其中該標記資料庫是語料標記資料庫、影像標記資料庫或聲音標記資料庫,且該未標記資料庫為語料資料庫、影像資料庫或聲音資料庫,並且該確認標記模式是語料標記模式、影像標記模式或聲音標記模式。
  22. 如申請專利範圍第15項所述的資料標記方法,其中該至少一候選標記模式是語料標記模式、影像標記模式或聲音標記模式。
  23. 如申請專利範圍第14項所述的資料標記方法,其中該確認標記模式包括詞形資訊、句法資訊及語意資訊其中至少一,或特徵資訊、線條資訊、光源資訊、輪廓資訊、色彩資訊及材質資訊其中至少一,或能量資訊、音頻資訊、節奏資訊及語言資訊其中至少一。
  24. 如申請專利範圍第15項所述的資料標記方法,其中該至少一候選標記模式包括詞形資訊、句法資訊及語意資訊其中至少一,或特徵資訊、線條資訊、光源資訊、輪廓資訊、色彩資訊及材質資訊其中至少一,或能量資訊、音頻資訊、節奏資訊及語言資訊其中至少一。
  25. 如申請專利範圍第18項所述的資料標記方法,其中該操作平台接收的該至少一標記模式包括詞形資訊、句法資訊及語意資訊其中至少一者,或特徵資訊、線條資訊、光源資訊、輪廓資訊、色彩資訊及材質資訊其中至少一者,或能量資訊、音頻資訊、節奏資訊及語言資訊其中至少一者。
  26. 如申請專利範圍第17或第20項所述的資料標記方法,其中該未標記資料是文字資料、影像資料或聲音資料。
TW107145816A 2018-12-19 2018-12-19 資料標記系統及資料標記方法 TWI701565B (zh)

Priority Applications (2)

Application Number Priority Date Filing Date Title
TW107145816A TWI701565B (zh) 2018-12-19 2018-12-19 資料標記系統及資料標記方法
CN201811596379.1A CN111339325A (zh) 2018-12-19 2018-12-25 数据标记系统及数据标记方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
TW107145816A TWI701565B (zh) 2018-12-19 2018-12-19 資料標記系統及資料標記方法

Publications (2)

Publication Number Publication Date
TW202024946A TW202024946A (zh) 2020-07-01
TWI701565B true TWI701565B (zh) 2020-08-11

Family

ID=71181954

Family Applications (1)

Application Number Title Priority Date Filing Date
TW107145816A TWI701565B (zh) 2018-12-19 2018-12-19 資料標記系統及資料標記方法

Country Status (2)

Country Link
CN (1) CN111339325A (zh)
TW (1) TWI701565B (zh)

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101777131A (zh) * 2010-02-05 2010-07-14 西安电子科技大学 双模人脸识别方法及装置
US20150095300A1 (en) * 2010-06-20 2015-04-02 Remeztech Ltd. System and method for mark-up language document rank analysis
CN106951422A (zh) * 2016-01-07 2017-07-14 腾讯科技(深圳)有限公司 网页训练的方法和装置、搜索意图识别的方法和装置
TW201814596A (zh) * 2016-10-04 2018-04-16 瑞典商安訊士有限公司 使用影像分析演算法以提供訓練資料至神經網路

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2003016821A1 (fr) * 2001-08-10 2003-02-27 Matsushita Electric Industrial Co., Ltd. Systeme de transmission de reperes, appareil central, terminal, systeme de transmission de donnees cartographiques, appareil central et terminal
CN102722719B (zh) * 2012-05-25 2014-12-17 西安电子科技大学 基于观察学习的入侵检测方法
CN106850591B (zh) * 2017-01-13 2019-08-02 北京蓝海讯通科技股份有限公司 数据标记装置和方法
CN107067025B (zh) * 2017-02-15 2020-12-22 重庆邮电大学 一种基于主动学习的文本数据自动标注方法
CN108875769A (zh) * 2018-01-23 2018-11-23 北京迈格威科技有限公司 数据标注方法、装置和系统及存储介质

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101777131A (zh) * 2010-02-05 2010-07-14 西安电子科技大学 双模人脸识别方法及装置
US20150095300A1 (en) * 2010-06-20 2015-04-02 Remeztech Ltd. System and method for mark-up language document rank analysis
CN106951422A (zh) * 2016-01-07 2017-07-14 腾讯科技(深圳)有限公司 网页训练的方法和装置、搜索意图识别的方法和装置
TW201814596A (zh) * 2016-10-04 2018-04-16 瑞典商安訊士有限公司 使用影像分析演算法以提供訓練資料至神經網路

Also Published As

Publication number Publication date
TW202024946A (zh) 2020-07-01
CN111339325A (zh) 2020-06-26

Similar Documents

Publication Publication Date Title
CN104252533B (zh) 搜索方法和搜索装置
KR102565659B1 (ko) 정보 생성 방법 및 장치
JP5257330B2 (ja) 発言記録装置、発言記録方法、プログラム及び記録媒体
US20210043194A1 (en) Counterfactual annotated dialogues for conversational computing
CN105446986B (zh) 用于处理web页面的方法和装置
US20220107922A1 (en) Automatic database script generation for copying data between relational databases
TW202016758A (zh) 知識圖譜產生裝置、方法及其電腦程式產品
WO2024099037A1 (zh) 数据处理、实体链接方法、装置和计算机设备
JP2009151777A (ja) 音声言語パラレルコーパスのアライメント方法及び装置
US20220350824A1 (en) Information processing apparatus and information processing method
US20200327201A1 (en) Provision of natural language response to business process query
Bach et al. Exploiting discourse information to identify paraphrases
JP6770709B2 (ja) 機械学習用モデル生成装置及びプログラム。
JP6334587B2 (ja) 単語抽出装置、方法、及びプログラム
Adamu et al. Similarity assessment of UML sequence diagrams using dynamic programming
TWI701565B (zh) 資料標記系統及資料標記方法
US9311219B2 (en) Automatic trace retrieval using semantic bridge
CN113515630B (zh) 三元组生成和校验方法、装置、电子设备和存储介质
JPWO2016151690A1 (ja) 文書検索装置、方法及びプログラム
JP2008181333A (ja) クラスタ生成装置およびクラスタ生成方法
JP2003150762A (ja) プロジェクト情報連携方法およびシステム
JP5900486B2 (ja) 関連仕様対応付けシステム、関連仕様対応付け方法およびプログラム
JP5600826B1 (ja) 非構造化データ処理システム、非構造化データ処理方法およびプログラム
JP7362577B2 (ja) 情報処理装置、情報処理方法およびプログラム
CN108766059A (zh) 一种云服务英语教学设备及教学方法