TWI792957B

TWI792957B - 文字辨識系統及方法

Info

Publication number: TWI792957B
Application number: TW111111157A
Authority: TW
Inventors: 周世恩; 楊雅汝
Original assignee: 多利曼股份有限公司
Priority date: 2022-03-24
Filing date: 2022-03-24
Publication date: 2023-02-11
Also published as: TW202338664A

Abstract

一種文字辨識系統及方法，主要將影像資訊輸入至收集模組，使該收集模組產生文字截圖，且藉由辨識模組接收該文字截圖，以獲取字串資料，而不受該影像資訊之背景干擾，減少影響辨識正確率之機率。

Description

文字辨識系統及方法

本發明提供一種文字辨識技術，尤指一種適用於網路影像內容之文字辨識系統及方法。

隨著網路平台的崛起，一般人都能輕易地透過網路平台獲取自己所需的影音內容。例如，近年來直播系統逐漸成熟，電視台除了在傳統管道播送訊號外，更整合如Youtube、Facebook等網路社群平台，將影音內容訊號透過該網路社群平台之直播工具播放，甚至一些網路媒體亦嘗試導入直播室。

由於網路資訊過於發達，相關產業更需仰賴該些網路資訊。例如，品牌媒體或公關公司等產業需求端若需即時掌握社群輿情，需擷取該些網路社群平台之影音內容進行分析。

然而，該些影音內容中包含影像資料與文字資料，致使該些影音內容之檔案大小過於龐大，導致存取不易。

再者，該產業需求端雖可透過外掛軟體僅擷取該些影音內容中之文字資料，但習知外掛軟體對於該影音內容中之影像資料之背景干擾 (noise)非常敏感，往往會受該背景干擾而影響辨識正確率。另一方面，習知外掛軟體於辨識文字時，需於對比度極高(如白底黑字或黑底白字)之條件下進行，否則辨識正確率極低。例如，若該影像資料中之標題背景呈現漸層顏色或其它圖樣，將導致辨識正確率急劇下降。

因此，如何克服上述習知技術的種種問題，實已成目前亟欲解決的課題。

本發明提供一種線上文字辨識系統，係包括：收集模組，係接收影像資訊以產生文字截圖；以及辨識模組，係通訊連接該收集模組以接收該文字截圖，並進行辨識作業以獲取包含字串資料之目標資訊。

前述之文字辨識系統中，該收集模組係採用網路爬蟲型式，以自動搜尋及收集於網路上所公開之該影像資訊。

前述之文字辨識系統中，該收集模組係將該影像資訊進行截圖動作，以獲取初始截圖，且自該初始截圖中產生該文字截圖。

前述之文字辨識系統中，該辨識模組係為光學文字辨識形式之人工智慧模組。

前述之文字辨識系統中，復包括通訊連接該辨識模組以接收該目標資訊之彙整模組，係將該目標資訊整理成進階資訊，其中，該進階資訊係包含該字串資料與其所對應之參考資料。

本發明復提供一種文字辨識方法，係包括：藉由收集模組進行收集作業，以將影像資訊輸入至該收集模組，使該收集模組產生文字截圖；以及藉由辨識模組進行辨識作業，使該辨識模組接收該文字截圖，以獲取包含字串資料之目標資訊。

前述之文字辨識方法中，該收集作業係採用網路爬蟲型式，以自動搜尋及收集於網路上所公開之該影像資訊。

前述之文字辨識方法中，該收集作業係對該影像資訊進行截圖動作，以獲取初始截圖，且自該初始截圖中產生該文字截圖。

前述之文字辨識方法中，該辨識模組係為光學文字辨識形式之人工智慧模組。

前述之文字辨識方法中，復包括藉由彙整模組接收該目標資訊，以將該目標資訊整理成進階資訊，其中，該進階資訊係包含該字串資料與其所對應之參考資料。

由上可知，本發明之文字辨識系統及方法，主要藉由該收集模組與該辨識模組之配合，以獲取所需之字串資料，供後續需求端應用，故相較於習知外掛軟體，本發明可有效獲取字串資料，而不受該影像資訊之背景干擾之影響，因而減少影響辨識正確率之機率，且本發明之收集模組可產生該文字截圖，再藉由該辨識模組從該文字截圖中直接辨識出該字串資料，因而可提高辨識正確率。

1:文字辨識系統

1a:主機

10:收集模組

101:擷取模型

102:處理模型

103:暫存區

11:辨識模組

111:訓練模型

112:分析模型

12:彙整模組

12a:資料庫

2:電子裝置

A1,A2,A3:文字區塊

P:初始截圖

T1,T2,T3:文字截圖

S30~S33:步驟

圖1係為本發明之文字辨識系統之架構示意圖。

圖2係為本發明之文字辨識系統之配置示意圖。

圖3係為本發明之文字辨識方法之流程圖。

圖4A至圖4C係為本發明之文字辨識系統之收集模組於運作時之實施例示意圖。

須知，本說明書所附圖式所繪示之結構、比例、大小等，均僅用以配合說明書所揭示之內容，以供熟悉此技藝之人士之瞭解與閱讀，並非用以限定本發明可實施之限定條件，故不具技術上之實質意義，任何結構之修飾、比例關係之改變或大小之調整，在不影響本發明所能產生之功效及所能達成之目的下，均應仍落在本發明所揭示之技術內容得能涵蓋之範圍內。同時，本說明書中所引用之如「一」、「第一」、「第二」、「上」及「下」等之用語，亦僅為便於敘述之明瞭，而非用以限定本發明可實施之範圍，其相對關係之改變或調整，在無實質變更技術內容下，當視為本發明可實施之範疇。

圖1係為本發明之文字辨識系統1之架構示意圖。如圖1所示，所述之文字辨識系統1係包括：一收集模組10、一辨識模組11以及一彙整模組12。

於本實施例中，如圖2所示，該文字辨識系統1係配載於一主機1a中，如伺服器、雲端、具有各種處理器之電腦裝置或行動裝置等。

所述之收集模組10係用以收集影像資訊，其中，該影像資訊係包含影像資料及參考資料(如影像來源、截圖時間、原始畫面或其它項目等)。

於本實施例中，該影像資訊係適用於網路傳輸格式。例如，該影像資訊係公開於網路平台上，且該網路平台可為網路社群平台、媒體、品牌主網站等公開網站，如臉書(Facebook)粉絲頁資料、Instagram商業帳號資料、LINE官方帳號資料、Youtube頻道資料、谷歌(Google)地圖商家資料、MOD數位影音資料等。

再者，該收集模組10係可採用網路爬蟲(Video Crawler)型式，以自動搜尋及節錄網路上所公開之影像資訊。例如，該收集模組10適用於直播畫面。

又，該收集模組10係包含一用以擷取畫面之擷取模型101及一用以預處理畫面之處理模型102。

所述之擷取模型101係用以擷取畫面，以當輸入如Youtube之影音網址或Facebook之直播網址等初始參數(甚至可輸入如華視、公視、三立、TVBS或其它新聞網名稱之初始參數)時，該擷取模型將輸出如新聞直播畫面之初始截圖。例如，該擷取模型101係使用python程式語言編程，如Selenium、cv2、numpy、collections、PIL或其它等相關程式套件。進一步，該擷取模型101係採用Selenium建構，其使用無頭瀏覽器(headless)設定為隱藏視窗，以節省系統資源，且於該文字辨識系統1啟動後，該擷取模型101會暫停一分鐘並等待廣告結束後，再以預定秒數截圖一次。

所述之處理模型102係用以提取感興趣之文字區塊(Extracting Text Region of Interest)，以當輸入如新聞直播畫面之初始截圖時，該處理模型102將輸出如白底黑字形式之標題或副標題圖檔，供作為文字截圖。例如，該處理模型102於鎖定該新聞直播畫面中對應之標題及/或副標題的絕對位置後，進行該絕對位置處之文字區塊之截圖作業，且待調整該文字區塊之大小後，再將該文字區塊轉換成白底黑字之規格，供作為該文字截圖，以儲存至一如雲端資料庫之暫存區103。應可理解地，大多新聞標題區塊常因新聞主題而轉換背景顏色，故該處理模型102會視文字區塊之背景所使用之顏色豐富度，以準確將該文字區塊轉換至白底黑字規格之文字截圖。

所述之辨識模組11係通訊連接該收集模組10以接收該文字截圖，並進行辨識作業以獲取目標資訊。

於本實施例中，該辨識模組11係為光學文字辨識(Optical Character Recognition，簡稱OCR)形式之人工智慧(artificial intelligence，簡稱AI)模組，其包含至少一訓練模型111及一分析模型112。

所述之訓練模型111之建構係分為準備階段及訓練階段，且該準備階段係準備該訓練階段用之特徵檔案。

例如，該準備階段係輸入所有欲訓練之中文字型檔(如檔名為.tiff)，以輸出該特徵檔案。於本實施例中，以第一開源工具(如jTessBoxEditorFX)將如word軟體之字型檔中之各字元區塊擷取出來，且合併成一張合成圖片，並利用第二開源工具(如Tesseract)生成暫存之box檔案，再藉由第三開源工具(如jTessBoxEditorFX)標示該合成圖片的訓練特徵範圍，之後儲存成人工智慧(AI)訓練用之特徵檔案。應可理解地，因為手動調整該合成圖片之框線需耗費大量時間，故此處tiff檔的生成係採用python程式語言生成各種字型/大小的單一文字tiff檔，再設定文字之位置，即可節省大量時間。

再者，該訓練階段之訓練方式係輸入該特徵檔案，以輸出該訓練模型。於本實施例中，採用該準備階段所生成的AI訓練用之特徵檔案，再使用AI文字辨識機器學習用之第四開源工具(如Tesseract套件)，其核心演算法為深度學習中的長短期記憶(Long Short-Term Memory，簡稱LSTM)類神經演算法，以依不同字型與字型大小輸出成各種不同之訓練模型。

應可理解地，有關開源工具之種類繁多，可依需求選擇，並不限於上述，且可依需求使用相同開源工具，如第一與第三開源工具、或第二與第四開源工具，並無特別限制。

所述之分析模型112係輸入該訓練模型111與任一白底黑字型之文字截圖，再輸出包含字串資料(如文字檔，而非圖檔)之目標資訊。例如，採用第五開源工具(如Tesseract套件)，將該文字截圖進行銳利化處理後，再傳輸至指定之訓練模型111進行辨識，使該第五開源工具(如Tesseract套件)輸出對應該文字截圖之字串資料，其中，該字串資料係包含對應該文字截圖中之所有文字。

應可理解地，有關該人工智慧(AI)模組之種類及其建置方式繁多，並不限於上述。

所述之彙整模組12係通訊連接該辨識模組11，以將該目標資訊整理成進階資訊。

於本實施例中，該彙整模組12係將該辨識模組11所得之字串資料與其所對應之影像來源、影片快照畫面(即截圖)、截圖時間(即該收集模組10擷取畫面之時間)及/或其它項目等參考資料(來自該暫存區103)整理成該進階資訊，如結構化的資料格式，以存放於一資料庫12a(如Google BigQuery、MySQL、ElasticSearch或其它常用類型)中，供後續進行相關應用(例如，當分析師在回溯畫面內容時，因內容皆已辨識為一般文字，可透過搜尋系統立即取得某一刻提及特定字眼的新聞畫面，同時達到影像知識保存目的)。

圖3係為本發明之文字辨識方法之流程圖。於本實施例中，該文字辨識方法係藉由該文字辨識系統1執行。

於步驟S31中，使用者藉由電子裝置2(如圖2所示之智慧型手機、電腦或其它)啟動該文字辨識系統1，以藉由該收集模組10進行收集作業，令至少一影像資訊輸入至該收集模組10，使該收集模組10產生文字截圖。

於本實施例中，該收集作業係採用網路爬蟲(Video Crawler)方式，以令該收集模組10自動收集網路平台(如圖3所示之步驟S30之資料來源)上之影像資訊，使該收集作業可對該影像資訊進行截圖動作，以獲取初始截圖，且自該初始截圖中產生該文字截圖。例如，該影像資訊係為新聞直播影片，其包含複數連續畫面，故藉由該擷取模型101擷取多張初始截圖P(如圖4A所示之其中一張)，並藉由該處理模型102提取至少一張初始截圖中之文字區塊A1,A2,A3(如圖4B所示)，以獲取至少一文字截圖T1,T2,T3(如圖4C所示)，再儲存至該暫存區103。

於步驟S32中，藉由辨識模組11進行辨識作業，使該辨識模組11接收該暫存區103中之至少一文字截圖，以獲取包含字串資料之目標資訊。

於本實施例中，藉由該辨識模組11同時將該文字截圖與該訓練模型111輸入置該分析模型112，以令該分析模型112提供對應該文字截圖之字串資料，如下表所示：

再者，該辨識模組11之訓練模型111可同時接收該暫存區103中之文字截圖，以進行機器學習作業，如圖3所示之步驟S32a。例如，該機器學習作業係包含準備階段，如圖3所示之步驟S32b，以輸入所需之字型檔(如檔名為.tiff)。

於步驟S33中，藉由彙整模組12進行整編作業，以儲存該目標資訊。

於本實施例中，該彙整模組12係將該字串資料與其所對應之參考資料存放至一資料庫12a，以供後續進行應用。例如，將直播內容透過AI方式辨識擷取字幕內容、字幕發生時間與原始圖片，再一併存入該資料庫12a，使需求端(如品牌公關部門、媒體公關部門、公關公司、分析師或其它等)更易於透過步驟S34之搜尋引擎(如Google)快速摘錄特定時間範圍內的電視輿情內容，而不需額外打字人員幫忙，即可即時獲取內容。

於另一應用中，需求端可開發快訊推播功能，以整合常用之Line與E-mail等推播工具，故當直播影片內容提及特定字詞時，於E-mail收件夾或Line聊天群組可即時收到對應之推播訊息(如包含螢幕畫面與對應來源說明等內容)，需求端僅需確認推播訊息之正確性，即可針對該推播訊息之重要性進行後續應用。

或者，將該目標資訊傳輸至該辨識模組11之訓練模型111，以進行機器學習作業。

因此，該資料庫12a中可儲存多組目標資訊，供需求端(如品牌媒體或公關公司)統計分析各時期之熱門話題，如下表所示：

綜上所述，本發明之文字辨識系統及方法，主要藉由該收集模組與該辨識模組之配合，以從Youtube直播、Facebook直播、數位電視訊號源或其它影片資料獲取所需之字串資料，供後續需求端應用，故相較於習知外掛軟體，本發明能有效獲取字串資料，而不受該影像資訊之背景干擾之影響，因而能減少影響辨識正確率之機率，且本發明之收集模組能產生文字截圖，再以辨識模組從該文字截圖中直接辨識出字串資料，因而能大幅提高辨識正確率。

因此，若需求端(如品牌公關部門、媒體公關部門、公關公司等)需即時掌握大眾輿情，藉由該文字辨識系統1所提供之目標資訊能更快掌握多台電視(或社群網路平台)之輿情。

再者，將直播內容透過AI技術之辨識模組獲取字幕內容(字串資料)，且將該字串資料與字幕發生時間(截圖時間)與原始畫面(或圖片)一併存入該資料庫，使需求端之分析師更易於透過搜尋引擎(如Google)快速摘錄特定時間範圍內的大眾輿情與相關截圖。

又，本發明之文字辨識系統之辨識成果可用於使用者預先註冊追蹤特定字詞或特定輿情快訊，當該文字辨識系統擷取的內容包含特定字詞或特定輿情快訊時，本發明之文字辨識系統之辨識成果可結合推播系統(如Line、E-mail或其它通訊方式等)告知使用者，以令使用者(或企業)能以更高效率掌握多家新聞媒體輿情，有效將反應時間縮減至分鐘內。

另外，當該進階資訊(或字串資料)累積一段時間後，需求端可整合如自然語言處理等之分類技術進行統計分析，例如，分析過往各主題於各新聞媒體直播的秒數與出現頻率。進一步，使用者可同時監看多方的Youtube影音或其它來源等之新聞頻道，而不需額外雇用多位監播人員觀看，以利於提供24小時不間斷監播之服務，使需求端(如公關團隊)能更輕鬆且即時掌握所需之輿情。

上述實施形態僅例示性說明本發明之原理、特點及其功效，並非用以限制本發明之可實施範疇，任何熟習此項技藝之人士均可在不違背本發明之精神及範疇下，對上述實施形態進行修飾與改變。任何運用本發明所揭示內容而完成之等效改變及修飾，均仍應為申請專利範圍所涵蓋。因此，本發明之權利保護範圍，應如申請專利範圍所列。