TWI783718B

TWI783718B - 可應用於在顯示裝置中進行實時視頻內容文字檢測和語音自動生成之顯示控制積體電路

Info

Publication number: TWI783718B
Application number: TW110137354A
Authority: TW
Inventors: 江冠廷; 詹鈞傑; 楊昇儒
Original assignee: 瑞昱半導體股份有限公司
Priority date: 2021-10-07
Filing date: 2021-10-07
Publication date: 2022-11-11
Also published as: TW202316374A; US20230113757A1

Abstract

本發明提供可應用於在一顯示裝置中進行實時視頻內容文字檢測和語音自動生成之顯示控制積體電路，該顯示控制積體電路可包含：一預處理電路、一字元辨識電路以及一後處理電路。該預處理電路可輸入一視頻訊號以取得該視頻訊號所載有的一實時視頻內容，且對該實時視頻內容進行初步的文字檢測以產生一系列分割的字元影像以指出一字幕。該字元辨識電路可分別對該系列分割的字元影像進行字元辨識以產生一系列字元。該後處理電路可對該系列字元進行字彙更正以選擇性地用一正確字元取代任一錯誤字元以產生一或多個字彙，以供進行語音自動生成。

Description

可應用於在顯示裝置中進行實時視頻內容文字檢測和語音自動生成之顯示控制積體電路

本發明係有關於顯示控制，尤指一種可應用於(applicable to)在一顯示裝置中進行實時視頻內容文字檢測和語音自動生成之顯示控制積體電路。

依據相關技術，影像至語音(image-to-speech)轉換系統可產生人類聽得懂的聲音以幫助有需要的人，且可用學習基礎的(learning-based)轉換架構來實現，例如，經由各種不同的神經網路訓練。學習基礎的轉換架構之辨識結果可以非常準確，但可能發生某些問題。例如，學習基礎的轉換架構於辨識時所進行的計算的時間複雜度與空間複雜度都極高，提高了辨識所需的時間。因此，需要一種新穎的方法及相關架構，以在無副作用或較少副作用之狀況下實現精巧(compact)、快速且可靠的影像至語音轉換系統。

本發明之一目的在於提供一種可應用於在一顯示裝置中進行實時視頻內容文字檢測和語音自動生成之顯示控制積體電路，以解決上述問題。

本發明之另一目的在於提供一種可應用於在一顯示裝置中進行實時視頻內容文字檢測和語音自動生成之顯示控制積體電路，以將該顯示裝置配置成精巧、快速且可靠的影像至語音轉換系統。

本發明之至少一實施例提供一種顯示控制積體電路，其是可應用於在一顯示裝置中進行實時視頻內容文字檢測和語音自動生成。該顯示控制積體電路可包含一預處理電路、耦接至該預處理電路之一字元辨識電路、以及耦接至該字元辨識電路之一後處理電路。例如，該預處理電路可用來接收一視頻訊號以取得該視頻訊號所載有(carry)的一實時視頻內容，且對該實時視頻內容進行初步的(preliminary)文字檢測以產生一系列分割的(segmented)字元影像以指出一字幕；該字元辨識電路可用來分別對該系列分割的字元影像進行字元辨識以產生對應該字幕的一系列字元；以及該後處理電路可用來對該系列字元進行字彙更正以選擇性地用一正確字元取代任一錯誤字元，以產生一或多個字彙，以供進行語音自動生成。

本發明的好處之一是，透過仔細設計之顯示控制及額外處理機制，本發明的顯示控制積體電路能在顯示視頻的期間對影像內容進行實時文字檢測以自動地生成字幕資訊，以供轉換為語音資訊來進行語音輸出。另外，本發明的顯示控制積體電路能提供精巧、快速且可靠的影像至語音轉換系統，其可用非學習基礎的(non-learning-based)轉換架構來實現，其中時間複雜度與空間複雜度可被大幅地降低。相較於相關技術，本發明的顯示控制積體電路能在無副作用或較低副作用之狀況下實現具有影像至語音轉換功能之顯示裝置。

10:顯示裝置

10P:顯示輸出模組

10B:主電路板

10A:音頻輸出模組

100:顯示控制積體電路(IC)

101:影像處理電路

110:預處理電路

111:文字檢測電路

111S:儲存單元

112:去噪電路

113:字元隔離電路

120:字元辨識電路

130:後處理電路

140:字彙至語音(V2S)轉換電路

DP_in:視頻輸入端子

A_out:音頻輸出端子

DP_IN:視頻輸入埠

A_OUT:音頻輸出埠

IMG_IN:視頻訊號

SIG_CHAR:分割的字元影像訊號

SIG_STRING:字串訊號

SIG_VOCABULARY:字彙訊號

SIG_SPEECH:語音訊號

ThinLine_ROI:目標區域

Frame(t)~Frame(t+n):訊框

CLASS_A,CLASS_B,CLASS_C:類別

THD:閾值

OFFSET:偏移值

FEATURE:特徵值

INT_Background:背景區間

INT_ThinLine:線區間

L1,L2:垂直參考線

BASE,H0,H1,H2:參數

θ:傾斜角

第1圖為依據本發明一實施例之一種可應用於在一顯示裝置中進行實時視頻內容文字檢測和語音自動生成之顯示控制積體電路的示意圖。

第2圖依據本發明一實施例繪示一種在一顯示裝置諸如第1圖所示之顯示裝置中進行實時視頻內容文字檢測和語音自動生成之方法的一實時多重處理控制方案，其中該方法可應用於第1圖所示之顯示裝置及其內的顯示控制積體電路。

第3圖依據本發明一實施例繪示該方法的一影像濾波及目標區域控制方案。

第4圖依據本發明一實施例繪示該方法的一冗餘處理避免(redundant-processing prevention)控制方案。

第5圖依據本發明一實施例繪示該方法的一字元影像隔離/分割(isolation/segmentation)控制方案。

第6圖依據本發明一實施例繪示該方法的一字元分類及辨識控制方案。

第7圖依據本發明一實施例繪示該方法的一字彙更正控制方案。

第8圖依據本發明一實施例繪示該方法的一像素基礎的(pixel-based)線及背景檢測控制方案。

第9圖依據本發明一實施例繪示該方法的一文字影像預處理控制方案。

第1圖為依據本發明一實施例之一種可應用於在一顯示裝置10中進行實時視頻內容文字檢測和語音自動生成之顯示控制積體電路(integrated circuit，簡稱IC)100的示意圖，其中顯示控制IC 100可位於顯示裝置10中，尤其，可被安裝(mount)於顯示裝置10的一主電路板10B(例如印刷電路板)上，但本發明不限於此。於某些實施例中，主電路板10B可被取代為顯示裝置10中的另一電路板，諸如一或多個次要電路板中的任一電路板。

顯示裝置10可包含一顯示輸出模組10P(例如，一顯示面板諸如一液晶顯示器(Liquid Crystal Display,LCD)面板)、主電路板10B連同其上的顯示控制IC 100、音頻輸出模組10A、一視頻輸入埠DP_IN以及一音頻輸出埠A_OUT，而顯示控制IC 100可包含多個端子諸如一視頻輸入端子DP_in和一音頻輸出端子A_out，且可包含多個子電路諸如一影像處理電路101、一預處理電路110、一字元辨識電路120、一後處理電路130以及一字彙至語音(Vocabulary-to-Speech，簡稱V2S)轉換電路140，其中位於影像處理電路101中之一控制電路(未顯示)可控制該多個子電路以控制顯示控制IC 100的操作。顯示控制IC 100可包含一儲存單元以作為該多個子電路的其中之一，而該多個子電路中的某些其它子電路(例如，影像處理電路101、預處理電路110、字元辨識電路120、後處理電路130以及V2S轉換電路140)可共享該儲存單元，其中該儲存單元可包含至少一線緩衝器(line buffer)，但本發明不限於此。例如，該儲存單元可被整合至該多個子電路中的某一子電路，諸如影像處理電路101、預處理電路110等中的任一者。

於第1圖所示架構中，主電路板10B(例如，其內的顯示控制IC 100，尤其，影像處理電路101)可控制顯示裝置10的操作，而這些操作可包含但不限於：(1)進行視頻預處理操作，諸如串流轉換、視頻格式轉換等；(2)進行影像處理諸如影像亮度調整、色溫調整等；(3)進行顯示輸出控制，尤其，產生相關顯示控制訊號以控制顯示輸出模組10P顯示一或多個畫面；以及(4)利用顯示裝置10的一使用者輸入裝置(例如一或多個按鈕)接收顯示裝置10之一使用者的一或多個使用者輸入，且利用顯示輸出模組10P進行螢幕上顯示(on-screen display，簡稱OSD)以引導該使用者來和顯示裝置10互動，例如，引導該使用者透過該使用者輸入裝置來提供該一或多個使用者輸入的任一者；其中顯示裝置10及其內的顯示控制IC 100可符合一或多個特定標準，諸如視頻電子標準協會(Video Electronics Standards Association，簡稱VESA)的顯示埠(Display Port，簡稱DP)標準，而顯示控制IC 100透過視頻輸入埠DP_IN和視頻輸入端子DP_in從一視頻來源裝置輸入之一輸入視頻訊號可符合一預定封包格式諸如該DP標準之一封包格式，但本發明不限於此。另外，顯示控制IC 100(例如，該控制電路)可選擇性地啟用或停用顯示控制IC 100之至少一額外功能的操作，例如，響應於該一或多個使用者輸入的該任一者。該至少一額外功能的相關操作可包含預處理電路110、字元辨識電路120、後處理電路130、V2S轉換電路140、音頻輸出模組10A等的操作。

在上列實施例中，該視頻來源裝置的例子可包含(但不限於)：個人電腦諸如桌上型電腦和膝上型電腦。

第2圖依據本發明一實施例繪示一種在一顯示裝置諸如第1圖所示之顯示裝置中進行實時視頻內容文字檢測和語音自動生成之方法的一實時多重處理控制方案，其中該方法可應用於第1圖所示之顯示裝置10及其內的顯示控制IC 100。影像處理電路101可對該輸入視頻訊號進行訊號預處理諸如上述之視頻預處理操作以產生一視頻訊號IMG_IN，以供進行該至少一額外功能的相關操作，但本發明不限於此。依據某些實施例，當該輸入視頻訊號的視頻格式是適合直接用於這些操作時，影像處理電路101可旁通該輸入視頻訊號以作為視頻訊號IMG_IN。另外，預處理電路110可包含一文字檢測(text detection)電路111、一去噪(denoise)電路112以及一字元隔離(character isolation)電路113，而文字檢測電路111可包含一儲存單元111S，其可作為上述之儲存單元的例子。為了便於理解，第2圖所示架構中的元件之間的箭頭可指出某些資料流，但本發明不限於此。例如，文字檢測電路111、去噪電路112、字元隔離電路113、字元辨識電路120等可共享儲存單元111S。又例如，當有需要時，此架構中的元件之任一元件可和這些元件之另一元件溝通。

預處理電路110可接收視頻訊號IMG_IN以取得視頻訊號IMG_IN所載有(carry)的一實時視頻內容，且對該實時視頻內容進行初步的(preliminary)文字檢測以產生一系列分割的(segmented)字元影像以指出該實時視頻內容當中的一字幕，並且透過一分割的字元影像訊號SIG_CHAR將該系列分割的字元影像傳送至字元辨識電路120。儲存單元111S可儲存該實時視頻內容的局部(partial)影像，以供進行該初步的文字檢測，其中該局部影像可對應於超過一列(row)的像素資料，諸如一預定數量的多個列的像素資料。例如，文字檢測電路111可依據該實時視頻內容進行該初步的文字檢測，尤其，可對該實時視頻內容進行影像過濾以產生一過濾影像，於該過濾影像中找出具有多個線(line)的一文字區域以作為一目標區域，且取得位於該目標區域的至少一存在文字(text-existence)影像(例如一或多個存在文字影像)，以供進一步處理。去噪電路112可對該至少一存在文字影像進行去噪處理以產生至少一去噪文字影像(例如一或多個去噪文字影像)，其中該去噪處理可移除影像中的雜訊且保留重要的資訊，以避免後續處理之可能的錯誤。字元隔離電路113可對該至少一去噪文字影像進行字元隔離，以分割(segment)該至少一去噪文字影像成為該系列分割的字元影像。另外，字元辨識電路120可分別對該系列分割的字元影像進行字元辨識以產生對應該字幕的一系列字元，並且透過一字串訊號SIG_STRING將該系列字元傳送至後處理電路130。由於去噪電路112已預先進行該去噪處理，故字元辨識電路120所進行之該字元辨識的準確度可被大幅地提升。後處理電路130可對該系列字元進行字彙更正以選擇性地用一正確字元取代任一錯誤字元，以產生一或多個字彙，以供進行語音自動生成，尤其，透過一字彙訊號SIG_VOCABULARY將該一或多個字彙諸如該組字彙傳送至V2S轉換電路140以進行語音自動生成。此外，V2S轉換電路140可對該一或多個字彙諸如該組字彙進行V2S轉換以產生對應於該一或多個字彙之一音頻訊號，諸如語音訊號SIG_SPEECH，以供進行語音輸出。舉例來說，V2S轉換電路140可包含一波形產生器(未顯示)，且可利用該波形產生器依據該一或多個字彙產生語音，但本發明不限於此。

在上列實施例中，儲存單元111S可藉由線緩衝器等方式來實施。

第3圖依據本發明一實施例繪示該方法的一影像濾波及目標區域控制方案。第3圖最左側所示畫面可作為上述實時視頻內容的例子，第3圖正中央所示畫面可作為該過濾影像的例子，而第3圖最右側所示畫面中之目標區域ThinLine_ROI及其內的存在文字影像可分別作為上述之目標區域及位於該目標區域的該至少一存在文字影像的例子。由於文字檢測電路111可進行線檢測諸如細線檢測(thin-line detection，可簡稱為TLD)以判定該多個線(例如該存在文字影像中之文字的筆劃)之存在來判定目標區域ThinLine_ROI，故目標區域ThinLine_ROI可視為一細線檢測基礎的(TLD-based)有興趣區域(region of interest,ROI)。基本上，該有興趣區域對應於實時視頻內容當中的至少一字幕。為了簡明起見，於本實施例中類似的內容在此不重複贅述。

第4圖依據本發明一實施例繪示該方法的一冗餘處理避免(redundant-processing prevention)控制方案。視頻訊號IMG_IN所載有的上述實時視頻內容可代表視頻訊號IMG_IN的多個訊框中之任一訊框所載有的視頻內容，諸如對應於該任一訊框之畫面。該多個訊框可包含訊框Frame(0)、Frame(1)等，而該多個訊框中之一系列連續的訊框可包含訊框Frame(t)~Frame(t+n)，其中符號「t」可代表對應於時間之一時間索引，而符號「n」可代表正整數。文字檢測電路111可監控該至少一存在文字影像是否出現在該系列連續的訊框(例如訊框Frame(t)~Frame(t+n))之各自的過濾影像，以避免觸發針對該至少一存在文字影像的重複處理(諸如於連續訊框中多次出現的相同字幕之情況下的重複處理)。例如，訊框Frame(t)~Frame(t+n)可具有相同的字幕文字影像。文字檢測電路111可控制預處理電路110避免冗餘處理，尤其，可控制第2圖所示架構避免冗餘處理。

為了便於理解，假設n>1，該系列連續的訊框可包含訊框Frame(t)、Frame(t+1)、...和Frame(t+n)。文字檢測電路111可進行針對訊框Frame(t)之該初步的文字檢測以判定目標區域ThinLine_ROI及其內的存在文字影像，並且，於進行針對訊框Frame(t+1)~Frame(t+n)之該初步的文字檢測時，檢測到相同的目標區域ThinLine_ROI及相同的存在文字影像存在於訊框Frame(t)~Frame(t+n)之各自的過濾影像，這可指出：(1)相同的字串(例如相同的字)存在於訊框Frame(t)~Frame(t+n)；以及(2)針對訊框Frame(t+1)~Frame(t+n)之後續處理屬於冗餘處理，且是不必要的；其中文字檢測電路111可避免重複地輸出相同的目標區域ThinLine_ROI中的相同的存在文字影像至去噪電路112，以控制第2圖所示架構避免冗餘處理。於是，顯示控制IC 100(例如文字檢測電路111)可減少或消除語音輸出結果的不連續性，尤其，確保一完整的句子被生成及輸出，且避免相同的句子被重複地被生成及輸出。為了簡明起見，於本實施例中類似的內容在此不重複贅述。

第5圖依據本發明一實施例繪示該方法的一字元影像隔離/分割(isolation/segmentation)控制方案。第5圖最上方所示的多個文字影像(例如分別具有英文文字「With」、「workshops,」、「seminars」、「and」、「events」、「other」和「as」之文字影像)可作為上述至少一去噪文字影像的例子，而第5圖最下方所示的多個分割的字元影像(例如分別具有字元「w」、「o」、「r」、「k」、「s」、「h」、「o」、「p」、「s」和「,」的字元影像)可作為該系列分割的字元影像的例子。字元隔離電路113可對該至少一去噪文字影像諸如具有文字「workshops,」之文字影像進行字元隔離/分割以取得該系列分割的字元影像諸如分別具有字元「w」、「o」、「r」、「k」、「s」、「h」、「o」、「p」、「s」和「,」的字元影像。於是，顯示控制IC 100(例如字元隔離電路113)可降低該字元辨識的難度，尤其，提升該字元辨識的準確度。為了簡明起見，於本實施例中類似的內容在此不重複贅述。

第6圖依據本發明一實施例繪示該方法的一字元分類及辨識控制方案。字元辨識電路120可依據多個預定字元資料集中之任一預定字元資料集來判定該系列分割的字元影像與該任一預定字元資料集之間的相似性，以從該系列分割的字元影像辨識出該系列字元。尤其，該多個預定字元資料集可代表多個預定類別之各自的已知資料集。基於該多個預定類別諸如類別CLASS_A、CLASS_B、CLASS_C等，字元辨識電路120可對該系列分割的字元影像中的任一分割的字元影像進行該字元辨識以產生該系列字元中之一對應的字元，例如，藉由判定該任一分割的字元影像以及該多個預定類別之上述各自的已知資料集之間的相似性，其中該多個預定類別之上述各自的已知資料集可包含多個預定字元之各自的多組字元影像之各自的特徵值。在監督式學習中，所有的資料皆屬於被標註的(labeled)資料。當接收到該任一分割的字元影像時，字元辨識電路120可提取該任一分割的字元影像的特徵值FEATURE(例如第8圖所示)，且分別檢查特徵值FEATURE與已標註的資料集當中之特徵值的相似性，來判定該對應的字元。例如，關於類別CLASS_A、CLASS_B和CLASS_C之相似性檢查結果分別為0.18、0.6和0.22，這指出該任一分割的字元影像和類別CLASS_B之間的相似性最高(相較於該任一分割的字元影像和任一其餘類別之間的相似性)，所以字元辨識電路120可判定新資料屬於CLASS_B。為了簡明起見，於本實施例中類似的內容在此不重複贅述。

第7圖依據本發明一實施例繪示該方法的一字彙更正控制方案。第7圖最上方所示的一組分割的字元影像(例如分別具有字元「e」、「v」、「e」、「n」、「t」和「s」的字元影像)可作為該系列分割的字元影像的例子，第7圖正中央所示之「eue？ts」(分別標示於同一組分割的字元影像之下方)可代表對應的字元辨識結果諸如該系列字元，而第7圖最下方所示的這個正確的字彙「events」可作為該一或多個字彙的例子，其中本實施例中之符號「？」可代表未被辨識出的字元。

後處理電路130可依據一預定字彙資料集來判定是否存在該任一錯誤字元，以供選擇性地用該正確字元取代該任一錯誤字元。假設該系列字元代表字彙「events」，後處理電路130可檢測到此字彙「events」和該預定字彙資料集中的字彙「events」吻合，且因此判定不存在該任一錯誤字元。如第7圖所示，在該系列字元代表「euets」(且第二個e與t間有一未被辨識出之字元)的情況下，後處理電路130可檢測到「euets」不屬於該預定字彙資料集中的任一字彙，且因此判定存在該任一錯誤字元。後處理電路130可依據一預定字彙更正演算法分別將該預定字彙資料集中之所有字彙和該系列字元進行比較，以將該系列字元諸如「euets」自動地更正為正確的字彙「events」。為了簡明起見，於本實施例中類似的內容在此不重複贅述。

第8圖依據本發明一實施例繪示該方法的一像素基礎的(pixel-based)線及背景檢測控制方案。文字檢測電路111可計算一當前像素和多個鄰近像素之各自的特徵值{FEATURE}，且依據該當前像素和該多個鄰近像素之各自的特徵值{FEATURE}是否落入多個預定區間(predetermined interval)中之一背景區間INT_Background或一線區間INT_ThinLine，來判定該當前像素和該多個鄰近像素是否屬於背景或該多個線中的任一線，其中背景區間INT_Background和線區間INT_ThinLine可藉由至少一閾值(例如一或多個閾值)諸如閾值THD來定義。以該當前像素為例，如果該當前像素之特徵值FEATURE落入背景區間INT_Background，這可指出該當前像素屬於背景的機率較大，則文字檢測電路111可判定該當前像素屬於背景。如果該當前像素之特徵值FEATURE落入線區間INT_ThinLine，這可指出該當前像素屬於線諸如細線的機率較大，則文字檢測電路111可判定該當前像素屬於該多個線中的該任一線。

如第8圖所示，背景區間INT_Background和線區間INT_ThinLine可分別等同於區間(-∞,THD]和區間[(THD+OFFSET),∞)，其中符號「OFFSET」可代表一偏移值。閾值THD和偏移值OFFSET的和(THD+OFFSET)可視為異於閾值THD的另一閾值，所以該另一閾值諸如這個和(THD+OFFSET)可作為該至少一閾值的例子。為了簡明起見，於本實施例中類似的內容在此不重複贅述。

第9圖依據本發明一實施例繪示該方法的一文字影像預處理控制方案。文字檢測電路111可進行文字影像預處理，尤其，檢測該目標區域中之該至少一存在文字影像是否有需要傾斜修正(tilt correction)、及/或梯形修正(keystone correction)，以選擇性地進行這些修正。如第9圖所示，文字檢測電路111可沿著垂直參考線L1和L2對該至少一存在文字影像進行像素檢測以判定參數H0、H1和H2，其中參數H1和H2可分別代表沿著垂直參考線L1和L2所檢測到之細線分布的範圍，而參數H0可代表沿著垂直方向的偏移。已知參數BASE代表一預定距離諸如垂直參考線L1和L2之間的距離，文字檢測電路111可依據參數BASE和H0計算該至少一存在文字影像的傾斜角θ。文字檢測電路111可依據參數BASE、H0、H1和H2以及傾斜角θ進行相關計算以進行該文字影像預處理諸如該傾斜修正、梯形修正等。為了簡明起見，於本實施例中類似的內容在此不重複贅述。

以上所述僅為本發明之較佳實施例，凡依本發明申請專利範圍所做之均等變化與修飾，皆應屬本發明之涵蓋範圍。