TWI782436B

TWI782436B - 顯示系統以及與顯示系統互動之方法

Info

Publication number: TWI782436B
Application number: TW110107751A
Authority: TW
Inventors: 李瑋城; 謝昀龍
Original assignee: 圓展科技股份有限公司
Priority date: 2021-03-04
Filing date: 2021-03-04
Publication date: 2022-11-01
Also published as: TW202236257A; US11704090B2; US20220283776A1

Abstract

一種與顯示系統互動之方法，其包含：透過音訊輸入裝置接收音訊；利用語音文字轉換模組將音訊轉換為對應的文字資料；根據文件檔案產生對應的影像畫面；利用分析模組自文件檔案擷取對應於影像畫面的複數筆辨識資料；比對文字資料與辨識資料；以及若文字資料對應於辨識資料的其中之一，依據辨識資料的其中之的座標資訊，於影像畫面上透過顯示系統移動或顯示一指標。

Description

顯示系統以及與顯示系統互動之方法

一種顯示系統以及與顯示系統互動之方法，特別是關於一種將音訊轉換為文字的顯示系統以及與顯示系統互動之方法。

一般情況下，當使用者利用投影片或是其他類型的文件檔案進行演講時，常需要配合手動操作電腦裝置的滑鼠指標或是雷射筆指標，以在投影片上標示出目前的演講內容。

然而，上述的手動操作可能會對使用者演說的流暢度造成影響，且雷射筆或是滑鼠指標也不利於遠端視訊的觀眾辨識。

本揭示文件提供一種與顯示系統互動之方法，其包含：透過音訊輸入裝置接收音訊；利用語音文字轉換模組將音訊轉換為對應的文字資料；根據文件檔案產生對應的影像畫面；利用分析模組自文件檔案擷取對應於影像畫面的複數筆辨識資料；比對文字資料與辨識資料；以及若文字資料對應於辨識資料的其中之一，依據辨識資料的其中之的座標資訊，於影像畫面上透過顯示系統移動或顯示一指標。

本揭示文件提供一種顯示系統，其包含顯示模組、音訊輸入裝置、語音文字轉換模組、分析模組以及處理器。顯示模組用以根據文件檔案產生對應的影像畫面。音訊輸入裝置用以接收音訊。語音文字轉換模組耦接音訊輸入裝置，用以將音訊轉換為對應的文字資料。分析模組用以自文件檔案擷取對應於影像畫面的複數筆辨識資料，並將辨識資料儲存於記憶體。處理器耦接記憶體，用以讀取辨識資料並執行以下操作：比對文字資料與辨識資料；以及若文字資料對應於辨識資料的其中之一，依據辨識資料的其中之一的座標資訊於影像畫面移動或顯示一指標。

上述的顯示系統以及顯示系統互動之方法的優點之一，在於能夠即時的根據使用者的演說，自動在文件檔案中標示出對應的演講內容。

100:顯示系統

110:處理器

120:記憶體

130:顯示模組

140:I/O介面

150:匯流排

151:音訊輸入裝置

160:分析模組

161:架構分析單元

162:語意分析單元

163:影像分析單元

170:語音文字轉換模組

MF:文件檔案

200:與顯示系統互動之方法

S210、S220、S230、S240、S250、S260:流程

S231~S232:流程

S251~S254:流程

300:影像畫面

301~303:辨識資料

400:影像畫面

401~403:辨識資料

30,40:指標

P1,P2:圖片

第1圖為根據本揭示文件一些實施例所繪示的顯示系統的示意圖。

第2A~2C圖為根據本揭示文件一些實施例所繪示的與顯示系統互動之方法的流程圖。

第3圖為根據本揭示文件一實施例所繪示的文件檔案的影像畫面的示意圖。

第4圖為根據本揭示文件一實施例所繪示的文件檔案的另一影像畫面的示意圖。

第5圖為根據本揭示文件另一實施例所繪示的文件檔案的另一影像畫面的示意圖。

第6圖為根據本揭示文件又另一實施例所繪示的文件檔案的另一影像畫面的示意圖。

下文係舉實施例配合所附圖式作詳細說明，但所描述的具體實施例僅僅用以解釋本發明，並不用來限定本發明，而結構操作之描述非用以限制其執行之順序，任何由元件重新組合之結構，所產生具有均等功效的裝置，皆為本發明揭示內容所涵蓋的範圍。

在全篇說明書與申請專利範圍所使用之用詞(terms)，除有特別註明外，通常具有每個用詞使用在此領域中、在此揭露之內容中與特殊內容中的平常意義。某些用以描述本揭露之用詞將於下或在此說明書的別處討論，以提供本領域技術人員在有關本揭露之描述上額外的引導。

第1圖為根據本揭示文件一些實施例所繪示的顯示系統100的功能方塊圖。如第1圖所示，顯示系統100 包含處理器110、記憶體120、顯示模組130、輸入/輸出介面140(以下簡稱I/O介面140)、匯流排150以及音訊輸入裝置151。

處理器110、記憶體120、顯示模組130以及I/O介面140可藉由匯流排150彼此通訊耦接，以藉此協同操作。舉例來說，處理器110可以藉由匯流排150讀取或是執行儲存於記憶體120中的文件檔案MF，並藉由顯示模組130顯示文件檔案MF的影像畫面。此外，I/O介面140可作為資料的輸入/輸出的介面，以供外部的輸入裝置(例如，音訊輸入裝置141)透過匯流排150傳送語音資料。

記憶體120中儲存有分析模組160以及語音文字轉換模組170。分析模組160則包含了架構分析單元161、語意分析單元162以及影像分析單元163。在一些實施例中，處理器110用於執行分析模組160中的架構分析單元161以擷取文件檔案MF中關於架構資訊的資料，並執行語意分析單元162以擷取文件檔案MF中關於文字資訊的資料，且執行影像分析單元163以擷取文件檔案MF中關於圖像資訊的資料。語音文字轉換模組170則會將音訊輸入裝置141接收的音訊轉換為對應的文字資料TXT。分析模組160以及語音文字轉換模組170的具體操作將配合後述的第2A~2C圖更詳細地說明。

在一些實施例中，處理器110可以由中央處理器(CPU)、微處理器(MCU)或其他合適的處理器來實現。

在一些實施例中，記憶體120可包含任何類型的系統記憶體，諸如靜態隨機存取記憶體(static random access memory，簡稱SRAM)、動態隨機存取記憶體(dynamic random access memory，簡稱DRAM)，或唯讀記憶體(read-only memory，簡稱ROM)。

在一些實施例中，匯流排150可為任何類型的若干匯流排架構中的一或多者，該等匯流排架構包括記憶體匯流排或記憶體控制器、周邊匯流排、視訊匯流排或其他合適的匯流排。

第2A~2C圖為根據本揭示文件一些實施例所繪示的與顯示系統100互動之方法200的流程圖。為了方便說明，第2A~2C圖所示的互動之方法200的流程是參照第1圖來做說明，但不以其為限。

如第2A圖所示，於流程S210，顯示系統100透過音訊輸入裝置141接收語音資料。顯示系統100並於流程S220利用語音文字轉換模組170將音訊轉換為對應的文字資料TXT。舉例來說，當使用者在進行演說時，音訊輸入裝置141(例如，麥克風)會將使用者的音訊透過I/O介面140與匯流排150，傳送至語音文字轉換模組170轉換為文字資料TXT。實務上，語音文字轉換模組170為一種可以被處理器110執行的應用程式，例如Speechnotes、Speech-to-Text或是其他具有類似功能的應用程式軟體。

於流程S230，顯示模組130依據文件檔案MF產生對應的影像畫面。在一些實施例中，文件檔案MF包含如微軟簡報(Microsoft PowerPoint)、微軟文書(Microsoft Word)或是可攜式文件格式(PDF)等檔案。舉例來說，處理器110可以存取事先儲存於記憶體120中的簡報檔案，並透過顯示模組130顯示出簡報檔案的影像畫面(例如，後述第3圖中的影像畫面300或是第4圖中影像畫面400)。

於流程S240，分析模組160會自文件檔案MF擷取對應於上述影像畫面的複數筆辨識資料，並將上述辨識資料儲存於記憶體120之中。為了方便說明，以下將搭配第3圖來說明第2圖的流程S204，但不以其為限。

第3圖為根據本揭示文件一實施例所繪示的文件檔案MF的影像畫面300的示意圖。如第3圖所示，文件檔案MF的影像畫面300中包含了架構(Layout)資訊(例如，「1.圖一」)、文字資訊(例如，「文字」)和圖像資訊(例如，圖片P1)。在一些實施例中，文件檔案MF的架構資訊包含了文件檔案MF的版面設計(design)、項目符號或是編號，其中版面設計意指影像畫面300中物件的分布或排列方式。

在一些實施例中，於流程S240，上述的架構資訊「1.圖一」會被架構分析單元161擷取出以作為辨識資料301，文字資訊「文字」會被語意分析單元162擷取出以作為辨識資料302，而圖像資訊(例如，圖片P1)會被影像分析單元163擷取出以作為辨識資料303。上述的辨識資料301~303會被儲存於記憶體120，且辨識資料 301~303各自包含「1.圖一」、「文字」和圖片P1於影像畫面300中的座標資訊。

接著，於流程S250，處理器110會將語音文字轉換模組170產生的文字資料TXT與上述的辨識資料301~303比對。若文字資料TXT對應於上述辨識資料301~303的其中一個辨識資料，則於流程S260，顯示系統100會依據上述其中一個辨識資料的座標資訊，於影像畫面300移動或顯示指標30。

舉例來說，當使用者說出「圖一」時，使用者的音訊會被語音文字轉換模組170轉換為對應的文字資料TXT「圖一」，且處理器110會將文字資料TXT「圖一」分別與辨識資料301~303比對。此時，處理器110會判斷出文字資料TXT「圖一」與辨識資料301中的「1.圖一」對應。因此，顯示系統100便會於影像畫面300上將指標30顯示於或是移動至與「1.圖一」對應的座標。

另一方面，若文字資料TXT不對應於辨識資料301~303中的任何一者，則顯示系統100可以再次執行流程S210，以重新開始與顯示系統100互動之方法200。

第4圖為根據本揭示文件一實施例所繪示的文件檔案MF的另一影像畫面400的示意圖。影像畫面300與影像畫面400之差異在於，影像畫面400的架構資訊額外包含了「2.圖二」，文字資訊額外包含了「數字」，而圖片資訊額外包含了圖片P2。

也就是說，架構分析單元161會於流程S240將上述「1.圖一」以及「2.圖二」擷取出以作為辨識資料401，語意分析單元162則會將「文字」以及「數字」擷取出以作為辨識資料402，而影像分析單元163會將圖片P1和P2擷取出以作為辨識資料403，且上述的辨識資料401~403會被儲存於記憶體120。

在第4圖的實施例當中，當使用者說出「圖一」時，處理器110會將文字資料TXT「圖一」分別與辨識資料401~403比對，且當比對辨識資料401時，處理器110更會將文字資料TXT「圖一」分別與辨識資料401中的「1.圖一」以及「2.圖二」比對。

如此一來，當處理器110於流程S260判斷出文字資料TXT「圖一」對應於辨識資料401中的「1.圖一」時，顯示系統100便會於影像畫面400上將指標40顯示於或是移動至與「1.圖一」對應的座標。

值得注意的是，第3圖的指標30與第4圖的指標40的指標箭頭僅為示例性。在其他實施例中，指標30和40亦可以為其他形狀的指標，例如可圍繞目標區域的框線或其他具有類似標示功能的物件。

在一些實施例中，請見第2B圖，流程S230更包含了流程S231以及流程S232。於流程S231，顯示系統100會判斷文件檔案MF對應的影像畫面是否改變。舉例來說，文件檔案MF包含了對應於影像畫面300的第一張投影片，以及對應於影像畫面400的第二張投影片。當使用者從播放第一張投影片切換到播放第二張投影片時，顯示模組130上的影像畫面300會變化為影像畫面400。如此一來，顯示系統100會藉由執行流程S240，以擷取對應於影像畫面400的辨識資料401~403，並將辨識資料401~403儲存於記憶體120。

另一方面，若使用者並沒有切換播放的投影片，則顯示模組130的影像畫面300不會產生變化。因此，顯示系統100不需要重複擷取對應於影像畫面300的資料。顯示系統100可於流程S232，直接從記憶體120中讀取辨識資料301~303。

在一些實施例中，請見第2C圖，流程S250更包含了流程S251~S254。於流程S251，分析模組160會利用語意分析單元162分析使用者語音所轉換成的文字資料TXT，以產生對應的第一字串。在一些實施例中，語意分析單元162可以透過機器學習的類神經網路(Artificial Neural Network，ANN)進行語意分析(semantic analysis)，而從一長串的文字中分析出摘要或是關鍵字。舉例來說，當使用者說出較長的語句「請見以下圖式中的圖一」時，語意分析單元162會從上述較長語句的文字資料TXT中，擷取出適當的關鍵字「圖一」作為第一字串。

於流程S252，處理器110會判斷上述的第一字串是否對應於依據架構資訊產生的辨識資料(例如，辨識資料301、401)。若是，顯示系統100會接續執行流程S260，以依據辨識資料的座標資訊顯示或移動指標。處理器110 判斷第一字串(例如，「圖一」)是否對應於依據架構資訊產生的辨識資料的流程與前述段落類似，在此不再贅述。

另一方面，若第一字串不對應於依據架構資訊產生的辨識資料(例如，辨識資料301或401)，則於流程S253，處理器110會接著判斷第一字串是否對應於依據文字資訊產生的辨識資料(例如，辨識資料302或402)。舉例來說，當語意分析單元162從文字資料TXT「數字的總和」擷取出關鍵字「數字」作為第一字串時，若處理器110判斷出第一字串「數字」無法對應於辨識資料301，處理器110會繼續將第一字串「數字」與辨識資料302比對。類似地，若處理器110判斷出第一字串「數字」無法對應於辨識資料401時，處理器110會繼續將第一字串「數字」與辨識資料402比對。

在一些實施例中，處理器110在比對第一字串與依據文字資訊產生的辨識資料(例如，辨識資料302或402)時，處理器110會計算第一字串與辨識資料的匹配指數，以判斷第一字串是否對應於文字資訊。在本揭示文件的實施例中，處理器110會基於自然語言處理(Natural Language Processing，簡稱NLP)計算出第一字串與辨識資料的匹配指數，但本揭示文件不以此為限。匹配指數代表第一字串與辨識資料之間詞彙的相似程度。也就是說，匹配指數越高則第一字串與辨識資料的相似程度越高。若匹配指數大於或等於預設值，則處理器110會判斷第一字串對應於依據文字資訊產生的辨識資料，其中匹配指數越高代表依據文字資訊產生的辨識資料與第一字串的對應程度越高。

舉例來說，請見第3圖，當處理器110在比對第一字串「數字」與辨識資料302時，處理器110會計算出第一字串「數字」與辨識資料302「文字」的匹配指數。由於第一字串「數字」與辨識資料302「文字」的對應程度較低，上述的匹配指數會低於預設值。因此，處理器110會判斷第一字串不對應於辨識資料302，而接續進行流程S254。

此外，以第5圖舉例來說，當處理器110在比對第一字串「數字」與辨識資料402時，處理器110會計算出第一字串「數字」分別對應於辨識資料402的「文字」以及「數字」的匹配指數。由於辨識資料402中「數字」對應於第一字串「數字」而具有高於預設值的匹配指數，顯示系統100會執行流程S260，以於影像畫面400中將指標40顯示於或移動至與「數字」對應的座標。

於流程S254，處理器110會判斷第一字串是否對應於圖像資訊的資料(例如，辨識資料303或403)。以第3圖舉例來說，當語意分析單元162從文字資料TXT「南極的企鵝」擷取出關鍵字「企鵝」作為第一字串時，第一字串無法與影像畫面300中的辨識資料301以及302對應時(亦即流程S252和流程S253的判斷皆為「否」)，處理器110會接著比對第一字串與辨識資料303中的圖片P1。類似地，當第一字串無法與影像畫面400中的辨識資料401以及402對應時，處理器110會接著比對第一字串與辨識資料403中的圖片P1和P2。

在一些實施例中，處理器110在比對第一字串與依據圖像資訊產生的辨識資料時，處理器110會計算第一字串與依據圖像資訊產生的辨識資料的匹配指數，以判斷第一字串是否對應於依據圖像資訊產生的辨識資料。若匹配指數大於或等於預設值，則處理器110會判斷第一字串對應於依據圖像資訊產生的辨識資料，其中匹配指數越高代表依據圖像資訊產生的辨識資料與第一字串的對應程度越高。

以第6圖舉例來說，處理器110會分別計算出圖片P1、P2各自與第一字串「企鵝」的匹配指數。由於圖片P1對應於第一字串「企鵝」而具有高於預設值的匹配指數，顯示系統100會執行流程S260，於影像畫面400中將指標40顯示於或移動至對應圖片P1的座標。

另一方面，若第一字串「企鵝」無對應於圖片P1或是P2的任何一者，則顯示系統100可以再次執行流程S210以重新開始顯示系統100互動之方法200。

雖然本揭示內容已以實施方式揭露如上，然其並非用以限定本揭示內容，任何本領域具通常知識者，在不脫離本揭示內容之精神和範圍內，當可作各種之更動與潤飾，因此本揭示內容之保護範圍當視後附之申請專利範圍所界定者為準。

200:與顯示系統互動之方法

S210、S220、S230、S240、S250、S260:流程

Claims

一種與顯示系統互動之方法，包含：透過一音訊輸入裝置接收一音訊；利用一語音文字轉換模組將該音訊轉換為對應的一文字資料；根據一文件檔案產生對應的一影像畫面；利用一分析模組自該文件檔案擷取對應於該影像畫面的複數筆辨識資料，其中該些辨識資料包含一第一辨識資料、一第二辨識資料以及一第三辨識資料，其中該第一辨識資料對應於該文件檔案之架構資訊，該第二辨識資料對應於該文件檔案之文字資訊，而該第三辨識資料對應於該文件檔案之圖像資訊；比對該文字資料與該些辨識資料；以及若該文字資料對應於該些辨識資料的其中之一，依據該些辨識資料的該其中之一的一座標資訊，於該影像畫面上透過一顯示系統移動或顯示一指標；其中比對該文字資料與該些辨識資料包含：利用該分析模組分析該文字資料以產生一第一字串；以及比對該第一字串與該影像畫面的該第一辨識資料，其中若該第一辨識資料對應該第一字串，則該顯示系統依據該第一辨識資料的該座標資訊移動或顯示該指標，若該第一辨識資料不對應該第一字串，則將該第一字串與該影像畫面的該第二辨識資料以及該第三辨識資料比對；其中將該第一字串與該影像畫面的該第二辨識資料以及該第三辨識資料比對包含：根據該第一字串與該第二辨識資料計算一第一匹配指數；以及若該第一匹配指數小於一預設值，則根據該第一字串與該第三辨識資料計算一第二匹配指數，其中該第一匹配指數越高，則該第一字串與該第二辨識資料的匹配程度越高，該第二匹配指數越高，則該第一字串與該第三辨識資料的匹配程度越高。
如請求項1所述之與顯示系統互動之方法，其中該文件檔案之架構資訊包含該文件檔案的版面設計(design)、項目符號或是項目編號。
一種與顯示系統互動之方法，包含：透過一音訊輸入裝置接收一音訊；利用一語音文字轉換模組將該音訊轉換為對應的一文字資料；根據一文件檔案產生對應的一影像畫面，其中更判斷該文件檔案對應的該影像畫面是否改變，當判斷該影像畫面改變，擷取對應於改變後之該影像畫面的複數筆辨識資料，並將該些辨識資料儲存於一記憶體；利用一分析模組自該文件檔案擷取對應於該影像畫面的該些辨識資料；比對該文字資料與該些辨識資料；以及若該文字資料對應於該些辨識資料的其中之一，依據該些辨識資料的該其中之一的一座標資訊，於該影像畫面上透過一顯示系統移動或顯示一指標。
一種顯示系統，包含：一顯示模組，用以根據一文件檔案產生對應的一影像畫面；一音訊輸入裝置，用以接收一音訊；一語音文字轉換模組，耦接該音訊輸入裝置，用以將該音訊轉換為對應的一文字資料；一分析模組，用以自該文件檔案擷取對應該影像畫面的複數筆辨識資料，並將該些辨識資料儲存於一記憶體；一處理器，耦接該記憶體及該顯示模組，用以讀取該些辨識資料，其中該些辨識資料包含一第一辨識資料、一第二辨識資料以及一第三辨識資料，其中該第一辨識資料包含該文件檔案之架構資訊，該第二辨識資料包含該文件檔案之文字資訊，而該第三辨識資料包含該文件檔案之圖像資訊，且該處理器執行以下操作：比對該文字資料與該些辨識資料；以及若該文字資料對應於該些辨識資料的其中之一，依據該些辨識資料的該其中之一的一座標資訊，於該影像畫面上移動或顯示一指標：其中該分析模組包含：一語意分析單元，用以擷取該文件檔案對應該影像畫面的該第二辨識資料，並且根據該文字資料產生一第一字串；以及一影像分析單元，用以擷取該文件檔案對應該影像畫面的該第三辨識資料，其中當該處理器被設置為比對該文字資料與該些辨識資料時，該處理器進一步被設置為執行：比對該第一字串與該第一辨識資料，其中若該第一辨識資料對應於該第一字串，則依據該第一辨識資料的該座標資訊，於該影像畫面移動或顯示該指標；若該第一辨識資料不對應於該第一字串，則將該第一字串與該第二辨識資料以及該第三辨識資料比對，其中當該處理器被設置為將該第一字串與該第二辨識資料以及該第三辨識資料比對時，該處理器進一步被設置為執行：根據該第一字串與該第二辨識資料計算一第一匹配指數；以及若該第一匹配指數小於一預設值，則根據該第一字串與該第三辨識資料計算一第二匹配指數，其中該第一匹配指數越高，則該第一字串與該第二辨識資料的匹配程度越高，該第二匹配指數越高，則該第一字串與該第三辨識資料的匹配程度越高。
如請求項4所述之顯示系統，其中該文件檔案之架構資訊包含該文件檔案的版面設計、項目符號或是項目編號。