TW202412516A

TW202412516A - 遠端視訊系統以及遠端視訊方法

Info

Publication number: TW202412516A
Application number: TW112133267A
Authority: TW
Inventors: 余俊彥; 吳庭瑋; 劉顓瑜
Original assignee: 仁寶電腦工業股份有限公司
Priority date: 2022-09-01
Filing date: 2023-09-01
Publication date: 2024-03-16

Abstract

本發明提供一種遠端視訊系統以及遠端視訊方法。對終端影像進行辨識處理，以辨識出複數個定位元件。擷取複數個定位元件之中彼此相鄰的複數個目標定位元件所包括的畫面，以產生複數個辨識畫面。輸出複數個辨識畫面，並且複數個辨識畫面顯示於電子裝置的顯示器上。透過偵測手部畫面，進而根據手部大小參數以及手部焦點區域，以及將對應的辨識畫面調整成畫面放大區域。本發明能同時提供多個畫面，藉此提升互動效果。

Description

遠端視訊系統以及遠端視訊方法

本發明是有關於一種視訊處理與數位資訊分享技術，且特別是有關於一種遠端視訊系統以及遠端視訊方法。

現有的遠端視訊系統可以讓位於不同地區的使用者彼此遠端視訊以進行會議。然而，現有的遠端視訊系統僅限於單向地分享數位資訊，而使用者無法同時分享實體環境中的多個資訊。並且，現有的遠端視訊系統雙方無提供針對分享資訊的互動，以及缺乏自動地聚焦或放大使用者於實體環境中想強調的資訊的功能。因此，當使用者需要透過實體環境中的白板或實體資訊進行視訊會議時，使用者需要自行調整與放大視訊畫面，導致使用者無法順利地以及方便地分享實體資訊同時進行講解。

有鑑於此，本發明實施例提供一種遠端視訊系統以及遠端視訊方法，可辨識多個定位元件，並且同時產生多個辨識畫面。

本發明實施例的遠端視訊方法包括(但不僅限於)下列步驟：取得終端影像。對終端影像進行辨識處理，以辨識出複數個定位元件。擷取複數個定位元件之中相鄰的複數個目標定位元件所包括的畫面，以產生複數個辨識畫面。透過通訊收發器輸出複數個辨識畫面，並且將複數個辨識畫面顯示於顯示器。

本發明實施例的遠端視訊系統包括(但不僅限於)影像擷取裝置以及處理器。影像擷取裝置用以擷取終端影像。處理器耦接影像擷取裝置，並經配置用以：對終端影像進行辨識處理，以辨識出複數個定位元件，擷取複數個定位元件之中彼此相鄰的複數個目標定位元件所包括的畫面，以產生複數個辨識畫面，並輸出複數個辨識畫面，其中複數個辨識畫面顯示於電子裝置的顯示器上。

本發明實施例的遠端裝置包括(但不僅限於)通訊收發器以及顯示器。通訊收發器用以接收複數個辨識畫面。顯示器用以顯示複數個辨識畫面。複數個辨識畫面是由對終端影像進行辨識處理，並且擷取終端影像經過辨識處理所產生的複數個定位元件之中彼此相鄰的複數個目標定位元件所產生的。

基於上述，依據本發明實施例的遠端視訊系統以及遠端視訊方法，透過辨識多個定位元件以及多個定位元件的位置，產生多個辨識畫面。並且，透過偵測手部畫面，進而根據手部大小參數以及手部焦點區域，以及將對應的辨識畫面調整成畫面放大區域。藉此，可提升簡報時的操作功能以及簡化畫面聚焦的操作流程，並可提供更方便的遠端視訊系統以及方法。

為讓本發明的上述特徵和優點能更明顯易懂，下文特舉實施例，並配合所附圖式作詳細說明如下。

圖1是依據本發明一實施例的遠端視訊系統的元件方塊圖。在一實施例中，遠端視訊系統包括處理器16以及影像擷取裝置30。在另一實施例中，遠端視訊系統包括遠端裝置20的處理器26，並且遠端裝置20的通訊收發器25用以接收複數個辨識畫面。遠端裝置20的顯示器24用以顯示複數個辨識畫面。在這實施例中，複數個辨識畫面是由終端影像進行辨識處理，並且擷取終端影像經過辨識處理所產生的複數個定位元件之中彼此相鄰的複數個目標定位元件所產生的。終端影像可以是本地端的影像。具體而言，遠端裝置20的顯示器24用於顯示本地裝置10所辨識與影像處理的多個辨識畫面。

在另一實施例中，遠端視訊系統包括(但不僅限於)本地裝置10、影像擷取裝置30以及遠端裝置20。

本地裝置10及遠端裝置20可以是桌上型電腦、筆記型電腦、智慧型手機、平板電腦、穿戴式裝置、智能助理裝置、智能家電、車載系統或其他電子裝置。

本地裝置10包括(但不僅限於)麥克風12、喇叭13、顯示器14、通訊收發器15及處理器16。

影像擷取裝置30可以是相機、攝影機、監視器、智慧型手機或具備影像擷取功能的電路。在一實施例中，影像擷取裝置30還包括處理器31。

麥克風12可以是動圈式(dynamic)、電容式(Condenser)、或駐極體電容(Electret Condenser)等類型的麥克風，麥克風12也可以是其他可接收聲波(例如，人聲、環境聲、機器運作聲等)而轉換為聲音訊號的電子元件、類比至數位轉換器、濾波器、及音訊處理器之組合。

喇叭13可以是揚聲器或擴音器。在一實施例中，喇叭13用以發出聲音。

顯示器14可以是液晶顯示器(Liquid-Crystal Display，LCD)、發光二極體(Light-Emitting Diode，LED)顯示器、有機發光二極體(Organic Light-Emitting Diode，OLED)顯示器或其他顯示器。在一實施例中，顯示器14用以播放影像。

通訊收發器15可以支援諸如藍芽、Wi-Fi、USB、行動網路、光纖網路或其他通訊技術的通訊收發電路。在一實施例中，通訊收發器15用以接收來自外部裝置(例如，影像擷取裝置30或遠端裝置20)的訊號或傳送訊號至外部裝置。

處理器16耦接影像擷取裝置30、麥克風12、喇叭13、顯示器14及通訊收發器15。處理器16可以是中央處理單元(Central Processing Unit，CPU)、圖形處理單元(Graphic Processing unit，GPU)，或是其他可程式化之一般用途或特殊用途的微處理器(Microprocessor)、數位信號處理器(Digital Signal Processor，DSP)、可程式化控制器、現場可程式化邏輯閘陣列(Field Programmable Gate Array，FPGA)、特殊應用積體電路(Application-Specific Integrated Circuit，ASIC)、神經網路加速器或其他類似元件或上述元件的組合。在一實施例中，處理器16用以執行本地裝置10的所有或部份作業，可載入並執行程式碼、軟體模組、檔案及資料，並據以執行本發明實施例的操作方法。在另一實施例中，影像擷取裝置30的處理器31用以執行遠端視訊系統的所有或部份作業，可載入並執行程式碼、軟體模組、檔案及資料，並據以執行本發明實施例的操作方法。在一些實施例中，處理器16、處理器26以及處理器31的功能可透過軟體或晶片實現。

遠端裝置20包括(但不僅限於)影像擷取裝置21、麥克風22、喇叭23、顯示器24、通訊收發器25及處理器26。影像擷取裝置21、麥克風22、喇叭23、顯示器24、通訊收發器25、處理器26以及處理器31的實施態樣及功能可分別參照前述針對影像擷取裝置11、麥克風12、喇叭13、顯示器14、通訊收發器15及處理器16的說明，於此不再贅述。另一方面，遠端裝置20以及本地裝置10可以透過其通訊收發器(15、25)傳輸多媒體內容40給彼此。在另一實施例中，影像擷取裝置30可透過其通訊收發器傳輸多媒體內容40至本地裝置10中。多媒體內容40可以是簡報、動畫、圖片、文字、圖案或影片。本地裝置10或遠端裝置20可儲存多媒體內容40，或自網站下載多媒體內容40。

在一實施例中，處理器26用以執行遠端裝置20的所有或部份作業，可載入並執行程式碼、軟體模組、檔案及資料，並據以執行本發明實施例的操作方法。

下文中，將搭配遠端視訊系統中的各項裝置、元件及模組說明本發明實施例所述之方法。本方法的各個流程可依照實施情形而隨之調整，且並不僅限於此。

圖2是依據本發明一實施例的遠端視訊方法的流程圖。請參照圖2，本地裝置10的處理器16透過通訊收發器15接收終端影像(步驟S210)。在一實施例中，處理器16是透過通訊收發器15從影像擷取裝置30接收至少一終端影像。具體而言，影像擷取裝置30接收使用者的指令，進而根據指令進行影像擷取以產生至少一終端影像。並且，影像擷取裝置30將終端影像透過其通訊收發器傳送至本地裝置10的處理器16之中。在另一實施例中，影像擷取裝置30擷取到終端影像後，將終端影像輸入至影像擷取裝置30的處理器31。

在一實施例中，影像擷取裝置30朝目標物拍攝。這目標物可以是簡報畫面、簡報白板、人或動物，但本發明實施例不加以限制類型。在一實施例中，處理器16或處理器31可對影像擷取裝置11或影像擷取裝置21所拍攝的影像進行去背處理，以分離出僅有目標物(例如簡報者、白板、或是簡報物品)的影像，並據以成為終端影像。在另一實施例中，終端影像包括目標物及環境的影像。

圖3A是依據本發明一實施例的用戶影像的示意圖。具體而言，影像擷取裝置30進行影像擷取後獲得如圖3A所示的終端影像。接著，處理器31或處理器16對終端影像進行辨識處理，以辨識出複數個定位元件(M11、M12、M13、M14、M21、M22、M23、M24、M31、M32、M33、M34)(步驟S220)。前述複數個定位元件(M11、M12、M13、M14、M21、M22、M23、M24、M31、M32、M33、M34)可以分別是實體的元件，也可以是根據影像角偵測(Corner detection)從終端影像中辨識出的多個角點。

如圖3A所示，多個定位元件(M11、M12、M13、M14、M21、M22、M23、M24、M31、M32、M33、M34)之中至少三個定位元件所圍起的區域分別為第一影像區域IA1、第二影像區域IA2以及第三影像區域IA3。

圖3B是依據本發明一實施例的多媒體內容呈現以及辨識畫面的示意圖。請參照圖3B，處理器31或處理器16擷取複數個定位元件(M11、M12、M13、M14、M21、M22、M23、M24、M31、M32、M33、M34)之中彼此相鄰的複數個目標定位元件所包圍(即包括)的畫面，以產生複數個辨識畫面(步驟S230)。

具體而言，複數個定位元件(M11、M12、M13、M14、M21、M22、M23、M24、M31、M32、M33、M34)之中彼此在一定範圍(即預設範圍，例如畫面的三分之一、畫面的四分之一)之內的定位元件屬於同一組的目標定位元件(例如定位元件M11、M12、M13、M14)。舉例來說，第一組目標定位元件(M11、M12、M13、M14)所包圍的畫面為第一影像區域IA1，如此處理器31或處理器16擷取第一影像區域IA1，並且產生對應的第一影像IM1。

同樣地，第二組目標定位元件(M21、M22、M23、M24)所包圍的畫面為第二影像區域IA2，如此處理器31或處理器16擷取第二影像區域IA2，並且產生對應的第二影像IM2。第三組目標定位元件(M31、M32、M33、M34)所包圍的畫面為第三影像區域IA3，如此處理器31或處理器16擷取第三影像區域IA3，並且產生對應的第三影像IM3。如此一來，遠端視訊系統以及遠端視訊方法可以從終端影像同時擷取以及辨識出多個影像區域(即第一影像區域IA1、第二影像區域IA2以及第三影像區域IA3)。在另一實施例中，遠端視訊系統以及遠端視訊方法還可從終端影像中辨識以及擷取出關於講解者/人物影像的第一用戶區域IU1以及第二用戶區域IU2。

現有視訊會議軟體都是僅截取或辨識影像中的單一簡報畫面或是影像區域。反觀本發明實施例，處理器31可從終端影像中同時擷取與辨識出複數個辨識畫面(例如第一影像IM1、第二影像IM2以及第三影像IM3)、對應第一用戶區域IU1的第一人物畫面、以及對應第二用戶區域IU2的第二人物畫面，並且將上述複數個影像以及用戶區域整合至顯示器14上顯示。如此，講解者(即使用者)可同時透過將同一空間中多個白板或桌面作為簡報的區域，進而提升簡報的便利性與彈性。

請參照圖3B，本地裝置10的處理器16或是處理器31可透過通訊收發器15輸出複數個辨識畫面，並且將複數個辨識畫面顯示於顯示器14或是顯示器24上(步驟S240)。在一實施例中，執行遠端視訊方法的處理器可整合於電子裝置(例如本地裝置10或是遠端裝置20)或是影像擷取裝置30的其中一者。也就是說，遠端視訊方法以及遠端視訊系統中的步驟以及流程可以由電子裝置(例如本地裝置10或是遠端裝置20)中的處理器(16、26)或是影像擷取裝置30中的處理器31或晶片組來執行。

圖4A是依據本發明一實施例的產生包含用戶影像的整合影像的流程圖。圖4B是依據本發明一實施例的產生包含用戶影像的整合影像的示意圖。請參照圖4A與圖4B，遠端視訊系統以及遠端視訊方法可執行如以下的步驟S410~步驟S440，以實現根據用戶影像與簡報畫面的重疊比例，進而產生整合影像的效果。在步驟S410，處理器16或是處理器31對終端影像進行辨識處理，以辨識出複數個用戶影像42。例如，複數個用戶影像為對應第一用戶區域IU1的用戶影像42以及對應第二用戶區域IU2的用戶影像42。

接著，在步驟S420，處理器16或是處理器31偵測重疊畫面，將互相重疊的影像分別作為重疊用戶影像42以及重疊辨識畫面41。重疊畫面為多個辨識畫面41中與用戶影像42彼此重疊的辨識畫面41。如圖4B所示，處理器16或是處理器31將多個用戶影像42中，與辨識畫面41相重疊的用戶影像42作為重疊用戶影像，並且將多個辨識畫面41中與用戶影像42相重疊的辨識畫面41作為重疊辨識畫面。

在步驟S430，當重疊畫面(即用戶影像42與辨識畫面41重疊的部分)佔辨識畫面41(即重疊辨識畫面)的比例超過設定值時，處理器16或是處理器31將重疊用戶影像42以及重疊辨識畫面41合成成整合影像43。設定值可例如是10百分比、30百分比、40百分比或是50百分比，本案不應以此為限。舉例來說，當用戶影像42與辨識畫面41之間的重疊寬度大於辨識畫面41寬度的百分之10時，處理器16或處理器31將辨識畫面41以及用戶影像42進行整合以產生整合影像43。在一實施例中，整合影像43以其百分之七十的區域顯示辨識畫面41，以及以其百分之三十的區域顯示用戶影像42。

接著，處理器16或是處理器31輸出整合影像43至顯示器24或顯示器34之上。

圖5A是依據本發明一實施例的移除用戶影像的流程圖。圖5B是依據本發明一實施例的移除用戶影像的示意圖。請參照圖5A以及圖5B，遠端視訊系統以及遠端視訊方法可執行如以下的步驟S510~步驟S520，以實現當用戶影像52與辨識畫面51的重疊區域小於設定值，則自動將整合影像53改為辨識畫面51的功能。

在步驟S510，處理器16或處理器31偵測整合影像53中重疊用戶影像(例如用戶影像52)以及重疊辨識畫面(例如辨識畫面51)。舉例來說，處理器16或處理器31將多個用戶影像52中與辨識畫面51重疊的影像作為重疊用戶影像(例如用戶影像52)，同樣地，處理器16或處理器31將多個辨識畫面51中與用戶影像52重疊的辨識畫面51作為重疊辨識畫面(例如辨識畫面51)。

在步驟S520，當重疊用戶影像與重疊辨識畫面之間的重疊畫面佔整合影像53的比例小於設定值時，處理器16或處理器31將重疊用戶影像從整合影像53中移除。舉例來說，設定值可以是介於5%至60%之間的任一值，例如是10%、20%、30%、或是50%，本案不應以此為限。舉例來說，當用戶影像52在整合影像53的畫面中小於10%時，處理器16或處理器31則將用戶影像52從整合影像53中移除，也就是將顯示於顯示器上的整合影像53轉換成不包含用戶影像52的辨識畫面51。

圖6A是依據本發明一實施例的焦點放大的流程圖。圖6B是依據本發明一實施例的焦點放大的示意圖。請參照圖6A以及圖6B，遠端視訊系統以及遠端視訊方法可執行如以下的步驟S610~步驟S640，以實現針對手部位置放大焦點區域的功能。在步驟S610，處理器16或處理器31在終端影像(包含至少一辨識畫面51)中，偵測到具有手部畫面62的辨識畫面63。具體來說，遠端視訊系統以及遠端視訊方法可以預先儲存有關於手部辨識的模型，例如是透過哈爾特徵、馬可夫鏈(Markov chain)等方式偵測手部。如此，遠端視訊系統以及遠端視訊方法可針對畫面中的手部進行辨識。

在步驟S620，處理器16或處理器31依據手部畫面62獲得手部大小參數61以及手部焦點區域64。具體而言，處理器16或處理器31偵測手部畫面62中的手部的高(如圖6B所示的Y)、手部的寬(如圖6B所示的X)，並且作為手部大小參數61。並且，處理器16或處理器31根據手部畫面62獲得手部焦點區域64。手部焦點區域64可以是使用者手部食指的末端位置。

在步驟S630，處理器16或處理器31將具有手部畫面62的辨識畫面63縮放為畫面放大區域65。畫面放大區域65是依據手部焦點區域64為參考點，並且畫面放大區域65的畫面大小與手部大小參數61成比例關係。舉例來說，畫面放大區域65的高為手部畫面62中手部的高Y的兩倍，並且畫面放大區域65的寬為手部畫面62中手部的寬X的三倍，長寬的倍數可根據使用者預先設定，本案不應以此為限。

在步驟S640，處理器16或處理器31偵測手部畫面62停留於辨識畫面63的時間大於時間設定值，處理器16或處理器31將辨識畫面63轉換成畫面放大區域65(即焦點放大畫面)。時間設定值可以是2秒、3秒、5秒、7秒等，本案不應以此為限。也就是說，當講解者(即使用者或簡報者)將手指停放於白板或海報(即辨識畫面63)上，則遠端視訊系統以及方法可自動地偵測到使用者的手部畫面62，並且根據手部焦點區域64放大使用者手部所指著的簡報重點。如此一來，遠端視訊系統以及遠端視訊方法達到使用者不需要另外手動操作，即可自動地根據使用者的手部放大重點，進而提高遠端視訊的便利性以及使用者滿意度。

在一實施例中，處理器16或處理器31依據聲音訊號以及手勢訊號中的至少一者，停止輸出畫面放大區域65。並且，處理器16或處理器31將顯示畫面從畫面放大區域65轉換回辨識畫面63，以及輸出當前的辨識畫面63。

圖7A是依據本發明一實施例的多媒體內容操作的示意圖。圖7B是依據本發明一實施例的多媒體內容操作的簡報畫面示意圖。圖7C是依據本發明另一實施例的多媒體內容操作的流程圖。請參照圖7A、圖7B以及圖7C，遠端視訊系統以及遠端視訊方法可執行如以下的步驟S710、步驟S720，以實現依序使用者的手勢或語音自動編輯或調整辨識畫面。

在步驟S710，處理器16或處理器31接收來自影像擷取裝置30/電子裝置(本地裝置10或是遠端裝置20)中的至少一者的聲音訊號/手勢訊號，進而接收第一用戶操作。具體而言，當影像擷取裝置30擷取畫面71，並且偵測畫面71中的多個用戶區域以及多個辨識畫面，處理器16或處理器31偵測聲音訊號以及手勢訊號。舉例來說，當處理器16或處理器31偵測到畫面71中的手部畫面72以及移動後的手部畫面73，也就是說偵測到使用者的手勢從畫面71中右方位置(如圖7A所示位於000座標的手部畫面72)移動到畫面71中左方位置(如圖7A所示位於-314座標的手部畫面73)，接著，處理器16或處理器31將此手勢訊號作為第一用戶操作。

在步驟S720，處理器16或處理器31依據第一用戶操作(例如手勢訊號)編輯或操作複數個辨識畫面。如圖7B所示，處理器16或處理器31根據步驟S710中的第一用戶操作將簡報畫面75從顯示器74上的右方移動到顯示器74的中間。第一用戶操作包括語音操作、輸入操作、按鍵操作、手勢操作、特殊符號操作、物件添加操作中的至少一者。例如，透過麥克風12接收用戶的聲音，以產生語音操作。又例如，透過影像擷取裝置30拍攝用戶的手勢，以產生手勢操作。再例如，透過滑鼠、遙控器、鍵盤或觸控螢幕所接收的輸入操作，以產生輸入指令。

舉例來說，遠端視訊系統以及方法響應於影像擷取裝置30上的實體按鈕或虛擬按鈕被觸發，影像擷取裝置30對應地產生第一用戶操作。

圖8是依據本發明一實施例的分享數據資訊的示意圖。圖9是依據本發明一實施例的傳送媒體資訊的示意圖。在一實施例中，該第一用戶操作來自於該處理器以及該電子裝置中的至少一者，該處理器依據該第一用戶操作編輯該電子裝置的該顯示器上的該複數個辨識畫面。如圖8所示，第一電子裝置80(即本地裝置)可透過通訊連接至雲端伺服器85 (例如應用程式介面(API))，將本地裝置中的辨識畫面(即數位資訊81)傳輸至第二電子裝置86(即遠端裝置)之中，並且作為第二電子裝置86中的數位資訊82。如此一來，第一電子裝置80的使用者可以與第二電子裝置86的使用者透過傳遞數位資訊(81、82)增加互動性。

如圖9所示，遠端裝置96的使用者可透過選取多個數位檔案中的數位檔案91，將數位檔案91透過雲端伺服器95(即雲端API)傳送至本地裝置。如此一來，使用者可將數位檔案91顯示於本地裝置的顯示器93上，以增加與視訊參與者的互動性。

圖10是依據本發明一實施例的校正顯示畫面的示意圖。在一實施例中，影像擷取裝置擷取終端影像10A，接著處理器16或處理器31根據第一用戶操作105(例如手勢訊號)校正終端影像10A中的複數個辨識畫面中對應的辨識畫面10B。如圖10所示，第一用戶操作105可包括不同的方向。舉例來說，處理器16或處理器31根據第一用戶操作105中的操作方向102，將辨識畫面10B的方向校正與符合操作方向102相符的方向。並且，處理器16或處理器31根據校正結果產生複數個校正畫面(例如辨識畫面10B)，以及輸出複數個校正畫面至對應的顯示器(14、24)。

在一實施例中，處理器16或處理器31依據複數個校正畫面的大小參數，依照設定值將複數個校正畫面顯示於電子裝置(本地裝置10或遠端裝置20)的該顯示器(14、24)上。在這實施例中的設定值可以是多個辨識畫面的排版設定值，例如是分成四個辨識畫面同大小地顯示於顯示器(14、24)上，或是將三個辨識畫面根據1:1:2的比例顯示於顯示器(14、24)上，本案不應以此為限。

圖11是依據本發明一實施例的特殊符號的操作示意圖。當前述第一用戶操作包括特殊符號11A操作之時，處理器16或處理器31對應特殊符號11A所代表的參數對辨識畫面進行編輯。特殊符號11A可包括靜音符號、標記符號、訊息符號、筆記符號或是顯示物件符號。如圖11所示，當特殊符號11A為顯示物件符號(即特殊符號操作111)，則處理器16或處理器31將物件112轉換為虛擬物件113顯示於辨識畫面11B中。

圖12A是依據本發明一實施例的擷取校正影像的示意圖。圖12B是依據本發明一實施例的擷取校正影像的畫面示意圖。圖12C是依據本發明一實施例的擷取校正影像的流程圖。請參照圖12A、圖12B以及圖12C，遠端視訊系統以及遠端視訊方法可執行如以下的步驟S1210以及步驟S1220。在步驟S1210，處理器16或處理器31偵測複數個辨識畫面是否包括不同平面的夾角。舉例來說，處理器(16、31)偵測根據定位元件1以及定位元件2獲得第一物件122(即辨識畫面)，接著根據定位元件2以及定位元件3辨識出第二物件125(即辨識畫面)。處理器(16、31)偵測到第一物件122與第二物件125之間包括不同平面(即第一四邊形121以及第二四邊形123)的夾角，則執行步驟S1220。

在步驟S1220，處理器16或處理器31對辨識畫面執行校正處理，以生成校正畫面。具體而言，在執行校正處理之前，處理器(16、31)辨識出包括複數個辨識畫面的簡報畫面126。在步驟S1220中，處理器(16、31)先將第一物件122轉換為第一虛擬物件129。接著，處理器(16、31)根據第一物件122與第二物件125之間的夾角，對第二物件125進行校正處理，進而將第二虛擬物件128校正以產生校正後的簡報畫面127(即校正畫面)。校正處理可以是第二四邊形123的角度校正，以及第一四邊形121的角度校正。

綜上所述，在本發明實施例的用於遠端視訊系統以及遠端視訊方法中，可透過辨識多個定位元件以及多個定位元件的位置，產生多個辨識畫面。藉此，可同時辨識與偵測終端影像中的多個簡報畫面(即多個辨識畫面)以及用戶畫面(即多個用戶區域)，讓用戶可方便地進行遠端視訊以及多媒體內容的分享，並達到更直覺有效率的視訊互動。此外，可依據用戶的手勢自動地放大鄰近手部畫面的簡報內容，從而提供凸顯簡報焦點以及簡化操作流程。

雖然本發明已以實施例揭露如上，然其並非用以限定本發明，任何所屬技術領域中具有通常知識者，在不脫離本發明的精神和範圍內，當可作些許的更動與潤飾，故本發明的保護範圍當視後附的申請專利範圍所界定者為準。

10:本地裝置 30、21:影像擷取裝置 12、22:麥克風 13、23:喇叭 14、24:顯示器 15、25:通訊收發器 16、26、31:處理器 20:遠端裝置 40:多媒體內容 27:可辨識區域 S210~S240、S410~S430、S510、S520、S610~S640、S710~S720、S1210~S1220:步驟 M11、M12、M13、M14、M21、M22、M23、M24、M31、M32、M33、M34:定位元件 IA1:第一影像區域 IA2:第二影像區域 IA3:第三影像區域 IU1:第一用戶區域 IU2:第二用戶區域 IM1:第一影像 IM2:第二影像 IM3:第三影像 X:手部的寬 Y:手部的高 41:辨識畫面 42:用戶影像 43:整合影像 51:辨識畫面 52:用戶影像 53:整合影像 61:手部大小參數 62:手部畫面 63:辨識畫面 64:手部焦點區域 65:畫面放大區域 71:畫面 72、73:手部畫面 74:顯示器 75:簡報畫面 80:第一電子裝置 81、82:數位資訊 85:雲端伺服器 86:第二電子裝置面 91:數位資訊 93:顯示器 95:雲端伺服器 96:遠端裝置 10A:終端影像 102:操作方向 105:第一用戶操作 11A:特殊符號 111:特殊符號操作 112:物件 113:虛擬物件 121:第一四邊形 122:第一物件 123:第二四邊形 124:物件 125:第二物件 126:簡報畫面 127:校正後的簡報畫面 128:第二虛擬物件 129:第一虛擬物件

圖1是依據本發明一實施例的遠端視訊系統的元件方塊圖。圖2是依據本發明一實施例的遠端視訊方法的流程圖。圖3A是依據本發明一實施例的用戶影像的示意圖。圖3B是依據本發明一實施例的多媒體內容呈現以及辨識畫面的示意圖。圖4A是依據本發明一實施例的產生包含用戶影像的整合影像的流程圖。圖4B是依據本發明一實施例的產生包含用戶影像的整合影像的示意圖。圖5A是依據本發明一實施例的移除用戶影像的流程圖。圖5B是依據本發明一實施例的移除用戶影像的示意圖。圖6A是依據本發明一實施例的焦點放大的流程圖。圖6B是依據本發明一實施例的焦點放大的示意圖。圖7A是依據本發明一實施例的多媒體內容操作的示意圖。圖7B是依據本發明一實施例的多媒體內容操作的簡報畫面示意圖。圖7C是依據本發明另一實施例的多媒體內容操作的流程圖。圖8是依據本發明一實施例的分享數據資訊的示意圖。圖9是依據本發明一實施例的傳送媒體資訊的示意圖。圖10是依據本發明一實施例的校正顯示畫面的示意圖。圖11是依據本發明一實施例的特殊符號的操作示意圖。圖12A是依據本發明一實施例的擷取校正影像的示意圖。圖12B是依據本發明一實施例的擷取校正影像的畫面示意圖。圖12C是依據本發明一實施例的擷取校正影像的流程圖。

S210~S240:步驟

Claims

一種遠端視訊系統，包括：一影像擷取裝置，用以擷取一終端影像；以及一處理器，耦接該影像擷取裝置，並經配置用以：對該終端影像進行一辨識處理，以辨識出複數個定位元件；擷取該複數個定位元件之中彼此相鄰的複數個目標定位元件所包括的畫面，以產生複數個辨識畫面；輸出該複數個辨識畫面，其中該複數個辨識畫面顯示於一電子裝置的一顯示器上。
如請求項1所述的遠端視訊系統，其中該處理器更用以：對該終端影像進行該辨識處理，以辨識出複數個用戶影像；偵測該複數個用戶影像與該複數個辨識畫面之間的重疊畫面，並且將該複數個用戶影像與該複數個辨識畫面之間互相重疊的影像分別作為一重疊用戶影像以及一重疊辨識畫面；當該重疊畫面佔該重疊辨識畫面的比例超過一設定值時，將該重疊用戶影像以及該重疊辨識畫面合成成一整合影像；輸出該整合影像。
如請求項1所述的遠端視訊系統，其中該處理器更用以：偵測一整合影像中一重疊用戶影像以及一重疊辨識畫面，其中該重疊用戶影像以及該重疊辨識畫面分別為複數個用戶影像與該複數個辨識畫面之間互相重疊的影像；當該重疊畫面佔該整合影像的比例小於一設定值時，將該重疊用戶影像從該整合影像中移除。
如請求項1所述的遠端視訊系統，其中該處理器更用以：偵測所述複數個辨識畫面的其中一者具有一手部畫面；依據該手部畫面獲得一手部大小參數以及手部焦點區域；將具有該手部畫面的該辨識畫面縮放為一畫面放大區域，其中所述畫面放大區域是依據所述手部焦點區域為參考點，並且所述畫面放大區域的畫面大小與該手部大小參數成一比例關係。
如請求項4所述的遠端視訊系統，其中該處理器更用以：偵測該手部畫面停留於該辨識畫面的時間大於一時間設定值時，將該辨識畫面轉換成該畫面放大區域。
如請求項5所述的遠端視訊系統，其中該處理器更用以：接收一聲音訊號以及一手勢訊號中的至少一者，其中該聲音訊號以及該手勢訊號來自該影像擷取裝置以及該電子裝置中的至少一者；依據該聲音訊號以及該手勢訊號中的至少一者停止輸出該畫面放大區域，並且將該畫面放大區域轉換回該辨識畫面；以及輸出該辨識畫面。
如請求項1所述的遠端視訊系統，其中該處理器更用以：接收一第一用戶操作；以及依據該第一用戶操作編輯該複數個辨識畫面。
如請求項7所述的遠端視訊系統，其中該第一用戶操作包括語音操作、輸入操作、手勢操作、特殊符號操作、物件添加操作中的至少一者。
如請求項1所述的遠端視訊系統，其中該處理器更用以：當該複數個辨識畫面包括不同平面的夾角時，對該辨識畫面執行校正處理，以生成校正畫面。
如請求項7所述的遠端視訊系統，其中該第一用戶操作來自於該處理器以及該電子裝置中的至少一者，該處理器依據該第一用戶操作編輯該電子裝置的該顯示器上的該複數個辨識畫面。
如請求項6所述的遠端視訊系統，其中反應於該影像擷取裝置的一按鈕被觸發，該影像擷取裝置產生一第一用戶操作，其中該處理器依據該第一用戶操作編輯該電子裝置的該顯示器上的該複數個辨識畫面。
如請求項1所述的遠端視訊系統，其中該處理器更用以：校正該複數個辨識畫面，以生成複數個校正畫面；輸出該複數個校正畫面；依據該複數個校正畫面的大小參數，依照設定值將該複數個校正畫面顯示於該電子裝置的該顯示器上。
一種遠端視訊系統，包括：一通訊收發器，用以接收複數個辨識畫面；一顯示器，用以顯示該複數個辨識畫面，其中該複數個辨識畫面是由一終端影像進行一辨識處理，並且擷取該終端影像經過該辨識處理所產生的複數個定位元件之中彼此相鄰的複數個目標定位元件所產生的。
如請求項13所述的遠端視訊系統，其中該複數個辨識畫面由一處理器所產生，並且該處理器用以：對該終端影像進行該辨識處理，以辨識出複數個用戶影像；偵測該複數個用戶影像與該複數個辨識畫面之間的重疊畫面，並且將該複數個用戶影像與複數個辨識畫面之間互相重疊的影像分別作為一重疊用戶影像以及一重疊辨識畫面；當該重疊畫面佔該重疊辨識畫面的比例超過一設定值時，將該重疊用戶影像以及該重疊辨識畫面合成成一整合影像；輸出該整合影像至該顯示器。
如請求項13所述的遠端視訊系統，其中該複數個辨識畫面由一處理器所產生，並且該處理器用以：偵測一整合影像中一重疊用戶影像以及一重疊辨識畫面，其中該重疊用戶影像以及該重疊辨識畫面分別為複數個用戶影像與該複數個辨識畫面之間互相重疊的影像；當該重疊畫面佔該整合影像的比例小於一設定值時，將該重疊用戶影像從該整合影像中移除。
如請求項13所述的遠端視訊系統，其中該複數個辨識畫面由一處理器所產生，其中該處理器更用以：偵測所述複數個辨識畫面的其中一者具有一手部畫面；依據該手部畫面獲得一手部大小參數以及手部焦點區域；將具有該手部畫面的該辨識畫面縮放為一畫面放大區域，其中所述畫面放大區域是依據所述手部焦點區域為參考點，並且所述畫面放大區域的畫面大小與該手部大小參數成一比例關係。
如請求項16所述的遠端視訊系統，其中該處理器更用以：偵測該手部畫面停留於該辨識畫面的時間大於一時間設定值時，將該辨識畫面轉換成該畫面放大區域。
如請求項17所述的遠端視訊系統，其中該處理器更用以：接收一聲音訊號以及一手勢訊號中的至少一者，其中該聲音訊號以及該手勢訊號來自一影像擷取裝置以及一電子裝置中的至少一者；以及依據該聲音訊號以及該手勢訊號中的至少一者停止輸出該畫面放大區域，並且將該畫面放大區域轉換回該辨識畫面；輸出該辨識畫面。
如請求項13所述的遠端視訊系統，其中該複數個辨識畫面由一處理器所產生，並且該處理器更用以：接收一第一用戶操作；以及依據該第一用戶操作編輯該複數個辨識畫面。
如請求項19所述的遠端視訊系統，其中該第一用戶操作包括語音操作、手勢操作、輸入操作、特殊符號操作、物件添加操作中的至少一者。
如請求項13所述的遠端視訊系統，其中該複數個辨識畫面由一處理器所產生，並且該處理器更用以：當該複數個辨識畫面包括不同平面的夾角時，對該辨識畫面執行校正處理，以生成校正畫面。
如請求項19所述的遠端視訊系統，其中該第一用戶操作來自於該處理器以及一電子裝置中的至少一者，該處理器依據該第一用戶操作編輯該顯示器上的該複數個辨識畫面。
如請求項18所述的遠端視訊系統，其中反應於該影像擷取裝置的一按鈕被觸發，該影像擷取裝置產生該第一用戶操作。
如請求項13所述的遠端視訊系統，其中該複數個辨識畫面由一處理器所產生，並且該處理器更用以：校正該複數個辨識畫面，以生成複數個校正畫面；輸出該複數個校正畫面；依據該複數個校正畫面的大小參數，依照設定值將該複數個校正畫面顯示於該顯示器上。
一種遠端視訊的方法，包括：取得一終端影像；對該終端影像進行一辨識處理，以辨識出複數個定位元件；擷取該複數個定位元件之中相鄰的複數個目標定位元件所包括的畫面，以產生複數個辨識畫面；透過一通訊收發器輸出該複數個辨識畫面，並且將該複數個辨識畫面顯示於一顯示器。
如請求項25所述的方法，還包括以下步驟：對該終端影像進行該辨識處理，以辨識出複數個用戶影像；偵測該複數個用戶影像與該複數個辨識畫面之間的重疊畫面，並且將該複數個用戶影像與複數個辨識畫面之間互相重疊的影像分別作為一重疊用戶影像以及一重疊辨識畫面；當該重疊畫面佔該重疊辨識畫面的比例超過一設定值時，將該重疊用戶影像以及該重疊辨識畫面合成成一整合影像；輸出該整合影像。
如請求項25所述的方法，還包括：偵測一整合影像中一重疊用戶影像以及一重疊辨識畫面，其中該重疊用戶影像以及該重疊辨識畫面分別為複數個用戶影像與該複數個辨識畫面之間互相重疊的影像；當該重疊畫面佔該整合影像的比例小於一設定值時，將該重疊用戶影像從該整合影像中移除。
如請求項25所述的方法，還包括：偵測所述複數個辨識畫面的其中一者具有一手部畫面；依據該手部畫面獲得一手部大小參數以及手部焦點區域；將具有該手部畫面的該辨識畫面縮放為一畫面放大區域，其中所述畫面放大區域是依據所述手部焦點區域為參考點，並且所述畫面放大區域的畫面大小與該手部大小參數成一比例關係。
如請求項28所述的方法，還包括：偵測該手部畫面停留於該辨識畫面的時間大於一時間設定值時，將該辨識畫面轉換成該畫面放大區域。
如請求項29所述的方法，還包括：接收對應於一重疊用戶影像的一聲音訊號以及一手勢訊號中的至少一者；以及依據該聲音訊號以及該手勢訊號中的至少一者停止輸出該畫面放大區域，並且將該畫面放大區域轉換回該辨識畫面；輸出該辨識畫面。
如請求項25所述的方法，還包括：接收一第一用戶操作；以及依據該第一用戶操作編輯該複數個辨識畫面，其中該第一用戶操作包括語音操作、輸入操作、手勢操作、特殊符號操作、物件添加操作的至少其中之一。
如請求項25所述的方法，還包括：當該複數個辨識畫面包括不同平面的夾角時，對該辨識畫面執行校正處理，以生成校正畫面。
如請求項31所述的方法，其中該第一用戶操作來自於一電子裝置以及一影像擷取裝置中的一者，其中該方法包括：依據該第一用戶操作編輯該顯示器上的該複數個辨識畫面。
如請求項25所述的方法，還包括：校正該複數個辨識畫面，以生成複數個校正畫面；輸出該複數個校正畫面；依據該複數個校正畫面的大小參數，依照設定值將該複數個校正畫面顯示於該顯示器上。