TW202221409A

TW202221409A - 虛擬運鏡方法、攝像裝置及電子系統

Info

Publication number: TW202221409A
Application number: TW110143142A
Authority: TW
Inventors: 柴維寧; 黃聖翔; 黃資詠
Original assignee: 仁寶電腦工業股份有限公司
Priority date: 2020-11-26
Filing date: 2021-11-19
Publication date: 2022-06-01
Also published as: TWI807495B

Abstract

提供一種虛擬運鏡方法、攝像裝置及電子系統。此方法適用於具有主體以及至少二鏡頭的攝像裝置，且至少二鏡頭可拆卸地裝設於主體。此方法透過至少二鏡頭擷取至少二影像。之後，拼接至少二影像，以產生至少一全景影像。最後，裁切全景影像，以產生輸出影像。

Description

虛擬運鏡方法、攝像裝置及電子系統

本發明是有關於一種虛擬鏡頭運鏡技術，且特別是有關於一種虛擬運鏡方法、攝像裝置及電子系統。

隨著科技的進步，遠端視訊會議或課程也需求也逐漸增長。現有的視訊鏡頭普遍裝設於電腦或智慧型手機的螢幕上緣，或者以外接鏡頭的形式放置於桌面上。這樣的設置方式會使得鏡頭是從相對於用戶的斜上方或斜下方處來拍攝用戶。然而，一般用戶在視訊的時候會將視線朝向螢幕觀看對方的畫面，因此鏡頭從斜上方或斜下方處拍攝用戶的情形將造成鏡頭拍攝到的用戶之視線並非朝向鏡頭，鏡頭拍攝到的畫面將顯得不自然。

此外，近年來有人提出螢幕下鏡頭（Under Panel Camera, UPC）技術取代原先設置在螢幕上緣的鏡頭。然而，面板的穿透率會影響設置在其下方的鏡頭之成像畫質。並且螢幕下鏡頭是固定的實體鏡頭，也難以產生運鏡的效果。

本發明提供一種虛擬運鏡方法、攝像裝置及電子系統，可產生畫面自然的影像。

本發明的虛擬運鏡方法，適用於具有主體以及至少二鏡頭的攝像裝置。所述主體包括處理單元，所述至少二鏡頭可拆卸地裝設於所述主體。所述方法包括：所述處理單元透過所述至少二鏡頭擷取至少二影像；所述處理單元拼接所述至少二影像，以產生至少一全景影像；以及所述處理單元裁切所述全景影像，以產生輸出影像。

在本發明的一實施例中，所述主體更包括一通訊單元，上述方法包括：所述至少二鏡頭擷取所述至少二影像，並且所述至少二鏡頭將所述至少二影像藉由所述通訊單元傳送給所述處理單元。

在本發明的一實施例中，上述拼接所述至少二影像，以產生所述至少一全景影像的步驟包括：所述處理單元對所述至少二影像進行梯形校正，以產生至少二梯形校正影像；所述處理單元根據所述至少二梯形校正影像計算得到多個特徵點；以及所述處理單元根據所述多個特徵點縫合所述至少二梯形校正影像，以產生所述全景影像。

在本發明的一實施例中，上述裁切所述全景影像，以產生所述輸出影像的步驟包括：所述處理單元接收來自外接顯示器的至少一顯示器參數；所述處理單元依據所述顯示器參數調整所述全景影像；所述處理單元依據所述顯示器參數裁切所述全景影像，以產生所述輸出影像；以及所述處理單元將所述輸出影像傳送至所述外接顯示器，並透過所述外接顯示器顯示所述輸出影像。

在本發明的一實施例中，上述顯示器參數包含顯示裝置解析度、顯示裝置比例、顯示區域解析度或顯示區域比例。

在本發明的一實施例中，上述方法包括：所述處理單元偵測所述全景影像中的人臉，以取得人臉範圍；以及所述處理單元依據所述顯示器參數與所述人臉範圍裁切所述全景影像以產生所述輸出影像。

在本發明的一實施例中，上述方法包括：所述處理單元依據所述顯示器參數設定裁切範圍；以及所述處理單元依據所述裁切範圍與所述人臉範圍裁切所述全景影像以產生所述輸出影像。

在本發明的一實施例中，上述人臉範圍位於所述輸出影像的1/3、1/2或2/3的水平位置處。

在本發明的一實施例中，上述人臉範圍具有中心座標，所述中心座標位於所述輸出影像的1/3、1/2或2/3的水平位置處。

在本發明的一實施例中，上述方法包括：所述處理單元偵測所述人臉範圍中的人眼，以取得人眼範圍；其中，所述人眼範圍位於所述輸出影像的1/3、1/2或2/3的水平位置處。

在本發明的一實施例中，上述人眼範圍內的人眼的注視方向置中朝前。

在本發明的一實施例中，上述人臉範圍位於所述輸出影像的1/3或1/2的垂直位置處。

在本發明的一實施例中，上述裁切範圍的面積大於等於所述人臉範圍的面積。

在本發明的一實施例中，上述裁切範圍的面積小於等於6倍的所述人臉範圍的面積。

在本發明的一實施例中，上述方法包括：所述處理單元響應於切換指令，切換至多個操作模式的其中之一。

在本發明的一實施例中，上述切換指令為偵測用戶產生的預設聲音訊號、預設手勢或預設影像。

在本發明的一實施例中，上述多個操作模式包括人臉追蹤模式、聲音追蹤模式以及局部放大模式。

在本發明的一實施例中，上述方法包括：所述處理單元響應於所述切換指令，切換至所述人臉追蹤模式；所述處理單元偵測所述全景影像中的人臉，以取得人臉範圍；以及所述處理單元依據所述顯示器參數與所述人臉範圍裁切所述全景影像。

在本發明的一實施例中，上述方法包括：所述處理單元響應於所述切換指令，切換至所述聲音追蹤模式；所述處理單元在第一時間點，透過聲音擷取裝置偵測第一聲源方向；以及所述處理單元依據所述顯示器參數與所述第一聲源方向裁切所述全景影像以產生所述輸出影像。

在本發明的一實施例中，上述方法包括：所述處理單元在第二時間點，透過所述聲音擷取裝置偵測第二聲源方向；所述處理單元計算所述第一聲源方向與所述第二聲源方向之間的方向差異；以及所述處理單元判斷所述方向差異是否大於預設方向閥值。

在本發明的一實施例中，上述方法包括：響應於所述方向差異小於等於所述預設方向閥值，所述處理單元依據所述顯示器參數與所述第一聲源方向裁切所述全景影像。

在本發明的一實施例中，上述方法包括：響應於所述方向差異大於所述預設方向閥值，所述處理單元依據所述顯示器參數與所述第二聲源方向裁切所述全景影像。

在本發明的一實施例中，上述方法包括：所述處理單元偵測所述全景影像中的多個人臉，並取得對應所述多個人臉的多個人臉範圍；所述處理單元根據所述多個人臉範圍，以產生所述切換指令；所述處理單元響應於所述切換指令，切換至所述聲音追蹤模式；所述處理單元透過聲音擷取裝置偵測聲源方向；所述處理單元根據所述聲源方向，從所述多個人臉範圍中決定對應於所述聲源方向的第一人臉範圍；以及所述處理單元依據所述顯示器參數與所述第一人臉範圍裁切所述全景影像。

在本發明的一實施例中，上述方法包括：響應於所述切換指令，所述處理單元切換至所述局部放大模式；所述處理單元偵測所述全景影像中的指示或文字，以取得物件範圍；以及所述處理單元依據所述顯示器參數與所述物件範圍裁切所述全景影像。

在本發明的一實施例中，上述方法包括：所述處理單元偵測所述全景影像中的指示與文字，以取得物件範圍；所述處理單元根據所述物件範圍產生所述切換指令；響應於所述切換指令，所述處理單元切換至所述局部放大模式；以及所述處理單元依據所述顯示器參數與所述物件範圍裁切所述全景影像。

在本發明的一實施例中，上述方法包括：所述處理單元偵測所述全景影像中的人臉，以取得人臉範圍。

本發明的攝像裝置，包括至少二鏡頭以及主體。所述至少二鏡頭用以擷取至少二影像，所述至少二鏡頭可拆卸地裝設於主體。所述主體連接於所述至少二鏡頭。所述主體包括儲存裝置以及處理單元。所述處理單元電性耦接於所述儲存裝置。所述儲存裝置用以儲存多個指令。所述處理單元用以執行所述指令以：拼接所述至少二影像，以產生至少一全景影像；以及裁切所述全景影像，以產生輸出影像。

在本發明的一實施例中，所述主體更包括一通訊單元，上述至少二鏡頭擷取所述至少二影像，並且所述至少二鏡頭將所述至少二影像藉由所述通訊單元傳送給所述處理單元。

在本發明的一實施例中，上述處理單元接收來自外接顯示器的至少一顯示器參數。所述處理單元依據所述顯示器參數調整所述全景影像。所述處理單元依據所述顯示器參數裁切所述全景影像，以產生所述輸出影像。並且，所述處理單元將所述輸出影像傳送至所述外接顯示器，並透過所述外接顯示器顯示所述輸出影像。

在本發明的一實施例中，上述處理單元響應於切換指令，切換至多個操作模式的其中之一。

本發明的電子系統包括顯示器以及攝像裝置。所述攝像裝置的所述至少二鏡頭可拆卸地裝設於所述顯示器。所述主體電性耦接於所述顯示器。

在本發明的一實施例中，上述電子系統包括輸入裝置。所述輸入裝置電性耦接於所述主體。

基於上述，本發明實施例的虛擬運鏡方法、攝像裝置及電子系統，能夠拼接由多個可拆卸地裝設於主體的鏡頭所擷取的多個影像來產生全景影像，此全景影像可具有用戶視線看起來正對所有會議參與者的效果。此外，本實施例依據特定條件裁切全景影像以產生輸出影像，可透過裁切全景影像來聚焦影像中出現的物件，從而達成動態虛擬運鏡的效果。

為讓本發明的上述特徵和優點能更明顯易懂，下文特舉實施例，並配合所附圖式作詳細說明如下。

圖1繪示本發明一實施例的攝像裝置的外觀示意圖。參照圖1，攝像裝置100包括主體110及至少兩個鏡頭120，本發明並不限制攝像裝置100所能包括的鏡頭的數量。此些鏡頭120可拆卸地裝設於主體110。

在一實施例中，主體110可包括連接介面單元，用以傳輸或是接收資料。連接介面單元例如是可符合序列先進附件（Serial Advanced Technology Attachment, SATA）標準、並列先進附件（Parallel Advanced Technology Attachment, PATA）標準、電氣和電子工程師協會（Institute of Electrical and Electronic Engineers, IEEE）1394標準、高速周邊零件連接介面（Peripheral Component Interconnect Express, PCI Express）標準、通用序列匯流排（Universal Serial Bus, USB）標準、超高速一代（Ultra High Speed-I，UHS-I）介面標準、超高速二代（Ultra High Speed-II, UHS-II）介面標準、安全數位（Secure Digital, SD）介面標準、記憶棒（Memory Stick, MS）介面標準、多媒體儲存卡（Multi Media Card, MMC）介面標準、小型快閃（Compact Flash, CF）介面標準、整合式驅動電子介面（Integrated Device Electronics, IDE）標準、終端微通道互連架構部件（Personal Computer Memory Card International Association, PCMCIA）標準、視訊圖形陣列（Video Graphics Array, VGA）標準、數位視訊介面（Digital Visual Interface, DVI）標準、高畫質晰度多媒體介面（High Definition Multimedia Interface, HDMI）標準或其他適合的標準的電路單元。在本實施例中，主體110可透過連接介面單元電性耦接於鏡頭120、聲音接收裝置（如，麥克風）、顯示裝置（如，觸控螢幕）、鍵盤、滑鼠、觸控筆或其他類型的輸入裝置，以接收來自輸入裝置的輸入資料，或是接收用戶的操控訊號。此外，主體110可透過連接介面單元電性耦接於聲音播放裝置（如，喇叭）、顯示器（如，螢幕、投影機）或其他類型的輸出裝置，以輸出資料（如，主體110所產生之視訊影像）至輸出裝置。值得注意的是，主體110可包含上述輸入裝置或輸出裝置，連接介面單元則是裝置內部用以傳輸資料的匯流排，本實施例不限定於上述架構。

在另一實施例中，主體110還包括通訊單元。通訊單元用以透過無線的方式來傳輸或是接收資料。在本實施例中，通訊單元可具有無線通訊模組，並支援支援全球行動通信（Global System for Mobile Communication, GSM）系統、個人手持式電話系統（Personal Handy-phone System, PHS）、碼多重擷取（Code Division Multiple Access, CDMA）系統、無線相容認證（Wireless Fidelity, WiFi）系統、全球互通微波存取（Worldwide Interoperability for Microwave Access, WiMAX）系統、第三代無線通信技術（3G）、第四代無線通信技術（4G）、第五代無線通信技術（5G）、長期演進技術（Long Term Evolution, LTE）、紅外線（Infrared）傳輸、藍芽（Bluetooth, BT）通訊技術的其中之一或其組合，且不限於此。此外，通訊單元亦可具有網路介面卡（Network Interface Card, NIC），以建立網路連線，進而讓主體110可連接至區域網路或是網際網路。

鏡頭120包括鏡頭及影像感測器，其中所述鏡頭是採用定焦或變焦鏡頭，其可使得位於其視野（Field of View, FOV）內的被攝物體成像在影像感測器上。影像感測器中配置有電荷耦合元件（Charge coupled device, CCD）、互補性氧化金屬半導體（Complementary Metal-Oxide Semiconductor, CMOS）元件或其他種類的感光元件，而可感測進入鏡頭的光線，從而擷取影像訊號以產生影像。圖1中的兩個鏡頭120可分別擷取其視野內的影像，並將影像傳送給主體110。

圖2繪示本發明一實施例的電子系統的使用情境示意圖。參照圖2，電子系統1包括攝像裝置100以及顯示器130，其中攝像裝置100包括主體110以及至少兩個鏡頭120。在此將兩個鏡頭120分別稱為第一鏡頭以及第二鏡頭。在本實施例中，第一鏡頭以及第二鏡頭可拆卸地裝設於顯示器130。例如，圖2中第一鏡頭以及第二鏡頭分別裝設於顯示器130的兩側，本發明不在此限制鏡頭的裝設位置。換言之，鏡頭120可裝設於主體110上使用，亦可自主體110拆卸下來單獨或裝設於其他裝置上使用，本發明不在此限制。

圖3繪示本發明一實施例的主體的方塊圖。參照圖3，主體110包括但不限於儲存裝置111以及處理單元112。此外，主體110還可以包括前述連接介面單元（未繪示）以及通訊單元（未繪示）。

儲存裝置111例如是任何型態的固定式或可移動式隨機存取記憶體（random access memory, RAM）、唯讀記憶體（read-only memory, ROM）、快閃記憶體（flash memory）或類似元件或上述元件的組合。在本實施例中，儲存裝置111用以儲存多個指令。

處理單元112電性耦接於儲存裝置111，並用以執行儲存於儲存裝置111的多個指令以執行本發明虛擬運鏡方法。處理單元112例如是中央處理單元（Central Processing Unit, CPU），或是其他可程式化之一般用途或特殊用途的微處理器（Microprocessor）、數位訊號處理器（Digital Signal Processor, DSP）、可程式化控制器、特殊應用積體電路（Application Specific Integrated Circuits, ASIC）、可程式化邏輯裝置（Programmable Logic Device, PLD）或其他類似裝置或這些裝置的組合。

圖4繪示本發明一實施例的虛擬運鏡方法的流程圖。請同時參照圖1至圖4，本實施例的方法適用於上述的攝像裝置100，以下即搭配攝像裝置100的各項裝置及元件說明本實施例的虛擬運鏡方法的詳細步驟。

在步驟S402中，處理單元112透過至少二鏡頭擷取至少二影像。例如，每個鏡頭可分別擷取影像，並將影像傳送給處理單元112。在步驟S404中，處理單元112拼接至少二影像，以產生全景影像。為方便說明，以下將以兩個鏡頭120中的其中一個鏡頭擷取的第一影像以及另一個鏡頭擷取的第二影像進行影像拼接操作的說明。應注意的是，本發明並不限於用於拼接一全景影像之影像的數量，本領域人員當可經由後述範例實施例的啟示，自行設計將數量大於二的鏡頭分別擷取的影像拼接產生全景影像。

首先，在步驟S402中，處理單元112會對至少二鏡頭擷取至少二影像進行影像校正以產生至少二校正影像。在一實施例中，處理單元112可對第一影像以及第二影像進行梯形校正，以產生對應至第一影像的第一梯形校正影像以及對應至第二影像的第二梯形校正影像。接著，處理單元112根據第一梯形校正影像以及第二梯形校正影像計算得到多個特徵點。之後，處理單元112可根據此些特徵點縫合第一梯形校正影像以及第二梯形校正影像，以產生全景影像。

在另一實施例中，處理單元112可根據第一影像以及第二影像計算得到多個特徵點，並根據此些特徵點產生單應性矩陣（Homography Matrix）。接著，處理單元112可根據單應性矩陣對第一影像以及第二影像進行變形校正，以產生對應至第一影像的第一變形校正影像以及對應至第二影像的第二變形校正影像。之後，處理單元112可依據特徵點縫合第一變形校正影像以及第二變形校正影像，以產生全景影像。

舉例來說，圖5A及圖5B繪示本發明一實施例的影像縫合的示意圖。請參照圖2以及圖5A，左側的鏡頭120所拍攝的影像經影像校正後產生影像501，右側的鏡頭所拍攝的影像經影像校正後產生影像502。之後，處理單元112縫合影像501以及影像502以產生圖5B的全景影像510。值得注意的是，一般用戶在視訊的時候會將視線朝向顯示器130觀看對方的畫面。當兩個鏡頭120如圖2繪示的裝設於顯示器130兩側接近用戶眼睛水平位置處，所縫合出的全景影像510可產生用戶視線看向鏡頭的效果。換言之，本實施例的鏡頭120可拆卸式的裝設於適當的位置，因此不需對影像進行視線校正（Gaze Correction）即可讓用戶的視線看起來正對所有會議參與者。

在步驟S406中，處理單元112裁切全景影像，以產生輸出影像。全景影像包含了多個鏡頭拍攝的影像所縫合的寬畫面，其對應較廣的視野。本實施例可藉由裁切全景影像將畫面聚焦在影像中的特定物件上，並可將裁切後產生的輸出影像組成一影像串流，達成虛擬運鏡的效果。

圖6繪示本發明一實施例的產生輸出影像的方法的流程圖。參照圖6，本實施例依據顯示器的參數來調整全景影像。在步驟S4061中，處理單元112接收來自外接顯示器的顯示器參數。所述顯示器參數可包括顯示裝置解析度、顯示裝置比例、顯示區域解析度或顯示區域比例，本發明不在此限制。舉例來說，外接顯示器可以是螢幕或投影機。一般而言，螢幕具有顯示裝置解析度（如，1280×720）與對應顯示裝置解析度的顯示裝置比例（如，16:9），投影機具有顯示區域解析度與對應顯示區域解析度的顯示區域比例，此些解析度與長寬比例通常可由用戶進行設定。

在步驟S4062中，處理單元112可依據顯示器參數調整全景影像。具體來說，處理單元112會判斷全景影像的解析度或長寬比例是否符合所接收的顯示器參數，並根據判斷結果決定是否調整全景影像。舉例來說，處理單元112可判斷全景影像的解析度是否符合顯示裝置解析度。若全景影像的解析度符合顯示裝置解析度，則處理單元112不對全景影像進行調整。若全景影像的解析度不符合顯示裝置解析度，處理單元112可將全景影像的解析度調整為顯示裝置解析度。另一方面，處理單元112可判斷全景影像的長寬比例是否符合顯示裝置比例。若全景影像的長寬比例符合顯示裝置比例，則處理單元112不對全景影像進行調整。若全景影像的長寬比例不符合顯示裝置比例，處理單元112可執行影像調整操作，以將全景影像的長寬比例調整為符合顯示裝置比例。例如，處理單元112可執行的影像調整操作包括縮放全景影像、將全景影像疊加於符合顯示裝置比例的單色背景（如，黑色背景）或將全景影像的上下區域填補單色區塊等操作，從而使調整後的全景影像的長寬比例符合顯示裝置比例。

在步驟S4063中，處理單元112可依據顯示器參數裁切全景影像，以產生輸出影像。具體來說，處理單元112可辨識特定物件並依據顯示器參數裁切全景影像，以追蹤影像中的特定物件來達成虛擬運鏡的效果。依據聚焦的特定物件之差異，本實施例可包括多種操作模式，例如包括人臉追蹤模式、聲音追蹤模式以及局部放大模式等模式。

在一實施例中，處理單元112可偵測全景影像中的人臉，以取得人臉範圍。具體來說，處理單元112在執行人臉偵測演算法偵測到影像中包括人臉時，處理單元112會計算可涵蓋人臉輪廓的一矩形作為人臉的邊界框來定義人臉範圍。人臉偵測演算法例如實施為膚色偵測演算法、人臉特徵偵測演算法、類神經網路模型等架構，本發明不在此限制。此外，處理單元112還可執行物件追蹤演算法以對偵測到的人臉進行追蹤，並根據追蹤結果給予對應此人臉的一影像識別。

在本實施例中，處理單元112可依據顯示器參數與人臉範圍裁切全景影像以產生輸出影像。在本實施例中，處理單元112可依據顯示器參數設定裁切範圍，並依據裁切範圍與人臉範圍裁切全景影像以產生輸出影像。具體來說，處理單元112可依據用戶設定的模式對於影像縮放的需求來調整裁切範圍的面積及/或設定人臉範圍在裁切範圍中的位置。於此同時，處理單元112會將裁切範圍的比例設定為符合顯示裝置比例或顯示區域比例。如此一來，所產生的輸出影像可形成最佳畫面構圖。

舉例來說，處理單元112可設定裁切範圍的面積大於等於人臉範圍的面積，並依據設定好的裁切範圍與人臉範圍裁切全景影像以產生輸出影像。在特定模式中，處理單元112可進一步設定裁切範圍的面積大於等於人臉範圍的面積且小於等於6倍的人臉範圍的面積。

另一方面，處理單元112可依據不同模式將人臉範圍設定在裁切範圍的特定位置。此特定位置例如是裁切範圍的1/3、1/2或2/3的水平位置處，或者，1/3或1/2的垂直位置處。於此，處理單元112依據設定的裁切範圍以及人臉範圍裁切全景影像後，人臉範圍可位於所述輸出影像的1/3、1/2或2/3的水平位置處，或者，1/3或1/2的垂直位置處。在一實施例中，處理單元112可依據人臉範圍的中心座標設定人臉範圍的位置。例如，處理單元112可將人臉範圍的中心座標設定在裁切範圍的1/3、1/2或2/3的水平位置處，或者，1/3或1/2的垂直位置處。在另一實施例中，處理單元112可偵測所述人臉範圍中的人眼以取得人眼範圍，並依據人眼範圍設定人臉範圍的位置。例如，處理單元112可將人眼範圍（如，人眼範圍的中心座標）設定在裁切範圍的1/3、1/2或2/3的水平位置處，或者，1/3或1/2的垂直位置處。

在一實施例中，人眼範圍內的人眼的注視方向為置中朝前。具體來說，請參照圖2，圖2中的兩個鏡頭120分別裝設於顯示器130的兩側。由於右側的鏡頭120是從用戶右側拍攝用戶，左側的鏡頭120是從用戶的左側拍攝用戶，因此每個鏡頭120拍攝的影像中用戶的眼睛都不會朝向前方。而如前所述，利用特徵點匹配來校正影像並縫合出全景影像的技術，可產生與從設置於顯示器130中心座標的鏡頭拍攝出的影像視角相同的影像。因此，本實施例縫合出的全景影像中人眼範圍內的人眼的注視方向為置中朝前，可產生用戶視線看向鏡頭的效果。

圖7A繪示本發明一實施例的全景影像的示意圖。圖7B繪示本發明一實施例的輸出影像的示意圖。請參照圖7A，處理單元112偵測全景影像610中的人臉而取得人臉範圍W61。處理單元112可偵測人臉範圍W61的中心座標C61，並將穿過中心座標C61的垂直線L61設定為參考線。處理單元112可依據顯示器參數設定裁切範圍FM61來裁切全景影像610以產生如圖7B的輸出影像611。在本實施例中，處理單元112設定裁切範圍FM61的面積大於人臉範圍W61的面積。並且，處理單元112將裁切範圍FM61的中心座標設定在垂直線L61，以將人臉範圍W61的中心座標C61設定在裁切範圍FM61的1/2的水平位置處。

圖7C繪示本發明一實施例的輸出影像的示意圖。在另一實施例中，處理單元112可放大全景影像中的人臉以聚焦影像畫面中的人物。請再回到圖7A，處理單元112偵測全景影像610中的人臉而取得人臉範圍W61。處理單元112可偵測人臉範圍W61的中心座標C61，並將穿過中心座標C61的垂直線L61設定為參考線。處理單元112可依據顯示器參數設定裁切範圍FM62來裁切全景影像610以產生如圖7C的輸出影像612。在本實施例中，處理單元112設定裁切範圍FM62的面積大於人臉範圍W61的面積且等於6倍的人臉範圍W61的面積。並且，處理單元112將裁切範圍FM62的中心座標設定在垂直線L61，以將人臉範圍W61的中心座標C61設定在裁切範圍FM62的1/2的水平位置處。

在一實施例中，處理單元112可響應於切換指令，切換至多個操作模式的其中之一。此切換指令例如為偵測用戶產生的預設聲音訊號、預設手勢或預設影像，或偵測用戶利用輸入裝置輸入欲切換的操作模式。此操作模式例如包括人臉追蹤模式、聲音追蹤模式以及局部放大模式。

在人臉追蹤模式中，處理單元112會將畫面聚焦於影像中的人像。在本實施例中，響應於切換指令，處理單元112會將模式從當前模式切換至人臉追蹤模式。在人臉追蹤模式中，處理單元112可偵測全景影像中的人臉，以取得人臉範圍。並且，處理單元112可依據所述顯示器參數與人臉範圍裁切全景影像。人臉追蹤模式中裁切全景影像的具體技術可參照前述步驟S406的相關描述，於此不再贅述。

在聲音追蹤模式中，處理單元112會將畫面聚焦於影像中的說話的與會者。在本實施例中，響應於切換指令，處理單元112會將模式從當前模式切換至聲音追蹤模式。在聲音追蹤模式中，處理單元112可在一時間點，透過聲音擷取裝置偵測聲源方向，並且依據顯示器參數與聲源方向裁切全景影像以產生輸出影像。具體來說，處理單元112可依據聲音擷取裝置所接收到的聲音訊號計算聲源方向，並依據聲源方向計算所述聲音訊號映射至全景影像的聲源座標位置。此聲源座標位置可以藉由對應全景影像的座標系（如，直角座標系或角座標系）來表示。此時，處理單元112可將聲源座標位置設定在裁切範圍的特定位置處（如，設定在穿過裁切範圍的中心座標的垂直線上），並依據裁切範圍裁切全景影像。

圖8A繪示本發明一實施例的全景影像的示意圖。請參照圖8A，假設聲音擷取裝置140可接收到所有與會者說話的聲音，且與會者7a正在說話。處理單元112在第一時間點可透過聲音擷取裝置140偵測第一聲源方向D1。並且，處理單元112可依據顯示器參數與第一聲源方向D1產生裁切範圍FM71，並依據裁切範圍FM71裁切全景影像710以產生輸出影像。

值的注意的是，當會議過程中換人發言，本發明實施例可偵測正在說話的另一與會者並聚焦至該與會者。在本實施例中，處理單元112可在第一時間點透過聲音擷取裝置偵測第一聲源方向，並在第二時間點透過聲音擷取裝置偵測第二聲源方向。此第二時間點晚於第一時間點。接著，處理單元112可計算第一聲源方向與第二聲源方向的方向差異，並判斷此方向差異是否大於預設方向閥值。例如，方向差異可以是第一聲源方向與第二聲源方向之間的角度差異。在本實施例中，響應於方向差異小於等於預設方向閥值，處理單元112依據顯示器參數與第一聲源方向裁切全景影像。另一方面，響應於方向差異大於預設方向閥值，處理單元112依據顯示器參數與第二聲源方向裁切全景影像。

圖8B繪示本發明一實施例的全景影像的示意圖。請參照圖8B，假設處理單元112在第一時間點透過聲音擷取裝置140偵測到對應於與會者7a的第一聲源方向D2。處理單元112可在第一時間點依據顯示器參數與第一聲源方向D2產生裁切範圍FM72，並依據裁切範圍FM72裁切全景影像720而產生輸出影像。接著，假設處理單元112在第二時間點透過聲音擷取裝置140偵測到第二聲源方向D3。在本實施例中，處理單元112會計算第一聲源方向D2與第二聲源方向D3的方向差異。由於本實施例的方向差異大於預設方向閥值，處理單元112會依據顯示器參數與第二聲源方向產生裁切範圍FM73，並依據裁切範圍FM73裁切全景影像720而產生輸出影像。參照圖8B可知，第二時間點是與會者7b在說話，因此裁切範圍FM73會包括與會者7b的影像。

值得注意的是，在一實施例中，處理單元112可依據第一聲源方向D2與第二聲源方向D3之間的方向差異裁切全景影像為連續之多個輸出影像，以達成虛擬運鏡的效果。舉例來說，參照圖8B，處理單元112可依據第一聲源方向D2與第二聲源方向D3之間的方向D4產生裁切範圍FM72至裁切範圍FM73之間的連續之多個裁切範圍，並依據這些裁切範圍逐一裁切每個時間點的全景影像以產生輸出影像。此外，處理單元112在依據顯示器參數與聲源方向裁切全景影像時，也可同時依據人臉範圍裁切全景影像。依據人臉範圍裁切全景影像的具體技術可參照前述步驟S4063的相關描述，於此不再贅述。

在一實施例中，處理單元112會從全景影像中偵測到多個人臉，並取得對應各個人臉的多個人臉範圍。處理單元112會響應於取得多個人臉範圍而產生切換指令。換言之，同時偵測到多個人臉範圍時，處理單元112可能無法決定要以哪個人臉範圍為裁切全景影像的依據。因此處理單元112可響應於取得多個人臉範圍而產生的切換指令，從當前模式切換至聲音追蹤模式。之後，處理單元112會透過聲音擷取裝置偵測聲源方向，並依據聲源方向從多個人臉範圍中決定對應於此聲源方向的人臉範圍（亦稱為第一人臉範圍）。例如，處理單元112可依據聲源方向計算聲音訊號映射至全景影像的聲源座標位置，並依據此聲源座標位置從多個人臉範圍中決定對應於聲源方向的人臉範圍。於此，處理單元112可依據顯示器參數與第一人臉範圍裁切全景影像。

在局部放大模式中，處理單元112會將畫面聚焦於影像中特定指示物件或具有文字的區域。在本實施例中，響應於切換指令，處理單元112會將模式從當前模式切換至局部放大模式。在局部放大模式中，處理單元112可偵測全景影像中的指示或文字，以取得物件範圍。此指示例如是人手手勢或特定圖樣。並且，處理單元112可依據顯示器參數與物件範圍裁切全景影像。具體來說，處理單元112可執行物件偵測演算法來偵測全景影像中的指示或文字，並計算可涵蓋物件輪廓的一矩形作為物件的邊界框來定義物件範圍。物件偵測演算法例如實施為物件特徵偵測演算法、類神經網路模型等架構，本發明不在此限制。此外，處理單元112還可執行物件追蹤演算法以對偵測到的指示或文字進行追蹤，並根據追蹤結果給予對應此指示或文字的一影像識別。

圖9A繪示本發明一實施例的全景影像的示意圖。圖9B繪示本發明一實施例的輸出影像的示意圖。請參照圖9A，處理單元112偵測全景影像810中的指示及文字，以取得物件範圍W81以及物件範圍W82。此物件範圍W81對應於人手手勢，物件範圍W82對應於文字。在本實施例中，處理單元112可依據顯示器參數、物件範圍W81以及物件範圍W82決定裁切範圍FM81，並依據裁切範圍FM81裁切全景影像以產生圖9B示出的輸出影像811。

值得注意的是，在一實施例中，處理單元112可根據偵測到的物件範圍產生切換指令。也就是說，處理單元112在偵測到指示與文字時可產生切換指令，並響應於切換指令從當前模式切換至局部放大模式。之後，處理單元112會依據顯示器參數與物件範圍裁切全景影像。此外，處理單元112在依據顯示器參數與物件範圍裁切全景影像時，也可同時依據人臉範圍裁切全景影像。依據人臉範圍裁切全景影像的具體技術可參照前述步驟S4063的相關描述，於此不再贅述。

在步驟S4064中，處理單元112將輸出影像傳送至外接顯示器（如，圖2的顯示器130）並透過外接顯示器顯示輸出影像。

綜上所述，本發明實施例的虛擬運鏡方法、攝像裝置及電子系統，能夠拼接由多個可拆卸地裝設於主體的鏡頭所擷取的多個影像來產生全景影像，此全景影像可具有用戶視線看起來正對所有會議參與者的效果。並且，透過多個鏡頭拍攝的影像所拼接出的全景影像，可避免用魚眼鏡頭拍攝全景影像所產生的兩側嚴重變形之問題。此外，本實施例依據特定條件裁切全景影像以產生輸出影像。據此，可透過裁切全景影像來聚焦影像中出現的物件，從而達成動態虛擬運鏡的效果。

雖然本發明已以實施例揭露如上，然其並非用以限定本發明，任何所屬技術領域中具有通常知識者，在不脫離本發明的精神和範圍內，當可作些許的更動與潤飾，故本發明的保護範圍當視後附的申請專利範圍所界定者為準。

1:電子系統 100:攝像裝置 110:主體 111:儲存裝置 112:處理單元 120:鏡頭 130:顯示器 140:聲音擷取裝置 501, 502:影像 510, 610, 710, 720, 810:全景影像 611, 612, 811:輸出影像 7a, 7b:與會者 C61:中心座標 D1, D2:第一聲源方向 D3:第二聲源方向 D4:方向 FM61, FM62, FM71, FM72, FM73, FM81:裁切範圍 L61:垂直線 W61:人臉範圍 W81, W82:物件範圍 S402~S406, S4061~S4064:步驟

圖1繪示本發明一實施例的攝像裝置的外觀示意圖。圖2繪示本發明一實施例的電子系統的使用情境示意圖。圖3繪示本發明一實施例的主體的方塊圖。圖4繪示本發明一實施例的虛擬運鏡方法的流程圖。圖5A及圖5B繪示本發明一實施例的影像縫合的示意圖。圖6繪示本發明一實施例的產生輸出影像的方法的流程圖。圖7A繪示本發明一實施例的全景影像的示意圖。圖7B及圖7C繪示本發明一實施例的輸出影像的示意圖。圖8A及圖8B繪示本發明一實施例的全景影像的示意圖。圖9A繪示本發明一實施例的全景影像的示意圖。圖9B繪示本發明一實施例的輸出影像的示意圖。

S402~S406:步驟

Claims

一種虛擬運鏡方法，適用於具有主體以及至少二鏡頭的攝像裝置，所述主體包括一處理單元，所述至少二鏡頭可拆卸地裝設於所述主體，所述方法包括：所述處理單元透過所述至少二鏡頭擷取至少二影像；所述處理單元拼接所述至少二影像，以產生至少一全景影像；以及所述處理單元裁切所述全景影像，以產生一輸出影像。
如請求項1所述的虛擬運鏡方法，所述主體更包括一通訊單元，其中所述方法包括：所述至少二鏡頭擷取所述至少二影像，並且所述至少二鏡頭將所述至少二影像藉由所述通訊單元傳送給所述處理單元。
如請求項1所述的虛擬運鏡方法，其中拼接所述至少二影像，以產生所述至少一全景影像的步驟包括：所述處理單元對所述至少二影像進行梯形校正，以產生至少二梯形校正影像；所述處理單元根據所述至少二梯形校正影像計算得到多個特徵點；以及所述處理單元根據所述多個特徵點縫合所述至少二梯形校正影像，以產生所述全景影像。
如請求項1所述的虛擬運鏡方法，其中裁切所述全景影像，以產生所述輸出影像的步驟包括：所述處理單元接收來自一外接顯示器的至少一顯示器參數；所述處理單元依據所述顯示器參數調整所述全景影像；所述處理單元依據所述顯示器參數裁切所述全景影像，以產生所述輸出影像；以及所述處理單元將所述輸出影像傳送至所述外接顯示器，並透過所述外接顯示器顯示所述輸出影像。
如請求項4所述的虛擬運鏡方法，其中所述顯示器參數包含顯示裝置解析度、顯示裝置比例、顯示區域解析度或顯示區域比例。
如請求項4所述的虛擬運鏡方法，包括：所述處理單元偵測所述全景影像中的人臉，以取得人臉範圍；以及所述處理單元依據所述顯示器參數與所述人臉範圍裁切所述全景影像以產生所述輸出影像。
如請求項6所述的虛擬運鏡方法，包括：所述處理單元依據所述顯示器參數設定裁切範圍；以及所述處理單元依據所述裁切範圍與所述人臉範圍裁切所述全景影像以產生所述輸出影像。
如請求項7所述的虛擬運鏡方法，其中所述人臉範圍位於所述輸出影像的1/3、1/2或2/3的水平位置處。
如請求項8所述的虛擬運鏡方法，其中所述人臉範圍具有中心座標，所述中心座標位於所述輸出影像的1/3、1/2或2/3的水平位置處。
如請求項8所述的虛擬運鏡方法，包括：所述處理單元偵測所述人臉範圍中的人眼，以取得人眼範圍；其中，所述人眼範圍位於所述輸出影像的1/3、1/2或2/3的水平位置處。
如請求項10所述的虛擬運鏡方法，其中所述人眼範圍內的人眼的注視方向置中朝前。
如請求項7所述的虛擬運鏡方法，其中所述人臉範圍位於所述輸出影像的1/3或1/2的垂直位置處。
如請求項7所述的虛擬運鏡方法，其中所述裁切範圍的面積大於等於所述人臉範圍的面積。
如請求項13所述的虛擬運鏡方法，其中所述裁切範圍的面積小於等於6倍的所述人臉範圍的面積。
如請求項4所述的虛擬運鏡方法，包括：所述處理單元響應於一切換指令，切換至多個操作模式的其中之一。
如請求項15所述的虛擬運鏡方法，其中所述切換指令為偵測用戶產生的一預設聲音訊號、一預設手勢或一預設影像。
如請求項15所述的虛擬運鏡方法，其中所述多個操作模式包括人臉追蹤模式、聲音追蹤模式以及局部放大模式。
如請求項17所述的虛擬運鏡方法，包括：所述處理單元響應於所述切換指令，切換至所述人臉追蹤模式；所述處理單元偵測所述全景影像中的人臉，以取得人臉範圍；以及所述處理單元依據所述顯示器參數與所述人臉範圍裁切所述全景影像。
如請求項17所述的虛擬運鏡方法，包括：所述處理單元響應於所述切換指令，切換至所述聲音追蹤模式；所述處理單元在第一時間點，透過一聲音擷取裝置偵測第一聲源方向；以及所述處理單元依據所述顯示器參數與所述第一聲源方向裁切所述全景影像以產生所述輸出影像。
如請求項19所述的虛擬運鏡方法，包括：所述處理單元在第二時間點，透過所述聲音擷取裝置偵測第二聲源方向；所述處理單元計算所述第一聲源方向與所述第二聲源方向之間的方向差異；以及所述處理單元判斷所述方向差異是否大於一預設方向閥值。
如請求項20所述的虛擬運鏡方法，包括：響應於所述方向差異小於等於所述預設方向閥值，所述處理單元依據所述顯示器參數與所述第一聲源方向裁切所述全景影像。
如請求項20所述的虛擬運鏡方法，包括：響應於所述方向差異大於所述預設方向閥值，所述處理單元依據所述顯示器參數與所述第二聲源方向裁切所述全景影像。
如請求項17所述的虛擬運鏡方法，包括：所述處理單元偵測所述全景影像中的多個人臉，並取得對應所述多個人臉的多個人臉範圍；所述處理單元根據所述多個人臉範圍，以產生所述切換指令；所述處理單元響應於所述切換指令，切換至所述聲音追蹤模式；所述處理單元透過一聲音擷取裝置偵測聲源方向；所述處理單元根據所述聲源方向，從所述多個人臉範圍中決定對應於所述聲源方向的第一人臉範圍；以及所述處理單元依據所述顯示器參數與所述第一人臉範圍裁切所述全景影像。
如請求項17所述的虛擬運鏡方法，包括：響應於所述切換指令，所述處理單元切換至所述局部放大模式；所述處理單元偵測所述全景影像中的指示或文字，以取得物件範圍；以及所述處理單元依據所述顯示器參數與所述物件範圍裁切所述全景影像。
如請求項17所述的虛擬運鏡方法，包括：所述處理單元偵測所述全景影像中的指示與文字，以取得物件範圍；所述處理單元根據所述物件範圍產生所述切換指令；響應於所述切換指令，所述處理單元切換至所述局部放大模式；以及所述處理單元依據所述顯示器參數與所述物件範圍裁切所述全景影像。
如請求項25所述的虛擬運鏡方法，包括：所述處理單元偵測所述全景影像中的人臉，以取得人臉範圍。
一種攝像裝置，包括：至少二鏡頭，用以擷取至少二影像，所述至少二鏡頭可拆卸地裝設於主體；以及所述主體，連接於所述至少二鏡頭，所述主體包括儲存裝置以及處理單元，所述處理單元電性耦接於所述儲存裝置，其中，所述儲存裝置用以儲存多個指令，並且所述處理單元用以執行所述指令以：拼接所述至少二影像，以產生至少一全景影像；以及裁切所述全景影像，以產生一輸出影像。
如請求項27所述的攝像裝置，其中所述主體更包括一通訊單元，所述至少二鏡頭擷取所述至少二影像，並且所述至少二鏡頭將所述至少二影像藉由所述通訊單元傳送給所述處理單元。
如請求項27所述的攝像裝置，其中所述處理單元接收來自一外接顯示器的至少一顯示器參數，所述處理單元依據所述顯示器參數調整所述全景影像，所述處理單元依據所述顯示器參數裁切所述全景影像，以產生所述輸出影像，並且所述處理單元將所述輸出影像傳送至所述外接顯示器，並透過所述外接顯示器顯示所述輸出影像。
如請求項27所述的攝像裝置，其中所述處理單元響應於一切換指令，切換至多個操作模式的其中之一。
如請求項30所述的攝像裝置，其中所述切換指令為偵測用戶產生的一預設聲音訊號、一預設手勢或一預設影像。
如請求項30所述的攝像裝置，其中所述多個操作模式包括人臉追蹤模式、聲音追蹤模式以及局部放大模式。
一種電子系統，包括：顯示器；以及如請求項27所述的攝像裝置；其中，所述至少二鏡頭可拆卸地裝設於所述顯示器；其中，所述主體電性耦接於所述顯示器。
如請求項33所述的電子系統，包括：輸入裝置，電性耦接於所述主體。