TWI755938B

TWI755938B - 影像擷取系統

Info

Publication number: TWI755938B
Application number: TW109140500A
Authority: TW
Inventors: 楊富原
Original assignee: 大陸商信泰光學（深圳）有限公司; 亞洲光學股份有限公司
Priority date: 2020-11-19
Filing date: 2020-11-19
Publication date: 2022-02-21
Also published as: TW202222065A

Abstract

本發明提供一種影像擷取系統，包含：複數個攝影鏡頭；複數個麥克風；一音訊處理單元，根據該等麥克風於一空間中所接收的音頻訊號，偵測一主音源的一方位；一影像處理單元，將該等攝影鏡頭取得的複數個影像拼接成一合成影像；以及一資料處理裝置，根據該主音源的該方位，從該合成影像中偵測出一第1對象。

Description

影像擷取系統

本發明是關於一種影像擷取系統。

在傳統的視訊會議當中，所使用的攝影鏡頭解析度通常不高，或者並不是超廣角鏡頭。在這種情況下於小型會議室舉行會議，所有人都必須擠在攝影鏡頭前才能參與會議，而導致整個會議顯得相當擁擠。

因此，本發明提供一種影像擷取系統，以改善先前技術當中所面臨的問題。

關於本發明的一種影像擷取系統，包含：複數個攝影鏡頭；複數個麥克風；一音訊處理單元，根據該等麥克風於一空間中所接收的音頻訊號，偵測一主音源的一方位；一影像處理單元，將該等攝影鏡頭取得的複數個影像拼接成一合成影像；以及一資料處理裝置，根據該主音源的該方位，從該合成影像中偵測出一第1對象。

某一實施例中，影像擷取系統更包含：一連接介面單元，可與一輸出裝置連接，以透過該輸出裝置將該合成影像以及該主音源的音源訊號傳送至一視訊平台。

某一實施例中，該連接介面單元透過該輸出裝置，將包含該第1對象的一第1影像傳送至該視訊平台。

某一實施例中，該資料處理裝置對該合成影像中所偵測出的該第1對象進行追蹤。

某一實施例中，該連接介面單元透過該輸出裝置，將追蹤該第1對象時所拍攝的一第1追蹤影像傳送至該視訊平台。

某一實施例中，該資料處理裝置根據一使用者選取的一注意區域(ROI，region of interest)，從該注意區域中偵測出一第2對象；該連接介面單元透過該輸出裝置，將包含該第2對象的一第2影像傳送至該視訊平台。

某一實施例中，該資料處理裝置對該注意區域中所偵測出的該第2對象進行追蹤。

某一實施例中，該連接介面單元透過該輸出裝置，將追蹤該第2對象時所拍攝的一第2追蹤影像傳送至該視訊平台。

某一實施例中，該資料處理裝置係設置於該輸出裝置中。

某一實施例中，該等攝影鏡頭係以環狀設置於該影像擷取系統之一本體上；該等麥克風係以環狀設置於該本體上，且與該等攝影鏡頭係相互交錯地設置。

根據本發明的影像擷取系統，可以提供合成影像至視訊平台以供與會者觀看。因此，小型會議室的使用者不必全都擠在攝影鏡頭，也能夠參與會議。其次，本發明是先偵測出主音源的方位之後，再針對該方位的特定區域識別並追蹤發言人(第1對象)，而無需針對合成影像的畫面整體進行識別。因此，能夠達成節省系統資源之功效。另外，使用者亦可以直接從合成影像選取注意區域，再針對使用者選取的注意區域識別並追蹤特定的人物或物件(第2對象)。因此，可以帶給視訊會議的使用者更多的互動。

第1A圖為本發明其中一實施例的影像擷取系統1的示意圖。如第1A圖所示，影像擷取系統1包含本體10，本體10可直立式地設置於桌面。另外，本體10的側壁還可以設有複數個攝影鏡頭，以接收複數個影像；並嵌入複數個麥克風，以接收音頻訊號。另外，雖然第1A圖僅以其中一個視角示意了本體10所包含的2個攝影鏡頭11A、11B，但複數個攝影鏡頭以及複數個麥克風的設置方式，亦可以透過以下描述的第1B圖來理解。另外，本體10的造型以及顏色等亦可以任意調整。

第1B圖為本發明其中一實施例的影像擷取系統1的硬體架構圖。如第1B圖所示，影像擷取系統1包含：本體10、4個攝影鏡頭11A~11D、以及4個麥克風12A~12D。4個攝影鏡頭11A~11D係以環狀設置於本體10上；另外，4個麥克風12A~12D同樣也以環狀設置於本體10上，並且與4個攝影鏡頭11A~11D相互交錯地設置。

4個攝影鏡頭11A~11D舉例來說，可以是視角為120度的廣角鏡頭。以第1B圖為例，若以本體10的中心點為原點，朝著攝影鏡頭11A方向的方位為0度，以逆時針方向為正方向，則攝影鏡頭11A可以拍攝方位介於300度~60度之間的影像或影片。以此類推，攝影鏡頭11B可以拍攝方位介於30度~150度之間的影像或影片；攝影鏡頭11C可以拍攝方位介於120度~240度之間的影像或影片；攝影鏡頭11D可以拍攝方位介於210度~330度之間的影像或影片。需進一步說明本實施例中雖然是以4個攝影鏡頭11A~11D為例說明，但本發明並非以此為限，為提供一視角更為廣泛或清晰的影像，在本發明中更可設置4個以上或4個以下的鏡頭，以2個攝影鏡頭為例，可以是視角為大於90度的廣角鏡頭，一攝影鏡頭可以拍攝方位介於0度~90度之間的影像或影片，另一攝影鏡頭可以拍攝方位介於90度~180度之間的影像或影片；或者，一攝影鏡頭可以拍攝方位介於0度~180度之間的影像或影片，另一攝影鏡頭可以拍攝方位介於180度~360度之間的影像或影片。

接著，第1C圖為本發明其中一實施例的影像擷取系統1實際設置於會議室的示意圖。如第1C圖所示，參與會議的使用者可以將本體10設置於會議室的桌子中央。如此一來，當4位使用者座在會議室的座椅開會時，4個攝影鏡頭11A~11D就可以拍攝4位使用者的影像或影片。另外，會議室還設有輸出裝置18，輸出裝置18可以顯示視訊平台所顯示的畫面，以方便4位使用者觀看。

另外，雖然在第1A~1C圖的實施例當中，攝影鏡頭與麥克風的數量皆為4個，但該數量僅為了方便說明，在其他的實施例中並不以此為限。

第2圖為本發明其中一實施例的影像擷取系統1的電路方塊圖。如第2圖所示，本體10包含：影像擷取單元11、麥克風陣列12、影像處理單元13、音訊處理單元14、管理單元15、連接介面單元16、儲存單元17以及通訊單元20。音訊處理單元14耦接至麥克風陣列12。影像處理單元13耦接至影像擷取單元11。所述管理單元15耦接至影像處理單元13、音訊處理單元14、連接介面單元16、儲存單元17與通訊單元20。

在本實施例中，所述影像擷取單元11包含如第1B圖中所示的4個攝影鏡頭11A~11D。影像擷取單元11會將4個攝影鏡頭11A~11D所擷取的影像傳送給影像處理單元13。

所述麥克風陣列12包含如第1B圖中所示的4個麥克風12A~12D。麥克風陣列12將4個麥克風12A~12D所接收到的聲音轉換為音頻訊號傳送至音訊處理單元14。

所述影像處理單元13為可根據分別從影像擷取單元11的4個攝影鏡頭11A~11D所擷取的影像進行影像處理操作（如，影像合成）的電路單元。

所述音訊處理單元14為可根據分別從麥克風陣列12的4個麥克風12A~12D所接收到的多個音頻訊號來計算所接收的聲音的位置的電路單元/晶片。

所述管理單元15為具備運算能力的硬體(例如晶片組、處理器等)，用以控制本體10的其他元件的功能以及管理本體10的整體運作。在本實施例中，管理單元15例如是一核心或多核心的中央處理單元(Central Processing Unit，CPU)、圖像處理單元(Graphic Processing Unit，GPU)、微處理器(micro-processor)、或是其他可程式化之處理單元(Microprocessor)、數位訊號處理器(Digital Signal Processor，DSP)、可程式化控制器、特殊應用積體電路(Application Specific Integrated Circuits，ASIC)、可程式化邏輯裝置(Programmable Logic Device，PLD)或其他類似裝置。

所述連接介面單元16例如是可符合序列先進附件(Serial Advanced Technology Attachment, SATA)標準、並列先進附件(Parallel Advanced Technology Attachment, PATA)標準、電氣和電子工程師協會(Institute of Electrical and Electronic Engineers, IEEE) 1394標準、高速周邊零件連接介面(Peripheral Component Interconnect Express, PCI Express)標準、通用序列匯流排(Universal Serial Bus, USB)標準、超高速一代(Ultra High Speed-I，UHS-I)介面標準、超高速二代(Ultra High Speed-II, UHS-II)介面標準、安全數位(Secure Digital, SD)介面標準、記憶棒(Memory Stick, MS)介面標準、多媒體儲存卡(Multi Media Card, MMC)介面標準、小型快閃(Compact Flash, CF)介面標準、整合式驅動電子介面(Integrated Device Electronics, IDE)標準、終端微通道互連架構部件(Personal Computer Memory Card International Association，PCMCIA)標準、視訊圖形陣列（Video Graphics Array，VGA）標準、數位視訊介面(Digital Visual Interface，DVI)標準、高畫質晰度多媒體介面（High Definition Multimedia Interface，HDMI）標準或其他適合的標準的電路單元。在本實施例中，管理單元15可藉由連接介面單元16連接至輸出裝置18（如，喇叭、螢幕、投影機、桌上型電腦、筆記型電腦、平板電腦、伺服器、智慧型手機等等），以輸出資料（如，本體10所產生之影像）。此外，管理單元15可藉由連接介面單元16連接至輸入裝置19，以接收來自輸入裝置19的輸入訊號，或是接收使用者（如，與會者）的操控。

所述儲存單元17可經由管理單元15的指示來暫存資料，所述資料包括用以管理本體10的資料、從其他電子裝置所接收的資料、用以傳送至其他電子裝置的資料或是其他類型的資料，本發明不限於此。

應注意的是，輸出裝置18與輸入裝置19亦可整合至同一電子裝置中（如，觸控螢幕）。特別是，連接介面單元16亦可連接至其他儲存單元（如，記憶卡、外接式硬碟等），以讓管理單元15可存取所述經由連接介面單元16所外接之儲存單元中的資料。此外，在另一實施例中，上述經由連接介面單元16所連接的不同的輸入/輸出裝置亦可被整合至本體10中。

在一實施例中，本體10亦可經由連接介面單元16與其他電子裝置（如，桌上型電腦、筆記型電腦、平板電腦、伺服器、智慧型手機等等）連接，以讓其他電子裝置藉由本體10與執行於其他電子裝置中的應用程式，如Skype、zoom、騰訊會議、webex、LINE、微信(WeChat)、V-CUBE、或是Google meet之類的視訊平台來進行視訊會議。因此，連接介面單元16可以透過USB影片類別(USB Video Class，UVC)協議，隨插即用地與輸出裝置18連線，以透過輸出裝置18將360度環景影像以及主音源的音源訊號，利用有線網路或是無線網路的方式傳送至視訊平台。

在另一實施例中，所述本體10還包括耦接至管理單元16之通訊單元20。所述通訊單元20用以透過無線通訊的方式來傳輸或是接收資料。在本實施例中，通訊單元20可具有一無線通訊模組，並支援全球行動通信(Global System for Mobile Communication，GSM)系統、個人手持式電話系統(Personal Handy-phone System，PHS)、碼多重擷取(Code Division Multiple Access，CDMA)系統、無線相容認證(Wireless Fidelity，WiFi)系統、全球互通微波存取(Worldwide Interoperability for Microwave Access，WiMAX)系統、第三代無線通信技術(3G)、第四代無線通信技術(4G)、長期演進技術(Long Term Evolution, LTE)、紅外線(Infrared)傳輸、藍芽(Bluetooth，BT)通訊技術的其中之一或其組合，且不限於此。此外，通訊單元20亦可具有網路介面卡(Network Interface Card，NIC)，以建立網路連線，進而讓本體10可連接至區域網路或是網際網路。

當本體10置於如會議室等密閉式空間時，音訊處理單元14可以根據4個麥克風12A~12D於會議中接收的音頻訊號，偵測主音源的方位。舉例來說，音訊處理單元14可以根據4個麥克風12A~12D於一段時間內所接收到的音頻訊號的振幅，來判斷主音源的方位。

例如：當設置於方位45度的麥克風12A接收到的音頻訊號的振幅，為設置於方位135度的麥克風12B所接收到相同音頻訊號的振幅的數倍，例如2倍時，則可以判定該音頻訊號較為靠近麥克風12A而不是靠近麥克風12B。

以上所述音訊處理單元14判斷主音源的方位，主要是使用音源定位(Sound Localization)的技術來實現。業界現有的音源定位演算法有許多種實作方式，此處將概略性地說明對本發明的4個麥克風12A~12D接收到的音頻訊號進行音源定位的其中一種方法。

在一種實施例中，音源定位至少包含以下步驟：麥克風12A~12D接收音頻訊號、類比/數位轉換器、音訊輸入選擇、計算到達時間差、以及到達時間差角度轉換，以下將分別對每個步驟進行概念上的說明。

由於大自然裡一切的訊號，包含我們可以聽到的聲音，都屬於類比訊號。因此，當麥克風12A~12D接收音頻訊號之後，必須由一個類比/數位轉換器將類比訊號轉換成數位訊號之後，才能讓音訊處理單元14進行後續的處理。

接著，當類比/數位轉換器將類比訊號轉換成數位訊號之後，音訊處理單元14開始判斷接收的數位訊號是否需要進行處理，這個過程就稱為「音訊輸入選擇」。具體而言，音訊輸入選擇又可細分為以下3個步驟，分別為：臨界值選擇(Threshold Value Detection，TVD)、過零率(Zero Crossing Rate，ZCR)、以及遠端偵測(End Point Detection，EPD)。

「臨界值選擇」(TVD)是用來判斷輸入的數位訊號的振幅是否大於一臨界值。若振幅大於一臨界值則視為人類所發出的聲音並進行處理；反之，將視為雜訊而不進行處理。

「過零率」(ZCR)則是輔助臨界值選擇的不足，其主要精神是更加精準地判定數位訊號是否為雜訊。一般來說，由於估計數位訊號跨越零線(Zero Line)的次數時，雜訊通常具有較高的次數。因此，音訊處理單元14可以透過「過零率」計算的輔助，來進一步過濾臨界值選擇階段尚未被排除的雜訊。

「遠端偵測」(EPD)則是用來判斷數位訊號是否已經結束。具體來說，遠端偵測也需要另外一個臨界值，來判斷輸入的數位訊號的振幅是否小於該臨界值，才能判定某段數位訊號是否已經結束，並決定下一段數位訊號開始的時間點。經過上述步驟後，音訊處理單元14就可以判斷哪些數位訊號需要進行處理。

音訊輸入選擇執行完之後，音訊處理單元14會針對需要進行處理的複數個數位訊號計算「到達時間差」(Time Difference of Arrival，TDOA)。具體來說，計算到達時間差的用意在於計算複數個數位訊號彼此相隔的時間。在習知技術中，我們也可以採用平均振幅差函數(Average Magnitude Difference Function，AMDF)的公式來計算複數個數位訊號彼此相隔的時間。其概念為：當複數個數位訊號計算平均振幅差函數得出最小的s值時，代表複數個數位訊號的時間差最短為s個取樣點的時間。

最後，音訊處理單元14會根據s值、取樣率、聲速、以及麥克風12A~12D彼此的相對距離…等條件，來計算出主音源的方位(角度)。這個過程就稱為「到達時間差角度轉換」。

另外，音訊處理單元14還可以對接收到的音頻訊號進行後處理，例如：回音消除(Echo Cancelation)、雜訊降低(Noise Reduction)…等處理。由於音源定位、回音消除以及雜訊降低已屬於業界習知的處理，故在此省略這些處理的詳細說明。

最後，音訊處理單元14可以基於上述流程以及後處理的結果，來判斷主音源的方位。在本實施例中，我們假設音訊處理單元14偵測主音源的方位為75度。

接著，當本體10置於如會議室等密閉式空間時，影像處理單元13將4個攝影鏡頭11A~11D所取得的複數個影像拼接成360度環景影像。所謂的影像拼接(Image Stitching)，指的是將兩張以上有重疊部分的影像，拼接成一張全景圖或是高解析度影像的技術。

根據第1A~1C圖的實施方式，由於在密閉空間當中，以本體10為軸心的0度~360度的任一方位，都可以被4個攝影鏡頭11A~11D的至少一者所拍攝，因此，可以將4個攝影鏡頭11A~11D所取得的4個影像拼接成一個360度環景影像。

具體而言，執行影像拼接時有兩大步驟：影像對準(Image Alignment)以及影像混合(Blending)。影像對準是指找出兩張影像之間的轉換關係，使得經過轉換之後的兩張影像具有相同的部分可以重疊；影像混合則是消除轉換後的兩張影像之間明顯的邊界，而能夠讓兩張影像能夠平順地接合。

影像對準常用的演算法包含特徵點檢測，如尺度不變特徵轉換(Scale-invariant Feature Transform，SIFT)演算法等；以及影像配準，如隨機抽樣一致(Random Sample Consensus，RANSAC)演算法等。另外，影像混合常用的演算法有阿法混合(Alpha Blending)或是梯度域拼接(Gradient-domain Stitching)等。由於上述演算法亦屬於業界習知的演算法，故在此省略這些演算法的詳細說明。

影像處理單元13可以透過上述的演算法，將會議室的影像拼接成360度環景影像。拼接之後的360度環景影像舉例來說，可以像是如後面描述的第3圖當中的360度環景影像。其中，橫軸的每一個座標都對應0度~360度的任一角度。另外，縱軸的高度則是取決於4個攝影鏡頭11A~11D的拍攝仰角而定。在本發明的實施例中，拍攝仰角可以是0度~60度，或者也可以是其他的角度。拍攝仰角的範圍，取決於攝影鏡頭11A~11D物理結構的限制。

其中，第2圖的輸出裝置18更包含資料處理裝置18A。資料處理裝置18A可以根據該主音源的方位，從360度環景影像中偵測出第1對象。

具體而言，由於先前的說明中，我們已經假設音訊處理單元14偵測出會議中的主音源的方位為75度，因此，音訊處理單元14能夠以75度為中心，向左右擴展某個角度的範圍內，例如45度，在360度環景影像當中的30度~120度的範圍內偵測是否有第1對象。由於在會議中，主音源通常是發言人所發出的聲音，因此，資料處理裝置18A可以將30度~120度的範圍內所偵測到的第1對象視為會議的發言人。在本實施例中，該發言人即為第3圖當中的人物C。

也就是說，本發明其中一實施例中，是由音訊處理單元14先偵測出會議中的主音源的方位；之後，資料處理裝置18A再根據該主音源的方位，從360度環景影像當中的特定範圍內來偵測第1對象的存在與否。因此，資料處理裝置18A並不需要針對360度環景影像的整體影像進行對象的偵測，而能夠達成節省系統資源之功效。另外，假如會議中沒有人發言，也就是4個麥克風12A~12D並未接收到明顯的音頻訊號時(例如，各個麥克風12A~12D收到的音訊均未超過一臨界值)，資料處理裝置18A將不會偵測360度環景影像當中是否存在有第1對象。因此，能夠達成節省系統資源之功效。

第3圖為本發明其中一實施例的360度環景影像於視訊平台顯示的示意圖。如前面所述，連接介面單元16可以與輸出裝置18連線，將360度環景影像傳送至視訊平台。當使用者透過視訊平台參加會議時，視訊平台可以顯示會議的360度環景影像。

另外，如第3圖所示，視訊平台也可以選擇性地顯示360度環景影像當中每個方位所對應的角度。角度值能夠以90度的倍數來顯示，如第3圖當中的0度、90度、180度、270度；亦能夠以45度的倍數來顯示，但並不以此為限。

另外，當資料處理裝置18A偵測出第1對象之後，還可以將包含第1對象的第1影像傳送至視訊平台。第4圖為本發明其中一實施例的第1影像於視訊平台顯示的示意圖。由於資料處理裝置18A在360度環景影像當中的30度~120度的範圍內，已經有偵測到第1對象，也就是人物C，因此在第4圖中，視訊平台可以顯示包含第1對象(人物C)的第1影像。

另外，當資料處理裝置18A偵測出第1對象之後，資料處理裝置18A還可以對第1對象(人物C)進行追蹤。第5圖為本發明其中一實施例的第1追蹤影像於視訊平台顯示的示意圖。

具體而言，當資料處理裝置18A偵測出第1對象之後，資料處理裝置18A可以針對第1對象(人物C)的臉部輪廓、體型、髮型…等特徵，在不同的會議場景中，識別出第1對象所在的位置，因此不受人臉上的遮蓋物(例如口罩、墨鏡、帽子、鬍鬚等)、年齡等多方面因素所影響。具體來說，在第5圖的會議場景中有4個人物B、C、E、F。資料處理裝置18A可以用黑色粗體的[]，將第5圖的會議場景中的人物C的臉部框出來。如此一來，使用視訊平台參與會議的使用者就可以很快地在不同的會議場景當中找到人物C的位置。

另外，當資料處理裝置18A偵測出第1對象為人物C之後，在不同的會議場景中，也可以將第1追蹤影像進行縮放(Zooming)。換言之，資料處理裝置18A可以將第1追蹤影像放大，以凸顯出人物C的輪廓；也可以將第1追蹤影像縮小，以表現出人物C與其他人物和背景之間的相對位置。

另外，雖然在本實施例當中，資料處理裝置是用黑色粗體的[]標出第1對象(人物C)；然而，也可以用方框、三角形等其他的識別符號標出第1對象，且[]與其他識別符號的顏色亦可以任意選擇。

另外，在第3~5圖所示意的實施例當中，雖然360度環景影像(第3圖)、第1影像(第4圖)、以及第1追蹤影像(第5圖)都是單獨顯示於視訊平台，但本發明的實施例並不以此為限。舉例來說，視訊平台也可以同時顯示第3圖的360度環景影像以及第4圖的第1影像。另外，視訊平台也可以同時顯示第3圖的360度環景影像以及第5圖的第1追蹤影像。另外，視訊平台也可以同時顯示第4圖的第1影像以及第5圖的第1追蹤影像。另外，視訊平台也可以同時顯示第3圖的360度環景影像、第4圖的第1影像、以及第5圖的第1追蹤影像。當視訊平台同時顯示複數個影像時，亦可以用上下、左右等均分的方式分割畫面，或者是用子畫面、母畫面的組合顯示畫面，且並不以此為限。

應注意的是，以上所述的人物偵測以及人物追蹤的演算法，均可以用習知的特徵識別演算法來實作。舉例來說，可以利用基於人臉特徵點的演算法，甚至也可以利用基於類神經網路進行識別的演算法等。故在此省略這些演算法的詳細說明。

以上，在第3~5圖所示意的實施例當中，資料處理裝置18A是根據音訊處理單元14偵測的主方位，從360度環景影像當中偵測出第1對象(人物C)；連接介面單元16透過輸出裝置18，將360度環景影像(第3圖)、第1影像(第4圖)、以及第1追蹤影像(第5圖)傳送至視訊平台。以下，在第6~8圖所示意的實施例當中，資料處理裝置18A則是根據使用者選取的注意區域(ROI，region of interest)(第6圖)，從注意區域中偵測出第2對象；連接介面單元16透過輸出裝置18，將包含第2對象的第2影像(第7圖)、以及追蹤第2對象時所拍攝的第2追蹤影像(第8圖)傳送至視訊平台。

第6圖為本發明其中一實施例由使用者選取注意區域時的注意區域示意圖。第6圖的360度環景影像，與第3圖所示的360度環景影像相同；但在第6圖的實施例中，資料處理裝置18A可以受理使用者選取任意長寬比例的注意區域(以虛線區域表示)。當使用者選取完注意區域之後，資料處理裝置18A就只針對該注意區域內識別是否存在有第2對象。

此處需留意的是，使用者所選取的注意區域，並不受限於人物影像。舉例來說，若會議當中需要針對某個專案的展示品或半成品進行說明，而讓參與會議的使用者也可以清楚觀看，則此時使用者所選取的注意區域，也可以包含像是展示品、椅子、電話等人物以外的物件。但為了方便後續的說明，我們此處仍以人物B為例，表示使用者所選取的注意區域當中包含了人物B。

第7圖為本發明其中一實施例的第2影像於視訊平台顯示的示意圖。在第7圖中，由於資料處理裝置18A在360度環景影像當中的注意區域內已經有偵測到第2對象，也就是人物B，因此在第7圖中，視訊平台可以顯示包含第2對象(人物B)的第2影像。

另外，當資料處理裝置18A偵測出第2對象之後，資料處理裝置18A還可以對第2對象(人物B)進行追蹤。第8圖為本發明其中一實施例的第1追蹤影像於視訊平台顯示的示意圖。第8圖的會議場景與第5圖的會議場景相同，都有4個人物B、C、E、F。然而在本實施例中，由於資料處理裝置18A已經偵測出第2對象，因此，資料處理裝置18A可以用黑色粗體的[]，將第5圖的會議場景中的人物B的臉部框出來。標示第2對象的識別符號以及顏色，同第5圖的說明可以任意選擇以及調整，此處不再重複說明。

另外，在第6~8圖所示意的實施例當中，雖然包含ROI的360度環景影像(第6圖)、第2影像(第7圖)、以及第2追蹤影像(第8圖)都是單獨顯示於視訊平台，但本發明的實施例並不以此為限。舉例來說，視訊平台也可以同時顯示第6圖的360度環景影像以及第7圖的第2影像。另外，視訊平台也可以同時顯示第6圖的360度環景影像以及第8圖的第2追蹤影像。另外，視訊平台也可以同時顯示第6圖的360度環景影像、第7圖的第2影像、以及第8圖的第2追蹤影像。當視訊平台同時顯示複數個影像時，亦可以用上下、左右等均分的方式分割畫面，或者是用子畫面、母畫面的組合顯示畫面，且並不以此為限。

以上已詳細說明本發明的影像擷取系統1的所有結構以及功能。然而，上述的文字以及圖例僅為示意性的說明，並非用來限縮本發明的專利範圍。因此，本發明的專利範圍，應以後面所附的申請專利範圍所記載的文字為準。另外，在不脫離本發明的宗旨以及核心精神的前提下，說明書當中描述的電路圖、方塊圖等元件亦可以作適當的變更、增減、以及組合。

1:影像擷取系統 10:本體 11:影像擷取單元 11A~11D:攝影鏡頭 12:麥克風陣列 12A~12D:麥克風 13:影像處理單元 14:音訊處理單元 15:管理單元 16:連接介面單元 17:儲存單元 18:輸出裝置 18A:資料處理裝置 19:輸入裝置 20:通訊單元

第1A圖為本發明其中一實施例的影像擷取系統1的示意圖；第1B圖為本發明其中一實施例的影像擷取系統1的俯視圖；第1C圖為本發明其中一實施例的影像擷取系統1實際設置於會議室的示意圖。第2圖為本發明其中一實施例的影像擷取系統1的電路方塊圖。第3圖為本發明其中一實施例的360度環景影像於視訊平台顯示的示意圖。第4圖為本發明其中一實施例的第1影像於視訊平台顯示的示意圖。第5圖為本發明其中一實施例的第1追蹤影像於視訊平台顯示的示意圖。第6圖為本發明其中一實施例由使用者選取注意區域時的注意區域示意圖。第7圖為本發明其中一實施例的第2影像於視訊平台顯示的示意圖。第8圖為本發明其中一實施例的第2追蹤影像於視訊平台顯示的示意圖。

10:本體

11:影像擷取單元

12:麥克風陣列

13:影像處理單元

14:音訊處理單元

15:管理單元

16:連接介面單元

17:儲存單元

18:輸出裝置

18A:資料處理裝置

19:輸入裝置

20:通訊單元

Claims

一種影像擷取系統，包含：複數個攝影鏡頭；複數個麥克風；一音訊處理單元，根據該等麥克風於一空間中所接收的音頻訊號，偵測一主音源的一方位；一影像處理單元，將該等攝影鏡頭取得的複數個影像拼接成一合成影像；以及一資料處理裝置，先根據該主音源的該方位，再從該合成影像中偵測出一第1對象。
一種影像擷取系統，包含：複數個攝影鏡頭；複數個麥克風；一音訊處理單元，根據該等麥克風於一空間中所接收的音頻訊號，偵測一主音源的一方位；一影像處理單元，將該等攝影鏡頭取得的複數個影像拼接成一合成影像；以及一資料處理裝置，根據該主音源的該方位，從該合成影像中偵測出一第1對象；其中，該資料處理裝置根據一使用者選取的一注意區域(ROI，region of interest)，從該注意區域中偵測出一第2對象；其中，該資料處理裝置對該注意區域中所偵測出的該第2對象進行追蹤。
一種影像擷取系統，包含：複數個攝影鏡頭；複數個麥克風；一音訊處理單元，根據該等麥克風於一空間中所接收的音頻訊號，偵測一主音源的一方位；一影像處理單元，將該等攝影鏡頭取得的複數個影像拼接成一合成影像；以及一資料處理裝置，根據該主音源的該方位，從該合成影像中偵測出一第1對象；其中，該等攝影鏡頭係以環狀設置於該影像擷取系統之一本體上；其中，該等麥克風係以環狀設置於該本體上，且與該等攝影鏡頭係相互交錯地設置。
一種影像擷取系統，包含：複數個攝影鏡頭；複數個麥克風；一音訊處理單元，根據該等麥克風於一空間中所接收的音頻訊號，偵測一主音源的一方位；一影像處理單元，將該等攝影鏡頭取得的複數個影像拼接成一合成影像；以及一資料處理裝置，根據該主音源的該方位，從該合成影像中偵測出一第1對象；其中，該資料處理裝置對該合成影像中所偵測出的該第1對象進行追蹤。
如請求項4之影像擷取系統，其中，該連接介面單元透過該輸出裝置，將追蹤該第1對象時所拍攝的一第1追蹤影像傳送至該視訊平台。
如請求項2之影像擷取系統，其中，該連接介面單元透過該輸出裝置，將包含該第2對象的一第2影像傳送至該視訊平台。
如請求項1至4中任一項之影像擷取系統，更包含：一連接介面單元，可與一輸出裝置連接，以透過該輸出裝置將該合成影像以及該主音源的音源訊號傳送至一視訊平台；其中，該資料處理裝置係設置於該輸出裝置中。
如請求項1至4中任一項之影像擷取系統，其中，該連接介面單元透過該輸出裝置，將追蹤該第1對象或該第2對象時所拍攝的一第1追蹤影像或一第2追蹤影像傳送至該視訊平台。
如請求項1或2或4之影像擷取系統，其中，該等攝影鏡頭係以環狀設置於該影像擷取系統之一本體上；其中，該等麥克風係以環狀設置於該本體上，且與該等攝影鏡頭係相互交錯地設置。
如請求項1或3或4或6之影像擷取系統，其中，該資料處理裝置根據一使用者選取的一注意區域(ROI， region of interest)，從該注意區域中偵測出一第2對象；其中，該資料處理裝置對該注意區域中所偵測出的該第2對象進行追蹤。