TW201734948A

TW201734948A - 用於在廣角圖像系統中生成相關的音頻和視覺信號的方法、系統及設備

Info

Publication number: TW201734948A
Application number: TW106107110A
Authority: TW
Inventors: 亞當彼得威廉斯; 史帝芬瑪亞徳
Original assignee: 森翠根科技有限公司
Priority date: 2016-03-03
Filing date: 2017-03-03
Publication date: 2017-10-01
Also published as: GB201603675D0; WO2017149124A1

Abstract

提供一種用於生成相關的音頻和視覺信號的系統。此系統被配置以處理廣角圖像數據，使得廣角圖像的區可以被選擇。此系統還被配置以處理環繞聲音信號數據，使得包括來自被確定的方向的聲音的信號可以被選擇。此系統被設置以使來自被確定的方向的聲音與被選擇的圖像區關聯，使得圖像區可以利用與圖像區的觀看方向相關的聲音來觀看。或者，此系統被設置以使圖像區被選擇用來關聯來自被確定的方向的聲音，使得來自被確定的聲音方向的聲音信號可以被列出，同時觀看與聲音方向關聯的圖像。

Description

用於在廣角圖像系統中生成相關的音頻和視覺信號的方法、系統及設備

本發明關於一種用於在廣角圖像顯示或投影系統中生成相關的音頻和視覺信號的方法、系統和設備，具體地，關於一種用於全景移動圖像擷取、顯示以及/或投影系統的方法、系統和設備。

照相機擷取的視場或圖像視場通過感興趣的位置處的照相機的鏡頭確定。例如，在監控系統的情況下，一些照相機單元具有360度全景圖像擷取設備,其中此擷取設備利用固態圖像記錄裝置來研發。這種類型的照相機單元目前不受歡迎的一個原因是所記錄的全景圖像以嚴重失真的格式被記錄爲結果，通過這種方式360度全景圖像場景被擷取並隨後被固態圖像記錄裝置記錄。在這種類型的照相機單元中，通常需要强大的資訊處理裝置以在觀看圖像之前校正導致圖像品質的損失、系統延時和大大增加這種系統的功率消耗的圖像失真。由照相機單元的鏡頭擷取的這種360度全景圖像場景通常是圓形或橢圓形圖像。因爲大多數（但並非全部）消費者的應用需要矩形圖像，這種圓形或橢圓形圖像通常不是可接受的格式。

然而，可能的是，提供如以下任一專利申請案所教導的一種圖像感測器系統，其中此圖像感測器系統能夠將圓形或橢圓形的360度全景失真或扭曲的移動圖像轉化爲可與現代消費者應用兼容的可接受格式：申請人於2012年8月31號提交的申請號爲PCT/CN2012/080885的專利合作條約（PCT），在此此專利申請的全部內容通過引用方式全部並入本文；以及，申請人於2015年11月30日提交的申請號爲1521034.7的英國專利，在此此專利申請的全部內容通過引用的方式全部並入本文。特別地，可能的是，利用這種圖像感測器系統能夠使用戶選擇圓形或橢圓形的360度全景移動圖像的圖像區來觀看或投影到合適的矩形圖像顯示器、顯示器或螢幕。因此，增强用戶體驗所需要的是爲環繞圖像的被選擇的圖像區傳輸相關的聲音信號的裝置，或使環繞圖像的圖像區與檢測到的聲音方向相關聯的裝置。

本發明關於將聲場的一部分與圖像視圖的方向對齊，使得對用戶播放的聲場的一部分基本上與其圖像視口對齊，反之亦然。

本發明的第一主要方面提供一種在廣角圖像顯示系統中生成相關的音頻和視覺信號的方法。此方法可以包括處理廣角圖像數據以選擇廣角圖像的區，廣角圖像包括用於在顯示器或螢幕上顯示的廣角圖像數據的一部分。還可以包括：處理廣角圖像顯示系統的聲音信號，以將被選擇的圖像區與被選擇的圖像區的觀看方向相關的聲音信號的一部分相關聯。

較佳地，被選擇的圖像區在廣角圖像場內的位置被追蹤，並且獲得的追蹤資訊用來進一步處理廣角圖像顯示系統的聲音信號，以將進一步被處理的聲音信號的一部分與被追蹤的圖像區相關的觀看方向相關聯。

本發明的第二主要方面提供一種用於在廣角圖像顯示系統中生成相關的音頻和視覺信號的系統。此系統可以包括處理器，其用於處理廣角圖像數據以選擇廣角圖像的區，其中廣角圖像包括有用於在顯示器或螢幕上顯示的廣角圖像數據的一部分。廣角圖像顯示系統的聲音信號可以被處理，以將被選擇的圖像區與被選擇的圖像區的觀看方向相關的聲音信號的一部分相關聯。可以通過相同的處理器或不同的處理器來執行聲音信號和廣角圖像數據的處理。

本發明的第三主要方面提供一種可攜式電子設備。此設備可以包括：顯示器，其用於顯示廣角圖像的圖像區；以及處理器，其用於處理與廣角圖像相關的聲音信號，將被選擇的圖像區與被選擇的圖像區的觀看方向相關的聲音信號的一部分相關聯。

本發明的第四主要方面提供一種電腦可讀介質，其包括機器可讀指令，當指令被電子處理設備的處理器執行時，指令實施第一主要方面的方法的步驟。

本發明的第五主要方面提供在廣角圖像顯示系統中生成相關的音頻和視覺信號的另一種方法。此方法可以包括處理廣角圖像顯示系統的聲音信號以選擇與被確定的聲音方向相關的聲音信號的一部分。此方法還可以包括處理廣角圖像數據，以選擇包括有用於在顯示器或螢幕上顯示的廣角圖像數據的一部分的區，被選擇的圖像區被選擇爲與被確定的聲音方向相關聯的圖像區。

本發明的第六主要方面提供一種用於在廣角圖像顯示系統中生成音頻和視覺信號的系統。此系統可以包括處理器，其用於處理廣角圖像顯示系統的聲音數據，以選擇與被確定的聲音方向相關聯的聲音信號的一部分。可以處理廣角圖像數據，以選擇包括有用於在顯示器或螢幕上顯示的廣角圖像數據的一部分的區，被選擇的圖像區被選擇爲與被確定的聲音方向相關聯的圖像區。可以通過相同的處理器或不同的處理器執行聲音信號和廣角圖像數據的處理。

本發明的第七主要方面提供一種可攜式電子設備。此設備可以包括：處理器，其用於處理廣角圖像顯示系統的聲音信號以選擇與被確定的聲音方向相關的聲音信號的一部分。此設備可以包括顯示器，其用於顯示廣角圖像的區，區包括廣角圖像的一部分，廣角圖像的一部分被選擇爲與被確定的聲音方向相關聯的廣角圖像。

本發明的第八主要方面提供一種電腦可讀介質，其包括機器可讀指令，當此指令被電子處理設備的處理器執行時，指令實施第五主要方面的方法的步驟。

本發明的其他方面依據所附的請求項。

本發明的概述不必公開用於限定本發明的所有必要特徵。本發明可以屬所公開的特徵的子組合。

以下描述是僅作爲示例的較佳實施例，並且不限於實施本發明所必需的特徵的組合。

在本說明書中，對“一個實施例”或“實施例”的引用意味著結合實施例描述的特徵、結構或具體特性被包括在本發明的至少一個實施例中。在本說明書的所有地方出現的短語“在一個實施例中”並不一定都指相同的實施例，也不是指與其它實施例相互排斥的單獨或可選實施例。此外，描述了可以由一些實施例展示而不是由其它實施例展示的各種特徵。類似地，描述了可以是對於一些實施例的要求而不是其他實施例的要求的各種要求。

在以下描述中，廣角圖像意味著比常規照相機單元的正常圖像視圖更寬的圖像場，例如，廣角圖像可以是具有等於或超過60度的弧段或者照相機單元周圍多達或甚至超過180度的視場的圖像。更特別地，可以利用這個術語表示基本上全景的圖像視圖或“完整的”全景圖像視圖，其中此基本上全景的圖像視圖可以包括圍繞照相機單元的360度環形或圈形圖像視圖，此“完整的”全景圖像視圖限定照相機單元附近的大致半球形或球形圖像場或遠景。

本發明總體關於一種用於在全景移動圖像擷取、顯示和/或投影系統中生成相關的音頻和視覺信號的方法。在一個實施例中，光學裝置（諸如照相機單元）可以具有圖像感測器和鏡頭/反射鏡系統等，用於擷取廣角鏡頭投影圖像（諸如全景圖像）並且將其引向圖像感測器的平坦感光表面。圖像感測器被設置成鏡頭投影的布局匹配特性(layout matching characteristics)，用於將入射在感光表面上的鏡頭投影圖像轉化爲投影圖像的基本上未扭曲或未失真的圖像的一個或多個電信號或電子信號。照相機單元可以包括用於生成相關的音頻和視覺信號的部分系統。

在一個實施例中，此系統可以包括處理器，其用於處理廣角圖像數據，以選擇廣角圖像的區，該廣角圖像包括有用於在顯示器或螢幕上顯示的廣角圖像數據的一部分。此系統還可以處理和廣角圖像數據相關的聲音信號，以將被選擇的圖像區與關於被選擇的圖像區的觀看方向的聲音信號的一部分相關聯。可選地，此系統可以選擇與來自被確定的聲音方向的聲音相關的圖像區。可以根據聲音信號數據的處理遠端地執行廣角圖像數據的處理。

圖1是根據本發明的實施例的系統的概要方塊圖。系統10包括經由網路（諸如互聯網15等）通信的用戶設備12和伺服器14。系統10還包括圖像擷取單元，諸如具有相關聯的麥克風系統或陣列18的照相機單元16。照相機單元16可以具有帶有多個光感測器的圖像感測器，此多個光感測器利用整個投影的圓形（或橢圓形）圖像被設置成匹配廣角/魚眼鏡頭17，具有最少化的浪費解析度。在一些實施例中，系統10可以包括適於從伺服器14或投影到螢幕19等之上的照相機單元16接收圖像數據的投影機18。

圖2和圖3分別是根據本發明的實施例的圖1中示出的用戶設備12和伺服器14的更詳細的概要方塊圖。伺服器14包括處理器20、記憶體22、用戶介面24和用於處理圖像數據和/或聲音數據以及實施本發明的方法的應用模組26。用戶設備12包括處理器30、記憶體32、具有輸入裝置36（諸如鍵盤、觸控螢幕和/或麥克風）的用戶設備介面34，和輸出裝置38（諸如顯示器和揚聲器）。

系統10允許用戶設備12存取伺服器14和/或照相機單元16/麥克風系統18，以接收照相機單元16及其相關聯的麥克風系統18擷取的圖像和/或聲音數據。數據可以以處理後或未處理的格式被接收。然而，應當理解，雖然圖1描述了基於伺服器的系統10，但是本發明不限於基於伺服器的系統。照相機單元16及其相關的麥克風系統18可以在單個單元中實例化，此單個單元經由區域無線或有線連接可直接地連接到用戶設備12，或者照相機單元16及其相關的麥克風系統18可以形成部分用戶設備12以提供本發明的所有或一些方面的實例化的獨立整合的用戶介面12。用戶介面12在其任何實施例中可以包括個人電腦（PC）、平板電腦、智慧型手機和任何合適的可攜式電子設備。

圖4和圖5分別是根據本發明的一個實施例的用於擷取廣角或全景圖像的較佳的照相機單元16的側視圖和平面圖。照相機單元16包括圖像感測器42和裝置44，此裝置44用於擷取大的廣角圖像並且將此廣角圖像引向圖像感測器42的感光表面46。圖像感測器42包括多個光敏元件圖像感測器，較佳地，此多個光敏元件圖像感測器被設置成將入射在感光表面上的鏡頭投影圖像轉化爲投影圖像的未扭曲或未失真的圖像的一個或多個電或電子信號。

用於擷取廣角圖像並且將此廣角圖像引向圖像感測器42的感光表面46的裝置44可以包括對本領域技術人員已知的用於擷取廣角圖像並將此廣角圖像聚焦在光學晶片（諸如感測器42）上的任何合適的系統或裝置。例如，圖像擷取裝置44可以包括以下各項中的任一個或任何組合：鏡頭、一組鏡頭、反射鏡、一組反射鏡、稜鏡或一組稜鏡。在此實施例中，圖像擷取裝置包括半球形鏡頭或魚眼鏡頭48。魚眼鏡頭48擷取圍繞照相機單元16的基本全景圖像。基本全景圖像可以不是完整的全景圖像。基本全景圖像可以包括圍繞圖像擷取裝置44的被選擇的平面中的360度圈形圖像視圖。在一些應用中，圍繞照相機單元16的圈形圖像場景具有大約半球形圖像場景的高度的三分之一的深度爲足夠。然而，在其它應用中，基本全景圖像較佳地是完全的或幾乎完全的全景圖像，包括圍繞照相機單元16的基本整個或大部分半球形圖像視圖，以及甚至可以包括通過使用一個或多個照相機單元16圍繞照相機單元16的球形視圖。

圖像感測器42將入射在其平坦的感光表面46上的圖像光轉化爲一個或多個電信號。圖像感測器42包括固態設備，諸如圖像感測器晶片42。晶片42的平坦的感光表面46包括均將入射在其上的光轉化爲一個或多個電或電子信號的多個光敏元件或像素（圖4中未示出）。感光表面46可以不覆蓋晶片42的整個上表面，而是可以僅覆蓋晶片在圖像擷取裝置44下的表面部分。在照相機單元16中也可以提供輸入裝置50、記憶體52、處理器54、輸入裝置56以及用於緩衝和儲存數位媒體數據58的裝置。

可以被採用爲圖像擷取裝置44的多種光學晶片類型是已知的，諸如電荷耦合元件（CCD）晶片和互補式金屬氧化物半導體（CMOS）晶片。然而，本發明的系統和照相機單元中可以採用適於將入射在其感光表面上的擷取的圖像轉化爲一個或多個電信號的任何晶片。

在一個實施例中，圖像感測器晶片42的多個光敏元件或像素可以以鏡頭投影的布局匹配特性被設置在平坦的感光表面46上，用於將入射在其上的鏡頭投影圖像轉化爲扭曲或失真的鏡頭投影全域圖像的未扭曲或未失真變形的一個或多個電或電子信號。選擇這種設置主要是提供像素或光敏元件的圖案，其最有效或更有效地從鏡頭投影擷取入射在其上的被接收的圖像，此鏡頭可能引入圖像的失真和扭曲，比習用設置相比，這種設置具有更少的失真和/或需要較少的處理以去除、減少或校正在習用顯示器上顯示的圖像或圖像的一部分的任何失真（如果存在）。

在一個實施例中，單獨的光敏元件可以以同心（或成對的同心）圓被設置，單獨的光敏元件可以被布置在與實際鏡頭失真匹配的半徑處。這樣，來自這些鏡頭的圖像的第一順序扭曲將立即由感測器設計補償，並且未扭曲的負荷基本上被減小或消除。從鏡頭單元16投影到設計的圖像感測器上的投影圖像具有多個圖像感測器，此多個圖像感測器被設置成將入射在感光表面上的鏡頭投影圖像轉化爲投影圖像的未扭曲或未失真的圖像的一個或多個電或電子信號。

在照相機單元16正在擷取移動圖像並且表示被擷取的移動信號的電信號被轉化爲數位格式的情況下，數位格式通常可以包括數位視頻格式。其可以是交錯或漸進數位視頻格式。在交錯數位視頻格式的情況下，光敏元件或像素的一系列同心圓中的間隔同心圓被分別分配給數位視頻信號的奇數行和偶數行。在漸進數位視頻格式的情況下，光敏元件或像素的所有同心圓被分配給數位視頻信號的漸進線路(progressive line)。

照相機單元16可以包括將由光敏元件或像素42生成的電信號轉化爲數位圖像數據的裝置。用於轉化的裝置54可以包括合適的電路和被已知爲CMOS晶片的圖像感測器晶片上的附加電路，其中此合適的電路包含在已知用於CCD晶片的照相機單元16中。在任何情形中，有用的是，此實施例中的照相機單元16包括用於自圖像感測器晶片42的輸出生成數位圖像數據的電路，但是應當理解，對於一些照相機單元，根據其應用或使用，照相機單元可以具有用於將輸出信號從圖像感測器晶片42傳輸到遠端設備（諸如伺服器14或用於在遠端設備處轉化爲數位圖像數據的用戶設備12）。

因此，迄今所述整合的照相機單元16可以在系統中形成照相機單元16，由此照相機單元16將表示被擷取的全景圖像的數位圖像數據或信號輸出到一個或多個遠端設備12、14中，在此可以實施對信號或數據的進一步處理。照相機單元16可以被設置以靜態圖像照相機的方式擷取靜態圖像，但是較佳地被設置成擷取移動圖像。

在照相機單元16包括用於將由光敏元件或像素生成的電信號轉化爲數位圖數像據的裝置的情況下，照相機單元16還可以包括用於緩衝和/或儲存數位圖像數據的裝置58。用於緩衝或儲存數位圖像數據的裝置58可以包括快閃記憶體設備或晶片。

在一個實施例中，照相機單元16可以包括輸入裝置50（諸如按鈕、觸控螢幕等），其用於接收被擷取的全景圖像的窗口部分（即，圖像區）的選擇。照相機單元16還具有儲存電腦可讀指令的記憶體裝置52，當指令被處理器54執行時，指令控制照相機單元16的操作，包括使用戶能夠通過輸入裝置50輸入被儲存或被緩衝的全景圖像的圖像區的選擇。應當理解，緩衝數位圖像數據實現被觀看的圖像場景的圖像區的即時選擇，而儲存數位圖像數據允許先前紀錄的圖像場景的圖像區的選擇。

在一個實施例中，圖像區的選擇可以在伺服器14或照相機單元16處被接收，並且可以從用戶設備12被接收。

在前述實施例中的任一個實施例以及如圖6所示，圖像區的選擇可以包括顯示圖像60、或全景圖像的平面圖62，或由照相機單元16所擷取的全景圖像的代表圖像64，伴隨著窗框66覆蓋顯示圖像、平面圖或代表圖像。圖像或全景圖像的平面圖、或全景圖像的代表圖像可以被顯示在如下任一顯示螢幕上：照相機單元16的顯示螢幕、或連接到照相機單元16的外圍設備的顯示螢幕或與照相機單元16形成整合部分的顯示螢幕、或用戶設備12的顯示螢幕。窗框(window frame) 66相對於顯示圖像、平面圖或代表圖像的位置可以被用戶操作(如根據箭頭的線68、70、72所示)，以將窗框66移動到顯示圖像、平面圖或代表圖像上，從而選擇用於檢索、處理和/或顯示/播放/投影的全景圖像的期望的圖像區。窗框66的縱橫比可以被限定或可以被用戶調整。通過減小窗框66的尺寸同時保持其像素寬度和深度，可以實現縮放。當然，可以根據輸入裝置的性質和配置提供選擇期望的窗部分的其它方法。這種方法在PCT/CN2012/080885中公開。

爲了識別用於檢索的被選擇的圖像區數據，圖像感測器晶片42的光敏元件或像素46較佳地是可定址的或是其它方式可識別的，由此當用戶使用窗框66輸入期望的圖像區的選擇時，其被處理器轉換爲用於光敏元件或像素的適當個體或塊、和/或它們佔據的線路的位址或標識，以便確定哪個數位圖像數據被檢索以響應於被選擇的圖像區。通過將坐標系統74與圖像60或全景圖像的平面圖62或全景圖像的代表圖像64相關聯，可以幫助對被選擇的圖像區的識別。

處理器還能夠從包括被選擇的圖像區的數位圖像數據的緩衝或儲存裝置58實現檢索，並且用於在照相機單元16的螢幕上進一步處理和/或顯示，或用於將檢索的數位圖像數據在照相機單元16的輸出端口上輸出到外圍設備或單獨的顯示設備，諸如用戶設備12。

圖4和圖5還示出的是用於照相機單元16的環繞麥克風系統18。環繞麥克風系統18可以包括麥克風陣列18。此麥克風陣列18的功能適於擷取通常覆蓋或匹配由照相機單元16所擷取的圖像場的範圍的聲場。環繞麥克風系統18被選擇爲一種系統，此系統允許被生成的聲音數據由此被處理以選擇或隔離與預定方向關聯的聲場的一部分，其中此預定方向可以包括圖像場的圖像區的被選擇的觀看方向或被確定的聲音方向。通常，陣列18由全向麥克風、定向麥克風、或全向麥克風和定向麥克風的組合構成，此全向麥克風、定向麥克風被分布在照相機單元16的鄰近或周邊並被鏈接到處理設備，諸如其本身的數據處理及儲存模組52-58、伺服器14或將結果記錄並解釋爲相干形式的用戶設備12。還可以使用若干緊密間隔的麥克風形成陣列18，例如，足以擷取環繞聲場的定向麥克風。

考慮到不同的單獨麥克風的換能器陣列元件之間的空間的固定物理關係，每個單獨麥克風中的信號的數位信號處理（DSP）可以在環繞聲場內建立自被確定的方向隔離聲音的一個或多個「虛擬」麥克風。不同的算法允許利用極其複雜的虛擬極性圖案建立虛擬麥克風，並且甚至可能允許操縱虛擬麥克風圖案的個別波瓣，以便導向目標追蹤或拒絕特定聲音源（即，聲音方向）。在陣列由接收來所有方向的聲音的全向麥克風所構成的情況下，麥克風的電信號包括關於來自所有方向的聲音的資訊。這些聲音的聯合處理允許選擇來自給定的方向的聲音信號。因此，麥克風陣列18可以包括許多已知的設置，其能夠藉由使用已知的算法處理被擷取的環繞聲場中的一個或多個通道信號，以選擇來自給定的方向的聲音。

在一個實施例中，如圖4和圖5所示，環繞麥克風系統18可以包括靠近照相機單元16設置的麥克風陣列18。每個麥克風18a可以包括單向麥克風、雙向麥克風、心形麥克風、或獵槍型麥克風、或其任何組合。當麥克風18a被示爲設置在照相機單元16的周邊時，其可以被設置在照相機單元的上方或下方，並且可以包括單個麥克風模組。在一個實施例中，麥克風18a以四面體陣列並且較佳地以B格式四面體陣列被設置。較佳地，成對的微機電系統（MEMS）麥克風被提供在四面體麥克風陣列的四個轉角中的每一個處或附近，以提供八個通道。小MEMS麥克風的使用使陣列的尺寸被微型化。此外，MEMS麥克風本質上是全向的。成對的MEMS麥克風可以在一對MEMS麥克風內和/或成對的MEMS麥克風之間在空間上稍微偏移。更佳地，每對MEMS麥克風被設置爲一個在另一個後面間隔小距離。每對MEMS麥克風可以垂直地位移以提供從兩個全向MEMS元件形成的單個心形圖案束。因此，來自第一MEMS元件的信號可以及時被延遲，並且隨後與來自第二MEMS元件的信號組合以抵消來自此對MEMS元件後面的信號，從而提供受控的心形或其它圖案。如此形成的八個通道布置提供對麥克風的四個拐角中的每一個處的心形拾音圖案的更好的操縱，從而獲得更準確和緊密的束形成。

在一個實施例中，在用戶設備12選擇接收數據時，此數據包括通過照相機單元16擷取的全景圖像場的圖像區，本發明的方法允許麥克風陣列18的聲音數據被處理以獲得聲音信號，將來自與被選擇的圖像區的觀看方向相關聯的方向的聲音實例化。較佳地，被選擇的圖像區的觀看方向是當圖像區被顯示或投影到平面上時（即，當在顯示器或螢幕上被選擇的圖像區以常規矩形的格式觀看時）垂直於被選擇的圖像區的平面的中心軸線。在任何情況下，應當理解，術語“觀看方向”在與被選擇的圖像區相關時意在表示用戶觀看諸如圖像區的觀看方向。因而，本發明的方法使用戶能夠在其用戶設備12處播放聲音，此用戶設備12包括環繞聲場的一部分，其與由照相機單元16擷取的圖像場的被選擇的圖像區相關聯或相關。基於被選擇的圖像區的觀看角的寬度和/或深度，與被選擇的圖像區相關的聲場部分的寬度和/或深度可以被自動地控制，或可以被用戶調整以使聲音方向更接近圖像區的觀看方向。圖像區的縱橫比和像素尺寸可以用於確定與被選擇的圖像區相關的聲場部分的初始尺寸。

一個實施例中，在圖像場內追蹤被選擇的圖像區的位置。通過追蹤窗框66在圖像60、或全景圖像的平面圖62或全景圖像的代表圖像64內的位置，可以實現上述追蹤。用於被選擇的圖像區的追蹤資訊可以用於進一步地處理環繞聲音信號數據，以關聯與被追蹤的圖像區的觀看方向相關的聲音信號的進一步處理的部分，即，確保與被觀看的被選擇的圖像區相關的聲音信號保持流動到觀看方向。追蹤資訊可以被連續地和周期性地用於進一步處理聲音信號數據，但是也可以在追蹤量變化超過預定閾值時被使用，諸如當用戶將窗框66轉移到圖像60或全景圖像的平面圖62或全景圖像的代表圖像64的新區段時，可以發生追蹤量超過預定閾值。

在一個實施例中，包括有被選擇的圖像區的數據和包括有聲場相關部分的數據通過照相機單元16、或伺服器14被傳輸到用戶設備12。在另一實施例中，包括有被選擇的圖像區的數據和包括有環繞聲場的數據通過照相機單元16或伺服器14被傳輸到用戶設備12，其中用戶設備12處理環繞聲音場數據以選擇聲場的一部分，來關聯被選擇的圖像區。

在一個實施例中，生成多個被選擇的圖像區，並且多個被選擇的圖像區中的各個圖像區通過照相機單元16或伺服器14被傳輸到各個的電子處理設備。在此實施例中，環繞聲場信號數據可以被傳輸到用戶設備12中的每一個設備，使得每個用戶設備處理聲音信號數據，以基於傳輸到用戶設備12的被選擇的圖像區的觀看方向，關聯聲音信號的各個部分。

應當理解，麥克風陣列18被設置有照相機單元16，使得聲場的方向與圖像場的觀看方向關聯。當將麥克風陣列18連接到照相機單元16時，通過爲每個聲場和圖像場識別一個或多個參考方向並匹配或登錄所述方向，可以實現上述關聯。例如，照相機單元三維坐標系統可以與麥克風陣列三維坐標系統對齊，反之亦然。

在一個實施例中，麥克風陣列18包括圓形、半球形或球形陣列格式的多個間隔開的單向麥克風。

在一個實施例中，麥克風陣列是多聲道模擬立體麥克風陣列。原則上，多聲道模擬立體麥克風組包括正交的雙極性換能器元件和全向的壓敏夾膜的組合。全向的壓敏夾膜的輸出被稱爲'W'信號，並且提供關於衝擊麥克風陣列的聲音的總振幅的資訊。形成陣列的雙極性或八字形換能器元件提供定向資訊，即，其輸出能夠用於被確定的方向，每個聲音元件從此方向到達。較佳地，這些元件中的一個指向前後，從而提供'X'信號、另一個指向左右（'Y'）並且第三個指向上下（'Z'）。這四個信號W、X、Y、Z傳達瞭解到達麥克風陣列18處的聲學信號的振幅和方向所需要的一切。四個信號一起被稱爲B格式信號，以及，如果這四個信號被記錄在四個離散追蹤路徑上，則它們可以提供絕對三維精度所擷取的原始聲音的記錄。照相機單元16、伺服器14或用戶設備12的處理器中實例化的解碼器可以被配置以將麥克風的輸出信號轉化爲合適的形式以驅動一個或多個揚聲器。

通過以各種方式組合W、X、Y、Z信號，可能重新生成從任何方向指向的全向到心形、超心形和八字形的任何常規麥克風極性圖案。這與常規立體聲中間－及－側向麥克風的工作方式完全相同，只是沿三維而不是僅一個維度（左右）。因而，在W、X、Y、Z信號的正確組合的情況下，可能重複已經從例如一立體聲對的交叉心形獲得的信號。

多聲道模擬立體麥克風陣列可以爲A格式、B格式或C格式多聲道模擬立體信號陣列。多聲道模擬立體麥克風可以包括Nimbus-Halliday麥克風、聲場麥克風或分別沿如圖7a和圖7b所示的X、Y和Z方向以正交設置的三個八字形麥克風，其中圖7a示出具有帶有三個八字形麥克風218x、218y、218z的支撑件220的陣列218，其中如所看到的，X方向麥克風218x沿水平方向對齊。圖7b示出具有帶有三個八字形麥克風228x、228y、218z的支撑件240的多聲道模擬立體麥克風陣列228，其中如所看到的，X方向麥克風228x沿相對於水平的傾斜方向對齊。

在一個實施例中，利用多聲道模擬立體麥克風陣列218、228，本發明的方法涉及被旋轉的多聲道模擬立體聲音信號以使其坐標系軸線中的一個與觀看基準（諸如被選擇的區圖像的中心軸線）對齊，和涉及處理被旋轉的多聲道模擬立體聲音信號以確定生成來自觀看基準的方向的聲音信號的至少一個虛擬麥克風。

假定與被選擇的區圖像的中心軸線對齊的圖像坐標系軸線中的一個軸是X軸線，沿X+方向指向的單個虛擬麥克風極性圖案，此極性圖案在小於八字形響應的情況下具有利於來自此方向的音頻信號。因此，處理來自被旋轉的參考系的W+X多聲道模擬立體信號提供一個或多個這種虛擬麥克風。

應用到被選的圖像區的縮放量可以被傳遞到音頻數據解碼器，其中此音頻數據解碼器被實例化到照相機單元16、伺服器14和/或用戶設備12中的任一個的處理器，並且可以用於確定虛擬麥克風的傾斜角和圖案，使得當圖像區是廣視圖（例如，對應於接近的對象）時，虛擬麥克風大大地傾斜並且極性圖案被調整爲寬大甚至幾乎全向的。然而，當圖像放大時，虛擬麥克風逐漸更强烈地指向圖像區的中心並且圖案朝向超心形變窄。在極限的情況下，在最大縮放下，麥克風提供幾乎單向的聲音信號。

在一個實施例中，描述被選擇的圖像區的視場的數據被傳遞到音頻數據解碼器，以使解碼器能夠轉化多聲道模擬立體信號，以基於來自圖像處理系統的視場數據生成一個或多個輸出。來自圖像處理系統的變焦（縮放）或聚焦資訊設置麥克風的傾斜角及其極性圖案。當用戶縮放被選擇的圖像區時，傾斜角和極性圖案被調整。來自圖像處理系統的圖像中心資訊設置虛擬麥克風陣列的中心線。

以標準B格式多聲道模擬立體解碼器D爲例（w、x、y、z、θ、Ф、圖案），其中w、x、y & z是B格式音頻信號，θ是被選擇的圖像區在圖像坐標系統中的一個的平面（例如，X）中的旋轉角，Ф是圖像區相對於基準（諸如水平X平面）的傾斜角，以及圖案從全向的0變化到心形的0.5到八字形的1，如圖8所示。本發明的方法的一種實施方式通過示例的方式如下，但是不限於其它實施方式。

隨著B格式信號已經被旋轉成與如上所述的照相機坐標系統對齊，以及關於由相對於圖像區視口的中心的旋轉和傾斜角構成的被選擇的圖像區的資訊，以及表示如視口呈現的球形的一部分的角ρ，用於與被選擇的圖像區關聯的聲場部分的一虛擬麥克風的立體聲對可以如下被計算： i）確定聲音信號圖案，其朝向超心形能夠變窄，因爲對角減小，這樣可以包括寬圖案或窄圖案（圖案常數的典型值在窄圖案=~0.1、寬圖案= ~0.8的區域中的地方）； ii）使K=ρ/π（在180度下K=1.0，隨著角減小，K變小）； iii）使圖案=窄圖案+（寬圖案-窄圖案）*K；以及 iv）兩個虛擬立體聲麥克風的角可以被計算。通常，一個虛擬立體聲麥克風可以考慮圖像區跨越例如90度，所以希望麥克風指向相隔大約60度，使得虛擬麥克風的所需定位爲（θ+ρ/3，Ф）和（θ-ρ/3，Ф）。這與圖案數據一起足以允許任何B格式解碼器爲被選擇的圖像區生成所需的虛擬立體聲麥克風陣列。

本發明還涉及相反的情況，其中廣角圖像（諸如全景圖像）的圖像區與被確定的聲音方向對齊，例如系統10確定檢測到的聲音的方向。因此，在一個實施例中，本發明涉及一種通過處理環繞聲音信號數據以選擇與被確定的聲音方向關聯的聲音信號的一部分和通過處理環繞圖像場數據以選擇與被確定的聲音方向關聯或對齊的圖像區來生成相關的音頻和視覺信號的方法。可以從環繞聲場數據或與照相機單元16相關的單獨的聲音檢測系統來被確定聲音方向的檢測。被確定的聲音方向的追蹤資訊可以用於進一步處理圖像場數據，以將環繞圖像數據的進一步被處理的區與被追蹤的聲音方向相關聯。

參考圖10，本發明的實施例可以包括分布系統，此分布系統包括至少一個照相機單元100和將數位圖像數據和音頻數據輸出到一個或多個單獨的設備的麥克風陣列101，此單獨的設備包括記憶體組或資料庫102、伺服器或控制器104和一個或多個用戶設備106。記憶體組或資料庫102被提供用於儲存和/或緩衝數位圖像數據和音頻數據。單獨的記憶體或資料庫102也可以在照相機單元100不具有如下能力的情況下適於將從照相機單元100接收的表示全景圖像的電信號轉化爲數位圖像數據。此系統包括伺服器或控制器104，其用於處理來自一個或多個用戶設備106的全景圖像的所要求的圖像區的一種或多種選擇並且檢索數位圖像數據以響應於此選擇。一個或多個用戶設備106被配置用於向伺服器或控制器104發送全景圖像的圖像區的所要求的選擇，並且被配置用於接收響應於發出的要求的顯示以其它方式檢索的數位圖像數據。一個或多個用戶設備106也可以從伺服器104接收用於與被選擇的圖像區的觀看方向相關的聲場的一部分的音頻數據。可選地，一個或多個用戶設備106可以接收由麥克風陣列101生成的音頻信號，並且局部地處理此音頻信號以獲得與被選擇的圖像區的觀看方向相關的聲場的一部分。用戶設備106可以包括用於顯示圖像數據和播放音頻數據的任何合適的電子設備，諸如例如但不限於PC、個人數位助理、虛擬現實（VR）耳機、智慧型電話、遊戲機、智慧型電視等。設備之間數位圖像信號的傳輸，以及更具體地從照相機單元100和麥克風陣列101到記憶體或資料庫102的數位圖像信號的傳輸，可以是即時的或根據需求分批、通過輪詢或通過任何其它合適的傳輸方案處理。照相機單元100和麥克風陣列101可以通過電纜、電纜網路108或通信網路110連接到記憶體組或資料庫102。伺服器/控制器104和用戶設備106還可以通過電纜、電纜網路108或通信網路110連接到記憶體組或資料庫102、照相機單元100和麥克風陣列101。通信網路可以是專用通信網路、公共網路或兩者的組合。網路可以包括或包括如圖8中的雲所圖示的互聯網。此網路戶還可以包括或包括有區域網（LAN）和/或廣域網（WAN）。此系統可以包括採用根據本發明的一個或多個照相機單元100和麥克風陣列101的監控系統、公共娛樂事件分布系統或也僅通過示例方式的電話會議系統，其中此公共娛樂事件分布系統採用一個或多個照相機單元100和麥克風陣列101。

總之，本發明的實施例提供一種用於生成相關的音頻和視覺信號的系統。此系統可以被配置以處理廣角圖像數據，使得廣角圖像的區可以被選擇的擇。此系統還可以被配置以處理環繞聲音信號數據，使得包括來自被確定的方向的聲音的信號可以被選擇。此系統還可以被設置以使得來自被確定的方向的聲音與被選擇的圖像區相關，使得可以使用與圖像區的觀看方向關聯的聲音觀看圖像區。或者，此系統還可以被設置以使圖像區被選擇爲與來自被確定的方向的聲音相關，使得來自被確定的聲音方向的聲音信號可以被列出，同時觀看與此聲音方向相關的圖像。此系統可以包括廣角圖像顯示或投影系統。根據相關聲音信號的處理，可以遠端地執行廣角圖像數據的處理。

應當理解，附圖中示出的元件可以在不同形式的硬體、軟體或其組合中實施。較佳地，這些元件在一個或多個合適的可程式化的通用設備上，以硬體和軟體組合的形式被實施，其可以包括處理器、記憶體和輸入/輸出介面。

本說明書圖示說明本發明的原理。因此，應當認識到，儘管本文未明確地描述或示出，本領域技術人員將能夠設計體現本發明的原理的不同的設置，並且這些不同的設置被包括在其精神和範圍內。

此外，本文中描述本發明的原理、方面和實施例的所有聲明以及其具體實例意在包括其結構和功能上的等同物。另外，本文意在這種等同物包括當前已知的等同物以及將來開發的等同物，即，執行相同功能而形成的任何元件，而不管其結構。

在本文的請求項中，被表示爲用於執行特定功能的裝置的任何元件意在包括執行這種功能的任何方式，包括：例如，a）執行這種功能的電路元件的組合或b）以任何形式的軟體，因而包括與執行這種軟體以實施此功能的合適的電路組合的韌體、微代碼等。如由這些請求項所限定的本發明實際上在於由各種敘述的裝置提供功能被組合，並以請求項要求的方式被組合放在一起。因此，可以認爲提供那些功能的任何裝置等同於本文示出的裝置。

儘管上述說明書和附圖中已經詳細描述和圖示了本發明，但是相同的特性被認爲是示例性的而非限制性的。應當理解，僅僅示例性的實施例被描述和示出，並不能以任何方式限制本發明的範圍。應當認識到，本文描述的任何特徵可以與任何實施例一起使用。示例的實施例不是彼此排斥的，或示例的實施例與本文未描述的其它實施例也不相互排斥。因此，本發明還提供包括上述說明性實施例中的一個或多個的組合的實施例。在不偏離本發明的精神和範圍的情況下，可以做出本文中闡明的修改和改變，因而僅這種限制應當被施加，如由所附請求項所指示的。

在所附的請求項和本發明的先前描述中，除了由於表達語言或必要含義而在上下文另有規定的情況外，詞語“包括”或變化（諸如“含有”或“包括”）以包括的意義被使用，即，用來指定所述特徵的存在但是不排除本發明的各種實施例中的其它特徵的存在或附加。

應當理解，如果本文中引用了任何現有技術公開物，這種引用沒有構成以下承認：此公開形成本領域的通常常識的一部分。

10‧‧‧系統 100‧‧‧照相機單元 101‧‧‧麥克風陣列 102‧‧‧記憶體組或資料庫 104‧‧‧伺服器或控制器 106‧‧‧用戶設備 108‧‧‧電纜網路 110‧‧‧通信網路 12‧‧‧用戶設備、遠端設備 14‧‧‧伺服器、遠端設備 15‧‧‧互聯網 16‧‧‧照相機單元 17‧‧‧魚眼鏡頭 18‧‧‧投影機、麥克風陣列、麥克風系統 18a‧‧‧麥克風 19‧‧‧螢幕 20‧‧‧處理器 22‧‧‧記憶體 24‧‧‧用戶介面 26‧‧‧應用模組 30‧‧‧處理器 32‧‧‧記憶體 34‧‧‧用戶設備介面 36‧‧‧輸入裝置 38‧‧‧輸出裝置 42‧‧‧圖像感測器、像素、圖像感測器晶片 44‧‧‧裝置 46‧‧‧感光表面、像素 48‧‧‧魚眼鏡頭 50‧‧‧輸入裝置 52‧‧‧記憶體、記憶體裝置、數據處理儲存模組 54‧‧‧處理器、裝置、數據處理儲存模組 56‧‧‧輸入裝置、數據處理儲存模組 58‧‧‧數位媒體數據、裝置、數據處理儲存模組 60‧‧‧圖像 62‧‧‧平面圖 64‧‧‧代表圖像 66‧‧‧窗框 68‧‧‧線 70‧‧‧線 72‧‧‧線 74‧‧‧坐標系統 218‧‧‧陣列 218x‧‧‧八字形麥克風 218y‧‧‧八字形麥克風 218z‧‧‧八字形麥克風 220‧‧‧支撑件 228‧‧‧陣列 228x‧‧‧八字形麥克風 228y‧‧‧八字形麥克風 228z‧‧‧八字形麥克風 240‧‧‧支撐件

根據以示例方式提供的較佳實施例的下列描述，並僅僅結合附圖，本發明的前述特徵和另外的特徵將是清楚的，其中：圖1是根據本發明的實施例的系統的概要方塊圖；圖2是根據本發明的實施例的圖1中示出的伺服器的更詳細的概要方塊圖；圖3是根據本發明的實施例的圖1中示出的用戶設備12的更詳細的概要方塊圖；圖4和圖5分別是根據本發明的實施例的用於擷取全景圖像的照相機單元的側視圖和平面圖；圖6是全景圖像的顯示圖像、或全景圖像的平面圖、或全景圖像的代表圖像的平面圖，其中多個窗框覆蓋顯示圖像以使用戶能夠選擇用於觀看的窗口部分；圖7a和圖7b圖示說明根據本發明的實施例的多聲道模擬立體麥克風陣列；圖8包括用於多聲道模擬立體場的0.1至大於0.8的圖案的B格式極性圖案的極性圖形；圖9示出在調整對角時圖8的B格式極性圖案的變化；以及圖10是本發明的包括分散系統的實施例。

10‧‧‧系統

12‧‧‧用戶設備

14‧‧‧伺服器

15‧‧‧互聯網

16‧‧‧照相機單元

17‧‧‧魚眼鏡頭

18‧‧‧投影機、麥克風陣列、麥克風系統

19‧‧‧螢幕

Claims

一種在廣角圖像顯示系統中生成相關的音頻和視覺信號的方法，包括以下步驟：處理廣角圖像數據以選擇廣角圖像的一區，該廣角圖像包括用於在一顯示器或一螢幕上顯示的該廣角圖像數據的一部分；處理該廣角圖像顯示系統的一聲音信號，以將該被選擇的圖像區與該被選擇的圖像區的一觀看方向相關的該聲音信號的一部分相關聯。
根據請求項1所述的方法，還包括以下步驟：追蹤該被選擇的圖像區在一廣角圖像場內的位置；以及利用該被選擇的圖像區在該廣角圖像場內的追蹤資訊，進一步處理該廣角圖像顯示系統的該聲音信號，以關聯與該被追蹤的圖像區的一觀看方向相關的該聲音信號的被進一步處理的部分。
根據請求項2所述的方法，其中該追蹤資訊被連續地用以進一步處理該廣角圖像顯示系統的該聲音信號。
根據請求項2所述的方法，其中該追蹤資訊被周期性地用以進一步處理該廣角圖像顯示系統的該聲音信號，且/或被用來響應於超過一預定值的追蹤量的變化以進一步處理該廣角圖像顯示系統的該聲音信號。
根據前述請求項中任一項所述的方法，其中該廣角圖像顯示系統的該廣角圖像以及/或該聲音信號被傳輸到一電子處理設備，並且該廣角圖像顯示系統的該廣角圖像以及/或該聲音信號在該電子處理設備處被處理，以將被選擇的圖像區與該被選擇的圖像區的觀看方向相關的該聲音信號的一部分相關聯。
根據請求項1至4中任一項所述的方法，其中該被選擇的圖像區被傳輸到電子處理設備用於在其顯示器或螢幕上顯示，但是該廣角圖像顯示系統的該聲音信號被傳輸到該電子處理設備並且該聲音信號在該電子處理設備處被處理，以將該被選擇的圖像區與該被選擇的圖像區的一觀看方向相關的該聲音信號的一部分相關聯。
根據前述請求項中任一項所述的方法，其中，多個被選擇的圖像區被生成，以及該多個被選擇的圖像區的各個圖像區被傳輸到各個電子處理設備。
根據請求項7所述的方法，其中該廣角圖像顯示系統的該聲音信號被傳輸到每一該電子處理設備中的，使得該聲音信號在每一該電子處理設備處被處理，以基於被傳輸到該電子處理設備的相關的被選擇的圖像區的一觀看方向，與該聲音信號的各個部分相關聯。
根據前述請求項中任一項所述的方法，其中該被選擇的圖像區的該觀看方向包括該被選擇的圖像區的一觀看基準。
根據請求項9所述的方法，其中該基準包括該被選擇的圖像區的中心軸線。
根據請求項9或10所述的方法，其中該聲音信號包括一環繞聲場。
根據請求項9至11中任一項所述的方法，其中該廣角圖像顯示系統的該聲音信號包括一多聲道模擬立體(ambisonic)聲音信號。
根據請求項12所述的方法，還包括以下步驟：旋轉該多聲道模擬立體聲音信號，以將其坐標系軸線中之一與該被選擇的區圖像的該觀看基準對齊；處理該被旋轉的多聲道模擬立體聲音信號，以確定至少一個虛擬麥克風，其中該虛擬麥克風生成來自該觀看基準的一方向的一聲音信號；以及發出與該被選擇的圖像區的顯示相關聯的該被生成的聲音信號。
根據請求項13所述的方法，其中，該多聲道模擬立體聲音信號是“A”格式信號、“B”格式信號或“C”格式信號。
根據前述請求項中任一項所述的方法，其中，該廣角圖像基本上是一環繞或全景圖像。
一種用於在廣角圖像顯示系統中生成相關的音頻和視覺信號的系統，包括：一處理器，用於處理廣角圖像數據以選擇廣角圖像的一區，該廣角圖像包括用於在顯示器或螢幕上顯示的該廣角圖像數據的一部分；處理該廣角圖像顯示系統的一聲音信號，以將該被選擇的圖像區與該被選擇的圖像區的一觀看方向相關的該聲音信號的一部分相關聯。
一種可攜式電子設備，包括：一顯示器，用於顯示一廣角圖像的一圖像區；以及一處理器，用於處理與該廣角圖像相關聯的一聲音信號，以將該被顯示的圖像區與該被顯示的圖像區的一觀看方向相關的該聲音信號的一部分相關聯。
一種電腦可讀介質，其包括機器可讀指令，當該指令被一電子處理設備的處理器執行時，該指令執行根據請求項1至15中任一項所述的方法的步驟。
一種在廣角圖像顯示系統中生成相關的音頻和視覺信號的方法，包括以下步驟：處理該廣角圖像顯示系統的一聲音信號，以選擇與一被確定的聲音方向相關的該聲音信號的一部分；以及處理廣角圖像數據，以選擇包括用於在顯示器或螢幕上顯示的該廣角圖像數據的一部分的區，該被選擇的圖像區被選擇爲與該被確定的聲音方向相關的圖像區。
根據請求項19所述的方法，進一步包括以下步驟：在該廣角圖像系統的一聲場內追蹤該被確定的聲音方向；以及利用該被確定的聲音方向的追蹤資訊，進一步處理該廣角圖像數據，以將該廣角圖像數據的被進一步處理的區與該被追蹤的聲音方向相關聯。
根據請求項19或20所述的方法，其中，該聲音信號包括一環繞聲場。
根據請求項19至21中任一項所述的方法，其中，該廣角圖像顯示系統的該聲音信號包括一多聲道模擬立體聲音信號。
根據請求項22所述的方法，進一步包括以下步驟：將該多聲道模擬立體聲音信號的多個坐標系軸線中之一與該被確定的聲音方向對齊；處理該多聲道模擬立體聲音信號，以確定至少一個虛擬麥克風，該虛擬麥克風生成來自該被確定的聲音方向的一聲音信號；以及發出與被選擇的圖像區的顯示相關聯的該被生成的聲音信號，該被選擇的圖像區具有與該被確定的聲音方向相關的一觀看基準。
根據請求項23所述的方法，其中該多聲道模擬立體聲音信號是“A”格式信號、“B”格式信號或“C”格式信號。
根據請求項19至24中任一項所述的方法，其中，該廣角圖像是一基本上環繞或全景圖像。
一種用於在廣角圖像顯示系統中生成音頻和視覺信號的系統，包括：一處理器，用於處理該廣角圖像顯示系統的一聲音信號，以選擇與一被確定的聲音方向相關的該聲音信號的一部分；以及處理廣角圖像數據，以選擇包括有用於在顯示器或螢幕上顯示的該廣角圖像數據的一部分的區，該被選擇的圖像區被選擇爲與該被確定的聲音方向相關的圖像區。
一種可攜式電子設備，包括：一處理器，用於處理一廣角圖像顯示系統的一聲音信號以選擇與一被確定的聲音方向相關的該聲音信號的一部分；以及一顯示器，用於顯示一廣角圖像的一區，該區包括該廣角圖像的一部分，該廣角圖像被選擇爲與該被確定的聲音方向相關的廣角圖像。
一種電腦可讀介質，包括機器可讀指令，當該指令被一電子處理設備的一處理器執行時，該指令執行根據請求項19到25中任一項所述的方法的步驟。