TWI830383B - 拍攝聲源的系統及方法 - Google Patents
拍攝聲源的系統及方法 Download PDFInfo
- Publication number
- TWI830383B TWI830383B TW111135093A TW111135093A TWI830383B TW I830383 B TWI830383 B TW I830383B TW 111135093 A TW111135093 A TW 111135093A TW 111135093 A TW111135093 A TW 111135093A TW I830383 B TWI830383 B TW I830383B
- Authority
- TW
- Taiwan
- Prior art keywords
- camera
- coordinates
- image
- computing device
- microphone
- Prior art date
Links
- 238000000034 method Methods 0.000 title claims abstract description 29
- 238000006243 chemical reaction Methods 0.000 claims description 7
- 239000003550 marker Substances 0.000 claims 10
- 238000010586 diagram Methods 0.000 description 11
- 238000003491 array Methods 0.000 description 4
- 230000006870 function Effects 0.000 description 4
- 230000000007 visual effect Effects 0.000 description 3
- 238000004091 panning Methods 0.000 description 2
- 238000013473 artificial intelligence Methods 0.000 description 1
- 238000003708 edge detection Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
Images
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04R—LOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
- H04R27/00—Public address systems
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04R—LOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
- H04R1/00—Details of transducers, loudspeakers or microphones
- H04R1/20—Arrangements for obtaining desired frequency or directional characteristics
- H04R1/32—Arrangements for obtaining desired frequency or directional characteristics for obtaining desired directional characteristic only
- H04R1/326—Arrangements for obtaining desired frequency or directional characteristics for obtaining desired directional characteristic only for microphones
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/70—Determining position or orientation of objects or cameras
- G06T7/73—Determining position or orientation of objects or cameras using feature-based methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/20—Image preprocessing
- G06V10/25—Determination of region of interest [ROI] or a volume of interest [VOI]
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04M—TELEPHONIC COMMUNICATION
- H04M3/00—Automatic or semi-automatic exchanges
- H04M3/42—Systems providing special services or facilities to subscribers
- H04M3/56—Arrangements for connecting several subscribers to a common circuit, i.e. affording conference facilities
- H04M3/567—Multimedia conference systems
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04M—TELEPHONIC COMMUNICATION
- H04M3/00—Automatic or semi-automatic exchanges
- H04M3/42—Systems providing special services or facilities to subscribers
- H04M3/56—Arrangements for connecting several subscribers to a common circuit, i.e. affording conference facilities
- H04M3/568—Arrangements for connecting several subscribers to a common circuit, i.e. affording conference facilities audio processing specific to telephonic conferencing, e.g. spatial distribution, mixing of participants
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N23/00—Cameras or camera modules comprising electronic image sensors; Control thereof
- H04N23/60—Control of cameras or camera modules
- H04N23/61—Control of cameras or camera modules based on recognised objects
- H04N23/611—Control of cameras or camera modules based on recognised objects where the recognised objects include parts of the human body
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N23/00—Cameras or camera modules comprising electronic image sensors; Control thereof
- H04N23/60—Control of cameras or camera modules
- H04N23/695—Control of camera direction for changing a field of view, e.g. pan, tilt or based on tracking of objects
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N7/00—Television systems
- H04N7/14—Systems for two-way working
- H04N7/141—Systems for two-way working between two video terminals, e.g. videophone
- H04N7/147—Communication arrangements, e.g. identifying the communication as a video-communication, intermediate storage of the signals
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04R—LOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
- H04R1/00—Details of transducers, loudspeakers or microphones
- H04R1/08—Mouthpieces; Microphones; Attachments therefor
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04R—LOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
- H04R3/00—Circuits for transducers, loudspeakers or microphones
- H04R3/005—Circuits for transducers, loudspeakers or microphones for combining the signals of two or more microphones
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V2201/00—Indexing scheme relating to image or video recognition or understanding
- G06V2201/07—Target detection
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V2201/00—Indexing scheme relating to image or video recognition or understanding
- G06V2201/09—Recognition of logos
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04M—TELEPHONIC COMMUNICATION
- H04M2201/00—Electronic components, circuits, software, systems or apparatus used in telephone systems
- H04M2201/50—Telephonic communication in combination with video communication
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04M—TELEPHONIC COMMUNICATION
- H04M2203/00—Aspects of automatic or semi-automatic exchanges
- H04M2203/50—Aspects of automatic or semi-automatic exchanges related to audio conference
- H04M2203/509—Microphone arrays
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04R—LOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
- H04R2201/00—Details of transducers, loudspeakers or microphones covered by H04R1/00 but not provided for in any of its subgroups
- H04R2201/40—Details of arrangements for obtaining desired directional characteristic by combining a number of identical transducers covered by H04R1/40 but not provided for in any of its subgroups
Landscapes
- Engineering & Computer Science (AREA)
- Signal Processing (AREA)
- Multimedia (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- General Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- Otolaryngology (AREA)
- Theoretical Computer Science (AREA)
- General Health & Medical Sciences (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Circuit For Audible Band Transducer (AREA)
- Studio Devices (AREA)
Abstract
拍攝聲源的方法包括:攝影機拍攝麥克風陣列所在的空間以產生影像,其中麥克風陣列用以接收聲源產生的聲音,並產生聲源相對於麥克風陣列的聲源座標,連接於攝影機的運算裝置在影像中找到屬於麥克風陣列的子影像,運算裝置依據子影像計算麥克風陣列相對於攝影機的麥克風座標,運算裝置至少依據聲源座標及麥克風座標計算所需控制量,以及攝影機至少依據所需控制量調整拍攝方向以拍攝聲源。
Description
本發明涉及平移傾斜變焦攝影機(pan-tilt-zoom camera:PTZ camera)以及聲源追蹤攝影,特別是一種拍攝聲源的方法。
在視訊會議、遠端課程或遠距醫療等的應用場景中,通常本地端所有參與者和視訊會議系統處在同一個指定空間中。為了讓遠端使用者從多個參與者中輕易地辨認出當前的發言者,視訊會議系統可透過PTZ攝影機朝向當前發言者進行拍攝。
現有的一種追蹤攝影方式是預先設定每個座位相對於PTZ攝影機的方向。當偵測到某個位置發出聲音時,再控制PTZ攝影機的鏡頭轉向該位置拍攝。然而,這種作法需要人工預先設定。而且隨著座位的數量愈多,就需要耗費更多的時間進行設定。
另一種方式則是使用整合麥克風陣列與PTZ攝影機的聲源追蹤攝影機追蹤發言者。然而,這種作法需要特殊的硬體,不適用於一般的PTZ攝影機與麥克風陣列,而且對於硬體設備的要求比較高。
有鑑於此,本發明提出一種拍攝聲源的系統及其方法,可根據聲音讓PTZ攝影機準確追蹤到發言者的位置。
依據本發明一實施例的一種拍攝聲源的方法,包括:攝影機拍攝麥克風陣列所在的空間以產生影像,其中麥克風陣列用以接收聲源產生的聲音,並產生聲源相對於麥克風陣列的聲源座標;連接於攝影機的運算裝置在影像中找到屬於麥克風陣列的子影像;運算裝置依據子影像計算麥克風陣列相對於攝影機的麥克風座標;運算裝置至少依據聲源座標及麥克風座標計算所需控制量;以及攝影機至少依據所需控制量調整拍攝方向以拍攝聲源。
依據本發明一實施例的一種拍攝聲源的系統,包括攝影機以及運算裝置。攝影機拍攝麥克風陣列所在的空間以產生影像,其中麥克風陣列用以接收聲源產生的聲音,並產生聲源相對於麥克風陣列的聲源座標。運算裝置電性連接麥克風陣列及攝影機。運算裝置用於在影像中找到屬於麥克風陣列的子影像;依據子影像計算麥克風陣列相對於攝影機的麥克風座標;依據聲源座標及麥克風座標計算所需控制量;及控制攝影機至少依據所需控制量調整拍攝方向以拍攝聲源。
綜上所述,本發明提出的拍攝聲源的系統及其方法不需使用成本昂貴的聲源追蹤攝影機,也不需將攝影機與麥克風陣列安裝在同一個位置,就能夠即時拍攝發言者當下的位置,追蹤範圍不受限於預設的幾個固定方向。本發明可適用於獨立的PTZ攝影機與麥克風陣列,透過自動偵測攝影機與麥克風的相對位置關係,實現即時追蹤發言者的需求。
以上之關於本揭露內容之說明及以下之實施方式之說明係用以示範與解釋本發明之精神與原理,並且提供本發明之專利申請範圍更進一步之解釋。
以下在實施方式中詳細敘述本發明之詳細特徵以及特點,其內容足以使任何熟習相關技藝者了解本發明之技術內容並據以實施,且根據本說明書所揭露之內容、申請專利範圍及圖式,任何熟習相關技藝者可輕易地理解本發明相關之構想及特點。以下之實施例係進一步詳細說明本發明之觀點,但非以任何觀點限制本發明之範疇。
圖1是依據本發明一實施例的拍攝聲源的系統的應用場景圖。空間10(例如會議室)中包括多個與會人員。拍攝聲源的系統包括攝影機30以及運算裝置40,可配合麥克風陣列20使用。在另一實施例中,拍攝聲源的系統更包括麥克風陣列20。
麥克風陣列20具有至少二麥克風與內建的處理器。至少二麥克風可接收聲源產生的聲音。內建的處理器電性連接至少二麥克風,並可分析聲音所在位置。例如依據至少二麥克風各自收到的聲音計算時間差,進而計算出聲源相對於麥克風陣列20的聲源座標。聲源座標是聲源所在位置的三維座標,以麥克風陣列20裝置上的一個位置( 例如麥克風陣列中心點)作原點。
攝影機30例如是PTZ攝影機。攝影機30可調整拍攝方向,拍攝空間10並產生影像。攝影機30與麥克風陣列20是兩個獨立設置的裝置。例如攝影機30裝設於桌面,而麥克風陣列20倒掛安裝於天花板。
運算裝置40通訊連接麥克風陣列20及攝影機30(有線或無線連接)。在一實施例中,運算裝置40是獨立於攝影機30外部的電腦。在另一實施例中,運算裝置40是整合於攝影機30內部的微處理器。運算裝置40本身更包括如硬碟或記憶體的儲存裝置。儲存裝置記錄關聯於麥克風陣列20的多個參考資訊,其細節於後詳述。
運算裝置40可從攝影機30取得影像,從麥克風陣列20取得聲源座標,從儲存裝置取得參考資訊,再依據上述資料執行多個指令,藉此實現本發明一實施例的拍攝聲源的方法。
圖2是依據本發明一實施例的拍攝聲源的方法的流程圖。在步驟P1,運算裝置40從麥克風陣列20取得聲源座標。在步驟P2,運算裝置40取得麥克風資訊。若本實施例的方法曾經被執行過,則運算裝置40可從儲存裝置取得麥克風資訊。以下敘述第一次執行所述方法以產生麥克風資訊的流程。
麥克風資訊包括麥克風座標、座標軸方向資訊及補償控制量。麥克風座標是麥克風陣列20所在位置的三維座標,以攝影機30作原點。補償控制量用於讓攝影機30調整拍攝方向至麥克風陣列20,其細節於後詳述。
圖3是取得麥克風資訊的細部流程圖。在步驟P21,攝影機30拍攝空間10以產生影像。攝影機30的拍攝操作以及調整拍攝方向的操作可由運算裝置40控制、由使用者手動控制,或攝影機30本身藉由內建的定時器自行控制,本發明對此不予限制。
在步驟P22,運算裝置40分析影像中是否具有屬於麥克風陣列20的子影像。在一實施例中,運算裝置40讀取儲存裝置以取得關聯於麥克風陣列20的參考資訊,並在影像中尋找此參考資訊。參考資訊包括麥克風陣列20的整體影像或特徵影像。在另一實施例中,運算裝置40藉由影像處理技術或基於人工智慧的物件辨識技術,在影像中找出屬於麥克風陣列20的子影像。
若步驟P22的判斷為「否」,則執行步驟P23。在步驟P23,運算裝置40判斷是否已遍尋所有可視範圍。若判斷為「是」,則結束本實施例的拍攝聲源的方法。否則執行步驟P24,調整攝影機30的拍攝方向,並返回步驟P21再次拍攝以產生影像。
可視範圍是攝影機30的鏡頭任意轉動下可拍攝到的所有範圍。以實際數值為範例說明可視範圍如下:若鏡頭左右轉動範圍為180度,上下轉動範圍為90度,且每次轉動以10度為單位;則可視範圍包括鏡頭可轉動到的(180/10+1)*(90/10+1)=19*10=190個位置。因此,步驟P24的判斷相當於「是否已拍攝過190個不同位置的影像」。
若步驟P22的判斷為「是」,則執行步驟P25,運算裝置40依據子影像執行麥克風資訊擷取程序。
圖4是麥克風資訊擷取程序的細部流程圖。在步驟P251,因為攝影機30已拍攝到麥克風陣列20,運算裝置40依據此時攝影機30的控制量確認座標軸方向,具體來說,依據PTZ攝影機鏡頭的傾斜量(tilt)的大小,確認攝影機30的Z軸方向與麥克風陣列20的Z軸方向是否相同。舉例說明,攝影機30以鏡頭上方為z軸正向,麥克風陣列20以收音面為z軸正向,請參考圖5。在攝影機30拍攝到麥克風陣列20的參考面201時,若仰拍角度Φ大於某閾值(例如45度),代表麥克風陣列20的Z軸方向z2與攝影機30的Z軸方向z3相反。實際場景例如攝影機30設置於桌面,麥克風陣列20倒掛安裝於天花板。z2也相當於麥克風陣列20的收音方向。另一方面,若攝影機30仰拍角度Φ小於或等於該閾值,如圖6呈現的俯拍操作,代表麥克風陣列20的Z軸方向z2與攝影機30的Z軸方向z3相同。
在步驟P252,攝影機30調整拍攝方向使參考面201邊緣平行於影像邊緣。在一實施例中,影像與參考面201的形狀都是矩形。圖7是步驟P252的示意圖。(x3, y3, z3)是攝影機30的座標系,其原點為C0。攝影機30的初始拍攝方向為y3。當步驟P252執行時,攝影機30的拍攝方向以角度θ水平轉動到y3’方向,再以角度Φ垂直轉動到z3’方向。在拍攝方向對準參考面201上一個接近中心的點M時,攝影機30可完整拍攝到參考面201,並滿足參考面201與影像邊緣的平行需求,例如使邊緣B在影像中呈現水平狀態,或使邊緣A在影像中呈現垂直狀態。此時運算裝置40取得攝影機30的補償控制量,包括搖動量(Pan)θ及傾斜量(Tilt)Φ,用於在後續步驟進行補償操作。
步驟P253是運算裝置40取得影像中的至少三個角點,步驟P254是攝影機30調整拍攝方向使每一角點位於影像中央,取得每次調整拍攝方向時攝影機30的控制量。圖8是步驟P253、P254一實施例的示意圖。步驟P253所用的影像是麥克風陣列20的參考面201被完整拍攝到的影像。舉例說明,如圖8所示,參考面201是矩形,為利於說明,在此以第一角點M1、第二角點M2及第三角點M3等三個角點為例進行說明。M0為參考面201的中心,本發明將M0的座標稱為麥克風座標。在一實施例中,運算裝置40可執行任何邊緣偵測演算法,在影像中找出位於參考面201邊緣的不共線的三個角點M1~M3。在另一實施例中,使用者可自行設定不共線的三個角點M1~M3。本發明不限制角點的位置及數量上限。
在步驟P254執行前,攝影機30沿y3箭頭方向拍攝,此時拍攝的影像的中央為圖8的C1。在步驟P254執行期間,為了使第一角點M1位於影像的中央,攝影機30從初始拍攝方向y3向左方(x3箭頭方向的反方向)轉動角度θ1,再向上方(z3箭頭方向)轉動角度Φ1。為了使第二角點M2位於影像的中央,攝影機30從初始拍攝方向y3向右方(x3箭頭方向)轉動角度θ2,再向上方(z3箭頭方向)轉動角度Φ2。使第三角點M3位於影像的中央的方式則可按照上述方式進行,且轉動角度分別為θ3和Φ3。
在步驟P254,運算裝置40收集的控制量包括角度θ1、θ2、θ3以及角度Φ1、Φ2、Φ3。在步驟P255,運算裝置40依據控制量及麥克風參考資訊計算麥克風座標。圖9及圖10是步驟P254的一實施例的示意圖。第一角點M1、第二角點M2正投影於(x3, y3)平面的點分別為M1’、M2’。另外,運算裝置40讀取儲存裝置中的麥克風長度資訊,包括參考面201的邊長A和B。
在圖9的實施例中,假設以步驟P252取得的補償控制量調整攝影機30的水平拍攝方向作為初始拍攝方向(y3箭頭方向),且第一角點M1的投影點M1’及第二角點M2的投影點M2’位於攝影機30初始拍攝方向的兩側。M1’與M2’連線的長度為麥克風邊長B。M1’與M2’連線的中點標示為Mn,M1’與Mn連線的長度為b1,M2’與Mn連線的長度為b2。Mn與C0的連線垂直於M1’與M2’的連線,Mn與C0的連線長度為c。依據三角函數tan(θ1)=b1/c,tan(θ2)=b2/c,可得tan(θ1)+tan(θ2) = (b1+b2)/c = B/c。因此,第一角點M1的Y座標為c,且c=B/( tan(θ1)+tan(θ2) )。第二角點M2的Y座標等於第一角點M1的Y座標。第一角點M1的X座標為-b1,其中b1=c* tan(θ1)。第二角點M2的X座標為b2,且b2=c* tan(θ2)。至於第三角點M3的X座標及Y座標可參考上述的方式計算得到。
延續圖9的實施例,C0到M1’的長度a1可以透過畢氏定理計算出來。在圖10中,第一角點M1的Z座標為h1,依據三角函數tan(Φ1)=h1/a1,可得h1=a1*tan(Φ1)。因為參考面201平行於x3-y3平面,第二角點M2與第三角點M3的Z座標皆等於第一角點M1的Z座標。
在三個角點M1~M3的三維座標被計算出來後,可計算麥克風座標,即參考面201中心M0的座標。M0的X座標為第一角點M1和第二角點M2二者X座標的平均值,M0的Y座標為第三角點M3的Y座標和第二角點的Y座標的平均值,M0的Z座標等於第一角點M1的Z座標。
在步驟P256,攝影機30調整拍攝方向使標記位於影像中央,且運算裝置取得此時攝影機30的控制量。標記(logo)是麥克風陣列20位於參考面201上的特定圖案。不同型號的麥克風陣列具有不同的標記。這些標記被預先記錄在儲存裝置中。圖11是步驟P256一實施例的示意圖。(x2, y2, z2)是麥克風陣列20的座標系,其原點為參考面201上的M0。為了使標記ML位於影像的中央,攝影機30從初始拍攝方向y3向左方(x3箭頭方向的反方向)轉動角度θ4,再向上方(z3箭頭方向)轉動角度Φ4。
在步驟P257,運算裝置40讀取儲存裝置記錄的麥克風參考資訊,其為標記ML在麥克風陣列20的座標系(x2, y2, z2)中的座標。依據步驟P252中取得的補償控制量θ,可讓麥克風陣列20的座標軸x2、y2與攝影機30的座標軸x3、y3重合(不包含原點,只考慮座標軸之間的關係)。利用步驟P255計算出的麥克風座標反推出攝影機30為了使麥克風中心點M0位於影像中央的轉動角度θ5、Φ5。依據角度θ5、Φ5與步驟P256取得的控制量θ4、Φ4做比較得出麥克風中心點M0與標記ML的相對位置關係,再配合麥克風參考資訊,可推算出麥克風陣列20的座標軸x2、y2分別對應到攝影機30的哪一個座標軸,以及重合的兩個座標軸的方向是同向或反向,座標軸對應關係可參考圖12(a)~圖12(h)。圖12(a)~圖12(d)是z3與z2反向的狀況,圖12(e)~圖12(h)是z3與z2同向的狀況。圖12(a)~12(h)中座標軸的轉換方式如下方表格1所示。因此,運算裝置40可建立麥克風陣列20與攝影機30的座標軸轉換關係。步驟P257完成代表麥克風資訊擷取程序已完成,因此可繼續執行步驟P3。
表格1,座標軸對應關係列表。
圖12(a) | 圖12(b) | 圖12(c) | 圖12(d) |
x2 -x3 y2 -y3 | x2 -y3 y2 x3 | x2 x3 y2 y3 | x2 y3 y2 -x3 |
圖12(e) | 圖12(f) | 圖12(g) | 圖12(h) |
x2 -x3 y2 y3 | x2 y3 y2 x3 | x2 x3 y2 -y3 | x2 -y3 y2 -x3 |
在步驟P3,運算裝置40依據聲源座標及麥克風資訊計算攝影機30的所需控制量。詳言之,依據步驟P257建立的座標軸轉換關係,運算裝置40可將聲源坐標從麥克風陣列20的座標系(x2, y2, z2)轉換為攝影機30的座標系(x3, y3, z3)。運算裝置40將聲源座標的轉換結果加上麥克風座標(麥克風陣列20所在位置的三維座標,以攝影機30作原點),便可得到以攝影機30作原點的聲源的座標,以下稱其為目標座標。
圖13及圖14是依據目標座標計算所需控制量的示意圖。如圖12所示,運算裝置40將目標座標的X座標及Y座標輸入至反正切(arctangent,atan)函數,即α=atan(x/y),再加上步驟P252記錄的補償控制量θ,即α+θ,便可得到攝影機30拍攝聲源所需的搖動量(Pan)。如圖14所示,運算裝置將目標座標的Y座標及Z座標值輸入至反正切函數,即β=atan(z/y),便可得到攝影機拍攝聲源所需的傾斜量(tilt)。
在步驟P4,攝影機30依據所需控制量,包括搖動量α+θ以及傾斜量β,便可調整拍攝方向拍攝到發出聲音的聲源。
於一些實施例中,可藉由本發明來補償影像追蹤的攝影機鏡頭轉動方向。舉例來說,藉由本發明提出的拍攝聲源的系統及其方法,追蹤發言者當下所在位置後,將PTZ攝影機的鏡頭轉向該位置拍攝,偵測攝影機所拍攝的影像中發言者的與會方向,來補償攝影機鏡頭轉動方向。例如透過人臉、人型或其他特徵偵測到影像中的發言者發言方向(例如朝向影像中的右方發言),可對應調整攝影機的鏡頭方向(例如鏡頭往右方微調),以提升拍攝影像構圖的視覺效果。另舉一例來說,藉由本發明提出的拍攝聲源的系統及其方法,追蹤發言者當下所在位置後,將PTZ攝影機的鏡頭轉向該位置拍攝,偵測攝影機所拍攝的影像中發言者的人像位置或在影像中的比例,來補償攝影機鏡頭轉動方向,例如透過人臉、人型或其他特徵偵測到影像中的發言者的人像位置(例如在影像中的偏下方),可對應調整攝影機的鏡頭方向(例如鏡頭往下方微調),以達較佳的追蹤效果。
綜上所述,本發明提出的拍攝聲源的系統及其方法不需要事先設定攝影機鏡頭方向,追蹤範圍也不限制於固定的幾個方向,可以追蹤發言者當下所在位置。適用於獨立的PTZ攝影機與麥克風陣列,並可以透過自動偵測攝影機與麥克風的相對位置關係,實現即時追蹤發言者的需求。
雖然本發明以前述之實施例揭露如上,然其並非用以限定本發明。在不脫離本發明之精神和範圍內,所為之更動與潤飾,均屬本發明之專利保護範圍。關於本發明所界定之保護範圍請參考所附之申請專利範圍。
10:空間
20:麥克風陣列
201:參考面
201’:參考面的投影
30:攝影機
40:運算裝置
P1~P4,P21~P25,P251~P257:步驟
M:參考面上的點
M0:麥克風陣列原點
M1:第一角點
M1’:第一角點的投影點
M2:第二角點
M2’:第二角點的投影點
M3:第三角點
ML:標記
ML’:標記的投影點
C0:攝影機原點
C1:麥克風陣列原點的投影點
x1,y1,z1:指定空間座標系
x2,y2,z2:麥克風陣列座標系
x3,y3,z3:攝影機座標系
y3’,z3’:拍攝方向
Φ,Φ1,Φ2,Φ3,Φ4,Φ5θ,θ1,θ2,θ3,θ4,θ5α,β:角度
A,B:參考面的邊緣/長度
a1,a2,b1,b2,h1,c:邊/長度
x,y,z:目標座標
圖1是本發明一實施例的拍攝聲源的系統的應用場景圖;
圖2是本發明一實施例的拍攝聲源的方法的流程圖;
圖3是圖2中步驟的細部流程圖;
圖4是圖3中步驟的細部流程圖;
圖5、圖6是攝影機與麥克風陣列相對位置的示意圖;
圖7~11是圖4中多個步驟的實施例的示意圖;
圖12(a)~12(h)是坐標軸對應關係的示意圖;以及
圖13、圖14是依據目標座標計算所需控制量的示意圖。
P1~P4:步驟
Claims (12)
- 一種拍攝聲源的方法,包括: 攝影機拍攝一麥克風陣列所在的空間以產生影像,其中該麥克風陣列用以接收聲源產生的聲音,並產生該聲源相對於該麥克風陣列的聲源座標; 連接於該攝影機的運算裝置在該影像中找到屬於該麥克風陣列的子影像; 該運算裝置依據該子影像計算該麥克風陣列相對於該攝影機的麥克風座標; 該運算裝置至少依據該聲源座標及該麥克風座標計算所需控制量;以及 該攝影機至少依據該所需控制量調整該拍攝方向以拍攝該聲源。
- 如請求項1的方法,更包括:該攝影機依據該子影像調整該拍攝方向。
- 如請求項1的方法,其中該運算裝置依據該子影像計算該麥克風陣列相對於該攝影機的該麥克風座標包括: 該運算裝置取得該子影像邊緣不共線的至少三個角點; 該攝影機調整該拍攝方向至少三次,在該至少三個角點的每一者位於該影像的指定位置時,該運算裝置取得該攝影機的控制量; 該運算裝置取得該麥克風陣列的長度資訊;以及 該運算裝置依據該長度資訊及該控制量計算該麥克風座標。
- 如請求項1的方法,其中該麥克風陣列具有標記,該子影像包括該標記,且所述方法更包括:該運算裝置依據該子影像計算該標記相對於該攝影機的標記座標; 其中該運算裝置至少依據該聲源座標及該麥克風座標計算該所需控制量包括:該運算裝置依據該標記座標、該聲源座標及該麥克風座標計算該所需控制量。
- 如請求項4的方法,更包括: 該攝影機調整該拍攝方向,在該子影像的邊緣與該影像的邊緣平行時,該運算裝置取得該攝影機的補償控制量; 該運算裝置取得關聯於該標記的麥克風參考資訊; 該運算裝置在該子影像中找到屬於該標記的影像區塊; 該攝影機調整該拍攝方向,在該影像區塊位於該影像中的指定位置時,該運算裝置取得該攝影機的控制量;以及 該運算裝置依據該補償控制量及該控制量,建立該麥克風陣列的座標系與該攝影機的座標系之間的轉換關係。
- 如請求項5的方法,其中該運算裝置依據該聲源座標及該麥克風座標計算該所需控制量包括: 該運算裝置依據該轉換關係轉換該聲源座標; 該運算裝置加總轉換後的該聲源座標及該麥克風座標以產生該聲源相對於該攝影機的目標座標,其中該目標座標具有第一維度、第二維度及第三維度; 該運算裝置依據該第一維度、該第二維度及反正切函數計算該所需控制量中的水平轉動角度;以及 該運算裝置依據該第二維度、該第三維度及該反正切函數計算該所需控制量中的垂直轉動角度。
- 一種拍攝聲源的系統,包括: 攝影機,拍攝一麥克風陣列所在的空間以產生影像,其中該麥克風陣列用以接收聲源產生的聲音,並產生該聲源相對於該麥克風陣列的聲源座標;以及 運算裝置,電性連接該麥克風陣列及該攝影機,該運算裝置用於在該影像中找到屬於該麥克風陣列的子影像;依據該子影像計算該麥克風陣列相對於該攝影機的麥克風座標;至少依據該聲源座標及該麥克風座標計算所需控制量;及控制該攝影機至少依據該所需控制量調整該拍攝方向以拍攝該聲源。
- 如請求項7的系統,該運算裝置更用以控制該攝影機依據該子影像調整該拍攝方向。
- 如請求項7的系統,其中該運算裝置用以執行下列指令,以依據該子影像計算該麥克風陣列相對於該攝影機的該麥克風座標: 取得該子影像邊緣不共線的至少三個角點; 控制該攝影機調整該拍攝方向至少三次,在該至少三個角點的每一者位於該影像的指定位置時,取得該攝影機的控制量; 取得該麥克風陣列的長度資訊;以及 依據該長度資訊及該控制量計算該麥克風座標。
- 如請求項7的系統,其中該麥克風陣列具有標記,該子影像包括該標記,且該運算裝置更用以依據該子影像計算該標記相對於該麥克風陣列攝影機的標記座標; 其中該運算裝置至少依據該聲源座標及該麥克風座標計算該所需控制量包括:該運算裝置依據該標記座標、該聲源座標及該麥克風座標計算該所需控制量。
- 如請求項10的系統,其中該運算裝置更用以執行下列指令: 控制該攝影機調整該拍攝方向,在該子影像的邊緣與該影像的邊緣平行時,取得該攝影機的補償控制量; 取得關聯於該標記的麥克風參考資訊 在該子影像中找到屬於該標記的影像區塊; 控制該攝影機調整該拍攝方向,在該影像區塊位於該影像中的指定位置時,取得該攝影機的控制量;以及 依據該補償控制量及該控制量,建立該麥克風陣列的座標系與該攝影機的座標系之間的轉換關係。
- 如請求項11的系統,其中該運算裝置用以執行下列指令,以依據該聲源座標及該麥克風座標計算該所需控制量: 依據該轉換關係轉換該聲源座標; 加總轉換後的該聲源座標及該麥克風座標以產生該聲源相對於該攝影機的目標座標,其中該目標座標具有第一維度、第二維度及第三維度; 依據該第一維度、該第二維度及反正切函數計算該所需控制量中的水平轉動角度;以及 依據該第二維度、該第三維度及該反正切函數計算該所需控制量中的垂直轉動角度。
Priority Applications (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
TW111135093A TWI830383B (zh) | 2022-09-16 | 2022-09-16 | 拍攝聲源的系統及方法 |
US18/368,799 US20240098406A1 (en) | 2022-09-16 | 2023-09-15 | System and method for capturing sound source |
EP23197569.9A EP4344193A1 (en) | 2022-09-16 | 2023-09-15 | System and method for capturing sound source |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
TW111135093A TWI830383B (zh) | 2022-09-16 | 2022-09-16 | 拍攝聲源的系統及方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
TWI830383B true TWI830383B (zh) | 2024-01-21 |
TW202415055A TW202415055A (zh) | 2024-04-01 |
Family
ID=88093131
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
TW111135093A TWI830383B (zh) | 2022-09-16 | 2022-09-16 | 拍攝聲源的系統及方法 |
Country Status (3)
Country | Link |
---|---|
US (1) | US20240098406A1 (zh) |
EP (1) | EP4344193A1 (zh) |
TW (1) | TWI830383B (zh) |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
TW201643688A (zh) * | 2015-03-19 | 2016-12-16 | 英特爾公司 | 基於聲學攝影機之視聽場景分析的技術 |
TW202034104A (zh) * | 2019-03-11 | 2020-09-16 | 整技科技股份有限公司 | 導引載具控制系統與方法 |
Family Cites Families (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
NO318096B1 (no) * | 2003-05-08 | 2005-01-31 | Tandberg Telecom As | Arrangement og fremgangsmate for lokalisering av lydkilde |
GB0330253D0 (en) * | 2003-12-31 | 2004-02-04 | Mitel Networks Corp | Self-discovery method |
US9832583B2 (en) * | 2015-11-10 | 2017-11-28 | Avaya Inc. | Enhancement of audio captured by multiple microphones at unspecified positions |
US11128793B2 (en) * | 2019-05-03 | 2021-09-21 | Cisco Technology, Inc. | Speaker tracking in auditoriums |
-
2022
- 2022-09-16 TW TW111135093A patent/TWI830383B/zh active
-
2023
- 2023-09-15 EP EP23197569.9A patent/EP4344193A1/en active Pending
- 2023-09-15 US US18/368,799 patent/US20240098406A1/en active Pending
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
TW201643688A (zh) * | 2015-03-19 | 2016-12-16 | 英特爾公司 | 基於聲學攝影機之視聽場景分析的技術 |
TW202034104A (zh) * | 2019-03-11 | 2020-09-16 | 整技科技股份有限公司 | 導引載具控制系統與方法 |
Also Published As
Publication number | Publication date |
---|---|
EP4344193A1 (en) | 2024-03-27 |
US20240098406A1 (en) | 2024-03-21 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
KR101771339B1 (ko) | 자체 적응 서라운드 사운드를 구현하는 방법 및 시스템 | |
CN111432115B (zh) | 基于声音辅助定位的人脸追踪方法、终端及存储装置 | |
US10498952B2 (en) | Shooting method and shooting system capable of realizing dynamic capturing of human faces based on mobile terminal | |
CN108900787B (zh) | 图像显示方法、装置、系统及设备、可读存储介质 | |
CN110505463A (zh) | 基于拍照的实时自动3d建模方法 | |
WO2019128109A1 (zh) | 一种基于人脸追踪的动向投影方法、装置及电子设备 | |
US20240196096A1 (en) | Merging webcam signals from multiple cameras | |
US20140232818A1 (en) | Method and device for spherical resampling for video generation | |
US20060125921A1 (en) | Method and system for compensating for parallax in multiple camera systems | |
US9986155B2 (en) | Image capturing method, panorama image generating method and electronic apparatus | |
WO2015042897A1 (zh) | 一种控制方法、控制装置及控制设备 | |
WO2017128750A1 (zh) | 一种图像采集方法和图像采集装置 | |
JP2003179800A (ja) | 多視点画像生成装置、画像処理装置、および方法、並びにコンピュータ・プログラム | |
TWI830383B (zh) | 拍攝聲源的系統及方法 | |
CN112839165B (zh) | 人脸跟踪摄像的实现方法、装置、计算机设备和存储介质 | |
WO2022002214A1 (zh) | 一种视频剪辑方法、装置、计算机可读存储介质及相机 | |
JP5410328B2 (ja) | 光学投影安定化装置、光学投影安定化方法およびプログラム | |
CN111325790B (zh) | 目标追踪方法、设备及系统 | |
US9160904B1 (en) | Gantry observation feedback controller | |
TW202415055A (zh) | 拍攝聲源的系統及方法 | |
JP6845121B2 (ja) | ロボットおよびロボット制御方法 | |
CN112261281B (zh) | 视野调整方法及电子设备、存储装置 | |
US20210133923A1 (en) | Video conferencing system and video conferencing method | |
CN112702513A (zh) | 一种双光云台协同控制方法、装置、设备及存储介质 | |
WO2021200185A1 (ja) | 情報処理装置、情報処理方法、及び、プログラム |