TWI799165B

TWI799165B - 拍攝發聲目標的系統及方法

Info

Publication number: TWI799165B
Application number: TW111107869A
Authority: TW
Inventors: 曾柏家; 張森喬
Original assignee: 圓展科技股份有限公司
Priority date: 2022-03-04
Filing date: 2022-03-04
Publication date: 2023-04-11
Also published as: TW202336708A

Abstract

拍攝發聲目標的方法包括以下步驟：控制器依據關聯於聲音的第一控制訊號調整攝像裝置拍攝第一影像，運算裝置依據用於辨識目標物件的第一特徵模型取得第一影像中的至少一目標區塊，每一目標區塊包含對應目標物件的特徵外形，運算裝置依據第二特徵模型判斷至少一目標區塊之中的特徵外形中的一者是否具有關聯於發出聲音的一部位的特徵類型，當特徵外形具有特徵類型時，運算裝置發送第二控制訊號至控制器，以及控制器依據第二控制訊號調整攝像裝置以拍攝第二影像，第二影像中包含特徵外形。

Description

拍攝發聲目標的系統及方法

本發明關於追蹤攝影，特別是一種基於臉部特徵偵測改善依據聲音追蹤攝影依據聲音追蹤攝影（Audioframe）的方法。

目前依據聲音進行追蹤攝影（AudioFrame）的方式是依據聲音被偵測到的角度，找到符合該角度的位置進行拍攝。

然而，若該角度上具有多個發聲目標，或是收音裝置在偵測聲音時產生誤差，或是運算裝置在計算角度時產生誤差，則攝像裝置無法準確地拍攝到發聲目標的正確位置，甚至拍攝到未發聲的目標，從而在視訊會議時導致不必要的誤會及困擾。

有鑑於此，本發明提出一種拍攝發聲目標的系統及方法，在現有的聲音追蹤基礎上增加判斷機制，在不需要提高運算裝置的計算能力的前提下，能夠快速地追蹤到發聲目標的精確位置，並有效地降低拍攝到錯誤目標的機率。

依據本發明一實施例的一種拍攝發聲目標的方法，一種拍攝發聲目標的方法，包括：以一控制器依據一第一控制訊號調整一攝像裝置以拍攝一第一影像，該第一控制訊號關聯於一聲音；以一運算裝置依據一第一特徵模型取得該第一影像中的至少一目標區塊，其中該第一特徵模型用於辨識一目標物件，每一該至少一目標區塊包含對應該目標物件的一特徵外形；以該運算裝置依據一第二特徵模型判斷該至少一目標區塊之中的該特徵外形中的一者是否具有一特徵類型，該特徵類型關聯於發出該聲音的一部位；當該特徵外形具有該特徵類型時，以該運算裝置發送一第二控制訊號至該控制器；以及該控制器依據該第二控制訊號調整該攝像裝置以拍攝一第二影像，該第二影像中包含該特徵外形。

依據本發明一實施例的一種拍攝發聲目標的一種拍攝發聲目標的系統，包括：一攝像裝置，用於拍攝一第一影像及一第二影像；一控制器，電性連接該攝像裝置，該控制器依據一第一控制訊號調整該攝像裝置以拍攝該第一影像，依據一第二控制訊號調整該攝像裝置以拍攝該第二影像，該第一控制訊號關聯於一聲音；以及一運算裝置，電性連接該控制器，該運算裝置依據一第一特徵模型取得該第一影像中的至少一目標區塊，其中該第一特徵模型用於辨識一目標物件，每一該至少一目標區塊包含對應該目標物件的一特徵外形；該運算裝置依據第二特徵模型判斷該至少一目標區塊之中的該至少一特徵外形中的一者是否具有一特徵類型，該特徵類型關聯於發出該聲音的一部位；當該特徵外形具有該特徵類型時，該運算裝置發送該第二控制訊號；其中該第二影像中包含該特徵外形。

綜上所述，本發明在現有的聲音追蹤基礎上，增加判斷發聲部位的機制，此判斷機制不需占用過多的運算力，因此可確保在短時間內（例如1秒）完成，對於視訊會議的使用者而言不會感受到任何延遲現象。本發明即使遇到：收音裝置的收音誤差、發聲位置周邊具有多個發聲目標等狀況，仍舊可以成功找到正確的發聲目標，減少誤判的機率。

以上之關於本揭露內容之說明及以下之實施方式之說明係用以示範與解釋本發明之精神與原理，並且提供本發明之專利申請範圍更進一步之解釋。

以下在實施方式中詳細敘述本發明之詳細特徵以及特點，其內容足以使任何熟習相關技藝者了解本發明之技術內容並據以實施，且根據本說明書所揭露之內容、申請專利範圍及圖式，任何熟習相關技藝者可輕易地理解本發明相關之構想及特點。以下之實施例係進一步詳細說明本發明之觀點，但非以任何觀點限制本發明之範疇。

圖1是依據本發明一實施例繪製的追蹤發聲目標的系統的方塊架構圖。如圖1所示，拍攝發聲目標的系統100包括攝像裝置10、控制器20及運算裝置30。拍攝發聲目標的系統100用於從外部接收關聯於聲音的訊號，此訊號可以是聲音訊號本身，或者是關聯於聲音的角度訊號。

攝像裝置10用於拍攝多個影像，這些影像中包括第一影像及第二影像。

控制器20電性連接攝像裝置10。控制器20依據第一控制訊號調整攝像裝置10以拍攝第一影像，依據第二控制訊號調整攝像裝置10以拍攝第二影像。

運算裝置30電性連接控制器20。運算裝置30依據第一特徵模型取得第一影像中的至少一目標區塊。第一特徵模型用於辨識目標物件。所述至少一目標區塊的每一者包含對應目標物件的特徵外形。運算裝置30依據第二特徵模型判斷至少一目標區塊之中的至少一特徵外形中的一者是否具有特徵類型。特徵類型關聯於發出聲音的部位。當特徵外形具有特徵類型時，運算裝置30發送第二控制訊號至控制器20，使控制器20依據第二控制訊號調整攝像裝置10拍攝第二影像。第二影像中包含放大的特徵外形。運算裝置30依據聲音訊號或關聯於聲音的角度訊號直接或間接地產生第一控制訊號。

圖2是依據本發明另一實施例繪製的追蹤發聲目標的系統的方塊架構圖。如圖2所示，拍攝發聲目標的系統100’ 包括攝像裝置10、控制器20、運算裝置30、及收音裝置40。針對攝像裝置10、控制器20及運算裝置30之間的連接關係及運作，圖1之實施例與圖2之實施例相同，於此不予贅述。

收音裝置40電性連接運算裝置30並用以取得聲音。收音裝置40例如為麥克風或麥克風陣列。在一實施方式中，收音裝置40將收錄到的聲音訊號傳送至運算裝置30，再由運算裝置30計算收音裝置40與對應聲音的位置的一角度，其中第一控制訊號對應於所述角度，因此第一控制訊號關聯於聲音。在另一實施方式中，收音裝置40係一內建微處理器的麥克風陣列，因此可根據收音裝置40本身具有的至少二麥克風收錄的至少二聲音訊號，計算收音裝置40與對應聲音的位置的一角度，換言之，計算出從聲音發出的位置到本身的連線與一參考連線之間的一角度。

請參考圖3，圖3是依據本發明一實施例繪製的拍攝發聲目標的方法的流程圖。如圖3所示，拍攝發聲目標的方法包括步驟S1~S6，可以由圖2所示的拍攝發聲目標的系統100’運行。

請一併參考圖2~5以進一步說明圖3的步驟S1及S2，其中圖4是應用圖2所示的拍攝發聲目標的系統100’的場景示意圖，圖5是圖4的俯視圖。於圖4所繪示的場景中，人員P1, P2, P3參與視訊會議。注意圖4中僅繪製攝像裝置10、控制器20及收音裝置40，而未繪製運算裝置30，因其可內建於攝像裝置10或控制器20所屬的殼體中，本發明對此不予限制。

步驟S1為「收音裝置取得聲音」。如圖4所示，假設人員P1、P2此時未說話，且人員P3此時開口說話；則在步驟S1時，收音裝置40將取得人員P3的聲音。

步驟S2為「依據收音裝置與對應聲音的位置的角度調整攝像裝置以拍攝第一影像」。如圖5所示，所述收音裝置40與對應聲音的位置的角度A由兩條虛擬直線A1及A2構成，虛擬直線A1為收音裝置40所處位置與一參考位置P0之間的參考連線，虛擬直線A2是收音裝置40與發聲目標的位置A20（人員P3的位置）之間的連線，其中收音裝置40偵測到的發聲目標的位置標示為A20。若收音裝置40的偵測精確度足夠高，則其偵測到的發聲目標的位置A20與人員（如P3）所在的位置應該相同。參考位置P0例如是收音裝置40正前方5公尺處，但本發明不以此為限。在本發明中，收音裝置40與攝像裝置10設置在彼此附近，因此發聲目標的位置相對於收音裝置40的角度相當於發聲目標的位置相對於攝像裝置10的角度。在一實施例中，收音裝置40與攝像裝置10可整合在同一裝置中。在另一實施例中，收音裝置40與攝像裝置10可分離地設置在不同裝置中。

請一併參考圖2~9以進一步說明圖3的步驟S3~S5，其中圖6是第一影像的示意圖，圖7是目標區塊的示意圖，圖8是特徵類型的示意圖，圖9是發聲目標的放大示意圖。

步驟S3為「取得第一影像中對應於角度的所有目標區塊，每一目標區塊之中包含特徵外形」。詳言之，運算裝置30依據第一特徵模型取得第一影像中的至少一目標區塊，其中第一特徵模型用於辨識目標物件，所述至少一目標區塊的每一者包含對應於目標物件的特徵外形。在一實施方式中，目標物件例如為人，且特徵外形例如為此人的全身輪廓。換言之，第一特徵模型用於辨識人頭及身體，其中特徵外形由人頭及身體構成。在另一實施方式中，目標物件為人，且特徵外形為此人的頭部輪廓，然而本發明不受限於上述實施例。

如圖6所示，第一影像中包括人員P1, P2, P3。如圖7所示，雖然只有人員P3發出聲音，但由於人員P3與人員P1都會被攝像裝置10拍攝到，因此運算裝置30從第一影像中可取得多個目標區塊P1, P3，其中目標區塊B1之中包含人員P1，目標區塊B3之中包含人員P3。因為人員P2並不在發聲目標所處位置對應的虛擬直線A2的附近，所以運算裝置30辨識得到的目標區塊B1, B3中不包含人員P2對應的目標區塊。

步驟S4為「判斷特徵外形是否具有特徵類型，特徵類型關聯於發出聲音的部位」，若判斷為是，則執行步驟S5，若判斷為否，則執行步驟S6。如圖8所示，運算裝置30依據第二特徵模型判斷該至少一目標區塊B1, B3之中的特徵外形（例如全身或是人頭）中的一者是否具有特徵類型F，此特徵類型F關聯於發出聲音的部位。在一實施方式中，發出聲音的部位為嘴巴，且特徵類型F為嘴巴張開的圖形。在另一實施方式中，第一影像包括多個訊框，第二特徵模型用於辨識發聲部位的第一形狀及第二形狀，且特徵類型係第一形狀及第二形狀在多個訊框中交替出現。詳言之，發出聲音的部位為嘴巴，且特徵類型包括嘴巴張開的圖形、嘴巴闔起的圖形、以及張闔之間的頻率或間隔時間，也就是運算裝置30在第一訊框偵測到嘴巴張開的圖形，並且在晚於第一訊框的第二訊框中偵測到嘴巴闔起的圖形，若運算裝置30在所述多個訊框可找到多組符合上述性質的第一訊框及第二訊框，則運算裝置30判斷該特徵外形（全身或是人頭）中具有特徵類型（嘴巴連續地開闔）。整體而言，第二特徵模型可用於偵測發聲人員的嘴巴張開的狀態，或是偵測發聲人員嘴巴的開闔、唇形的變化狀態。

步驟S5為「調整攝像裝置以拍攝第二影像，第二影像中包含放大的特徵外形」。如圖9所示，當特徵外形具有特徵類型F時，運算裝置30發送第二控制訊號至控制器20，控制器20依據第二控制訊號調整攝像裝置10以拍攝第二影像，第二影像中包含放大的特徵外形。本發明在步驟S1中取得人員P3的聲音，在步驟S4中進一步偵測到人員P3「開口說話」的狀態，進一步在步驟S5中控制攝像裝置10放大拍攝人員P3。此外，在步驟S5完成後，將返回步驟S1繼續偵測是否有人員發出聲音。在其他實施例中，若拍攝到的人員在第二影像中的尺寸太大，所述的放大操作也可能更改為縮小操作。

請一併參考圖2~4、圖10~11以進一步說明圖3的步驟S6，其中圖10是步驟S6應用第一種實施方式的俯視圖，圖11是步驟S6應用第二種實施方式的俯視圖。步驟S6為「調整攝像裝置以拍攝距離最近的目標物件」。依據「距離最近」的定義，步驟S6包括兩種實施方式：第一種實施方式是攝像裝置10拍攝與指定位置的直線距離最近的人員，第二種實施方式是攝像裝置10拍攝聲音角度所在方向上的垂直距離最近的人員。

如圖10所示，當特徵外形之中不具有特徵類型時，運算裝置30判斷第一目標區塊B1（如人員P1）及第二目標區塊B3（如人員P3）各自與聲音角度對應的方向（如虛擬直線A2）的垂直距離D1, D2，當第一距離D1小於第二距離D2時，運算裝置30發送第三控制訊號至控制器20，控制器20依據第三控制訊號調整攝像裝置10以拍攝第三影像，第三影像中包含放大的第一目標區塊B1。另一方面，當第一距離D1大於或等於第二距離D2時，運算裝置30讓控制器20調整攝像裝置10拍攝放大的第二目標區塊B3。

如圖11所示，圖11的範例是收音裝置40偵測到的發聲目標的位置A21與人員P3或人員P1的位置不相同。這種情況的原因之一是人員P3及人員P1本身並未發出聲音，而是他們以外的物件發出聲音。原因之二則是收音裝置40本身硬體的偵測誤差。若是第一種原因，則特徵外形之中將不具有特徵類型。此時運算裝置30判斷第一目標區塊B1與指定位置（如攝像裝置10本身所處位置）的第一距離，判斷第二目標區塊B2與指定位置的第二距離D2，當第一距離D1小於第二距離D2時，運算裝置30發送一第三控制訊號至該控制器20。控制器20依據第三控制訊號調整攝像裝置10以拍攝第三影像，第三影像中包含放大的第一目標區塊。換言之，若在發聲目標的位置A21的方向上沒有偵測到任何人員開口的特徵類型，或是偵測到嘴巴張闔的特徵類型，則攝像裝置10將拍攝離本身所處位置最近的人員，代表本次偵測到的發聲人員。所述指定位置可以是攝像裝置10本身所處位置，也可以是收音裝置40所處位置，本發明對此不予限制。此外，在步驟S6完成後，將返回步驟S1繼續偵測是否有人員說話發出聲音。

圖3所示流程係採用圖2所示的本發明另一實施例敘述的拍攝發聲目標的系統100’，若改為使用圖1所示的本發明一實施例敘述的拍攝發聲目標的系統100，則將圖5中的步驟S1修改為「從外部裝置接收聲音訊號」，或是「從外部裝置接收角度資訊」，然後繼續執行圖5所示的步驟S2~S6，按上述方式亦可實現本發明提出的拍攝發聲目標的方法的一實施例。

綜上所述，本發明在現有的聲音追蹤基礎上，增加判斷發聲部位的機制，此判斷機制不需占用過多的運算力，因此可確保在短時間內（例如1秒）完成，對於視訊會議的使用者而言不會感受到任何延遲現象。本發明即使遇到：收音裝置的收音誤差、發聲目標的位置周邊具有多個發聲目標等狀況，仍舊可以成功找到正確的發聲目標，減少誤判的機率。

雖然本發明以前述之實施例揭露如上，然其並非用以限定本發明。在不脫離本發明之精神和範圍內，所為之更動與潤飾，均屬本發明之專利保護範圍。關於本發明所界定之保護範圍請參考所附之申請專利範圍。

100, 100’:拍攝發聲目標的系統 10:攝像裝置 20:控制器 30:運算裝置 40:收音裝置 A:角度 A1,A2:虛擬直線 A20,A21:發聲目標的位置 B1, B3:目標區塊 D1:第一距離 D2:第二距離 F:特徵類型 P0:參考位置 P1, P2, P3:人員 S1~S6:步驟

圖1是依據本發明一實施例繪製的拍攝發聲目標的系統的方塊架構圖；圖2是依據本發明另一實施例繪製的拍攝發聲目標的系統的方塊架構圖；圖3是依據本發明一實施例繪製的拍攝發聲目標的方法的流程圖；圖4是依據本發明的應用場景示意圖；圖5是圖4的俯視圖；圖6是第一影像的示意圖；圖7是目標區塊的示意圖；圖8是特徵類型的示意圖；圖9是發聲目標的放大示意圖；圖10是圖3中步驟的第一種實施方式的示意圖；以及圖11是圖3中步驟的第二種實施方式的示意圖。

S1~S6:步驟

Claims

一種拍攝發聲目標的方法，包括：以一控制器依據一第一控制訊號調整一攝像裝置以拍攝一第一影像，該第一控制訊號關聯於一聲音；以一運算裝置依據一第一特徵模型取得該第一影像中的至少一目標區塊，其中該第一特徵模型用於辨識一目標物件，每一該至少一目標區塊包含對應該目標物件的一特徵外形；以該運算裝置依據一第二特徵模型判斷該至少一目標區塊之中的該特徵外形中的一者是否具有一特徵類型，該特徵類型關聯於發出該聲音的一部位；當該特徵外形具有該特徵類型時，以該運算裝置發送一第二控制訊號至該控制器；以及該控制器依據該第二控制訊號調整該攝像裝置以拍攝一第二影像，該第二影像中包含該特徵外形；其中該至少一目標區塊包含一第一目標區塊及一第二目標區塊；當該運算裝置判斷該特徵外形之中不具有該特徵類型時，調整該攝像裝置以拍攝該第一目標區塊及該第二目標區塊中距離最近的一者。
如請求項1所述拍攝發聲目標的方法，其中調整該攝像裝置以拍攝該第一目標區塊及該第二目標區塊中距離最近的一者包括：以該運算裝置判斷該第一目標區塊與一聲音角度方向的第一垂直距離，判斷該第二目標區塊與該聲音角度方向的第二垂直距離，其中該聲音角度方向為從一指定位置到該發聲目標的位置的方向；當該第一垂直距離小於該第二垂直距離時，以該運算裝置發送一第三控制訊號至該控制器；以及該控制器依據該第三控制訊號調整該攝像裝置以拍攝一第三影像，該第三影像中包含放大的該第一目標區塊。
如請求項1所述拍攝發聲目標的方法，其中調整該攝像裝置以拍攝該第一目標區塊及該第二目標區塊中距離最近的一者包括：以該運算裝置判斷該第一目標區塊與一指定位置的一第一距離，判斷該第二目標區塊與該指定位置的一第二距離；當該第一距離小於該第二距離時，以該運算裝置發送一第三控制訊號至該控制器；以及該控制器依據該第三控制訊號調整該攝像裝置以拍攝一第三影像，該第三影像中包含放大的該第一目標區塊。
如請求項1所述拍攝發聲目標的方法，其中該第一影像包括多個訊框，該第二特徵模型用於辨識該部位的第一形狀及該部位的第二形狀，且該特徵類型係該第一形狀及該第二形狀在該些訊框中交替出現。
如請求項1所述拍攝發聲目標的方法，其中該目標物件為人，該第一特徵模型用於辨識一人頭及一身體，其中該特徵外形由該人頭及該身體構成。
一種拍攝發聲目標的系統，包括：一攝像裝置，用於拍攝一第一影像及一第二影像；一控制器，電性連接該攝像裝置，該控制器依據一第一控制訊號調整該攝像裝置以拍攝該第一影像，依據一第二控制訊號調整該攝像裝置以拍攝該第二影像，該第一控制訊號關聯於一聲音；以及一收音裝置，電性連接該運算裝置，該收音裝置用以取得該聲音；一運算裝置，電性連接該控制器，該運算裝置依據一第一特徵模型取得該第一影像中的至少一目標區塊，其中該第一特徵模型用於辨識一目標物件，每一該至少一目標區塊包含對應該目標物件的一特徵外形；該運算裝置依據第二特徵模型判斷該至少一目標區塊之中的該至少一特徵外形中的一者是否具有一特徵類型，該特徵類型關聯於發出該聲音的一部位；當該特徵外形具有該特徵類型時，該運算裝置發送該第二控制訊號；其中該第二影像中包含該特徵外形；該運算裝置更計算該收音裝置與對應該聲音的位置的一角度，其中該第一控制訊號對應於該角度；該至少一目標區塊包含一第一目標區塊及一第二目標區塊；當該運算裝置判斷該特徵外形之中不具有該特徵類型時，調整該攝像裝置以拍攝該第一目標區塊及該第二目標區塊中距離最近的一者。
如請求項6所述拍攝發聲目標的系統，其中調整該攝像裝置以拍攝該第一目標區塊及該第二目標區塊中距離最近的一者包括：以該運算裝置判斷該第一目標區塊與一聲音角度方向的第一垂直距離，判斷該第二目標區塊與該聲音角度方向的第二垂直距離，其中該聲音角度方向為從一指定位置到該發聲目標的位置的方向當該第一垂直距離小於該第二垂直距離時，以該運算裝置發送一第三控制訊號至該控制器；以及該控制器依據該第三控制訊號調整該攝像裝置以拍攝一第三影像，該第三影像中包含放大的該第一目標區塊。
如請求項6所述拍攝發聲目標的系統，其中：當該運算裝置判斷該特徵外形之中不具有該特徵類型時，該運算裝置判斷該第一目標區塊與一指定位置的一第一距離，判斷該第二目標區塊與該指定位置的一第二距離；當第一距離小於該第二距離時，該運算裝置發送一第三控制訊號至該控制器；以及該控制器依據該第三控制訊號調整該攝像裝置以拍攝一第三影像，該第三影像中包含放大的該第一目標區塊。
如請求項6所述拍攝發聲目標的系統，其中該第一影像包括多個訊框，該第二特徵模型用於辨識該部位的第一形狀及該部位的第二形狀，且該特徵類型係該第一形狀及該第二形狀在該些訊框中交替出現。
如請求項6所述拍攝發聲目標的系統，該第一特徵模型用於辨識一人頭及一身體，其中該特徵外形由該人頭及該身體構成。