TW201246950A

TW201246950A - Method of controlling audio recording and electronic device

Info

Publication number: TW201246950A
Application number: TW100142554A
Authority: TW
Inventors: Georg Siotis; Magnus Abrahamsson; Martin Nystrom
Original assignee: Sony Ericsson Mobile Comm Ab
Priority date: 2010-12-22
Filing date: 2011-11-21
Publication date: 2012-11-16
Also published as: US9084038B2; WO2012083989A1; US20120163625A1

Description

201246950 六、發明說明：【發明所屬之技彳标領域】本發明係關於一種使用電子裝置來控制音訊記錄的方法及一種電子裝置。本發明係特別關於以具有指向性型樣的指向麥克風來使用的上述方法與裝置。發明背景現今各式各樣的電子裝置提供了用來記錄音訊資料的設備。此類電子裝置的例子包括用來同時記錄音訊與視訊資料的可攜式電子裝置。這些例子包減代㈣式通訊裝置或個人數位助理。對於配置此類裝置以便讓使用者來記錄源自與4電子裝置有一段距離的物體之音訊資料或可能連同的視訊資料，有越來越多的需求。背景雜訊在許多應用情景中可能是個問題。此類問題在該電子裝置不是胁音訊記錄目的的專裝置而是具有額外功能性之.If況下，可能特別難以處理。在此類情況下，有限的建築空間以及成本問題可能對哪個技術可實施在該電子裝置中來處理背景雜訊問題施加限制。電子式可控制的指向麥克風提供了一種方法來處理與背景雜訊相關聯的-些問題。舉例來說，指向麥克風可能與電子裝置結合在-起’該電子裝置也具有用以記錄視訊資料的光m該指向麥克風可配置來使得其沿著該光學系統的妹具有祕錢。則旨向麥克風也可進行調整以作為改變光學縮放的原因，該等光學縮放可指示聲源與 3 201246950 電子裝置改變的距離。在這樣㈣必須將光學系統的光軸對準聲、用者一般比。這在一些情況下可能是獲得良好的信號雜訊至近乎不可能，例如有數個聲=的且在其他情況下甚 .a„ 卓，原在一影像圖框中。通常也可以基於在麥身厨陆的聲音信號來制聲源所在的夕個麥克財所接收信號之到達時間的時間差，==基於發出聲音的聲音向:依靠麥克風陣列的輸出信號來控制音訊記=二合意的。舉例來說，如果主I 、疋興趣那個，餘在多個麥源不㈣❹者真正感訊號來取得方向估計可能不能讓聲音記錄的品質對所欲聲源來增強。【明内：2§1】發明概要因此，對於使用電子農置來控制音訊記錄的方法以及解決某些上述缺點的電抒置，在該領域中有持續的需求。特別是，對於不需要使用者專注地將例如光學系統的光軸之電子裝置的特定㈣準聲源的方向之方法與電子裝置，在該領域巾雜_需求。對料需要㈣麥克風的輸出信號㈣定聲源位在的方向之方法與電子裝置，也在該領域中有持續的需求。根據-觀點，本文提出了一種使用電子裝置來控制音訊記錄的方法。電子裝置包含形錢錢向性龍的指向麥克風之麥克風配置組。在該方法中，使用不同於麥克風配置組的感測器來擷取感測器資料。經擷取的感測器資料 201246950 表示圍繞電子裝置之一區域的至少一部分。回應於經擷取的感測器資料，相對於電子裝置的一目標方向自動地被判定。回應於經判定的目標方向，麥克風配置組自動地被控制來調整該指向性型樣相對於電子裝置之一角定向。在該方法中，指向性型樣的角定向相對於電子裝置而受控制。因此，來自位於相對於電子裝置之不同定向的聲源之聲音能以改善的信號雜訊（S/N)比來記錄，而不需要重新調整電子裝置的定向。隨著回應於使用不同於麥克風配置組的感測器所擷取的感測器資料而判定目標方向，即使要做音訊記錄之聲源具有比背景聲源更小的聲音位準，良好的S/N也能達到。隨著回應於感測器資料而自動地判定目標方向，以及隨著自動地控制麥克風配置組，該方法能不需要一專門的使用者確認而實行。這使得音訊記錄對於使用者更加方便。該電子裝置可以是一種可攜式電子裝置。該電子裝置可以是非專用音訊記錄裝置但包括額外功能性的一種裝置。該電子裝置可以是一可攜式無線通訊裝置。該電子裝置可以被組配來做音訊及視訊記錄。麥克風配置組的指向性型樣可以定義一聲音擷取葉。回應於經判定的目標方向，聲音擷取葉相對於電子裝置的一中心線之方向可以被調整。中心線的方向可以被調整來使得該中心線的方向與目標方向一致。聲音擷取葉的中心線可以被定義為麥克風配置組具有最高敏感度的方向。回應於經判定的目標方向，聲音擷取葉的中心線之方 201246950 向可以被選擇性地在兩正交方向上作調整。在多於一方向上調整聲音操取葉的中心線並不總是需要的。儘管如此，該控制可被執行來使得聲音擷取葉的中心線可被選擇性地在相對於電子裝置之第一平面上或在與第一平面正交之第二平面上或在第一平面及第二平面兩者上作調整。舉例來說，麥克風配置組可以被組配來使得聲音擷取葉的中心線之方向可以水平地或垂直地作調整。麥克風配置組可包括配置在一陣列中的至少四個麥克風。四個麥克風可配置來使得該等麥克風中之至少一個麥克風為從通過陣列之其他麥克風中之一對麥克風的一直線之偏置。麥克風配置組可被控制來使得聲音擷取葉的一孔徑角被調整。孔徑角可基於來自一聲源的聲音或來自多個聲源的聲音是否欲被記錄來作調整。如果電子裝置包括用於影像記錄的構件，孔徑角也可以基於一視覺縮放設定而被控制，該視覺縮放設定可以例如包括在一縮放機械的位置上之資訊。指向性型樣的聲音擷取葉可以置放在相對於由麥克風配置組所定義的一平面之第一側上，且用來作為一控制輸入的感測器資料表示置放在與第一側相對立的第二側上之圍繞電子裝置的區域之一部分。換句話說，定義用於音訊記錄的一控制輸入之感測器資料可以在相對於由麥克風配置組所定義的平面之一側上被擷取，而麥克風配置組在由麥克風配置組所定義的平面之另一側上具有最高敏感度。 201246950 這讓使用者藉由持有電子裝置來實行音訊記錄使得該電子裝置介於音源與使用者之間，而經擷取的感測器資料可以表不位在電子裝置之後的使用者（如從聲源所見）。被經擷取的感測器資料所表示之圍繞電子裝置的區域之部分可以與電子裝置相隔開。感測器可以監測與電子裝置相隔開的使用者身體之— 部分來擷取感測器資料。這讓麥克風配置組的角特性藉由使用者身體被控制而不需使用者在電子裝置上去執行特殊的觸摸式輸入功能。此類感測器的各種組配可以被實施。感測器可以是整合到由使用者穿戴的一耳機中的感測器。感測器也可以是整合到電子裝置的一視訊感測器。感測器資料可以被處理來識別使用者的姿勢。回應於經識別的姿勢，指向性型樣的角定向可以被調整。這允許麥克風配置組的角特性之姿勢式控制。此姿勢可以是非常簡單的一種姿勢，例如使用者用他的手臂指向一聲源，或藉由旋轉他的頭來將其臉部方向指向聲源。感測器資料可以被處理來識別使用者的眼鏡注視方向。回應於經識別的眼睛注視方向，指向性型樣的角定向可以被調整。這允許麥克風配置組的角特性之眼睛注視式控制。感測器可以包含整合到由使用者穿戴的一耳機中的感測器構件。這可以讓指示一臉部方向及/或眼睛注視方向的感測器資料以高精確度被判定。再者，此種感測器的實施讓麥克風配置組的角特性以不會被一影像感測器的一視野 201246950 所限制的方式而被控制》感測器可以包含一電子影像感測器。電子影像感測器可以具有與麥克風配置組相重疊的一視野。影像資料可以被處理來在該影像資料中辨識至少一人臉。當實行臉部辨識時，如果多個人臉在影像中被識別，不同的程序可以被行使來判定目標方向。在—實施中，目標方向可以被設來對應多個識別的臉部中之—個。選擇該等臉部中之一個臉部可以自動地完成。在—實施中，表示多個人臉的影像資料之多個部份可以被判定。表示多個人臉之該等多個部份可以例如基於嘴唇動作之一視訊序列的連續影像圖框被監測來判定正在說話的人。目標方向可以相對電子裝置被設來對應正在說話的人之方向。聲音掏取葉的一孔徑角可以基於表示正在說話的人之臉部的部份之大小以及選擇性地基於在取得影像資料時使用的視覺縮放設定而被設定。在一實施中，目標方向可以被設定來使得多個人臉都落於波束擷取葉内。在此情形下，目標方向可以被設來不對應個別臉部，而可被選擇來指向多個經識別的臉部之間的一中間位置。目標方向可以基於各自表示一人臉之影像資料的多個影像部分之影像座標而設定。一聲音擷取葉的孔徑角可以被設來確保多個人臉都落在聲音擷取葉内。該 (等）孔徑角可以基於在取得影像資料時使用之視覺縮放設定而被設定。在任何一觀點或實施例的方法中，經判定的目標方向 201246950 被提供給麥克風配置組的—波束形成子系統。麥克風配置組可以包括規劃來實施音束形成的一聲音處理器。經判定的目標方向以及聲音擷取葉之孔徑角（如果適用），可以被供給聲音處理器。聲音處理器根據其校準目的來調整聲音處理以便將聲音擷取葉對準到所欲目標方向。任付銳點或貫施例的方法可以包括監測一鎖定觸發事件。假如鎖定觸發事件被偵測到，聲音擷取葉的方向可以保持在參考的一世界框中指向如基於經擷取的感測器資料而破判定的方向。在鎖定觸發事件被偵測之後，指向性型樣的角定向之控制可以從經擷取的感測器資料解耦合，直到一釋放事件被偵測為止。鎖定觸發事件以及釋放事件可以採取各種形式。舉例來說，鎖定觸發事件可以是使用者的姿勢或眼睛注視保持指向一給定方向達一預訂時間以及具有一預定精確度。舉例來說’假如使用者的姿勢或眼睛注視被指向在—方向上，在一預定精確度内，達一預定時間，此方向可變成目標方向，直到—釋放事件被偵測。另外釋放事件可以是使用者的姿勢或眼睛注視指向另—方向上，在-預定精確度内：達-預定時間。因此，隨著聲音擷取葉在鎖定條件中從感測器資料_合並僅在滿足釋放條件後被重新調整，滞後作用引人於聲音擷取葉的角定向之控制上。同樣地，如果指向_樣的狀位從屬於影«_臉部辨識之結果，即使另一個臉部顯示短時間的嘴唇動作，與被判定為屬於作用中聲源之臉部相關聯的方向可以保持目桿方向。 201246950 釋放可以由另一臉部顯示超過預定時間的嘴唇動作而發生。在另一實施中，觸發事件及/或釋放事件可以是以使用者致動一按紐、發出一聲音命令、一姿勢命令、或類似動作之專門的使用者命令。根據另一觀點，本文提供了一種電子裝置。該電子裝置包含具有一指向性型樣的一麥克風配置組以及耦接到該麥克風配置組的一控制器。該控制器具有用以接收來自不同於該麥克風配置組的一感測器之感測器資料的一輸入，該感測器資料表示圍繞該電子裝置的一區域之至少一部分。該控制器可組配來回應於經擷取的該感測器資料而自動地判定相對於該電子裝置的一目標方向。該控制器可組配來回應於該經判定目標方向而自動地控制該麥克風配置組，以調整相對於該電子裝置的該指向性型樣之一角定向。該麥克風配置組可以包含具有多個麥克風的一陣列以及耦接來接收來自該等多個麥克風之輸出信號的一聲音處理器；該控制器可以耦接到該聲音處理器來回應於該經判定目標方向而自動地調整相對於該電子裝置之該麥克風配置組的一聲音擷取葉的一方向。該處理器可以設定該聲音處理器的音束形成設定。該控制器可以組配來控制該麥克風配置組，以回應於該經識別的目標方向而選擇性地在兩正交方向中調整該聲音擷取葉的一定向。該麥克風配置組可以包括四個麥克風，且該控制器可以組配來調整來自該等四個麥克風之輸出信號的處理，使得一聲音擷取葉的方向可在該兩方向中 10 201246950 作調整。舉例來說，該取葉的方向可以水平地及垂直:=配來使得該聲音掏該控制器可以組配來處理物; 者的姿勢以及基於該姿 ⑽—使用

及判疋該目標方向。該姿勢可以疋使用者的臉部方向或使W 地，該控㈣可以纟聰 ^方向。另外或❿卜眼睛注視方向。因此，料以識別使用者用者關注的焦點上。胃梅取葉的方向可以束缚在使該感測器資料可以包來處理該影像資料像4 1㈣11可以組配基於表不邊人臉之—部且電子裝置之目標方一 f料而自動地判定相對於該該電子裴置可以包含且控制器可以組配來自動㈣絲之-影像感測器。該向性型樣相對科麥歧配置組以調整該指隹传獨向。此允許音減錄的對 …、係獨立於-視訊記錄的以擷取及提供至少—心W 〜像感心可〇P”S玄感測器資料給該控制器。來說以組配為—可樓式電子通訊裝置。舉例呈有㈣電話、—個人數位助理、相錄特徵的—行動計算裝置、W此的佐何 3! 、置可以包含組配來掏取感測器資料的一感測二=器或至少該感測器的構件，也可以由該電子裝〃舉例來說，該感測器的構件可以整合到例如 11 201246950 與該電子裝置相通訊但實際上相分離之耳機的一週邊裝置。根據一觀點之一電子系統包括任何一觀點或實施例的電子裝置，且感測器構件與該電子裝置相分離。該等感測器構件可以整合到一耳機中。可理解的是，上面所提及的特徵以及下面還沒說明的特徵不只能使用在已指出的個別組合上，也能單獨或在其他組合中使用而不背離本發明之範圍。上述觀點與實施例的特徵可以在其他實施例中作組合。圖式簡單說明為對本發明及其額外特徵更容易的了解，請參見應配合附圖來閱讀理解的以下敘述，其中相似參考數字關連到相似元件，而附圖中：第1圖係根據一實施例之一電子裝置的示意圖；第2圖係根據另一實施例之包含一電子裝置的一電子系統之不意圖，第3及4圖係繪示在一第一方向上的一指示性型樣的角定向之調整的示意頂面圖；第5圖係繪示在一第一方向上的一聲音擷取葉之一孔徑角的調整之示意頂面圖；第6圖係繪示在一第二方向上的一指向性型樣之角定向的調整之示意側面圖；第7圖係一實施例之一方法的流程圖；第8圖係一實施例之一方法的流程圖； 12 201246950 第9圖係顯示繪示影像資料之一示意圖；第10圖係紛示第9圖之影像資料的分割之—厂、土第11圖係緣示基於第9圖的影像資料之在—赏』’ 上的-聲音擷取葉之一方向及孔徑角_:方向圖；之不思頂面第12圖係繪示基於第9圖的影像資料之在— 上的-聲錢取葉之一方向及孔徑角的調——方向圖。 t之—不意側面

C 較佳實施例之詳細說明接下來，本發明的實施例將參照附圖詳細敘述。。解的是，以下實施例的描述不是作為限制的意思。可理的範圍不意在由此後描述之實施例或由圖本發明僅供說明。 '斤限制’而是 —該等圖式被視為是示意圖，且在圖示中說明的元件不 —定顯示比例。更確切地說，各種元件被表示來使得其功能與一般目的對該領域所屬技藝者能明白。顯示於圖示1 中或描述於此的功能性方塊、裝置、構件、或其他物理性或功能性單元間的任何連結或耦接也可以藉由間接連結或輕接來實施。功能性方塊可以硬體、韌體、軟體、或其組人來貫施。一描述於此的各種範例性實施例的特徵，除非另有明確說明’可以彼此互相組合。本文描述用於音訊記錄的電子裝置與控制該音訊記錄 201246950 的方法。該電子裝置具有組配為指向麥克風的一麥克風配置組。指向麥克風係聲到電變換器或具有空間變化敏感度的感测器。該空間變化敏感度也可以被視為「指向性型樣」。對應高敏感度的角度範圍也可以被視為麥克風配置組的「葉」或「聲音擷取葉」。此類聲音擷取葉的中心可以被視為對應到敏感度具有當地最大值的方向。麥克風配置組可控制來使得指向性型樣能相對於電子裝置被重新定向。用以調整麥克風配置組的指向性型樣之各種技術已在該領域中所熟知。舉例來說，音束形成可、被使用在麥克風配置組的多個麥克風之輸出信鍊容易& 濾波及/或時間延遲的引入之影響。第1圖係根據一實施例之一可攜式電子裝置1的示^ 塊圖。裝置1包括麥克風配置組2以及耦接到麥克風 $方的一控制器3。麥克風配置組2形成具有一指向性裂 ' 向麥克風。指向性型樣可以包括一或多個聲音_取葉1 置1進一步包括擷取表示圍繞裝置1的一區域之至少〜装的感測器資料之感測器5。感測器5可以包括電子餐像^分器5或其他感測器構件，將在下文更詳細描述。权感刊士，炫制器3氣有一輸入4以接收從感測器5所擷取的感測器資料。 " 制器3 處理經擷取的感測器資料來判定麥克風配置組2的聲之*

取葉相對於裝置1之一目標方向。控制器3可以進〜 _ 經擷取的感測器資料來判定聲音擷取葉的一孔徑角；器3控制麥克風配置組2以便調整聲音擷取葉相對於事制的外殼10之方向。 I 2 201246950 麥克風配置組2包括至少兩麥克風6、7厶/陣列。雖然兩麥克風6、7顯示於第1圖中以供舉例，嚴襄1可以包括更多數量的麥克風。舉例來說，麥克風配置組2玎以包括四個麥克風。該等四個麥克風可以被配置在〆长方形的角落位置。麥克風6、7的輸出端子被耦接到聲音處ί里器8。聲音處理器8處理麥克風的輸出信號。聲音處理器8可以特別地組配來實行音束形成。音束形成基於定義指向性型樣的定向之參數而實行。如這類用於音束形成的技術已為熟於此技者所習知。控制器3依照目標方向以及依照由控制器3回應感測器資料所判定的孔徑角（如果適用）來控制聲音處理器8。處理感測器資料與回應於此而控制指向性麥克風2之藉由控制器3貫行的控制功能可以自動地以不需要專門的使用者輸入來做選擇或確認的方式而實行。在一實施中，控制器3可以提供經判定目標方向以及經判定孔徑角給聲音處理器 8。然後，聲音處理器8可以依照從控制器3所接收的指令來調整例如時間延遲、濾波、衰減、以及類似參數的聲音處理之參數，以便達到有著指向目標方向以及具有指示的孔徑角之聲音擷取葉的指向性型樣。麥克風配置組2的指向性型樣可以有具有增強性敏感度之多個葉。在此情況下，押制器3以及聲音處理器8可以组配來使得對準於目桿方向的聲音擷取葉為麥克風配置組2的主葉。控制器3以及麥克風配置組2可以被組配來使得聲立擷取葉的方向可以相對於外殼在至少一平面上作調整Υ 2 15 201246950 而，本文所述任何實施例中，麥克風配置組2也可以配備兩個以上的麥克風。在此情形下，控制器3以及麥克風配置組 2可組配來使得聲音擷取葉的方向可以在不只一個而是兩個獨立方向上作調整。對於裝置1的一給定定向，該等兩個獨立方向可以對應到聲音擷取葉的水平與垂直調整。聲音處理器8的輸出信號被提供給用於下游處理的裝置1之其他構件。舉例來說，聲音處理器8的輸出信號表示以麥克風配置組2操取的音訊資料可以被儲存在記憶體9 中、傳送到另一實體、或以其他方式處理。裝置1可以包括包含在感測器5或與感測器5分離的一電子影像感測器。舉例來說，如果感測器5配置來擷取有關使用者的姿勢及/或臉部方向的資訊’感測器5可以組配為一個電子影像感測器。然後電子影像感測器5可以包括在用以擷取使用者影像的裝置1之外殼10的一側上之一孔徑，而麥克風配置組的麥克風6、7定義裝置1之外殼10的對立側上之開口。在此情形下，感測器5的視野及麥克風配置組2的視野可能基本上是不相交的。此種組配可能特別有用於在裝置1定位於使用者與聲源之間’而使用者以姿勢及/或眼睛注視來控制音訊記錄時。裝置1可以包括具有與麥克風配置組2相重疊或甚至有相同視野的另一影像感測器（第j圖未顯示）。因此，結合的視訊與音訊記錄可被實行。在其他實施中，擷取用以控制聲音擷取葉的角定向之感測器資料的感測器5可以是具有與麥克風配置組2相重叠或甚至有相同視野的一影像感測器。也就是說，用於影像 16 201246950 感測器以及用於麥克風配置組2之麥克風的孔徑可以被提供在外殼10的相同側上。使用這樣的組配，自動影像處理可以應用在代表可能的聲源的影像。特別地，控制器3可以組配來用識別聲源的影像資料實行臉部辨識，然後可以基於此來控制麥克風配置組2。因此，麥克風配置組的指向性型樣之定位可以基於可能的聲源之視覺影像被自動地調整而不需要任何使用者選擇。雖然裝置1包括擷取用來作為控制輸入的感測器資料之感測器5,用以擷取感測器資料的感測器也可以提供在與裝置1相分離的外部裝置中。另外或額外地，裝置1以及外部裝置兩者可包括協作擷取感測器資料的感測器構件。舉例來說’對於眼睛注視式控制’在感測器構件被整合到耳機或眼鏡中的情況下，具有用以判定相對於使用者配戴之耳機或眼鏡之使用者眼睛注視方向的感測器構件可能是有用的。進一步地，具有用以判定耳機或眼鏡相對於裝置1的位置及定向的額外感測器構件可能是有用的。後者的感測器構件可以被個別整合到耳機或眼鏡、或裝置1中。第2圖係根據一實施例之包括一可播式電子裝置12的系統之示意方塊圖。關於功能及/或結構，對應到參照第1 圖已描述的元件或特徵的元件或特徵以相同的參考數字被指定。系統11包括一外部裝置13。外部裝置13係與裝置12相分離。舉例來說，外部裝置13可以是由使用者穿戴的耳機。該耳機可以包括一聽筒、麥克風及/或一對（虛擬實境）眼鏡 17 201246950 中的至少一個。用以操取表示圍繞裝置12的區域之至少-部分的感測器-貝料之感測器14被提供於外部裝置13中。外部裝置13包括用於傳送§玄經擷取的感測器資料到裝置13之一傳送器 15。該經擷資财以取決Μ韻與外部裝置 13的特定實施而具有各種形式。舉例來說，感測諸包括用於，己錄制者眼睛關定眼晴注視方向的—影像感測器’該感測器資料可以是傳送到敦置12的影像資料。或者，眼睛注視方向魏雜概Μ在外喊置13巾判定且可以一對角座標傳送到裝置12。如果感測HU包括用以㈣從裝置12到外部裝置13的—相對定位及/或距離 ’當磁定向感應被使_，感測！！14可以她三個磁場強度並傳送其到裝置12以作進一步處理。裝置12包括用以接收藉由外部褒㈣所傳送一介面16°裝置12可以包括用以處理在介㈣所接二作其可根據在外部裝_裝_的信號感測料17料㈣置12的料以相對於骏置控制器3處理感測器資我置12调整聲音梅取葉的角定向。述，操取感測器資__ =Γ實施中，感測〜_者行為= 使用者手的位置、使用者_位置、或使用者 18 201246950 眼睛焦點中的至少一種。感測器可以基於與裝置12相隔開的使用者身體之部份讀取這類資訊。這類資訊係指示使用者興趣的焦點。電子裝置的控制器可以基於改測器資料來控制麥克風配置組。該控制可以被實施來使得麥克風配置組的主葉自動地指向使用者興趣的焦點。當使用者轉移注意的焦點時，麥克風配置組的主頁隨著移動。相反地，如果使用者注意的焦點保持在一方向，則麥克風的主葉亦是，即使裝置的定向在空間中改變。另外或額外地，感測器可以擷取表示麥克風配置組可以從其擷取聲音的一區域之影像資料。如這裡所用，「影像資料」一詞包括表示一視訊序列的影像資料之一序列。藉由處理影像資料，表示一人臉或多個人臉之影像資料的部份可以被識別。人臉可以被安排相對於影像中心而偏移。電子裝置的控制器可以基於在影像資料中的人臉之影像座標自動地控制麥克風配置組。該控制可以被實施來使得麥克風配置組的主葉自動地指向該（等）臉部。當該（等）臉部相對裝置平移時，麥克風配置組的主葉緊跟在後。參照第3〜6圖以及第9〜12圖，實施例將在範例式情景中更詳細的說明。第3圖係根據一實施例之繪示一電子裝置21的示意頂面圖。裝置21可以參照第1圖或第2圖組配來說明。裝置21 包括至少兩麥克風6、7以及用以處理來自該至少兩麥克風的輸出信號之一聲音處理器。該兩麥克風被包含在有著具有一主頁22之一指向性型樣的麥克風配置組中。該主葉係 19 201246950 指不在麥克風配置絚具有高敏感度之方向的聲音擷取葉。麥克風配置組可以定義額外的聲音擷取葉（為清晰之故而省略）。裝置21可以包括例如一影像感測器之用以實行結合的音訊及視訊記錄之額外的構件，影像感測器具有一光軸 24，其一般可相對於裝置21的外殼而固定。裝置21被繪示為介於使用者27與多個聲源罚、烈之間。這是一個在使用者使用一行動通訊裝置來實行第三方的音訊記錄，可能結合視訊記錄之特有的情況。使用者具有耳機26。用以感測耳機26相對於裝置目對於靜止參考圓樞的定向之構件可以被包括在耳機26或裝置中。聲音擷取葉22具有-中心線23。中心線23具有相對於裝置21的一定向，其例如可以被相對於光軸24的兩角度所义義。如第3圖之頂面圖所繪示，聲音擷取葉22的中心線“ 相對於光㈣圍住-肖度25。聲音娜葉22於是指向聲源 28 〇裝置21可以組配來使得聲音擷取葉22的方向從屬於使用者27的臉部方向或眼睛注視方向。使用者的臉部方向或眼睛注視方向被監測並作為使用者注意的焦點的一指標。裝置21之麥克風配置組可以控制來使得聲音擷取葉22的中心線23指向使用者眼睛注視點，或使得聲音擷取葉22的中心線23對準於使用者臉部方向。第4圖係繪示當使用者2 7轉動其頭部以便臉指向聲源 29時，電子裝置21的另一示意頂面圖。聲音擷取葉22的中 20 201246950 心線23跟隨使用者臉部方向的改變且亦指向聲源29。根據表示使用者頭部位置或眼睛注視方向之感測器資料來藉著調整聲音擷取葉的方向，例如調整麥克風配置組的指向性特徵之任務可以自動地實行來以一直覺或流暢的方式跟隨使用者意向。姿勢式或注視式控制不需使用者以一物理方式干涉裝置21而可以是免接觸的。如第3圖及第4圖所繪示，聲音擷取葉的方式之自動調整可以不只回應於使用者行為而實行。舉例來說，藉由在由裝置21的影像感測器所擷取的視訊影像上實行影像分析，正在說話之人28、29的其中一個可以被識別。然後聲音擷取葉22的方向可以基於兩聲源28、29哪個在作用中而自動地作調整。額外的邏輯裝置可以併入控制中，舉例來說，聲音擷取葉的中心線之角定向不需永遠跟隨經判定的目標方向。相反地，當偵測到一鎖定觸發事件時，聲音擷取葉可以維持指向一指定的聲源，即使當使用者的姿勢或眼睛注視改變時。此允許使用者改變他/她的姿勢或眼鏡注視而聲音擷取葉仍然鎖定在指定聲源上。該裝置可以組配來使得如果使用者的姿勢或眼睛注視指明目標方向至少一預定時間，該裝置鎖定在一目標方向上。接著，使用者的姿勢或眼睛注視仍能被監測以偵測一釋放條件，但聲音擷取葉可不再從屬於在鎖定條件下之該姿勢或眼睛注視方向。如果一釋放事件被偵測，例如假設使用者的姿勢或眼睛注視被指向另一方向至少該預定時間，鎖定條件將被釋放。雖然描述 21 201246950 了姿勢式或眼睛注視式控制的情景，鎖定機制也可以在目標方向基於臉部辨識被設定時來實施。根據各種實施例的裝置可以不只組配來調整可以對應具有最高敏感度的方向之聲音擷取葉22的中心線23之一方向，也可以組配來調整如參照第5圖所繪示的聲音擷取葉22 之至少一孔徑角。第5圖係繪示電子裝置21的另一示意頂面圖。裝置21以控制器已自動地調整聲音擷取葉的一孔徑角31來使得該孔徑角涵蓋聲源28、29兩者的狀態顯示。針對孔徑角的一適當值可被自動地判定。舉例來說，一臉部辨識演算法可以實行在影像資料上來識別表示兩聲源28、29之影像資料的部份，以及孔徑角31可以據此而被設定。例如裝置21之影像擷取系統的視覺縮放設定之額外資料也可以在自動地判定孔徑角31時納入考慮。根據各種實施例之裝置的麥克風配置組可以組配來使得聲音擷取葉的方向能不只在一個，而在兩個獨立方向上作調整。同樣地，麥克風配置組可以進一步組配以便允許聲音擷取葉的孔徑角在兩個獨立方向中作調整。舉例來說，麥克風配置組可以包括四個麥克風。使用音束形成技術，聲音擷取葉的中心線可以在與由四個麥克風所定義的平面正交的第一平面（此平面係第3圖及第4圖之描繪平面），以及在與由四個麥克風所定義的平面與第一平面兩者正交的第二平面（此平面係第3圖及第4圖之描繪平面）中偏斜。此外，使用音束成形技術。如由聲音糊取葉在第一 22 201246950 平面上的投射所定義的聲音掏取葉之一孔徑角可以被調整，且二平面（此平面係第3圖及第4圖之描繪平面）中偏斜。此外，使用音束成形技術。如由聲音擷取葉在第二平面上的投射所定義的聲音擷取葉之另一孔徑角可以被調栘。第6圖係繪不電子裝置21的一示意側面圖。麥克風配置組包括一對額外的麥克風，其中—個顯示在第6圖中的36。裝置21的控制器可以控制麥克風配置組以便在對應一垂直平面的另一平面中調整聲音擷取葉22的中心線23之方向。換句話說，聲音擷取葉的中心線23與裝置22的光軸24之間的角度32可以被調整，因此通過一垂直平面將聲音擷取葉 22偏斜。聲音操取葉的定向可以基於指示使用者行為的感測器資料及/或基於被分析來識別聲源之影像資料而被控制。雖然沒有顯示在第6圖中，不只中心線23的定位，還有聲音擷取葉22的孔徑角可以在第二平面中被調整。除了如在第3圖到第5圖所示之在第一方向中控制外，如第6圖所示之在第二·方向中控制聲音擷取葉可以被實行。第7圖係一實施例的一方法之流程圖表示。該方法一般表禾在少驟40。該方法可以藉由電子裝置，可能結合具有用以擷取感測器資料的一感測器之一外部裝置來實行，如參照第卜6圖之說明。在夕驟41中，感測器資料被擷取。感測器資料可以取共於使用的特定感測器而具有各種形式。感測器資料可以勹枯指承使用者的姿勢或使用者的眼睛注視方向之資料。 23 201246950 另外或額外地。感測器資料可以包括表示用於被實行的音訊記錄之一或數個聲源之影像資料。在步驟42中，回應於經擷取的感測器資料，一目標方向被自動地判定。目標方向可以定義聲音擷取葉的一中心線之一所欲方向。如果感測器資料包括指示使用者的姿勢或使用者的眼睛注視方向，目標方向可以根據該姿勢或眼睛注視方向而被判定。如果感測器資料包括表示一或數個聲源的資料，目標方向可以藉由實行影像辨識以識別表示人臉的影像部分以及接著藉由基於該（等）臉部的方向來選擇目標方向而被判定。在步驟43中，聲音擷取葉的一孔徑角被判定。該孔徑角可以基於該測器資料以及，可選擇地，基於與裝置之一影像感測器相關聯的一視覺縮放設定而被判定。在步驟44中，目標方向以及孔徑角被提供給用於音束形成的麥克風配置組。目標方向與孔徑角可以例如藉由用於音束形成之麥克風配置組的一聲音處理器而被使用，使得麥克風配置組的一聲音擷取葉，特別是主葉，沿著目標方向具有其最大敏感度。另外，聲音處理可以被實施來使得主葉具有經自動地判定之孔徑角。第7圖的序列41~44可以間歇地或連續地重複。因此，聲音擷取葉能作成跟隨使用者注意的焦點及/或聲源位置來作為時間的一函式。另外或額外地，一鎖定機制可以被包含在如接下來說明的方法中。在步驟45中，一鎖定事件被監測來判定聲音擷取葉的 24 201246950 角定向是否欲鎖定於其目前方向。鎖定事件可以採用各種形式之任何一種形式。舉例來說，鎖定觸發事件可以是一專門的使用者命令。或者，鎖定觸發事件可以是指示一所欲目標方向至少一預定時間的感測器資料。對於姿勢式或眼睛注視式控制，如果使用者指向或注視一方向至少一預定時間，鎖定觸發事件可以被偵測。對於臉部辨識式控制，如果作用中聲源基於影像分析被判定保持至少該預定時間是相同的，鎖定觸發事件可以被偵測。在步驟45中，如果鎖定事件被偵測，方法回到步驟41。在步驟45中，如果被判定滿足鎖定條件，方法可以繼續進行到在步驟46中的一等待狀態。在等待狀態中，聲音擷取葉可以維持指向指定的目標方向。如果具有麥克風配置組的裝置之定向能相對聲源位於的一參考圖框而改變，即使在步驟46中裝置的定向在聲源位於的參考圖框中改變，聲音擷取葉相對於裝置的方向可以被調整。因此，聲源能在實驗室參考圖框中保持指向一指定目標，即使裝置定向改變。在步驟47中，一釋放事件被監測來判定鎖定條件是否欲被釋放。釋放事件可以採用各種形式的任何一種。舉例來說，釋放事件可以是一專門的使用者命令。或者，釋放事件可以是指示一新的所欲目標方向至少一預定時間的感測器資料。對於姿勢式或眼睛注視式控制，如果使用者指向或注視一新方向至少一預定時間，釋放事件可以被偵測。對於臉部辨識式控制，如果一新的作用中聲源被判定 25 201246950 對應於一正在說話的人至少該預定時間，釋放事件可以被 <貞測°因此，一滯後作用類型行為可以被引入。此具有一般從屬於姿勢、眼睛注視、或使用臉部辨識所辨別的—種作用中聲源之聲音擷取葉的方向可以從感測器資料解執人一段短時間的效果。 σ 在步驟47中，如果釋放事件被偵測，方法回到步驟41。否則’方法可以回到在步驟46中的等待狀態。第8圖係繪示在感測器資料是表示聲源的影像資料時’被使用來實施在第7圖中的步驟42與44之判定目標方向及孔徑角的動作之一流程圖表示。該動作的序列—般指出於步驟50中。在步驟51中，一臉部辨識被實行。影像資料的部份被識別，其表示一或多個臉部。在步驟52中，一視覺縮放設定被取回，其對應於影像資料。視覺縮放設定可以對應一光學縮放機構的一位置。在步驟53中，判定在影像資料中被識別的臉部數目是否大於一個。如果影像資料僅包括一臉部，方法繼續進行到步驟54。在步驟54中，一目標方向基於臉部的影像座標而被判定。在步驟55中，聲音擷取葉的一孔徑角基於表示臉部的影像部分的大小以及基於視覺縮放設定而被判定。藉著將視覺縮放設定納入考慮’人與裝置的距離能被考慮。舉例來說，如果人在很遠且使用視覺縮放設定來縮放的話，具 26 201246950 有似乎佔據影像資料大部分的臉部之人仍可以僅需要一狹窄角度的聲音擷取葉。相反地’更靠近裝置的人可能需要具有較大孔徑角的聲音擷取葉。距離上的資訊可以使用視覺縮放設定結合表示臉部的影像部分之大小上的資訊來判定。在步驟53中，如果被判定影像資料表示多於―臉部，方法繼續進行到步_。在步驟56中，判定是否需要針對多個聲源同時實行音訊錄音。在步驟56巾，該欺可以基於一預設定使用者偏㈣作。如果判定音訊記錄欲一次針對一聲源來實行，方法繼續進行到步驟57。在步驟57中，正說話者可以在表示多個臉部之多個影像部分中被識別。識別正在說話的人可以各種方式來實行。舉例來說，記錄在-視訊序列中的—短序列影像可被分析來識別顯示嘴唇動作的人。在正說話者已被識別後，方法於如上述之步驟54與55中繼續。目標方向與孔π角基於表示在步驟57中被識別的人之影像部分而被判— 在步驟56中，如果判定音訊記錄欲針對夕^ 施，方法繼續進行到步驟58。固聲源來實在步驟58中，目標方向基於在步驟5ΐφ> 破識別的多個臉。卩之衫像座標而被判定。目標方向不需 Λ 文配合任何一臉 4的方向，但可能對應介於不同臉部間的—方向在步驟59中，聲音擷取葉的孔徑角基於多個臉部的妒像座標以及基於視覺縮放設定而被判定。孔徑卩的厂使得多個臉部落於聲音擷取葉之内。雖然、皮選擇來牧第8圖中繪示為 27 201246950 分離步驟，在步驟58中的目標方向與在步驟59中的孔徑角之判定可以被結合以確保一組相同的目標方向和孔徑角被識別。再一次，當判定孔徑角時，一視覺縮放設定可以納入考慮。在步驟54或58中被判定的方向座標的數量以及在步驟 55與59中被判定之孔徑角數量各自可以基於麥克風配置組的麥克風數量而被調整。舉例來說，如果麥克風陣列只有兩個麥克風，聲音擷取葉僅能在一平面中作調整。然後其足夠判定表示聲音擷取葉的一角度與一孔徑角。如果麥克鳳配置組包括四個麥克風，聲音擷取葉能在兩個正交方向上作調整。再此情形下，目標方向可以藉由一對角度來具體指定，且兩孔徑角可以被判定來定義聲音擷取葉的孔徑。參照第8圖說明的動作序列將進一步參照第9圖到第12 圖來說明。第9圖係繪示影像資料61的示意表示。影像資料61包括表示第一臉部64與表示第二臉部65的其他部分63。。臉部 64、65是可能的聲源。臉部辨識可以被實行在影像資料61 上來識別表示人臉的部份62與63。第10圖顯示具有經識別的部分62與63之影像資料61的座標空間，且座標空間的原點被顯示在角落。表示第一臉部的影像部分6 2之影像座標6 6可以相對於原點6 8而被判定。表示第二臉部的影像部分63之影像座標67可以相對於原點68而被判定。影像座標可以各自被定義為關聯的影像部分之中心的座標。 28 201246950 基於在影像資料61中的臉部之影像座標以及基於視覺縮放設定，聲音擷取葉的孔徑角之方向可被自動地設定。方向與孔徑角可被判定來使得聲音擷取葉係選擇性地指向兩個臉部之一者，或麥克風配置組的敏感度在雨臉部的一給定臨界值之上。如果裝置具有兩麥克風，定義聲音擷取葉的方向之一個角度與一個孔徑角可以從臉部的影像座標以及視覺縮放設定來計算。如果裝置具有多於兩個麥克風，定義聲音擷取葉的方向之兩個角度與兩個孔徑角可以從臉部的影像座標以及視覺縮放設定來計算。第11圖係續示假如聲音擷取葉欲涵蓋多個臉部’其自動地被判定之聲音擷取葉22的一示意頂面圖，。如前所述，裝置21包括麥克風配置組。投射到一水平面上之聲音擷取葉的中心線23與聲音擷取葉的孔徑角31被設定來使得指向麥克風配置組針對兩臉部64、65落在的方向中具有高敏感度。第12圖係如果麥克風配置組允許聲音擷取波束如水平地或垂直地在兩不同方向中作調整之一示意頂面圖。第12 圖繪示如果聲音擷取葉欲涵蓋多個臉部，產生的聲音掏取葉22。投射到一垂直面上之聲音擷取葉的中心線與聲音擷取葉的孔徑角33被設定來使得指向麥克風配置組針對兩臉部64、65落在的方向中具有高敏感度。如果裝置組配來使得聲音擷取葉欲一次對焦在一聲源上，在一串流時序影像中的影像部分64、65可以基於例如嘴唇動作而被分析來識別正在說話的人。然後目標方向與 29 201246950 孔徑角可以取決於各別臉部的影像座標而被設定。如第3圖及第4圖所繪示的組配產生但是聲音擷取葉的方向藉由影像辨識的結果而非藉由使用者的行為被控制。如果正在說話的人改變，聲音擷取葉的方向可以因此自動地作調整。雖然本文以描述根據各種實施例之控制音訊記錄與電子裝置的方法，各種修改可實施在進一步的實施例中。舉例而非限制，雖然本文已經描述針對感測器的範例性實施，其他或額外感測器構件部份可以被使用。舉例來說，並非將用以偵測使用者的頭部定向的感測器構件部份整合到耳機中，用以判定頭部定向的感測器構件部份也可以安裝在與包括麥克風配置組與使用者兩者相隔開的一固定位置中。所能理解的是，各種實施例的特徵可以彼此互相組合。舉例而非限制，監測使用者身體、手部、頭部的位置、或使用者眼睛注視方向之一感測器可以與擷取表示可能的聲源之影像資料的影像感測器相組合。多個聲源的存在中，有關目標方向的決定可以不只基於影像資料而作出，而且也將監測使用者的行為納入考慮。用於音訊記錄的裝置之例子可組配如本文所描述包括但不限於一行動電話、一無線電話、一個人數位助理 (PDA)、一照相機或類似品。【圖式簡單說明】第1圖係根據一實施例之一電子裝置的示意圖；第2圖係根據另一實施例之包含一電子裝置的一電子 30 201246950 系統之示意圖；第3及4圖係繪示在一第— 定向之調整的示意頂面圖；方向上的一指示性型樣的角第5圖係緣示在一第一方向从乃同上的一聲音擷取葉之一孔徑角的調整之示意頂面圖；第6圖係繪示在一第二方产1 μ & , 万向上的一指向性型樣之角定向的調整之示意側面圖；第7圖係一實施例之一方法的流程圖；第8圖係一實施例之一方法的流程圖；第9圖係顯示繪示影像資料之一示意圖；第10圖係繪示第9圖之影像資料的分割之一示意圖；第11圖係繪示基於第9圖的影像資料之在一第一方向上的一聲音擷取葉之一方向及孔徑角的調整之一示意頂面第12圖係繪示基於第9圖的影像資料之在一第二方向上的一聲音擷取葉之一方向及孔徑角的調整之一示意側面圖。【主要元件符號說明】卜12、21···裝置 8…聲音處理器 2···麥克風配置組 9…記憶體 3···控制器 10…外殼 4·.·輸入 11…系統 5、14…感測器 13…外部裝置 6、7…麥克風 15…傳送器 31 201246950 16…介面 17…構件部份 22…聲音擷取葉 23…中心線 24…光軸 25、30~33".角度(孔徑角) 26…耳機 27…使用者 28、29…聲源 40~47、50〜59…步驟 61···影像資料 62、63…人臉的部份 64、65···臉部 66、67…影像座標 68···原點 32

Claims

201246950 七、申請專利範圍： h ~種使用特別是可攜式電子裝置之電子裝置來控制音訊記錄的方法，該電子裝置包含具有一指向性型樣的一麥克風配置組，該方法包含：使用不同於該麥克風配置組的一感測器來擷取感測器資料，該擷取的感測器資料表示圍繞該電子裝置之 —區域的至少一部份；回應於该擷取的感測器資料來自動地判定相對於該電子裝置的一目標方向；以及回應於該經判定的目標方向來自動地控制該麥克風配置組以調整相對於該電子裝置之該指向性型樣的角定向。 •如申晴糊範圍第1項之方法，該麥克風配置組的該指向性型樣定義具有-中心線的-聲音操取葉，其中該自動地控制包含調整該聲音掏取葉的該中心線相對於該電子裝置之一方向。上選擇性地調整。士申明專利fell第2項之方法，回應於該經判定的目標方向，該聲音練葉的該中心線之該方向在兩正交方向該自動地控制包含調整如申請專利範圍第2項之方法，該聲音擷取葉的一孔徑角。該聲音擷取葉係設置在義的一平面之一第一側 .如申請專利範圍第2項之方法，自相對於由該麥克風配置組所定義示的圍繞該電子裝置之該區且由該感測器資料所表示 33 201246950 域的該部分係設置在相對於該平面之—第二側上，該第一側與該第二側係彼此相對立。 6‘如申請專利範圍第1項之方法，該感測器監測與該電子裝置隔開的一使用者身體之—部份以掏取該感測器資料。 7. 如申請專利範圍第6項之方法，該感測器資料被處理以識別該使用者的-姿勢；該指向性型樣的該角定向回應於該經識別的姿勢而受調整。 8. 如申睛專利範圍帛6項之方法該感測器資料被處理以識別該使用者的-眼睛注視方向；該指向性型樣的該角疋向回應於該經識別的眼睛注視方向而受調整。 9. 如申请專利範圍帛6項之方法，該感測器包含整合到由該使用者所戴之一耳機中的感測器構件。 10. 如申請專利範圍第1項之方法，該感測器包含一電子影像感測器；該經擷取的感測器資料包含表示圍繞該電子裝置的該區域之至少該部分之影像資料；該自動地判定該目標方向包含處理該影像資料以識別表示至少一人臉的該影像資料之至少一部份。 11. 如申請專利範圍第10項之方法，該自動地識別該目標方向包含：判定該影像資料是否代表多個人臉；基於該判定的結果來選擇性地識別表示該等多個人臉的該影像資料之多個部份；作為時間的一函數’基於該判定的結果來選擇性地 34 201246950 監測該影像資料之該等經識別的多個部份，以識別表示一正說話者的一部份；以及基於該判定的結果來基於表示一正說話者的該經識別部份之影像座標而選擇性地設定該目標方向。 12. 如申請專利範圍第10項之方法，該自動地識別該目標方向包含：判定該影像資料是否代表多個人臉；基於該判定的結果來選擇性地識別表示該等多個人臉的該影像資料之多個部份；基於該判定的結果來基於該等多個部份之影像座標而選擇性地設定該目標方向。 13. 如申請專利範圍第10項之方法，其包含：判定該電子裝置之一視覺縮放設定；該麥克風配置組係基於該經判定的視覺縮放設定來控制。 14. 一種特別是可攜式電子裝置的電子裝置，該電子裝置包含：具有一指向性型樣的一麥克風配置組；耦接到該麥克風配置組的一控制器，該控制器具有用以接收來自不同於該麥克風配置組的一感測器之感測器資料的一輸入，該感測器資料表示圍繞該電子裝置的一區域之至少一部分，該控制器係組配來執行下列動作：回應於擷取的該感測器資料來自動地判定相對於 35 2〇124695〇該電子裝置的-目標方向，以及回應於該經判定目標方向來自動地控制該麥克風配置組’以調整相對於該電子裝置的該指向性角定向。 15. 如申4專利14項之電子裝置，該麥克風配置組包含具有多個麥克風的一陣列以及織來接收來自該等多個麥克風之輸出信號的-聲音處理器；該控制器耗接到。玄聲曰處理器來控制音束成形設定，以回應於該經判定目標方向而自動地調整相對於該電子裝置之該麥克風配置組的一聲音擷取葉的一方向。 16. 如申請專利範圍第15項之電子裝置，該控制器係組配來控制該麥克風配置組，以回應於該經識別的目標方向而選擇性地在兩正交方向中調整該聲音擷取葉的一定向。 17. 如申請專利範圍第14項之電子裝置，該控制器係組配來處理該感測器資料以識別使用者姿勢及/或使用者眼睛注視方向，且基於該姿勢及/或眼睛注視方向以決定該目標方向。 18·如申請專利範圍第14項之電子裝置，該感測器資料包含影像資料；該控制器係組配來處理該影像資料，以識別表示至少一人臉的該影像資料之至少一部分，且基於表示至少一人臉的該至少一部分來自動地判定該目標方向。 19.如申請專利範圍第14項之電子裝置，其進一步包含： 36 201246950 具有一光軸的一影像感測器；動地控制該麥克風配置組，以該控制器係組配來自調整該指向性型樣相對於該光軸之—角定向。 20. 如申請專利範圍第14項之電子裝置，該電子裝置係組配成一可攜式電子通訊裝置。 21. 如申請專利範圍第14項之電子裝置，其係組配來執行如申請專利範圍第1〜13項中任一項之方法。 22·-種電子系統，其包含：如申請專利範圍第14〜21項中任一項之電子敦置，以及义至少一感測器構件，其與該電子裝置分開且與該控制器的該輸入相通訊以傳遞該感測器資料的至少一部分到該控制器。 37