TWI412953B

TWI412953B - 基於從所捕獲的三維影像流所偵測之使用者行為信號控制文件

Info

Publication number: TWI412953B
Application number: TW097100894A
Authority: TW
Inventors: Jacob C Albertson; Kenneth C Arnold; Steven D Goldman; Michael A Paolini; Anthony J Sessa
Original assignee: Ibm
Priority date: 2007-01-12
Filing date: 2008-01-09
Publication date: 2013-10-21
Also published as: TW200844795A; WO2008084034A1; KR20090097891A; US7877706B2; EP2118722B1; US20080170748A1; EP2118722A1; KR101137041B1

Description

基於從所捕獲的三維影像流所偵測之使用者行為信號控制文件

本發明大體上涉及經改良之自動文件產生、轉錄及編輯。特定而言，本發明係關於基於自由一或多個影像捕獲裝置捕獲之三維影像流所識別之使用者行為來控制文件，該等行為指示觸發對於文件之控制的行為信號。

許多人每天(例如)藉由產生電子郵件文件、搜尋網路文件、在字處理器中建立文件、編輯電子表單、經由文件展示應用程式提供文件或對於應用程式進行編碼來建立、審閱及編輯多個文件。產生、審閱及編輯多個類型之文件通常需要使用者藉由在鍵盤上打字、使用滑鼠選擇選項或向連接至語音命令系統之話筒說出命令來輸入多個命令。

在產生轉錄事件之文件中，觀察事件之人(諸如法院書記官)藉由鍵入表示此人所觀察之事件期間講的話的日誌來紀錄事件之轉錄本。觀察事件之人可觀察另一人之行為且在日誌中鍵入指代該行為的引用。語音轉錄系統通常用於代替人來記錄事件之轉錄本，其中語音轉錄系統自動地將所偵測之語音信號轉譯成文字以產生事件之轉錄本。然而語音轉錄系統受限，因為發言者之行為並不記錄在文字轉錄本中。雖然可記錄事件之視訊紀錄以提供發言者之行為之視訊紀錄，但是自語音轉譯成文字之自動轉錄本與視訊紀錄之組合並不提供在事件期間發言者之講的話及行為及其他內容之完全文字轉錄本。

另外，在產生及編輯文件中，通常使用者可能對另一人講話或傾聽另一人講話，同時產生及編輯文件。因此，雖然語音命令向使用者提供用以減少使用者在一天中所執行之擊鍵或滑鼠點擊次數的方法，但是藉由在編輯文件時談話而進行多個任務之使用者不能使用語音命令來編輯文件。

因此，鑒於前述事項，存在對於一種方法、系統及程式之需要，該方法、系統及程式用於：捕獲使用者之三維移動，自所捕獲三維移動預測行為類型，及基於所識別之行為類型選擇是否觸發文件控制，該文件控制包括添加元素至文件或對文件執行函式。

因此，本發明提供經改良之自動文件產生、轉錄及編輯。特定而言，本發明提供基於自由一或多個影像捕獲裝置捕獲之三維影像流所識別之使用者行為來控制文件，該等行為指示觸發對於文件之控制的行為信號。

在一實施例中，電腦實施之方法、系統及程式產品包含捕獲特定環境內之使用者之三維移動之行為處理系統，其中該三維移動係藉由使用瞄準使用者之至少一影像捕獲裝置而確定。行為處理系統使用所捕獲移動識別三維物件特性流。行為處理系統藉由將所識別之三維物件特性流與多個行為定義比較而自三維物件特性流識別使用者之特定經定義行為，其中每一行為定義表示用於引導對於文件之控制之獨立行為信號。文件控制系統選擇至少一文件元素以表示至少一特定經定義行為且將所選擇之文件元素插入至文件中。

在捕獲使用者之三維移動中，行為處理系統可使用立體影像裝置來捕獲三維移動以識別及追蹤使用者之特定三維移動。另外，在捕獲使用者之三維移動中，行為處理系統可在第一時間點捕獲使用者之至少一影像圖框且比較第二時間點之至少一額外影像圖框與第一時間點之影像圖框以偵測三維移動。

在選擇至少一文件元素以表示至少一特定經定義行為中，文件控制系統選擇至少一特定經定義行為之至少一文字指示符以在由與所捕獲三維物件特性流相關之時間戳記指定之位置處插入至文件中所記錄之轉錄本中。另外，在選擇至少一文件元素以表示至少一特定經定義行為中，文件控制系統可將至少一特定經定義行為轉譯成程式碼元素、方程式或模組。

另外，在實施例中，文件控制系統選擇對文件執行之至少一函式以表示至少一特定經定義行為且觸發應用程式以對文件執行至少一函式。另外，文件控制系統可選擇對文件執行之函式及插入至文件中之文件元素。

現在參考圖1，方塊圖說明姿勢處理方法、系統及程式產品中之資訊流。應瞭解，圖1提供捕獲一或多個使用者之影像流及處理彼等影像流以預測使用者之行為及預測何等行為表示觸發對於文件之控制之行為信號的信息流之一實施例，然而可實施其他資訊流以處理所捕獲資料及預測行為及行為是否表示觸發對於文件之控制之行為信號。

重要的是，應注意，如在各處所使用之術語"行為"可包括通常歸類為行為或身體語言之使用者動作，諸如姿勢及面部表情，且亦可包括(但不限於)任何可偵測身體移動、可偵測身體姿勢、可偵測眼睛移動、皮膚表面特徵之變化(諸如顏色、溫度、緊張性及出汗量)、肌肉收縮之變化，及其他類型之非語言交流。如在各處所使用之術語"文件"可包括(但不限於)具有使用應用程式產生之至少一文字或圖形元素之電腦檔案或包含供應用程式使用之資料之電腦檔案。文件之實例可包括(但不限於)字處理器檔案、電子郵件、網頁、程式碼模組及圖形檔案。

在實例中，行為處理系統100包括三維(3D)物品偵測器104。三維物品偵測器104代表用於以下操作之多個系統：捕獲關於移動及固定物品之影像及其他資料，使所捕獲之資料流線化，追蹤所捕獲移動內之特定物品，使特定物品之特性串流化化，及將串流化化特性組合成所捕獲物品之三維特徵之三維表示，該三維表示如藉由三維物品特性110所說明。三維物品特性110可包括(但不限於)(例如)表示環境內之使用者移動、環境內之其他物品及識別環境之特性之背景的位置、顏色、尺寸及定向。

在實例中，三維物品偵測器104捕獲聚焦區域內之影像，該影像以可偵測行為移動102表示。另外，三維物品偵測器104可偵測聚焦區域內之其他類型之資料。特定而言，三維物品偵測器104藉由多種類型之影像及資料偵測來偵測可偵測行為移動102，該等影像及資料偵測包括(但不限於)捕獲視訊影像、偵測身體部位之移動、偵測皮膚紋理、偵測眼睛移動、偵測皮膚表面特徵及捕獲熱影像。為支援多種類型之影像及資料偵測，三維物品偵測器104可包括多種類型之影像捕獲裝置，包括經配置以用於立體視訊影像捕獲之一或多個視訊攝影機，及用於捕獲一或多個物品之至少一其他特徵的其他類型之感測器，諸如熱身體成像感測器、皮膚紋理感測器、雷射感測裝置、聲音導航及測距(SONAR)裝置或合成雷射或聲納系統。特定而言，感測器可使用獨立感測器單元來實施或可藉由對於所捕獲之影像流進行操作之邏輯單元來實施。舉例而言，邏輯單元可處理所捕獲之影像流以偵測聚焦區域內之可與非皮膚紋理(諸如平滑壁或有紋理葉片)區別開的面部皮膚紋理。

可偵測行為移動102之部分可包括表示實際行為之影像及其他資料，且可偵測行為移動102之其他部分可包括不表示行為之影像及資料。可偵測行為移動102內之某些行為可表示觸發對於文件之控制之行為信號。

三維物件偵測器104將可偵測行為移動102轉譯為所偵測物件之三維特性流且將三維物件特性110流傳遞至行為解譯器106。行為解譯器106將串流化三維物件特性110映射至每一所偵測使用者之一或多個行為且針對所偵測使用者之每一預測行為估計可偵測行為移動102中之實際行為由行為解譯器106正確預測之機率。另外，行為解譯器106預測特定預測行為是否表示觸發對於文件之控制之行為信號。

行為解譯器106將每一預測行為、百分比機率及預測行為是否表示觸發對於文件之控制之行為信號作為預測行為輸出108輸出。行為解譯器106可將預測行為輸出108傳遞至一或多個系統處之一或多個行為啟用之應用程式。

特定而言，在處理可偵測行為移動102及產生預測行為輸出108中，三維物件偵測器104及行為解譯器106可存取具有先前累積及儲存之行為定義之定義資料庫以在三維物件特性110內更好地追蹤及偵測表示行為之彼等所監控物件、更好地辨識與可偵測行為移動102內之其他物件區分之人，及自三維物件特性110更好地追蹤、辨識及預測表示觸發對於文件之控制之行為信號之行為。

另外，在處理行為移動102及產生預測行為輸出108中，三維物件偵測器104及行為解譯器106試圖識別表示使用者行為的物件且鑒於產生行為之總體相互作用來預測行為類型。因此，三維物件偵測器104及行為解譯器106不僅僅試圖確定行為，而且試圖確定包括於以下各者中之重要性：影響行為含義之行為、影響行為含義之產生行為之所偵測使用者之背景、影響行為含義之產生行為之所偵測使用者之環境、影響每一行為含義之一起進行之行為組合及影響行為含義之其他可偵測因素。

另外，三維物件偵測器104及行為解譯器106確定特定使用者是否為其行為應觸發控制文件之使用者。因此，定義資料庫112包括對應於不同類型之人、環境及其他可影響行為含義之因素的行為定義。另外，定義資料庫112包括根據對應面部表情或其他對應行為而調整之行為定義。另外，定義資料庫112可經訓練以更準確識別表示特定人、動物、地點或事物之物件。

另外，在產生預測行為輸出108中，行為解譯器106識別行為且識別發生行為之時間範圍或發生行為之速度或強度。在一實例中，當預測行為觸發控制文件時，預測行為觸發編輯文件以包括行為之文字指示符，以使得諸如移動之強度及速度之因素影響文字指示符中之詳細程度。在另一實例中，當預測行為觸發控制文件時，預測行為觸發對文件執行之應用程式之函式，以使得諸如移動速度及強度之因素影響應用程式之哪一函式可由預測行為觸發。

另外，在處理行為移動102中，影像捕獲裝置及其他感測器之多個獨立系統可自不同角度各自捕獲關於獨立或重疊聚焦區域之影像及資料。影像捕獲裝置及其他感測器之獨立系統可經由無線或有線連接而通信地連接且可在三維行為偵測器之間或在行為解譯器之間彼此共用所捕獲影像及資料，以使得使用資料組合，行為解譯器106可更準確地解譯行為。

現在參看圖2，說明圖描述三維物件偵測器捕獲及產生表示所捕獲之行為移動之三維物件特性的環境之實例。應瞭解，可偵測移動環境200為如參看圖1中之行為處理系統 100所描述之三維物件偵測器104偵測表示可偵測行為移動102之影像及資料之環境之一實例。

在實例中，可偵測移動環境200包括包含影像捕獲裝置202及影像捕獲裝置204之立體影像裝置，影像捕獲裝置202及影像捕獲裝置204各自經定位以偵測組合三維聚焦區域220內之一或多個物件(包括人)之移動。在所描述之實施例中，影像捕獲裝置202及影像捕獲裝置204可各自定位於一個固定軸上或獨立固定軸上，以使得保持不變地聚焦於由三維聚焦區域220表示之區域上。另外，在所描述實施例中，影像捕獲裝置202及影像捕獲裝置204及任何其他感測器可相平行、相切或在任何其他角度處定位以控制3D聚焦區域220內之影像之間距及捕獲三維聚焦區域220內之影像。

在另一實施例中，影像捕獲裝置202及影像捕獲裝置204可各自定位於位置可調軸上，或影像捕獲裝置202及影像捕獲裝置204之實際焦點可調，使得可重新定位由三維聚焦區域220表示之區域。在一實例中，影像捕獲裝置202及影像捕獲裝置204之每一者可與一或多個熱成像裝置耦接，該一或多個熱成像裝置偵測廣大區域內之基於熱成像之移動且引導影像捕獲裝置202及影像捕獲裝置204之每一者之聚焦區域之重新定位以追蹤各相機之聚焦區域內之熱移動。

另外，在本實施例中，影像捕獲裝置202及影像捕獲裝置204可固定至由人攜帶或穿戴之設備。舉例而言，影像捕獲裝置202及影像捕獲裝置204可固定至由人的一副眼鏡或其他頭飾以使得三維聚焦區域220隨著人的移動而變化。在另一實例中，影像捕獲裝置202及影像捕獲裝置204可固定至諸如車之移動機器，以使得三維聚焦區域220隨著車移動而變化。

儘管未描述，但是在另一實施例中，可將僅單一諸如影像捕獲裝置202之視訊攝影機實施為立體影像裝置。單一視訊攝影機置於軌道或其他可調軸上且控制器沿軌道調節單一視訊攝影機之位置，其中單一視訊攝影機隨後在沿軌道之不同定位點處捕獲聚焦區域內之視訊影像流且三維行為偵測器104將影像流組合成可偵測物件之特性之三維物件特性流。在一實例中，三維物件特性流可藉由比較隨著相機之位置變化而遍及諸圖框中之亮度及陰影之變化來產生。或者，立體影像裝置可藉由使用與偵測深度之感測器耦接之單一固定相機來實施。或者，另外，經啟用以自固定位置處理影像及偵測深度之單一相機可充當立體影像裝置。舉例而言，單一相機可經由偵測光源移動及比較遍及所捕獲影像圖框中之亮度及陰影之變化來處理影像及偵測深度。特定而言，單一照相機系統可首先測繪集中於眼睛、口腔及鼻之人面部之模型且隨後偵測遍及影像圖框中之亮度及陰影之變化以偵測面部之深度特徵。在其他實例中，系統可處理所捕獲之視訊影像流以自影像流之其他特徵提取深度。

出於例示之目的，三維聚焦區域220包括由影像捕獲裝置202捕獲之第一捕獲平面206，及由影像捕獲裝置204捕獲之第二捕獲平面208。第一捕獲平面206偵測偵測平面內之由參考數字214說明之移動且第二捕獲平面208偵測平面內之由參考數字216說明之移動。因此，例如影像捕獲裝置202偵測物件的左右或上下移動，且影像捕獲裝置204偵測三維聚焦區域220內之物件的正向和反向之移動。重要的是，應注意，當追蹤物件細微粒度之移動時，甚至人身體移動之諸如眉毛皺起、肌肉收縮或手指彎曲之較小調整得以追蹤且可隨後解譯為表示觸發對於文件之控制之行為信號之行為。

在實例中，在三維聚焦區域220中，手210代表移動物件且箱212代表固定物件。在實例中，手210為在三維聚焦區域220內之人手之部分。所監控之人可由移動手210產生許多移動，某些表示觸發對於文件之控制之行為信號。

當人在三維聚焦區域220內移動手210時，影像捕獲裝置202及影像捕獲裝置204之每一者捕獲捕獲平面206及捕獲平面208內之手210移動之視訊流。三維物件偵測器104根據視訊流將手210偵測為三維聚焦區域220內之移動物件且產生在一段時間內手210之表示三維物件特性110之三維特性流。

另外，人可相對於箱212或另一物件移動手210。舉例而言，人可指向箱212或做出另一類型之朝向箱212的行為。當人在三維聚焦區域220內移動手210時，影像捕獲裝置202及影像捕獲裝置204捕獲之視訊流包括手210之移動及箱212。自視訊流，三維物件偵測器104將手210偵測為三維聚焦區域220內之移動物件且將箱212偵測為固定物件，且產生在一段時間內指定箱212之三維特性及手210相對於箱212之三維特性之三維物件特性流。

重要的是，應注意，與使用一般的固定單一相機所發生之情況相比，藉由使用多個相機捕獲三維聚焦區域220內之不同移動平面，可捕獲更多移動點。藉由自一個以上角度捕獲更多移動點，三維物件偵測器104可更準確偵測且界定三維聚焦區域220內之固定物件及包括行為之移動物件的三維表示。另外，三維物件偵測器104界定移動物件之三維表示越準確，則行為解譯器106可自三維模型預測行為越準確。舉例而言，行為可由使用者直接朝向或遠離影像捕獲裝置202及影像捕獲裝置204之一者活動(其不能夠以二維圖框來捕獲)組成；三維行為偵測器104將該行為之三維表示偵測且界定為移動物件且行為解譯器106自移動之三維模型預測由朝向或遠離視訊攝影機之移動產生的行為。另外，與僅自單一二維移動平面收集之點產生三維物件屬性110所需要之處理負荷相比，藉由捕獲三維聚焦區域220內之不同移動平面中之更多點，產生三維物件屬性110所需要之處理負荷減少。

另外，重要的是，應注意，雖然圖2說明作出姿勢的手210及固定箱212，但是在替代實施例中，三維聚焦區域220可包括多個獨立被監控使用者或其他元件，以使得影像捕獲裝置202及影像捕獲裝置204捕獲多個人之行為之影像及多個人相關於彼此或一或多個元件之行為的影像，且三維物件偵測器104將每一姿勢偵測為獨立物件。特定而言，三維物件偵測器104可自影像捕獲裝置202及影像捕獲裝置204之所捕獲視訊影像中偵測具有更多活動之行為(諸如由手產生之行為)及以較小活動產生之行為(諸如面部表情)，以精確地產生人的非語音交流之三維物件特性。

在實例中，除捕獲可偵測移動環境200內之聚焦區域220內之影像之外，其他感測器可偵測與運動環境有關但在聚焦區域220外之資訊。舉例而言，感測器240可偵測感測器區域242內之資訊。感測器區域242可與聚焦區域220重疊，併入聚焦區域220，併有聚焦區域220或與聚焦區域220分開。三維物件偵測器104將感測資訊與所捕獲影像組合以更準確產生三維物件特性110且提供關於環境之額外資訊至文件控制系統。

在一實例中，感測器240可自所捕獲之影像流執行面部辨識或其他身份辨識。在一實例中，感測器240可針對使用者存取面部繪圖之資料庫且識別與來自資料庫之特定面部繪圖匹配之特定使用者面部繪圖。在另一實例中，感測器240可針對可識別使用者之文字來分析所捕獲之影像流。舉例而言，感測器240可偵測所捕獲之影像流中由使用者所佩戴之徽章之徽章號碼。藉由感測器240偵測使用者身份，物件偵測器104可更準確產生三維物件特性且移動解譯器106可自定義資料庫112中針對所識別使用者所指定之定義來更準確預測使用者行為移動類型。

另外，在另一實例中，感測器240可藉由偵測自置於感測器區域242內之物件上之RFID晶片所廣播之資訊來補充使用者及其他物件辨識，其中物件之RFID廣播物件類型、物件位置及與物件相關聯之任何警告條件。在一實例中，使用者攜帶之攜帶型電話、使用者攜帶之身份證或使用者攜帶之其他物品可包括廣播使用者之一或多個識別符及物品之識別符的RFID晶片。藉由組合關於特定物件之位置之所感測資訊與自其識別影像之所捕獲影像，物件偵測器104可更準確產生三維物件特性110且行為解譯器106可更準確預測三維物件特性110內所偵測之三維物件類型、與三維物件相關之使用者、表示觸發對於文件之控制之行為信號之行為。

在另一實例中，感測器240可追蹤感測器區域242內之所追蹤物件之相對位置。儘管未描述，感測器區域242可在感測器區域242內追蹤自第一聚焦區域220移動至第二聚焦區域之人。藉由跨越多個聚焦區域之追蹤移動，感測器240提供所監控人之位置之額外追蹤資訊以使得在不同聚焦區域中所收集之資料可在產生三維物件特性110時共用。

在另一實例中，感測器240可偵測關於物件之深度、表面積、色溫或其他特徵之額外資訊以更準確預測物件是否表示特定行為及是否表示觸發對文件之控制之行為信號。特定而言，藉由偵測關於物件深度、表面積或其他特徵之額外資訊，感測器240收集之資料與影像捕獲裝置202及影像捕獲裝置204捕獲之影像組合以產生表示使用者移動之物件三維影像中之額外細節及粒度。

現在參考圖3，方塊圖說明產生三維物件特性之三維物件偵測器系統之一實施例，該等三維物件特性使行為解譯器能夠自三維物件特性解譯所監控使用者之行為及此等行為是否表示觸發對於文件之控制之行為信號。重要的是，應注意，三維物件偵測器104內之所描述之多個組件可併入單系統中或經由網路、其他通信媒介或其他傳播媒介遍及多個系統分布。另外，重要的是，應注意，彼等所說明之組件的額外或替代組件可實施於三維物件偵測器104中以便捕獲影像及資料且產生三維物件位置110流。

起初，諸如影像捕獲裝置202、影像捕獲裝置204及感測器240的多個影像捕獲裝置代表用於獲得表示諸如三維聚焦區域220及感測器區域242之三維聚焦區域及感測器區域內之可偵測移動102之資料的立體影像裝置。如先前所述，影像捕獲裝置202及影像捕獲裝置204可代表捕獲視訊影像之視訊攝影機。另外，影像捕獲裝置202及影像捕獲裝置204可代表相機或其他靜止影像捕獲裝置。另外，影像捕獲裝置202及影像捕獲裝置204可代表能夠捕獲表示可偵測行為移動102之資料之其他類型裝置。影像捕獲裝置202及影像捕獲裝置204可使用相同類型之影像捕獲系統或不同類型之影像捕獲系統實施。另外，影像捕獲裝置202及影像捕獲裝置204之每一者捕獲之捕獲區域及平面之範圍、尺寸及位置可不同。

感測器240可表示如圖2所描述之一或多個不同類型之感測器。感測器240可收集關於物件之獨立資料或可處理影像捕獲裝置202及影像捕獲裝置204捕獲之影像。

影像捕獲裝置202、影像捕獲裝置204及感測器240之每一者傳輸所捕獲影像及資料至一或多個計算系統，該一或多個計算系統能夠起初接收及緩衝所捕獲影像及資料。在實例中，影像捕獲裝置202傳輸所捕獲影像至影像捕獲伺服器308，影像捕獲裝置204傳輸所捕獲影像至影像捕獲伺服器310，且感測器240傳輸所捕獲資料至感測器伺服器312。影像捕獲伺服器308、影像捕獲伺服器310及感測器伺服器312可實施於一或多個伺服器系統中。

影像捕獲伺服器308、影像捕獲伺服器310及感測器伺服器312之每一者使來自影像捕獲裝置202、影像捕獲裝置204及感測器裝置240之經緩衝影像及資料流向一或多個處理器。在實例中，影像捕獲伺服器308使影像流向視訊處理器316，影像捕獲伺服器310使影像流向視訊處理器318，且感測器伺服器312使偵測資料流向感測器處理器319。重要的是，應注意，視訊處理器316、視訊處理器318及感測器處理器319可實施於一或多個電腦系統中之一或多個處理器中。

在一實例中，影像捕獲伺服器308及影像捕獲伺服器310各自使影像分別流向視訊處理器316及視訊處理器318，其中影像以圖框形式串流化。每一圖框可包括(但不限於)影像捕獲裝置之相機識別符(ID)、圖框編號、時間戳記及像素計數。

視訊處理器316、視訊處理器318及感測器處理器319經程式化以偵測及追蹤影像圖框內之物件。特定而言，因為視訊處理器316、視訊處理器318及感測器處理器319接收複雜資料之流且處理資料以識別三維物件(包括表示所監控使用者之物件)及三維物件特徵，所以視訊處理器316、視訊處理器318及感測器處理器319可實施Cell Broadband Engine (Cell BE)架構(Cell Broadband Engine為Sony Computer Entertainment, Inc之註冊商標)。Cell BE架構係指包括諸如基於功率架構之控制處理器(PPE)之基礎處理器元件的處理器架構，該基礎處理器元件連接至多個亦稱為合作處理元件(SPE)之額外處理器元件且該等額外處理器元件實施一組DMA指令以用於處理器元件之間的有效通信。特定而言，SPE可經設計以比其他處理器元件更有效地操作某些類型之處理任務。舉例而言，SPE可經設計以更有效地操作處理視訊流以識別及測繪圖框流內之移動物件之點。另外，視訊處理器316、視訊處理器318及感測器處理器319可實施其他類型之處理器架構，其使得能夠有效處理視訊影像以識別視訊影像內之三維移動及固定物件，由此可預測所監控使用者之行為及行為是否表示觸發對於文件之控制之行為信號。

在實例中，視訊處理器316、視訊處理器318及感測器處理器319各產生所偵測物件之包括位置、顏色、尺寸、形狀及定向的特性且使其流向幾何處理器320。在一實例中，流向幾何處理器320之各經處理圖框可包括(但不限於)相機ID、圖框編號、時間戳記及X軸座標(x_loc)、Y軸座標(y_loc)及Z軸座標(z_loc)中之兩者或兩者以上之組合。重要的是，應注意，x_loc、y_loc及z_loc可各包括識別物件之全部特性之多組點及其他資料。若偵測及追蹤單圖框內之多個物件，則各物件之X軸座標及Y軸座標可包括於單一串流化物件特性紀錄中或多個分離串流化物件特性紀錄中。另外，串流化特性圖框(諸如來自感測器處理器319的對於SONAR偵測位置之圖框)可包括列為例如z_loc之Z軸位置座標。

幾何處理器320接收來自視訊處理器316及視訊處理器318之二維串流化物件特性及來自感測器處理器319之其他物件資料。幾何處理器320使串流化二維物件特性及其他資料配合且自串流化二維物件特性及其他資料建構建構三維物件特性110。特定而言，幾何處理器320建構包括物件之深度之三維物件特性110。在一實例中，幾何處理器320建構之每一三維物件特性紀錄可包括時間戳記、物件或使用者移動標籤、X軸座標(x_loc)、Y軸座標(y_loc)及Z軸座標(z_loc)及自感測器收集之額外資訊。舉例而言，自感測器中收集之額外資訊可包括接收自RFID之位置或識別符，或由GPS偵測之位置座標。

在視訊處理器316、視訊處理器318、感測器處理器319及幾何處理器320之任一者處，特性紀錄可包括至少一識別符以使得能夠持續追蹤物件。舉例而言，識別符可包括用於物件本身之唯一識別符及物件(包括識別為使用者移動之物件)之類別或類型的識別符。

特定而言，藉由視訊處理器316、視訊處理器318及感測器處理器319識別及歸類物件特性，每一處理器可存取定義資料庫112以便存取先前處理之輸入及行為繪圖，以便更準確識別及歸類二維物件特性，來偵測串流化二維物件特性且使其與物件匹配。另外，幾何處理器320可基於自定義資料庫112存取之物件之先前匹配及建構之三維特性更準確基於串流化二維物件特性建構物件之三維特性。另外，物件資料庫122可儲存串流化二維物件特性及三維物件特性以用於將來參考。

另外，藉由視訊處理器316、視訊處理器318及感測器處理器319識別及歸類物件特性且藉由幾何處理器建構三維物件特性110，每一處理器可識別所偵測之物件(包括所監控人的行為)。舉例而言，視訊處理器316、視訊處理器318、感測器處理器319及幾何處理器320可存取定義資料庫112，其包括用於測繪面部表情及其他身體移動、執行面部及其他身體移動辨識及執行額外處理以識別表示行為之物件的行為定義。另外，視訊處理器316、視訊處理器318、感測器處理器319及幾何處理器320可存取定義資料庫112，其包括用於基於所偵測物件及背景識別使用者所處之特定環境的針對不同類型之環境的行為定義。另外，在建構三維物件特性110中，視訊處理器316、視訊處理器318、感測器處理器319及幾何處理器320可識別環境中之多個所偵測物件且因此識別單個所監控的人的行為或多個人之間的一或多個相互作用。藉由監控及識別物件所處之環境中所偵測之物件之間的相互作用，可執行產生行為之情景中之行為之更準確預測。

現在參看圖4，方塊圖說明行為解譯器系統之一實施例。重要的是，應注意，行為解譯器106內所描述之多個組件可併入單系統以內或經由網路遍及多個系統分布。在實例中，三維特性紀錄402包括"時間戳記"、"x_loc"、"y_loc"及"z_loc"資料元素。應瞭解三維特性紀錄402可包括圖3之幾何處理器320確定之額外或替代資料元素。舉例而言，三維特性紀錄402可包括識別感測器區域內(且不僅僅在聚焦區域內)使用者之特定或相對位置、顏色之額外資訊，及影像捕獲裝置及感測器收集且在三維物件偵測器104內處理之其他資料。

行為解譯器106包括行為解譯器控制器404，其中行為解譯器控制器404可包括一或多個經程式化以執行行為解譯之處理器。舉例而言，行為解譯器控制器404可包括具有CellBE架構之處理器，其經程式化以有效地處理三維物件特性資料流，自三維物件特性流預測所監控人之行為及預測行為是否表示觸發控制文件之行為信號。另外，行為解譯器控制器404可包括軟體執行於其上之處理器，其中軟體引導對於三維物件特性資料流之處理、自三維物件特性流預測所監控人之行為及預測行為是否表示觸發控制文件之行為信號。

在處理三維物件特性流、預測行為及預測行為是否表示觸發對於文件之控制之行為信號中，行為解譯器控制器404以串流化三維物件特性表示所映射之行為定義之一百分比機率且以預測行為表示觸發對於文件之控制之行為信號之一百分比機率使三維物件特性映射至一或多個行為定義。特定而言，行為解譯器控制器404存取一或多個行為之一或多個行為定義且確定三維物件特性是否匹配一或多個行為定義中所定義之一或多個行為之一或多個特徵。行為定義可包括一或多種姿勢類型之測繪三維模型。另外，行為定義可定義識別行為特徵之參數，其包括(但不限於)所偵測之身體部位、移動類型、表面特徵、形狀、移動速度、頻率、移動跨度、移動深度、溫度及顏色。

另外，指定行為定義以使得行為解譯器控制器404能夠確定行為特徵是否指示行為表示觸發對於文件之控制之行為信號。舉例而言，一旦行為解譯器控制器404確定物件流表示人刮鼻子，行為解譯器控制器404基於文件類型、應用程式類型、環境類型或其他因素來確定人刮鼻子是否表示觸發控制特定文件之行為信號。舉例而言，在會議期間人刮鼻子可能不表示觸發插入行為之文字指示符於會議之文字轉錄本中之行為信號。另外，刮鼻子可確定為使用者通常非自主執行之行為類型且因此並非行為信號。與此對比，舉起兩個手指之使用者可確定為使用者有意地執行之行為類型且用於其之文字指示符應添加至轉錄本或其應觸發對文件執行之應用程式之函式。

重要的是，應注意，在解譯三維物件特性流中，行為解譯器控制器404執行一或多個行為處理系統所識別之特定聚焦區域中之一或多個三維物件特性流中之所有經追蹤物件之聚集分析。在一實例中，行為解譯器控制器404使特定聚焦區域及特定感測器區域之三維物件特性流聚集。在另一實例中，行為解譯器控制器404可接收來自重疊聚焦區域及感測器區域之區域的多個三維物件特性流，針對相似性、位置指示符及定向指示符分析三維物件特性流，且將三維物件特性流建構成一區域之三維聚集表示。

在一實施例中，行為解譯器控制器404可將所追蹤物件之聚集體直接映射至單一行為定義。在另一實施例中，行為解譯器控制器404將多個聚集的追蹤物件映射至多個行為定義。舉例而言，人可藉由面部行為及手部行為來同時交流，其中在預測藉由面部行為及手部行為之所追蹤移動來交流之實際行為中，行為解譯器控制器404分析與手部行為之三維物件特性相關之面部行為之三維物件特性且存取行為定義以能夠預測每一行為是否表示代表觸發對於文件之控制之行為信號之行為且能夠預測組合行為是否表示代表觸發對於文件之控制之行為信號之行為。另外，行為解譯器控制器404可聚集表示環境內之多個所監控人之行為的所追蹤物件。行為解譯器控制器404隨後預測多個所監控人之行為組合是否表示觸發對於文件之控制之行為信號。

在實例中，行為解譯器控制器404自定義資料庫112存取行為定義，其包括一般行為定義412、環境特定行為定義414、應用程式特定定義416及使用者特定行為定義418。應瞭解，定義資料庫112可包括額外或替代類型之行為定義。另外，重要的是，應注意，在實例中說明之每一組行為定義可駐於單一資料庫中或可經由網路自多個資料庫及資料儲存系統存取。

一般行為定義412包括常見行為之行為定義。舉例而言，一般行為定義412可包括常見行為之行為定義，諸如人指向、人揮手示意、人點頭"是"或搖動"否"或其他類型常見行為。

環境特定行為定義414包括預測行為及預測行為是否表示觸發控制文件之行為信號的行為定義及因素，其特定地針對於其中偵測行為之情景。情景之實例可包括(但不限於)所監控人之當前位置、當前由使用者存取之文件類型、時刻、情景內之姿勢及其他行為後之文化含義、情景內之表達語言及其他影響可解譯行為之情景的因素。行為解譯器控制器404可自存取所監控人位置之GPS指示符、自執行所監控人的話音之話音分析以偵測語言及方言之變化、自偵測指示特定類型位置之影像資料內之物件，或自接收來自監控監控被監控人之情景之其他系統的額外資料來偵測當前情景。

應用程式特定定義416包括特定地用於基於預測行為輸出108經觸發以控制文件之應用程式之行為定義。舉例而言，若預測行為108將觸發應用程式以插入行為之文字指示符至文件，則應用程式特定定義416指定應與文件中所添加之文字指示符有關之行為類型之行為定義。在另一實例中，若預測行為108將觸發應用程式對文件執行函式，則應用程式特定定義416指定與觸發對文件執行函式有關之行為類型之行為定義。另外，應用程式特定定義416可包括偵測應用程式所執行之當前過程之定義，該等當前過程將影響行為之含義或將影響特定行為是否與觸發對文件執行函式有關。

使用者特定行為定義418包括特定地用於所監控之特定人之行為定義。在一實例中，行為解譯器控制器404自藉由感測器或藉由行為解譯器控制器404執行之面部或語音辨識來存取使用者之識別符。另外，行為解譯器控制器404可能不識別所監控人之實際身份，但可識別一人的將該人確定為其行為觸發文件控制之一類型人的屬性。在另一實例中，面部辨識可經由以下行為來補充或身份證明可僅僅經由以下行為來執行：掃描所監控人攜帶之身份證明上之RFID、偵測使用者佩帶之特定物品，或自監控使用者之身份證明之系統存取其他類型身份證明。

定義資料庫112亦可包括根據特定環境內之所監控人之經驗等級指定之行為定義及其他因素。行為定義中之行為特徵及定義資料庫112內分組之特定行為定義可根據使用者基於行為信號觸發文件控制之經驗等級來指定。

另外，在可用行為定義內，一行為定義可與三維聚焦區域內之一特定移動區域或一特定移動深度有關。特定而言，於其中偵測移動之三維聚焦區域可劃分成三維部分，其中在每一部分中進行之移動可以不同行為定義選擇來解譯。舉例而言，聚焦區域之一三維部分可視為"作用區"，其中該區內偵測之移動可與相關於彼特定作用區之行為定義選擇相比較，該作用區諸如在鍵盤特定距離內之區域或使用者可於其中基於行為信號觸發文件控制的其他區域。

另外，在包括於定義資料庫112內之行為定義內，行為之可預測性藉由存在相關音訊簽名或自音訊轉譯之文字而增加。特定而言，感測器240或另一音訊感測器可偵測來自環境或來自特定人之音訊。行為解譯器控制器404可確定感測音訊是否增加所偵測移動表示特定行為類型之機率。在一實例中，行為解譯器控制器404可將音訊信號轉譯成文字及確定文字是否匹配通常與行為信號相關之措詞類型。

包括在定義資料庫112內之行為定義可以與經訓練以更準確映射及預測行為之話音辨識系統類似之方式基於所監控人之使用者反饋來添加或調整。舉例而言，定義資料庫112藉由所監控人指示回應於行為之文件控制觸發之特定類型是否為意欲由使用者行為信號觸發之文件控制類型來學習額外行為定義及調整已習得行為定義之參數。

行為解譯器控制器404將預測行為輸出108以一或多個諸如行為紀錄420之行為紀錄之形式輸出。行為紀錄420指示"行為類型"、"作為行為之百分比機率"及"行為信號類型"。"行為信號類型"可指示例如行為作為行為信號之百分比機率。在另一實例中，"行為信號類型"可指示與行為信號相關之使用者識別符、環境類型、應用程式或文件。另外，"行為信號類型"可包括由行為解譯器404在預測行為類型及預測行為類型是否表示觸發對於文件之控制之行為信號中收集之額外或替代資料類型。或者，行為解譯器控制器404可將任何預測行為在預測行為紀錄420中傳輸至文件控制系統及使文件控制系統能夠確定預測行為類型是否觸發文件控制系統控制文件。

另外，如所說明，行為紀錄420包括列為"start_x_pos"、"end_x_pos"、"start_y_pos"、"end_y_pos"、"start_z_pos"、"end_z_pos"的指示行為之位置、移動方向及移動速度的所偵測行為之開始X、Y及Z軸特性及結束X、Y及Z軸特性，及指示偵測行為之時間之時間戳記範圍。另外或者替代地，行為紀錄420可包括所監控人之位置、移動方向、移動強度及移動速度之指示符。另外，由感測器獲得之諸如RFID資料、GPS座標、皮膚表面特徵及其他感測資料之附加資訊可與特定行為紀錄有關或包括在獨立物件紀錄中。

在傳遞行為紀錄420中，行為解譯器控制器404可濾出特定類型之行為紀錄。舉例而言，行為解譯器控制器404可能不傳遞行為作為行為類型之可預測性小於特定百分比之紀錄。另外，在傳遞行為紀錄420中，行為解譯器控制器404可過濾用於傳遞至一類型之文件控制系統之一類型之行為紀錄且過濾用於傳至另一類型之文件控制系統之其他類型之行為紀錄。

現在參見圖5，方塊圖描繪可實施本發明之計算系統之一實施例。本發明之控制器及系統可執行於各種系統中，包括通信地連接至諸如網路502之網路的各種計算系統(諸如電腦系統500)。

電腦系統500包括用於在電腦系統500內傳達資訊之匯流排522或其他通信裝置，及與匯流排522耦接以便處理資訊之諸如處理器512之至少一處理裝置。匯流排522較佳包括藉由橋接器及轉接器連接且在電腦系統500內藉由多個匯流排控制器控制之低延遲及更高延遲路徑。當實施為伺服器時，電腦系統500可包括經設計以改良網路伺服能力之多個處理器。當多個處理器共用匯流排522時，可實施管理匯流排存取及鎖定之額外控制器(未描繪)。

處理器512可為通用處理器，諸如IBM之PowerPC^TM 處理器，其在正常操作期間在可由諸如隨機存取記憶體(RAM)514之動態儲存裝置、諸如唯讀記憶體(ROM)516之靜態儲存裝置、諸如大容量儲存裝置518之資料儲存裝置、或其他資料儲存媒體存取之作業系統560、應用軟體570、中間件(未描繪)及其他程式碼控制下處理資料。在一實例中，處理器512可另外實施CellBE架構以更有效地處理複雜三維資料流。應瞭解處理器512可實施其他類型之處理器架構。另外，重要的是，應注意，處理器512可表示區域地連接或藉由網路連接且經啟用以有效地分配處理任務之多個處理器晶片。

在一實施例中，如在圖11-14中之操作及本文中描述之其他操作中所描述，處理器512執行之操作可控制以下操作：人可藉由行為交流之環境中之自所捕獲影像及資料進行三維行為偵測、辨識行為、確定何等行為表示觸發對於文件之控制之行為信號，及回應於行為信號而控制文件。處理器512執行之操作可由作業系統560、應用軟體570、中間件或其他程式碼請求，或本發明之步驟可由含有硬接線邏輯以便執行步驟之特定硬體組件或由程式化電腦組件與定製硬體組件之任何組合來執行。

本發明之行為處理系統及行為啟用之文件控制系統可以包括於電腦或機器可讀媒體上之電腦程式產品形式來提供，該電腦或機器可讀媒體具有儲存於其上之電腦可讀程式之可執行指令，當可執行指令執行於電腦系統500上時使得電腦系統500執行本發明之方法。如本文中所用之術語"電腦可讀媒體"或"機器可讀媒體"包括參與提供指令至處理器512或電腦系統500之其他組件以便執行之任何媒體。該媒體可採用諸多形式，包括(但不限於)諸如非揮發性媒體及揮發性媒體之儲存類型媒體，及傳輸媒體。常見形式之非揮發性媒體包括例如軟碟、可撓性磁碟、硬碟、磁帶或任何其他磁性媒體、緊密碟片ROM (CD-ROM)或任何其他光學媒體、穿孔卡片或任何其他具有孔洞圖案之物理媒體、可程式化ROM (PROM)、可擦PROM (EPROM)、電子EPROM (EEPROM)、快閃記憶體、任何其他記憶體晶片或筒盒，或電腦系統500可自其讀取且適合於儲存指令之任何其他媒體。在本發明之實施例中，非揮發性媒體之實例為如所描述為電腦系統500之內部組件之大容量儲存裝置518，但將瞭解其亦由外部裝置提供。揮發性媒體包括諸如RAM 514之動態記憶體。傳輸媒體包括同軸電纜、銅線或光纖，包括包含匯流排522之線路。傳輸媒體亦可採用聲波或光波的形式，諸如在射頻或紅外線資料通信期間產生之彼等波。

此外，本發明可以電腦程式產品之形式下載或散佈，其中電腦可讀程式指令可自諸如伺服器540之遠端電腦以體現於載波或其他傳播媒體中之資料信號之方式經由網路502至網路鏈路534(例如數據機或網路連接)至與匯流排522耦接之通信介面532而傳輸至請求電腦系統500。在一實例中，當處理器512包括多個處理器元件時，則不論係區域地或經由網路而分布於處理器元件中之處理任務可表示電腦程式產品，其中處理任務包括用以執行方法之程式指令或用以存取Java(Java為Sun Microsystems, Inc.之註冊商標)物件之程式指令或其他用以執行方法之可執行碼。通信介面532提供與網路鏈路534耦接之雙向資料通信，網路鏈路可連接至例如區域網路(LAN)、廣域網路(WAN)或直接連接至網際網路服務提供者(ISP)。特定而言，網路鏈路534可提供至一或多個諸如網路502之網路的有線及/或無線網路通信。另外，儘管未描繪，但是通信介面532可包括諸如裝置驅動程式之軟體、諸如轉接器之硬體及其他啟用通信之控制器。當實施為伺服器時，電腦系統500可包括可經由例如連接至輸入/輸出控制器之多個周邊組件互連 (PCI)匯流排橋接器存取之多個通信介面。以此方式，電腦系統500允許經由多個獨立埠連接至多個客戶端且每一埠亦可支援至多個客戶端之多個連接。

網路鏈路534及網路502皆使用具有數位資料流之電信號、電磁信號或光信號。經由各種網路之信號及網路鏈路534上及經由通信介面532之信號可呈傳送資訊之載波之形式，該等信號載運數位資料至電腦系統500且載運來自電腦系統之數位資料。

另外，電腦系統500可包括有助於輸入及輸出之多個周邊組件。此等周邊組件連接至多個控制器、轉接器及擴展槽，諸如與匯流排522之多個層級之一者耦接之輸入/輸出(I/O)介面526。舉例而言，輸入裝置524可包括例如經由控制輸入之I/O介面526在匯流排522上通信地啟用之麥克風、視訊捕獲裝置、身體掃描系統、鍵盤、滑鼠或其他輸入周邊裝置。另外，例如經由I/O介面526在匯流排522上通信地啟用之輸出裝置520可包括例如一或多個圖形顯示裝置、音訊揚聲器及及觸覺可偵測輸出介面，但亦可包括其他輸出介面。在本發明之替代實施例中，可添加額外或替代輸入及輸出周邊組件。

一般熟習此項技術者應理解，圖5中描述之硬體可不同。此外，一般熟習此項技術者應理解，所描述之實例並非意謂暗示本發明之架構限制。

現在參看圖6，方塊圖描述可實施行為啟用之文件控制方法、系統及程式之分散式網路環境之一實例。重要的是，應注意，分散式網路環境600說明可實施行為啟用之文件控制方法、系統及程式之網路環境之一類型；然而行為啟用之文件控制方法、系統及程式可實施於其他網路環境中。另外，重要的是，應注意，系統在分散式網路環境600內之分布說明系統之分布；然而，可實施系統在網路環境中之其他分布。另外，重要的是，應注意，系統在分散式網路環境600內之分布說明系統之分布；然而，可實施系統在網路環境中之其他分布。另外，重要的是，應注意，在實例中描述之系統表示在實施行為處理系統及行為啟用之文件控制系統中可被存取或請求存取之系統及服務之類型。應瞭解網路環境中之其他類型之系統及服務及其他組之系統及服務可實施行為處理系統及行為啟用之文件控制系統。

如所說明，分散式網路環境600中之多個系統可經由網路502通信地連接，網路502為用於提供通信地連接之各種裝置及電腦之間的通信鏈路的媒體。網路502可包括諸如線路或光導纖維電纜之固定連接及藉由例如電話連接及無線傳輸連接實現之暫時連接。網路502可表示基於封包交換及基於電話之網路、區域網路及廣域網路、公眾網路及私用網路。應瞭解圖6表示支援行為處理系統及行為啟用之文件控制系統之分散式通信網路之一實例；然而可實施其他網路組態及網路組件。

圖6中描述之網路環境可實施多種類型之網路架構。在一實例中，網路環境可使用客戶端/伺服器架構來實施，其中請求資料或處理之計算系統稱為客戶端且處理資料請求及處理之計算系統稱為伺服器。應瞭解於客戶端/伺服器架構之內，客戶端系統可作為客戶端及伺服器執行且伺服器系統可作為客戶端及伺服器執行。另外，應瞭解可實施其他類型之網路架構及網路架構之組合。

在實例中，分散式網路環境600包括具有影像捕獲系統604之客戶端系統602及具有影像捕獲系統608之客戶端系統606。在一實例中，影像捕獲系統604及608表示實施諸如影像捕獲裝置202及204之一或多個影像捕獲裝置之立體影像裝置且可包括諸如感測器240之一或多個感測器。影像捕獲系統604及608捕獲影像及其他資料且使影像及其他資料經由網路502串流化至其他系統以便處理。另外，立體影像捕獲系統604及608可包括諸如參看圖3描述之視訊處理器316及視訊處理器318之用於追蹤物件特性之視訊處理器，及諸如參看圖3描述之幾何處理器320之用於產生三維物件特性流之幾何處理器。

在一實例中，客戶端系統602及客戶端系統606之每一者可將所捕獲影像圖框串流化至一或多個三維物件偵測服務。在一實例中，行為處理服務提供者伺服器620提供服務，其包括：諸如三維物件偵測器104之物件偵測器服務以便處理串流化影像及其他資料；及諸如行為解譯器106之行為解譯器服務以便預測行為類型，預測所捕獲影像表示行為之預測類型之機率，及預測行為是否表示觸發文件控制之行為信號，及控制預測行為紀錄輸出至可經由網路 502存取之一或多個其他系統。

至於行為處理服務提供者伺服器620，不同實體可實施行為處理服務且不同實體可存取行為處理服務。在一實例中，登錄至客戶端系統602或客戶端系統606之一中之使用者可預訂行為處理服務。在另一實例中，影像捕獲系統或請求行為處理之特定應用程式可自動地將所捕獲影像及資料串流化至行為處理服務。在另一實例中，企業或其他實體可在通信網路中實施處理服務之行為。

在另一實例中，客戶端系統602及客戶端系統606之每一者可將所捕獲圖框串流化至三維物件偵測器伺服器624。三維物件偵測器伺服器624接收來自諸如影像捕獲系統604或影像捕獲系統608之影像捕獲系統之所捕獲影像及其他資料，且處理影像及其他資料以產生所偵測行為之三維物件特性，以便輸出至諸如行為解譯器伺服器622或行為處理服務提供者伺服器620之行為解譯器系統。在額外或替代實施例中，物件偵測器服務可實施於一或多個其他系統(彼等系統中執行一或多個其他服務)之內。特定而言，在額外或替代實施例中，物件偵測器服務可實施於捕獲影像及其他資料之客戶端系統之內。

所描述之伺服器系統中之每一者可遍及一或多個系統而分布。特定而言，伺服器系統之每一者可遍及具有三維影像處理能力之系統而分布，該等系統包括具有CellBE架構之經程式化以執行有效三維資料處理之處理器。在一實例中，諸如商務或服務提供者之實體可實施用於物件偵測及行為解譯之獨立伺服器系統，其中實施多個行為解譯器伺服器，每一行為解譯器伺服器處理不同類型之三維物件特性。

行為處理服務提供者伺服器620、行為解譯器伺服器622及三維物件偵測器伺服器624可區域地儲存具有原始影像、三維行為特性、行為定義及其他物件定義之諸如定義資料庫112之定義資料庫。另外，行為處理服務提供者伺服器620、行為解譯器伺服器622及三維物件偵測器伺服器624可存取輔助定義資料庫112之行為資料庫服務伺服器626。

另外，行為資料庫服務伺服器626包括行為學習控制器630。行為學習控制器630提示使用者提供特定行為類型之樣本，應藉由文字指示符將該等樣本記錄在文件編制器中，該等樣本應表示對文件執行之特定函式之行為信號。另外，行為學習控制器630提示使用者指示是否準確地預測所預測行為類型。另外，行為學習控制器630收集使得行為學習控制器630能夠學習行為資訊且將行為資訊保持在定義資料庫112中之其他資訊，當物件偵測器服務及行為解譯器服務存取定義資料庫112時，定義資料庫112增加此等服務產生三維物件特性之準確度及由三維物件特性預測行為及行為是否表示行為信號之準確度。

另外，行為處理服務提供者伺服器620、行為解譯器伺服器622、三維物件偵測器伺服器624或行為資料庫服務伺服器626可自客戶端概況服務伺服器640存取指定表示特定使用者之行為信號之行為類型之使用者額外情景資訊。在一實例中，客戶端概況服務伺服器640有助於捕獲及儲存特定行為類型之行為定義，其隨後可由諸如行為處理服務提供者伺服器620及行為解譯器伺服器622之多個服務存取，以使得使用者不需要提供獨立姿勢樣本至每一獨立伺服器。

行為處理服務提供者伺服器620及行為解譯器伺服器622將諸如預測行為紀錄420之預測行為紀錄經由網路502串流化至行為啟用之應用程式。在實例實施例中，客戶端系統606包括為行為啟用之文件控制系統之文件控制系統610，其使客戶端系統606能夠基於行為紀錄及其他資料在單一應用程式中或遍及多個應用程式確定及控制文件。客戶端系統606處之文件控制系統610可接收來自客戶端系統606之如由影像捕獲系統608所捕獲之預測行為紀錄，或可接收基於由其他影像捕獲系統所偵測之影像及資料之預測行為紀錄。

另外，在實例實施例中，客戶端服務提供者伺服器612包括為行為啟用之文件控制服務之文件控制系統614，其使客戶端服務提供者伺服器612能夠基於多個預訂者之行為紀錄來控制文件。特定而言，客戶端服務提供者伺服器612表示向一或多個預訂客戶端系統或預訂使用者提供文件控制服務之伺服器。文件控制系統614可接收與特定使用者、特定影像捕獲系統、特定客戶端系統、特定環境或其他關聯相關之行為紀錄且確定及輸出用於文件控制之控制信號至一或多個客戶端系統。另外，文件控制系統614可接收行為紀錄，基於行為紀錄確定所需文件控制，且執行所需文件控制。

現在參考圖7，方塊圖說明與行為啟用之文件控制系統通信之行為處理系統之實施之一實例。文件控制系統700接收來自行為處理系統100之諸如預測行為紀錄420之預測行為紀錄。基於預測行為紀錄，文件控制系統700指定用於控制諸如文件724之特定文件或用於控制多個文件之文件控制信號722。在一實例中，文件控制信號可指定插入至文件中之元素或應用於文件之函式。

在實例中，文件元素控制器702接收預測行為紀錄420且基於行為轉譯資料庫704將行為轉譯至文件控制系統722中。在實例中，行為轉譯資料庫706包括用於將來自預測行為紀錄420之行為類型706及最小機率708轉譯成待應用於文件之文件元素710或函式712的多個項。

特定而言，文件元素710可表示文字或圖形元素。另外，文件元素710可指定使用者執行之行為或可指定自使用者執行之行為所轉譯之文字或圖形元素。舉例而言，若使用者舉起食指，則文件元素710可視行為轉譯為行為之文字指示符還是轉譯為行為含義之指示符(諸如表示數目"一"或表示某人等待之請求)而包括"使用者舉起食指"之文字陳述、手舉起食指之圖形元素、"一"之文字陳述，或"等待"之文字陳述。

函式712可表示應用於整個文件、文件一部分，或文件內之特定元素之函式。函式712之實例可包括(但不限於)指定文字格式(諸如改變文字至粗體、斜體或加刪除線)、工具應用(諸如拼寫檢查或追蹤文件變化)，或應用程式之其他特定函式。

另外，重要的是，應注意，行為類型可轉譯為一或多個文件元素及函式元素。在一實例中，使用者可在會議期間指向多個人，其中指向諸人觸發函式元素712(其請求電子郵件應用程式存取所指向之彼等人之電子郵件位址)且觸發文件元素710(其用以插入電子郵件位址，如cc：電子郵件訊息之收件人)。在另一實例中，預測行為紀錄可指定指向X射線或其他顯示文件之行為且指定所指向之文件內之位置。函式元素712可請求用於在所指向之文件中之位置處產生註釋框之函式。文件元素710可指定加入註釋框之文字或圖形指示符，其包括(但不限於)與指向文件相關而偵測到之任何話音所轉譯之文字、指向使用者之文字指示符及時間戳記，或其他行為類型之其他文字或圖形指示符。

在一實例中，文件控制系統700為控制文件724之特定應用程式之功能組件。在另一實例中，文件控制系統700與特定應用程式分離地實施且將文件控制信號722作為輸入傳輸到控制文件724之應用程式。

另外，文件控制系統700包括文件偏好應用程式設計介面(API)714。在一實例中，文件偏好API 714啟用使用者可經由其以選擇預測行為類型是否應轉譯為文件元素或函式之介面。在另一實例中，文件偏好API 714使應用程式能夠指定應用程式應用用於插入文件元素之文件控制信號還是僅應用用於將函式應用於文件之文件控制信號。另外，文件偏好API 714使應用程式能夠指定轉譯為文件元素之類型選擇及轉譯為函式之行為類型選擇。

現在參看圖8，方塊圖說明管理多個應用程式之文件控制信號之文件控制系統之一實例。在實例中，文件控制系統700包括轉譯偏好學習控制器802。如將進一步描述，轉譯偏好學習控制器802有助於使用者可經由其針對每一獨立應用程式選擇轉譯行為類型之規則以便儲存在行為轉譯資料庫704中之介面。在一實例中，轉譯規則針對特定應用程式識別符804將具有正確預測之最小機率708之行為類型706轉譯成特定文件元素710或所識別應用程式之函式712。另外，轉譯行為類型中之因素亦可包括使用者環境806，其可包括特定使用者環境或一或多個應用模式。

在一實例中，若使用者觀看幻燈片展示應用程式且使用者環境指定使用者以工程建立模式觀看幻燈片展示以便產生展示文件之圖框，則行為轉譯資料庫704內之指定供轉譯之針對此環境之行為類型不同於使用者在應用程式展示模式之使用者環境中觀看幻燈片展示之情況下之行為類型。在一實例中，使用者可指定特定行為類型，以使得在使用者環境為展示模式時，彼特定行為類型轉譯為觸發應用程式前進到展示文件中之下一個圖框的函式。在另一實例中，使用者可指定經選擇之行為類型，若在使用者環境為展示模式時作出，則該行為類型應觸發展示應用程式插入行為類型之文字或圖形指示符於展示之圖框內或於展示之紀錄內。在一實例中，展示之紀錄可包括圖框之紀錄，包括與如所顯示之圖框相關之轉譯為文字之話音紀錄及與如所顯示之圖框相關之行為類型之文字或圖形指示符。

另外，文件控制系統700包括應用程式狀態偵測器810，其偵測可由使用者存取之當前作用應用程式之狀態。應用程式狀態偵測器810將諸如應用程式狀態紀錄814及816之應用程式狀態紀錄記錄在應用程式狀態時間戳記日誌812中。在實例中，應用程式狀態紀錄814及816包括應用程式之識別符(ID)、應用程式內打開之至少一文件及在應用程式選為作用應用程式時之時間戳記。藉由記錄應用程式作用及文件在應用程式內打開時之時間戳記，文件元素控制器702可更準確將預測行為紀錄420之時間戳記範圍映射至在偵測到行為時作用之應用程式或應用程式系列及文件。

在一實例中，文件元素控制器702接收具有匹配應用程式狀態紀錄816之時間戳記之預測行為紀錄720。基於行為轉譯資料庫704中之項，文件元素控制器702將具有"80%"之機率及"坐"之環境之"手指展開"預測行為類型轉譯成"將字系列之格式設定為有粗體圓點之列表格式"之函式。在實例中，文件元素控制器702藉由用以執行對於應用程式識別符"字處理器"及文件"展示C"執行"將字序列之格式設定為有粗體圓點之列表格式"之函式之指令產生文件控制信號820。在實例中，文件控制信號820之函式元素包括函式之描述，然而函式元素亦可包括按鍵命令、函式調用或特定地調用應用程式以執行特定函式之其他指示。

現在參考圖9，方塊圖說明行為轉譯資料庫中之項之實例。在實例中，項根據各項所指派之應用程式來顯示。特定而言，項904、906、908及910可應用於所有應用程式，項912、914及916可應用於網頁編輯應用程式，且項920、922及924可應用於電子郵件應用程式。應瞭解，行為轉譯資料庫704可包括可應用於一或多個如所描述之應用程式之項，且可包括可應用於所描述應用程式之額外或替代應用程式之項。

第一行可應用於所有應用程式項中，項904指定對於具有90%之最小機率之"緊緊地握手在一起"之行為類型，應對於一或多個文件觸發"段落重排"函式。在下一個實例中，項906指定對於具有95%之最小機率之"按圓圈旋轉手"之行為類型，則應對於一或多個文件觸發"拼寫檢查"函式。項908指定對於具有95%之最小機率之"空中引用"行為類型，應在文件中插入"引號"作為文件元素。另外，項910指定對於具有90%之最小機率之"左手曲線用力揮擊"之行為類型，應在文件中插入"左括號"作為文件元素。應瞭解，額外或替代類型項可應用於所有應用程式。另外，應瞭解，雖然項可應用於一個以上應用程式，項可包括用於實際上觸發每一應用程式中之函式的多個獨立函式調用。

在下一行可應用於網頁編輯應用程式中之項中，項912 指定對於具有95%之最小機率之"指向頭部"及"舉起若干手指"之一系列行為，應添加以手指數目編號之標題級別元素作為文件元素。舉例而言，若使用者舉起三個手指，則"<h3></h3>"之級別引用應添加至文件。在下一個實例中，項914指定對於具有70%之最小機率之"使手指循環動作"及"舉起若干手指"之一系列行為，應添加以基於1至舉起之手指數目之循環元素作為文件元素。舉例而言，若使用者快速展示10個手指兩次，則循環元素為"for (1; x<20; x++;)"。特定而言，項912及914說明使用者可指定表示產生通常由程式設計者使用之程式碼元素、方程式或模組的行為信號之行為。

在接著的項選擇中，項916及920經指定用於不同應用程式且包括相同行為類型，但觸發不同類型之函式。特定而言，項916指定對於具有95%之最小機率之"伴以3-5吋反跳重擊拳頭於桌上一次"之行為，應觸發網頁編輯程式之"瀏覽器檢查"函式。在實例中，反跳範圍指示拳頭在打擊桌之後向上移動之預期範圍。項920指定對於相同行為，但在電子郵件應用程式之情景內，應觸發電子郵件應用程式插入電子簽名之文件元素。在實例中，儘管重擊拳頭之相同行為觸發不同應用程式中之不同函式，但是兩種函式表示通常在使用者結束草稿時執行之函式。舉例而言，在使用者準備檢查經編碼HTML將如何出現在瀏覽器窗口時使用者觸發瀏覽器檢查函式，且在使用者準備結束電子郵件編寫時使用者觸發電子簽名函式。在其他實施例中，使用者可選擇具有輕微變化之相同行為類型(諸如伴以較小或較大反跳範圍之重擊拳頭)以便可觸發同一應用程式中之不同函式或不同應用程式中之不同函式。

另外，在實例中，項922及924說明觸發應用程式以執行函式且插入文件元素之行為類型。在實例中，項922指定對於具有75%之最小機率之"以兩個手指指向另一人"之行為，觸發"找到所識別人之電子郵件位址"之函式且觸發"插入作為第一收件人之電子郵件位址"之文件元素。項924區分對於"以一個手指指向另一人"之行為，則觸發如項922中之相同函式，但文件元素需要"插入作為副本收件人之電子郵件位址"，其中電子郵件應用程式允許使用者將發電子郵件定址至一或多個第一接受者及一或多個副本(cc)接受者。重要的是，應注意，在預測行為紀錄轉譯為函式及文件元素時，文件控制系統700可發送具有函式及文件元素之文件控制信號，或文件控制系統700可發送第一函式請求且隨後基於第一函式之結果，發送插入文件元素之文件控制信號。

現在參考圖10，方塊圖說明插入文件元素至文件中，其中文件元素為行為類型之文字指示符。在實例中，文件控制系統700接收對於"泰特(Tate)"之使用者識別符(ID)具有"舉起一個手指"之行為類型、90%之機率及"11:21:25-11:21:28"之時間範圍的預測行為紀錄1010。文件控制系統700基於行為轉譯資料庫704中之一或多個項確定將預測行為紀錄1010轉譯成文件控制信號1012，其中文件控制信號 1012係在時間戳記11:21:25時對於如"泰特"之使用者識別符插入"舉起一個手指"之文件元素。

在實例中，預測行為紀錄1010在網路會議之情景內。轉錄控制器1002接收在網路會議期間輸入之視頻、音訊及文字網路會議流。行為處理系統100亦可存取網路會議流1004且自網路會議流產生預測行為紀錄1010。在另一實例中，行為處理系統100可捕獲與網路會議流1004無關的使用者之影像流且自所捕獲影像流產生預測行為紀錄1010。

特定而言，在實例中，轉錄控制器1002將來自所有網路會議參與者之網路會議流1004轉錄至轉錄本1014中。另外，轉錄控制器1002接收來自一或多個文件控制系統之文件控制信號(諸如來自文件控制系統700之文件控制信號1012)且將文件控制信號中指定之文件元素插入至轉錄本1014中。在實例中，轉錄控制器1002回應於文件控制信號1012而插入項1016。

現在參看圖11，高階邏輯流程圖描述行為處理系統以一百分比機率預測行為類型的方法及程式。在實例中，過程在步驟1100處開始，且其後進行至步驟1102。步驟1102描述在聚焦區域內經由立體影像裝置捕獲多個影像流且經由感測器捕獲感測器資料。隨後，步驟1104說明追蹤影像及感測器資料內之物件。其後，步驟1106描述產生所追蹤物件之三維物件特性流。其後，步驟1108描述將所追蹤物件中之每一者之三維物件特性聚集。特定而言，所聚集之三維物件特性表示與至少一所監控人相關的表示至少一所監控人之行為的一或多個所追蹤物件。隨後步驟1110說明自所聚集之三維物件特性流、自以一百分比機率與所聚集之三維物件特性流匹配之一或多個行為定義來預測至少一行為類型。其後，步驟1112描述在預測行為紀錄中將每一預測行為類型及其他元資料(諸如機率百分比、映射位置、使用者識別符及時間戳記)傳輸至至少一行為啟用之文件控制系統，且過程結束。

現在參見圖12，高階邏輯流程圖描述三維物件偵測器藉由追蹤影像流及其他感測資料內之物件且產生表示行為之所追蹤物件之三維物件特性來執行行為偵測的方法及程式。如所說明，過程在步驟1200處開始，且其後進行至步驟1202。步驟1202描述物件偵測器系統經由影像捕獲裝置接收多個影像流及經由一或多個感測器接收感測資料。隨後，步驟1204說明物件偵測器系統將元資料附加至影像圖框及感測資料，且該過程轉到步驟1206。在一實例中，元資料包括諸如(但不限於)相機識別符、圖框編號、時間戮記及像素計數之資料。

步驟1206描述物件偵測器系統處理每一影像流及感測資料以偵測且追蹤物件，其中物件可包括實體物件及指示行為之使用者移動。隨後，步驟1208說明自每一影像流產生具有元資料之所追蹤物件特性之流。其後，步驟1210描述組合所追蹤物件特性以產生具有元資料之三維物件特性。隨後，步驟1212說明傳輸三維所追蹤物件特性至行為解譯器系統，且該過程結束。

現在參看圖13，高階邏輯流程圖描述行為解譯器系統根據所追蹤三維物件特性執行行為預測之方法及程式。在實例中，過程在步驟1300處開始，且其後進行至步驟1302。步驟1302描述行為解譯器系統是否接收三維物件特性之確定。當行為解譯器系統接收三維物件特性時，則過程轉到步驟1304。步驟1304描述存取一系列觸發控制文件之可應用行為定義，且過程轉到步驟1306。

步驟1306說明行為解譯器系統比較所追蹤物件之三維物件特性與可應用行為定義。隨後，步驟1308描述行為解譯器系統識別最接近地匹配一或多個組之三維物件特性的至少一行為定義。其後，步驟1310說明計算三維物件特性匹配所識別行為定義之百分比機率。接著，步驟1312描述指定所識別行為信號類型之至少一屬性，其包括(但不限於)使用者識別符、環境、應用程式或文件。接著，步驟1314描述將具有預測行為類型、百分比機率、行為信號類型屬性、時間戳記及其他元資料之預測行為紀錄傳輸至一或多個行為啟用之文件控制系統，且過程結束。

現在參考圖14，高階邏輯流程圖描述將預測行為紀錄應用於行為啟用之文件控制系統中之方法及程式。如所說明，過程在步驟1400處開始且其後轉到步驟1402。步驟1402描述行為啟用之文件控制系統是否接收預測行為紀錄之確定。當文件控制系統接收預測行為紀錄時，則過程轉到步驟1404。步驟1404說明存取行為轉譯資料庫內之可應用於預測行為類型、相關應用程式及其他因素之一或多個項。接著，步驟1406描述將預測行為紀錄轉譯成一或多個文件控制信號以便進行引導文件元素插入至文件中及觸發對文件執行應用程式函式之中之一或多者。其後，步驟1408說明控制文件控制信號輸出至所選擇應用程式控制器，且過程結束。

雖然本發明已參考較佳實施例得以特定地展示及描述，熟習此項技術者將瞭解，在不偏離本發明之精神及範疇的情況下可作出各種形式及細節上之變化。

100‧‧‧行為處理系統

102‧‧‧可偵測行為移動

104‧‧‧三維物件偵測器

106‧‧‧行為解譯器

108‧‧‧預測行為輸出

110‧‧‧三維物件特性

112‧‧‧定義資料庫

122‧‧‧物件資料庫

200‧‧‧可偵測移動環境

202‧‧‧影像捕獲裝置

204‧‧‧影像捕獲裝置

206‧‧‧第一捕獲平面

208‧‧‧第二捕獲平面

210‧‧‧手

212‧‧‧箱

214‧‧‧移動

216‧‧‧移動

220‧‧‧三維聚焦區域

240‧‧‧感測器

242‧‧‧感測器區域

308‧‧‧影像捕獲伺服器

310‧‧‧影像捕獲伺服器

312‧‧‧感測器伺服器

316‧‧‧視訊處理器

318‧‧‧視訊處理器

319‧‧‧感測器處理器

320‧‧‧幾何處理器

402‧‧‧三維特性紀錄

404‧‧‧行為解譯器控制器

412‧‧‧一般行為定義

414‧‧‧環境特定行為定義

416‧‧‧應用程式特定定義

418‧‧‧使用者特定行為定義

420‧‧‧行為紀錄

500‧‧‧電腦系統

502‧‧‧網路

512‧‧‧處理器

514‧‧‧隨機存取記憶體

516‧‧‧唯讀記憶體

518‧‧‧大容量儲存裝置

520‧‧‧輸出裝置

522‧‧‧匯流排

524‧‧‧輸入裝置

526‧‧‧I/O介面

532‧‧‧通信介面

534‧‧‧網路鏈路

540‧‧‧伺服器

560‧‧‧作業系統

570‧‧‧應用軟體

600‧‧‧分散式網路環境

602‧‧‧客戶端系統

604‧‧‧影像捕獲系統

606‧‧‧客戶端系統

608‧‧‧影像捕獲系統

610‧‧‧文件控制系統

612‧‧‧客戶端服務提供者伺服器

614‧‧‧文件控制系統

620‧‧‧行為處理服務提供者伺服器

622‧‧‧行為解譯器伺服器

624‧‧‧三維物件偵測器伺服器

626‧‧‧行為資料庫服務伺服器

630‧‧‧行為學習控制器

640‧‧‧客戶端概況服務伺服器

700‧‧‧文件控制系統

702‧‧‧文件元素控制器

704‧‧‧行為轉譯資料庫

706‧‧‧行為類型

708‧‧‧最小機率

710‧‧‧文件元素

712‧‧‧函式

714‧‧‧文件偏好應用應用程式設計介面

722‧‧‧文件控制信號

724‧‧‧文件

802‧‧‧轉譯偏好學習控制器

804‧‧‧應用程式識別符

806‧‧‧使用者環境

810‧‧‧應用程式狀態偵測器

812‧‧‧應用程式狀態時間戳記日誌

814‧‧‧應用程式狀態紀錄

816‧‧‧應用程式狀態紀錄

820‧‧‧文件控制信號

904‧‧‧項

906‧‧‧項

908‧‧‧項

910‧‧‧項

912‧‧‧項

914‧‧‧項

916‧‧‧項

920‧‧‧項

922‧‧‧項

924‧‧‧項

1002‧‧‧轉錄控制器

1004‧‧‧網路會議流

1010‧‧‧預測行為紀錄

1012‧‧‧文件控制信號

1014‧‧‧轉錄本

1016‧‧‧項

圖1為說明行為處理方法、系統及程式產品中之資訊流之方塊圖；圖2為描述三維物件偵測器捕獲及產生表示所捕獲行為移動之三維物件特性之環境之實例的說明性方塊圖；圖3為說明產生三維物件特性之三維物件偵測器系統之一實施例之方塊圖，該等三維物件特性使行為解譯器能夠自三維物件特性解譯所監控使用者之行為及此等行為是否表示觸發對於文件之控制之行為信號；圖4為描述行為解譯器系統之一實施例之方塊圖；圖5為說明可實施本發明之計算系統之一實施例之方塊圖；圖6為描述可實施行為啟用之文件控制方法、系統及程式之分散式網路環境之一實例的方塊圖；圖7為說明與行為啟用之文件控制系統通信之行為處理系統之實施之一實例的方塊圖；圖8為描述管理多個應用程式之文件控制信號之文件控制系統之一實例的方塊圖；圖9為說明行為轉譯資料庫中之項之實例的說明圖；圖10為描述插入文件元素至文件中之一實例的說明圖，其中文件元素為行為類型之文字指示符；圖11為說明行為處理系統以一百分比機率預測行為類型之方法及程式的高階邏輯流程圖；圖12為描述三維物件偵測器藉由追蹤影像流及其他感測資料內之物件及產生表示行為之所追蹤物件之三維物件特性來執行行為偵測之方法及程式的高階邏輯流程圖；圖13為說明行為解譯器系統根據所追蹤三維物件特性執行行為預測之方法及程式的高階邏輯流程圖；及圖14為描述將預測行為紀錄應用於行為啟用之文件控制系統中之方法及程式的高階邏輯流程圖。