TW201423485A - 用於裝置組配、互動及控制之統一架構、與相關聯方法、裝置及系統 - Google Patents

用於裝置組配、互動及控制之統一架構、與相關聯方法、裝置及系統 Download PDF

Info

Publication number
TW201423485A
TW201423485A TW102141732A TW102141732A TW201423485A TW 201423485 A TW201423485 A TW 201423485A TW 102141732 A TW102141732 A TW 102141732A TW 102141732 A TW102141732 A TW 102141732A TW 201423485 A TW201423485 A TW 201423485A
Authority
TW
Taiwan
Prior art keywords
user
information
mechanisms
devices
corpus
Prior art date
Application number
TW102141732A
Other languages
English (en)
Inventor
Duncan Lamb
Kenneth P Jacobsen
John Anthony Evans
Thomas Andrea Moltoni
Felice Mancino
Aron Rosenberg
John M Long
Original Assignee
Wyoming West Llc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Wyoming West Llc filed Critical Wyoming West Llc
Publication of TW201423485A publication Critical patent/TW201423485A/zh

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/16Sound input; Sound output
    • G06F3/167Audio in a user interface, e.g. using voice commands for navigating, audio feedback

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Multimedia (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • General Health & Medical Sciences (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • User Interface Of Digital Computer (AREA)

Abstract

一操作一裝置之方法包括:緩衝來自該裝置周圍之一環境之感測器資訊作為緩衝感測器資訊;偵測該環境中之一人員之一凝視;基於偵測到之該凝視,起始對包括該緩衝感測器資訊之某一感測器資訊之辨識;該辨識判定包括該緩衝感測器資訊之該感測器資訊中的至少一指令;以及基於該至少一指令而操作該裝置。

Description

用於裝置組配、互動及控制之統一架構、與相關聯方法、裝置及系統 版權說明
本專利文件含有受版權保護之材料。版權所有者不反對對本專利文件或美國專利及商標局之檔案中之任何相關材料之複製,但無論如何保留所有版權。
相關申請案
本申請案主張2012年11月16日申請的題為「用於裝置組配、互動及控制之統一架構、與相關聯方法、裝置及系統(Unified Framework For Device Configuration,Interaction And Control,And Associated Methods,Devices And Systems)」之美國臨時專利申請案第61/727,217號之優先權,該兩者之全部內容係以引用方式完全併入本文中以用於所有目的。
發明領域
本發明係關於用於裝置組配、互動及控制之統一架構,且係關於相關方法、裝置及系統。
發明背景
基於電腦之裝置(詳言之,消費型基於電腦之裝 置)無處不在。此等裝置通常係彼此獨立地設計及製造,且就此等裝置可彼此互動或利用而言,此等裝置傾向於試著使用特用或標準化技術來彼此互動或利用。結果,消費者常常被迫針對其得到之裝置或當消費者試著將不同裝置一起使用時、甚至當同一供應商製造裝置時執行複雜設置程序。即使對於單一獨立之裝置而言,設置程序亦通常係複雜的。一些公司已試著簡化其本身裝置之使用,但未簡化其他公司之裝置。
需要提供一種裝置可在其內容易地佈建、組配並 同化之系統/架構且此係本發明之一目的。
更需要提供一種不同類型之裝置與不同使用者 可在其內互動之系統/架構且此係本發明之一目的。
更需要提供一種裝置可在其內支援彼此及與共 同架構之互動之核心系統且此係本發明之一目的。
依據本發明之一實施例,係特地提出一種裝置,其包含:(A)支援該裝置之裝置特定功能性的第一機制;以及(B)支援對該等第一機制之控制的第二機制,該等第二機制包括:(B)(1)感測器,經組配以獲得關於該裝置及/或該裝置周圍之一環境之物理性質及環境性質的資訊;(B)(2)控制機制;以及(B)(3)人性化介面機制,經組配以自該等感測器之至少一些獲得感測器輸入、基於該感測器輸入而判定感測器資訊且將該感測器資訊提供至該等控制機制,(C) 其中該等控制機制經組配以(C)(i)基於來自該等人性化介面機制之該感測器資訊而判定控制資訊,且(C)(ii)將該控制資訊之至少一些提供至該等第一機制,且(D)其中該等第一機制經組配且經調適以自該等控制機制獲得該控制資訊且至少部分地根據自該等控制機制獲得之該控制資訊而操作,且(E)其中該等感測器包括:(E)(1)一或多個攝影機,經組配以自該裝置周圍之該環境獲得影像資訊且將該影像資訊提供至該等人性化介面機制,以及(E)(2)一或多個麥克風,經組配以自該裝置周圍之該環境獲得聲音資訊且將該聲音資訊提供至該等人性化介面機制,且(F)其中該等人性化介面機制包含:(F)(1)語音機制,經組配以辨識該聲音資訊中之語音且將關於該聲音資訊中之經辨識語音的資訊作為語音資訊提供至該等控制機制,其中該等控制機制基於該語音資訊而判定該控制資訊;以及(F)(2)臉部機制,經組配以偵測該影像資訊中之臉部資訊及/或凝視資訊;其中該等語音機制(F)(1)經組配以基於藉由該等面部機制偵測之資訊而起始語音辨識。
100‧‧‧系統
101‧‧‧網路
102、102-n、102-1、102-2、102-3、102-A、102-B‧‧‧裝置
104‧‧‧後端系統
106‧‧‧憑證授權單位(CA)
108‧‧‧授權裝置製造商
110‧‧‧使用者
112‧‧‧後端應用程式
114‧‧‧資料庫
116‧‧‧社交網路服務
118‧‧‧內容提供者
120‧‧‧實體/新增功能性
122‧‧‧雜項外部組件
124‧‧‧裝置憑證授權單元
126‧‧‧使用者憑證授權單位(CA)
128‧‧‧裝置資料庫
130‧‧‧使用者資料庫
132‧‧‧支援使用者特定功能性之機制
134‧‧‧系統機制/資料
138‧‧‧感測器
142、142-A、142-B‧‧‧通訊機制
146‧‧‧電腦系統
150‧‧‧裝置之憑證
152‧‧‧自我啟動/佈建機制
154‧‧‧操作機制
155‧‧‧操作機制之儲存器
156‧‧‧裝置至裝置互動機制
169‧‧‧裝置至裝置儲存器
157‧‧‧電力系統
158‧‧‧命令及/或控制機制
159‧‧‧命令及/或控制儲存器
160‧‧‧裝置至後端機制
161‧‧‧裝置至後端儲存器
162‧‧‧介面機制
163‧‧‧介面機制之儲存器
164‧‧‧其他機制
165‧‧‧其他機制之儲存器
166‧‧‧示意動作機制
167‧‧‧示意動作儲存器
168‧‧‧示意動作偵測機制
170‧‧‧示意動作辨識機制
172、172'‧‧‧示意動作語料庫/裝置憑證產生器
174‧‧‧使用者之裝置/話語/語音機制
175‧‧‧使用者憑證/話音/語音儲存器
176‧‧‧地點/話語/語音偵測機制
178‧‧‧話語/語音辨識機制
180‧‧‧話語/語音語料庫/組配資訊
182‧‧‧臉部/凝視機制
183‧‧‧臉部/凝視儲存器
184‧‧‧臉部/凝視偵測機制
186‧‧‧臉部/凝視辨識機制
187‧‧‧臉部移動偵測機制
188‧‧‧臉部/凝視語料庫
190‧‧‧其他介面機制
191‧‧‧其他介面機制儲存器
192‧‧‧其他介面語料庫
194-A‧‧‧活動信號(HB)機制
S402~S451‧‧‧步驟
500‧‧‧電腦系統
502‧‧‧匯流排
504‧‧‧處理器
506‧‧‧主記憶體
508‧‧‧唯讀記憶體
510‧‧‧抽取式儲存媒體
512‧‧‧大容量儲存器
514‧‧‧通訊埠
516‧‧‧顯示幕
518‧‧‧輸入裝置
520‧‧‧輸入/輸出(I/O)埠
522-1‧‧‧應用程式
522-2‧‧‧程序
524-1‧‧‧後端應用程式
524-2‧‧‧後端程序
526-1‧‧‧裝置應用程式
526-2‧‧‧裝置程序
S601~S666‧‧‧步驟
700、700-A‧‧‧活動訊號信號
S702~S764‧‧‧步驟
800、800-A、800-B、800-C、800-D、800-E‧‧‧聲音呈現裝置
832‧‧‧支援使用者特定功能性之組件
838‧‧‧感測器
860‧‧‧揚聲器驅動程式
862‧‧‧信號處理器
864‧‧‧處理器
866‧‧‧記憶體/儲存器
868‧‧‧控制項
870‧‧‧攝影機
872‧‧‧麥克風
在參看隨附圖式考慮以下描述及附加之申請專利範圍後,本發明之其他目的、特徵及特性以及結構之有關元件之操作方法及功能與零件與製造經濟之組合將變得更顯而易見,所有前述各者形成本說明書之一部分,且其中:圖1根據實施例描繪用於例示性系統之架構; 圖2根據實施例描繪圖1之架構內的使用者之裝置之組配之態樣;圖3A圖3C根據實施例描繪圖1之架構之資料庫之細節;圖4A圖4A-1圖4A-2圖4B圖4C根據實施例描繪用於圖1之架構內的典型裝置之態樣;圖4D圖4H根據實施例描繪系統內之語料庫之例示性組織;圖4I圖4N為根據實施例描繪圖1之架構內的裝置之例示性操作的流程圖;圖5A圖5E描繪其上可實施且進行本發明之實施例的典型電腦系統之態樣;圖6A圖6I根據實施例展示圖1之架構內的裝置佈建及組配之例示性態樣;圖7A圖7J根據實施例展示裝置與圖1之架構的互動之態樣;圖8A圖8D根據實施例展示用於聲音呈現之例示性特定裝置之態樣;且圖9A圖9C根據實施例展示聲音呈現裝置之間的合作之態樣。
較佳實施例之詳細說明
本文中使用「 M 」一詞作為用於被描述之系統、裝置、程序、互動等之名稱。應瞭解,此名稱僅用以幫助 描述,且無論如何不欲限制系統之範疇。
圖1描繪用於例示性 M 系統100之架構/系統, 其中使用多個具備 M 功能之裝置(102-1102-2、……、102-n -共同稱為102)。具備 M 功能之裝置(或 M 裝置)102可為任何裝置及任何種類之裝置,且可為獨立裝置或整合至任何種類之裝置或系統中或與任何種類之裝置或系統組合。舉例而言,具備 M 功能之裝置102可為(但不限於)獲取及/或建立內容(包括數位或類比內容)之裝置、產生及/或呈現內容(亦包括數位及/或類比內容)之裝置。具備 M 功能之裝置可為(例如)攝影機、揚聲器、電腦、電話、機上盒、電視、器具等(或可併入於前述各者中)。亦可考慮此等裝置之組合,例如,包括攝影機及揚聲器及電視監視器及電腦之機上盒可為一或多個具備 M 功能之裝置。應瞭解,此處針對裝置102給出的實例僅係例示性的且無論如何不欲為限制性。將在下文較詳細地描述具備 M 功能之裝置(或 M 裝置)102
系統100較佳包括或有權使用一或多個憑證授 權單位(CA)106,該一或多個CA可為公開金鑰基礎結構(PKI)方案(未圖示)中之憑證授權單位的較大集合或階層之部分。各CA 106為發佈用於或代表系統100之數位憑證的實體。
具備 M 功能之裝置102較佳(至少部分地)藉由一 或多個授權裝置製造商108來製造。應瞭解,圖1中之該等裝置102可為藉由不同製造商製造的不同類型之裝置。
具備M功能之裝置102可彼此以及與後端系統 104互動。應瞭解,不同類型之裝置可彼此互動(例如,以行動電話體現之 M 裝置可與以揚聲器體現之另一 M 裝置互動)。
具備 M 功能之裝置102係各自與使用者110相關聯。特別使用者110可具有與之相關聯的多個裝置102。在一些實施例中,各裝置102可與僅一個使用者110相關聯。應瞭解,「使用者」一詞為系統100內之內部實體且用以定義系統100內之裝置之間的繫結。可認為使用者110係在系統100內具有特定關係之實體。彼實體可對應於個人或一群人或任何其他種類之實體(例如,公司、學校、俱樂部等)。在一較佳實施中,使用者110係已向系統註冊之實體。特別人員(或實體)可對應於一個以上使用者110。舉例而言,個人可選擇在系統100內具有兩個使用者110
後端104包含一或多個後端應用程式112,該一或多個後端應用程式中之至少一些與儲存並維持關於裝置102及使用者110之資訊的一或多個資料庫114互動。後端104亦可與各種其他實體互動,其他實體包括社交網路服務116(諸如,Facebook、LinkedIn及其類似者)及內容提供者118(諸如,RDIO、Pandora、Spotify及其類似者)。應瞭解,雖然社交網路服務116經展示為與內容提供者118分離,但此等實體之間可存在某一重疊。後端104可與可將新增功能性提供至使用者110(或至裝置102)之實體120互動。新增功能性可包括(例如)話音或指令辨識功能性、臉部辨識 及其類似者。後端104亦可與其他雜項外部組件122互動。
新增功能性可提供或增強或改良提供於一些或 所有裝置102上之功能性,或提供除提供於裝置上之功能性外的功能性。新增功能性120可用以(例如)提供超出裝置120之硬體能力的功能性。因此,舉例而言,且如下文將較詳細解釋,新增功能性120可提供超出提供於特別裝置102上之功能性(或超出使用特別裝置102之硬體可能實現之功能性)的話音辨識。實際上,新增功能性120可至少部分地用以擴充任何特別的具備 M 功能之裝置102之功能性。
應瞭解,藉由實體該等120提供的功能性之一些或全部可整合至後端104中(或整合至後端應用程式112中。)
亦應瞭解,圖式中的組件之分離並不暗示所有權或管理或控制(或其缺乏)。因此,例如,不要求CA 104係由操作後端104之同一實體所有或操作。類似地,不要求社交網路服務116及/或內容提供者118及/或提供新增功能性120之實體可單獨所有並操作(或前述各者可共同擁有並操作)。系統100之一些或全部可整合至社交網路服務116及/或內容提供者118中。
系統與組件之互動
各種互動可在系統100中在各種組件之間發生。此等互動係藉由圖1中之編號的弧或線(表示為115)來展示。在圖1中所描繪之系統100中:
#1 係指兩個裝置102之間的互動。
#2 係指裝置製造商108與裝置102之間的互動。
#3 係指CA 106與裝置102之間的互動。
#4 係指CA 106與使用者110之間的互動。
#5 係指使用者110與後端104之間的互動。
#6 係指CA 106與後端104之間的互動。
#7 係指裝置102與後端104之間的互動。
#8 係指後端與資料庫114之間的互動。
#9 係指後端與社交網路服務116之間的互動。
#10 係指後端與內容提供者118之間的互動。
#11 係指後端104與提供新增功能性之實體120之間的互動。
#12 係指後端104與其他雜項外部組件122之間的互動。
#13 係指裝置製造商108與後端104之間的互動。
#14 係指裝置102與使用者110之間的互動。
#15 係指CA 106與裝置製造商108之間的互動。
此處所描述之各種互動可使用任何已知方法及協定發生,且可為有線的、無線的或其任何組合。一些互動可至少部分地經由網路101(例如,基於封包之網路,諸如網際網路)發生。網路101可為公用網路或私人網路或其某一組合。網路可包括一或多個蜂巢式及/或衛星組件。應瞭解,各種組件藉以互動之通訊媒體或協定並不限制該系統。
後端104與各種其他組件或實體(例如,CA 106、社交網路服務116、內容提供者118、裝置製造商108、提供新增功能性之實體120,及其他雜項外部組件122)之間的互動可利用彼等組件或實體之應用程式介面(API)或其他介面。在一些實施例中,後端104可與其他組件之一些或全部整合。應瞭解,後端藉以與任何其他組件通訊之方式無論如何不欲為系統100之限制,且在本文中考慮通訊之不同模式及方式。此外,後端104與任何其他組件之間的整合成俗(或其缺乏)無論如何不欲為系統100之限制,且在本文中考慮不同模式、方式及整合程度。
雖然,如上所述,各種互動及通訊可使用任何已 知方法及協定發生,但裝置間互動(圖1中之弧#1)較佳使用最快且最廉價之通訊技術一在可用時通常係區域的(例如,藍芽及其類似者,或區域網路上之Wi-Fi),且較佳避免經由其他網路之通訊。
熟習此項技術者在閱讀此描述後將認識及理 解,不同及/或其他互動在該系統中係可能的,且並不由於自圖式省略而被排除。因此,應瞭解,各種實體可具有其他互動(圖式中未示),且此等並非系統100之所有實施必須支援圖式中所展示之所有互動。
使用者ID
各使用者110在系統100內必須具有至少一唯一使用者身分識別(ID)。使用者之使用者ID可基於或來源於該使用者之社交網路ID(例如,使用者之Facebook ID)。參看圖2,使用者之使用者ID可以藉由CA 106發佈之使用 者憑證175之形式確證。CA 106可包括一或多個裝置CA 124(展示於圖6B中)及一或多個使用者CA 126(展示於圖2中),儘管應理解,裝置CA 124及使用者CA 126可為相同實體。若CA 106包括使用者CA 126,則使用者之使用者憑證175較佳係在註冊程序或其類似者期間藉由後端提供。
使用者憑證175可在用於此等憑證及使用者識別資訊之地點176中儲存於使用者之裝置174(例如,智慧型手機、具備 M 技術之智慧型裝置或其類似者)中。
使用者之朋友
在系統100內,使用者110可具有系統100中之一或多個朋友。系統100內的使用者之朋友係第一使用者經由系統100已與之建立關係的另一使用者110。可以各種方式來建立關係,例如,藉由與彼此之裝置102共用或互動。使用者可建立與該使用者之朋友的權限。該等權限可視(例如)相關聯於使用者之裝置102之類型而定且在朋友之間可不同。
使用者在系統100內的與另一使用者之「朋友」關係可具有(例如)藉由權限判定之有限範疇。友誼之範疇可用以限制友誼之各種態樣,例如,系統內的朋友關係之之持續時間、系統內的朋友之權利等。
使用者在系統100內的朋友可區別於使用者之社交網路朋友(例如,使用者之Facebook朋友),儘管可存在重疊。舉例而言,若使用者之使用者ID係基於或來源於 該使用者之社交網路ID(例如,使用者之Fackbook ID),但使用者之社交網路朋友可與使用者在系統100中的朋友重疊。
應瞭解,系統無論如何不受使用者可藉以與其他 使用者建立「朋友」關係之方式限制。亦應瞭解,朋友之系統概念不必承載與系統100外的實際友誼或其他關係的任何相關,且系統內之朋友關係係用以形成系統100內之關聯及繫結。
裝置ID
各裝置102具有在系統100內必須唯一之裝置身分識別(ID)。下文將較詳細地論述裝置ID之建立及儲存。
資料庫
參看圖3A,後端104包括(多個)後端應用程式112,其包括與一或多個資料庫114互動之一或多個應用程式。資料庫114包括分別儲存並維持關於裝置102及使用者110之資訊的裝置資料庫128及使用者資料庫130
該等資料庫可使用任何種類之資料庫技術,且此處未描述或不需要特別資料庫實施例,且應瞭解,系統100無論如何不受資料庫實施限制。在一些情況下,資料庫實施之一些或全部可使用第三方資料庫。亦應瞭解,使用者資料庫及裝置資料庫128130可係整合式的或由多個可能之不同分散式資料庫組成。
裝置資料庫128
圖3A圖3B所示,資料庫114可(在裝置 資料庫128中)維持關於系統100內之各裝置102的資訊,包括關於裝置之所有者(使用者110)、裝置之能力、裝置之歷史及其他資訊(諸如,裝置最後已知地點、裝置之製造商等)的資訊。較佳地,使用裝置ID作為進入裝置資料庫128中之密鑰(或索引)。裝置102在製造後,其沒有所有者(除非在製造時特定地佈建)。裝置之能力可包括其類型(例如,揚聲器等)。應瞭解,此處「擁有」及「所有者」等詞未被用於暗示或需要使用者對裝置之所有權之任何法律概念,且該等詞係指系統100內的裝置102與使用者110之間的關聯或繫結。
裝置資料庫128可包括用於各裝置之裝置語料 庫。如下文將較詳細解釋,裝置之語料庫可對應於儲存於器件上之語料庫,且可由裝置或由裝置之使用者使用。
使用者資料庫130
較佳地,使用者ID起至使用者資料庫130之主要資料庫密鑰的作用。使用者資料庫130較佳將特定資訊與各使用者110關聯,特定資訊包括以下各者中之一或多者(參看圖3C):
描述關於使用者之資訊的使用者設定檔。使用者設定檔可連結至使用者之社交網路資料或自使用者之社交網路資料(例如,自使用者之Facebook設定檔)獲得資訊。使用者設定檔亦可含有關於使用者所相關聯(亦即,具有相關賬戶)之內容提供者(諸如,RDIO等)之資訊。
使用者之裝置102,及視情況,關於彼等裝置之資 訊(例如,裝置之能力)。熟習此項技術者在閱讀此描述後將認識及理解,使用者資料庫130中之某一資訊可自裝置資料庫128獲得,反之亦然。舉例而言,若使用者資料庫130儲存用於各使用者之裝置的裝置識別符,則彼等裝置識別符可用以自裝置資料庫128獲得用於對應裝置之裝置特定資訊。
使用者在系統100內之「朋友」,及可能的相關聯於彼等朋友之權限。在較佳實施中,使用者在系統內之「朋友」係其他使用者110,使得關於各使用者之朋友的資訊可作為零或多個使用者ID之清單而儲存於使用者資料庫130中。使用者可能夠針對各朋友設定定製權限。在一些實施例中,使用者可能夠定義或使用朋友之類別或群組或類型且基於分類或群組或類型而指派權限。以此方式,使用者可能夠利用一範本或其類似者而針對一或多個使用者快速地設定或改變權限。應瞭解,系統不受使用者藉以選擇朋友或針對使用者之朋友設定權限的方式限制。使用者亦可移除作為朋友的其他使用者。
使用者之歷史,較佳根據以下各者之一或多個來儲存或可搜尋:裝置102、朋友(亦即,使用一或多個裝置或朋友作為對歷史之搜尋的密鑰)及時間。裝置歷史可係關於使用者之裝置之各者的帶時間戳記事件之一序列。舉例而言,若特別裝置102為揚聲器,則該裝置之歷史可為經由該揚聲器播放的內容之帶時間戳記清單。使用者的關於朋友之歷史可包括使用者之裝置與使用者朋友之裝置互動 (或由使用者朋友之裝置使用)(及/或反之亦然)所處的時間及地點。此處針對多個種類之可搜尋之歷史細節給出的實例無論如何不欲限制此描述之範疇,且熟習此項技術者在閱讀此描述後將認識及理解,可使用不同及/或其他資訊及/或因數來搜尋使用者之歷史。
使用者之ID及憑證(包括藉由使用者CA 126發佈之使用者ID及憑證)。
有關於各種裝置介面機制之使用者語料庫(在下文予以較詳細描述)。使用者語料庫較佳包括本端語料庫及擴充語料庫。如下文將較詳細解釋,使用者之本端語料庫可對應於一或多個裝置上的使用者之語料庫,且在受使用者控制時可由裝置使用者。使用者之擴充語料庫可延伸超出一些或全部裝置102之容量,且對應於可由新增功能性120使用的使用者之語料庫。
組配資訊,較佳包括關於使用者之裝置的組配細節及可用以組配其他(例如,新)裝置之資訊。組配資訊可含有關於使用者在各種地點中之無線網路設定的資訊,包括裝置連接至彼等網路可能需要之密碼及其他資訊。
熟習此項技術者在閱讀此描述後將認識及理解,不同及/或其他資訊、關聯及關係可儲存於裝置資料庫及使用者資料庫128130中。
裝置
各裝置102具有與之相關聯的特定使用者特殊功能性/組件。舉例而言,若裝置102係揚聲器(或攝影機或 手機或其類似者),則使用者特定功能性/組配將包括用以將裝置操作為揚聲器(或相機或電話等)來操作的功能性/組件。現參看圖4A,裝置102包括支援裝置之使用者特定功能性/組件之機制132
如本文中所使用,「機制」一詞意味獨立的或與軟體組合之硬體,且包括韌體。
裝置102亦包括用以支援並實施系統100內之功能性的各種 M 系統機制/資料134。系統機制/資料134可與裝置之使用者特定功能性132互動(在136),儘管系統機制/資料134較佳不同於使用者特定功能性132
裝置102較佳包括可由系統機制134使用以實施系統功能性之態樣的一或多個感測器138。如本文中所使用,感測器意味可偵測及/或量測物理性質或刺激(例如,熱、光、聲音、壓力、磁力、運動、觸碰、電容)之任何機制或裝置。感測器較佳提供其偵測/量測之性質或刺激之指示(例如,作為電信號)。感測器亦可能夠記錄、指示或以其他方式回應其偵測/量測之物理性質或刺激。感測器可以硬體、軟體或其組合來實施。感測器可作為獨立裝置或晶片而提供或可整合至其他裝置(或感測器)或晶片中。該等特定感測器138可至少部分地使用特殊化晶片或電路或其類似者來實施。熟習此項技術者在閱讀此描述後將認識及理解,系統無論如何不受藉以實施或整合感測器之方式限制。亦應理解,特別感測器可偵測及/或兩側一種以上的物理性質或刺激。
參看圖4A-1,該等感測器138可包括(例如)一或 多個攝影機、麥克風、運動感測器(外部運動及/或裝置運動)、加速計、一羅盤、地點定位系統(location positioning system,LPS)及其類似者。如本文中所使用,LPS通常係指可用以判定裝置之地點之任何地點定位系統,且包括美國之全球定位系統(GPS)及俄羅斯全球導航衛星系統(GLONASS)、歐盟伽利略定位系統、中國北斗星導航系統及印度地區導航衛星系統。LPS亦包括可提供位置資料之Wi-Fi及/或蜂巢式電話系統,以及(例如)使用Wi-Fi及/或蜂巢式電話系統的輔助及擴充之定位系統。雖然可將僅一個攝影機用於臉部及示意動作處理,但若需要,一個以上攝影機允許三維(3D)處理。
該等感測器138可經由針對各感測器提供之標 準介面而與系統機制134互動(在140)。應瞭解,並非每一個裝置102必須具有各種感測器138,且不同種類或裝置(或同一種類之裝置之不同實施)可具有不同感測器或種類之感測器。
裝置102較佳包括可由系統機制134使用(在144) 以實施系統功能性之態樣的一或多個通訊機制142。參看圖4A-2,通訊機制142可包括(例如)以下各者中之一或多者:用於區域通訊之機制(例如,藍芽,包括藍芽低功耗(BLE)、ZigBee等)、用於Wi-Fi通訊之機制(例如,802.11等)、用於蜂巢式通訊之機制(例如,使用蜂巢式電話網路之數據機或其他裝置等);及用於有線通訊之機制(例如,乙太網路或 其類似者)。通訊機制142可以協定特定晶片或其類似者來實施。應瞭解,並非每一個裝置102必須具有各種通訊機制142,且不同種類或裝置(或同一種類之裝置之不同實施)可具有不同感測器或種類之通訊機制。然而,至少地,各裝置102應能夠在至少一些時間以某一方式與後端104通訊(圖1中之弧#7)(藉由蜂巢式/電話網路、藉由Wi-Fi、藉由線抑或以某一其他方式)。又,較佳地,各裝置102具有允許其在至少一些時間與系統100中之其他裝置102通訊的至少一通訊機制。各裝置亦包括用於其各種通訊機制之所需/適當連接器及/或天線。此等連接器及/或天線可併入至各種通訊機制中,尤其當通訊機制係以特殊化晶片或電路提供時。
系統機制134(包括任何所需感測器138)可整合 至裝置102中以作為單獨板或晶片組,或該等系統機制可與用以實施使用者特定功能性的裝置之機制共用組件(如藉由連接該等部分之橢圓形點劃線所示)。舉例而言,若使用者特定功能性需要一麥克風,則彼麥克風可作為感測器138而與系統機制134共用(或由系統機制134使用)。類似地,通訊機制之至少一些可在系統機制134與使用者特定功能性132之間共用(如藉由連接該等部分之橢圓形點劃線所示)。然而,應瞭解,系統機制134、感測器及通訊機制142必須能夠操作且獨立於裝置特定機制而受控制,且在一些實施中,此需求可超越或防止組件之共用。
裝置102可包括電腦系統146(在下文予以較詳 細描述)。電腦系統146可與系統機制134互動(在148)且可實施彼等機制之態樣。雖然在圖4A中經展示為單獨組件,但應瞭解,電腦系統146之一些或全部可與系統機制/資料134之部分共用(如藉由連接該等部分之橢圓形點劃線所示)。類似地,電腦系統146之至少一些可與裝置102之使用者特定功能性132重疊(如藉由連接該等部分之橢圓形點劃線所示)。
裝置之裝置身分識別(ID)及其他身分識別以及憑證資訊可儲存於系統機制/資料134中(在150)。
各裝置102較佳包括自我啟動/佈建機制152及各種操作機制154(兩者將在下文予以較詳細描述)。各種操作機制154具有裝置上之對應操作儲存器155。操作儲存器155可儲存由各種操作機制使用之資料,且可用於持續及/或暫時儲存。熟習此項技術者在閱讀此描述後將認識及理解,操作儲存器155之一些或全部可與裝置上之其他儲存器整合,且操作儲存器155在圖中經展示為單獨組件以幫助此描述。
各裝置102包括可為裝置(包括系統機制134、電腦系統146、感測器138、通訊142及裝置特定功能性132)供電之至少一電力系統157。電力系統157可包括用於該等組件之一些或全部之單獨系統,且可包括獨立的或與外部電源供應器結合的電池電源供應器。較佳地,系統機制可具有與裝置特定功能性分離之電源供應器(例如,電池)。當使用外部電源供應器(例如,經由配接器之A/C電源)時, 系統之所有組件應使用外部電源,即使該等組件具有單獨內部電力系統以供在未連接至外部源時使用。然而,應瞭解,系統不受藉以將電力供應至該等組件之方式限制。
操作機制
參看圖4A圖4C,裝置之操作機制154可包括以下機制之一些或全部:
支援裝置至裝置互動及通訊(此對應於圖1中藉由弧#1展示之互動)之機制156。該等裝置至裝置互動機制156具有且可使用對應裝置至裝置儲存器169(圖4C)。
用於裝置102之命令及/或控制之機制158。該等命令及/或控制機制158具有且可使用對應命令及/或控制儲存器159(圖4C)。
支援裝置至後端互動及通訊(此對應於圖1中藉由弧#7展示之互動)之機制160。該等裝置至後端機制160具有且可使用對應裝置至後端儲存器161(圖4C)。
用以操作系統100內之裝置且支援與裝置之其他機制及功能性之互動(較佳包括與人的互動)的介面機制162。該等介面機制162具有且可使用對應介面機制之儲存器163(圖4C)。
用以操作系統100內之裝置的其他操作機制164,該等操作機制可具有且使用對應儲存器165(圖4C)。
該等介面機制162可包括以下各者中之一或多者:
○示意動作機制166,該等機制可由操作機制154使 用以實施利用使用者之示意動作(例如,示意動作命令及其類似者)之操作及/或功能特徵。示意動作機制166可具有且使用示意動作儲存器167。示意動作機制166較佳包括一或多個示意動作偵測機制168及一或多個示意動作辨識機制170,且示意動作儲存器167較佳包括相關聯示意動作語料庫172以供各種示意動作機制使用。示意動作語料庫(corpus/corpora)係指可由示意動作機制使用以偵測及/或辨識示意動作的示意動作或示意動作樣本之集合。在較佳系統中,示意動作偵測機制168及/或示意動作辨識機制170可受訓練且經調適以偵測及/或辨識一或多個人員(其可為使用者)之示意動作,且相關聯示意動作語料庫可基於此訓練進行修改。示意動作機制166可使用包括(例如)攝影機感測器之一或多個感測器138
○話音/語音機制174,該等機制可由操作機制154使用以實施利用人類(例如,使用者之)話音(例如,用於話音命令及其類似者)之操作及/或功能特徵。話音/語音機制174可具有且使用話音/語音儲存器175。話音/語音機制174較佳包括一或多個話音/語音偵測機制176及/或話音/語音辨識機制178,且話音/語音儲存器175較佳包括相關聯語料庫180以供各種話音/語音機制使用。話音/語音語料庫係指可由話音/語音機制使用以偵測及/或辨識話音/語音之詞或片語樣本之集合。在較佳系統中,該等話音/語音辨識機制可受訓練且經調適以辨識一或多個人員(例如,使用者)之話音/語音,且相關聯語音語料庫可基於此訓練進行修改。該 等話音/語音機制174可使用包括(例如)麥克風感測器之一或多個感測器138
○臉部/凝視機制182,該等機制可由操作機制154使用以實施利用人員之臉部及/或凝視之操作及/或功能特徵。臉部/凝視機制182可使用臉部/凝視儲存器183。該(該等)臉部/凝視機制182可包括臉部/凝視偵測機制184及/或臉部/凝視辨識機制186及/或臉部移動偵測機制187,且臉部/凝視儲存器183較佳包括相關聯臉部/凝視語料庫188以供臉部/凝視辨識/偵測機制182使用。臉部/凝視語料庫係指可由臉部/凝視機制使用以偵測及/或辨識臉部及/或凝視之臉部及/或凝視樣本之集合。在較佳系統中,該等臉部/凝視辨識/偵測機制182可受訓練且經調適以辨識一或多個臉部,且相關聯臉部/凝視語料庫182可基於此訓練進行修改。該(該等)臉部移動偵測機制187可偵測臉部之部分之移動(例如,嘴、眼睛等之移動),且可用以(例如)試著確定人員正在說話。臉部/凝視機制182可使用包括(例如)攝影機感測器之感測器138
○其他介面機制190,該等機制可由操作機制154使用以實施利用其他類型之使用者互動(例如,觸碰、鍵入、裝置移動等)之操作及/或功能特徵。其他介面機制190可使用其他介面機制儲存器191。該(該等)其他介面機制190可使用感測器138
儘管上文提及用於語音、示意動作及臉部/凝視辨識/偵測之語料庫,但熟習此項技術者在閱讀此描述後將 認識及理解,其他機制(尤其是介面機制162)可具有相關聯語料庫且亦可基於裝置在其中(或在系統100外)具有之互動而學習並調適,該等互動包括與人之互動、與其他裝置102之互動、與後端104之互動及與使用者110之互動。一般而言,用於一特別介面機制之語料庫係指可由該特別凝視機制使用以起作用並執行之樣本之集合。因此,例如,如圖4C所示,其他介面機制190可包括相關聯語料庫192
除非另有說明,否則如本文中所使用,詞「語料 庫」係指單數形式及/或複數形式之語料庫。因此,例如,當一裝置經描述為具有用於某一特徵之語料庫時,此應被理解為該裝置具有用於該特徵之至少一語料庫,或該裝置具有用於該特徵之單一語料庫或用於該特徵之多個語料庫。
在一些較佳實施例中,使用者可訓練其裝置辨識 特定片語及/或示意動作型樣。可使用(且需要)此等特徵標記片語/示意動作型樣中之一或多者(例如)以觸發用於裝置之命令之一些或全部。應瞭解,裝置可在無任何特定使用者介入或請求的情況下學習(且因此受訓練),且較佳地,各裝置在未經特定請求以進行辨識的情況下學習辨識使用者互動。
裝置102亦較佳包括活動訊號(HB)機制194(在 下文予以較詳細描述)。該(該等)HB機制可與包括該(該等)裝置至裝置機制156及該(該等)裝置至後端機制158的其他操作機制154互動。
熟習此項技術者在閱讀此描述後將認識及理 解,一特別裝置可使用該等介面機制162中之一些。亦應瞭解,如下文將較詳細描述,可組合地使用各種介面機制162
較佳地,裝置102上之各操作機制154能夠在無 任何外部互動(亦即,無與任何裝置102或後端104之互動)的情況下在裝置上操作。然而,應瞭解,各種操作機制154可操作或使用(例如)經由後端104或一或多個其他裝置102提供之新增功能性120(或藉由新增功能性120增強)。因此,例如,各種話音/語音機制174可在無任何外部互動的情況下使用時支援話音命令及其類似者之有限使用。此等話音命令可受(例如)各種機制之能力及裝置之容量(諸如,記憶體及計算容量)限制。系統100在藉由新增功能性120增強後可將擴充之話音命令及互動提供至裝置。有限的區域話音/語音互動可在儲存於裝置上之話音/語音儲存器175中之話音/語音語料庫180中反映出來。在話音互動之情況下,例如,裝置102可具有其可辨識且可用以控制裝置之態樣的詞之有限語料庫(例如,作為話音/語音語料庫180而儲存於話音/語音儲存器175中)。使用新增功能性120提供對可能大得多的語料庫以及剖析較複雜指令/查詢之能力的裝置存取。舉例而言,若裝置102係揚聲器,則裝置102上之語料庫以及話音/語音機制174可支援諸如「較大聲地播放」、「較溫和地播放」等的命令/指令,而藉由新增功能性120提供之外部語料庫可支援諸如「播放昨晚聽 過的歌曲」的較複雜指令。此後一請求在文法上更複雜(因此可能需要比裝置可提供之能力更強的語音辨識能力),且亦可需要對(例如,資料庫114中之)外部資料之存取。
該等介面機制162可具備或包括使該等介面機 制能夠知道裝置之使用者及彼等使用者如何與裝置互動之學習機制。舉例而言,話音/語音機制174可學習辨識特別人(較佳包括對應於相關聯於裝置之使用者110之人員)之話音。
較佳地,裝置最初以用於其各種介面機制162 之一般語料庫來組配。當裝置之介面機制162學習時,該等介面機制可更新各種語料庫以反映已學了什麼。舉例而言,當裝置學習辨識特別人之話音時,該裝置可更新用於該人員之話音/語音語料庫。較佳地,裝置保持最初一般語料庫之複本,及/或原始語料庫可保存在不同於裝置之某一地點中(例如,「雲端」中)。
裝置可具有用於不同使用者或人員之不同語料 庫。然而,應瞭解,由於各裝置係與一使用者相關聯,故較佳地,一裝置上之各介面機制具有與該使用者相關聯之至少一語料庫。使用該裝置之其他人員可具有與該裝置相關聯之特有語料庫。
監視互動
圖4I所示,裝置102監視可能互動(在S402)。該裝置可連續地監視(在S402)或該裝置可在特定時間及/或在特定條件下監視。此監視較佳使用裝置感測器138(例 如,裝置攝影機、麥克風等)中之一或多者。為了避免遺漏某一互動,該裝置較佳緩衝或儲存可能互動(在S404)。此等緩衝之互動可以任何已知且適當之方式來儲存以供各種介面機制162後續使用(若需要)。舉例而言,藉由裝置麥克風偵測之聲音可以適合於供話音/語音機制174後續使用(若需要)之方式緩衝。類似地,藉由裝置攝影機偵測之外部移動可以適合於供裝置之示意動作機制166後續使用(若需要)之方式緩衝,且藉由裝置偵測之影像可以適合於供裝置臉部/凝視機制182及/或其他機制190使用(若需要)之方式儲存。應瞭解及理解,對於每一個裝置或每一個類型之裝置而言,並非所有感測器輸入均可緩衝。然而,亦應瞭解,緩衝感測器資訊可允許一裝置提供經由其各種介面機制162之較準確互動,因為該裝置可能夠重建構一互動,即使該裝置在一互動已開始後的某一時間才認識到該互動正在發生。
熟習此項技術者在閱讀此描述後將認識及理 解,所緩衝的資訊之量(在S404)視資訊之種類(例如,話音、影像、移動歷史等)而定。類似地,熟習此項技術者在閱讀此描述後將認識及理解,不同資訊可緩衝歷時不同時間段。舉例而言,藉由裝置麥克風偵測之聲音可緩衝歷時30秒,而藉由攝影機偵測之影像可緩衝歷時15秒。緩衝可使用任何技術,例如,循環或環繞式緩衝,且系統不受所使用的緩衝之種類或緩衝之實施限制。不同緩衝技術可用於不同種類之資訊。裝置102應具有足夠記憶體以儲存所需 量之緩衝資訊。
在已緩衝可能互動(在S404)後,裝置試著判定可 能(緩衝)之互動是否為一實際互動(在S406)。若裝置判定可能之互動係(或可為)一實際互動(在S406),則裝置可繼續(在S408)處理該實際互動。該實際互動之處理(在S408)可使用上文參看圖4I所描述之語料庫選擇程序。
是否存在(或可能存在)由裝置進行之實際互動 之判定(在S406)可利用一或多個觸發程序。舉例而言,若某人開始給予一裝置話音命令,則該裝置可能不知道其偵測之聲音對應於彼等話音命令。然而,若該人在說話(使用凝視偵測可偵測)之同時亦看著該裝置,則該裝置可與偵測到語音組合而信賴該偵測到凝視,以作為用以處理實際互動之觸發程序。
裝置102可在大量不同種類之環境中操作,且環 境因素及相關聯雜訊可影響互動偵測及處理。如此處所使用,相對於任何種類之資訊或信號而言,「雜訊」一詞係指可使資訊或信號之處理降級(例如,可使信號中之資訊之對應偵測及/或辨識降級)的資訊及/或信號。舉例而言,空調或風扇之背景聲音可干擾話音/語音辨識或使之降級;或不斷閃動之光可干擾臉部或示意動作機制或使之降級。因此,裝置在處理之前試著過濾或移除雜訊係有用的。就此而言,其他機制164可包括一或多個雜訊移除過濾/清理機制以自藉由各種感測器偵測之輸入移除雜訊。一個此機制係聲音雜訊消除,其自藉由裝置麥克風偵測(並緩衝)之聲音 移除(例如,來自空調及風扇之)周圍聲音。可使用不同及或其他雜訊移除過濾器,且此等過濾機制可適應並自裝置所處之環境學習。
在使用過濾/清理機制之情況下,較佳地,過濾/清理所有緩衝資訊。
圖4J中之流程圖描述裝置102可用以判定互動是否正在發生(在S406圖4I)的例示性程序。回憶,在偵測到實際互動且需要感測器輸出之情況下,監視各種感測器138(在S402圖4I)且緩衝感測器之輸出(在S404圖4I)。將來自各種感測器138之輸出提供(直接地或經由緩衝器)至各種介面機制162,該等介面機制之各者嘗試判定互動是否正在發生。舉例而言,示意動作偵測機制168試著判定(在S410)其經由攝影機感測器偵測之任何移動是否對應於一示意動作。臉部/凝視偵測機制184試著判定(在S412)其經由攝影機感測器偵測之任何影像是否對應於至少一臉部。話音/語音偵測機制176試著判定(在S414)其經由麥克風感測器偵測之任何聲音是否對應一語音。其他機制190試著判定(在S416)其經由感測器138偵測之內容(例如,觸碰、移動、其他使用者裝置之接近)是否對應於與該裝置之一互動。該(該等)使用者偵測機制試著偵測(在S418)一使用者是否正與該裝置互動。
若偵測到一臉部(或一個以上臉部)(在S412),則可使用凝視偵測機制(在S420)來判定偵測到臉部是否正看著該裝置,且可使用臉部移動偵測機制187來判定(在S422) 偵測到臉部是否正以對應於一示意動作及/或語音之一方式移動。
亦可單獨或與臉部/凝視偵測機制184組合地使 用臉部移動偵測機制187以判定任何偵測到臉部是否正以對應於語音及/或示意動作之方式移動。
該等各種互動偵測機制可同時操作(如圖4J中所 描繪之流程圖中所示),儘管該等機制中之一些(例如,凝視偵測及臉部移動偵測)可視其機制之判定而定。
在一些實施中,各種偵測機制可產生反映其偵測決策之布林值(真或假)。在彼等情況下,藉由彼等值之邏輯或來判定關於是否已偵測到一互動之最終判定。舉例而言,若存在N個偵測機制,且第i個偵測機制產生布林值b i ,則可使用下式來計算關於是否已偵測到一互動之最終判定:偵測到之互動=或b i ,i=1...N (1)
在此實施中,任何真值(亦即,藉由任何偵測機制之任何偵測)將導致一互動正在發生之判定。參看圖4J中之流程圖,任何機制產生之任何「是」值將導致一互動正在發生之肯定判定。
應瞭解,圖4J之流程圖中之線上的標記「是」表示藉由各別機制之各者作出的該等機制很可能已偵測到某一特徵(例如,示意動作、臉部、語音等)之決策或判定。類似地,該流程圖中之線上的標記「否」表示藉由各別機制之各者作出的該等機制很可能未偵測到某一特徵(例 如,示意動作、臉部、語音等)之決策或判定。因此應瞭解,此等線上之各種標記不應解釋為意味一特徵正發生或不發生,若非以某一程度之確定性偵測到或未偵測到該特徵。因此,熟習此項技術者在閱讀此描述後將認識及理解,可將圖4J中之流程線上之「是」標記理解為「可能」或「大概」或「不太可能不」,且可將該圖中之流程線上之「否」標記理解為「可能不」。因此,值偵測到之互動(使用上文之方程式1判定)在為真時應解釋為意味「很可能為真」或「比假更真」,且在為「假」時應解釋為意味「很可能為假」。
裝置可使用互動偵測之機率性質。因此,在一些實施中,各偵測機制可產生反映偵測結果之確定性程度之一值或數字(例如,0.0至1.0之實數,其中0.0意味未偵測到互動且1.0意味確定偵測到互動,或0至100之整數,其中0意味無互動且100意味確定之互動)。在彼等情況下,至少部分地使用依據藉由各種偵測機制產生之值判定之分數來判定關於是否已偵測到一互動之最終判定。舉例而言,若存在N個偵測機制,且第i個偵測機制產生在範圍0.01.0中之實值r i ,且第i個偵測機制之分數具有權重w i ,則互動分數=F(ri,wi,i=1..N) (2)
(針對某一函數F)。應瞭解,式2中之權重w i 使得互動分數 1.0。可(例如)藉由比較互動分數(例如,如方程式2中所判定)與統計或動態臨限值來判定值偵測到之互動。舉例而言, 偵測到互動=互動分數>臨限值(T) (3)
在一些實施中,函數F(式2)可產生藉由各種偵測機制產生之值的加權和或平均值,其中視(例如)該等預測機制之已知或感覺或歷史準確度而定,將不同權重給予不同偵測機制。舉例而言,若存在N個偵測機制,且第i個偵測機制產生在範圍0.01.0中之實值r i ,且第i個偵測機制之分數具有權重w i ,則可使用下式來計算關於是否已偵測到一互動之最終判定:互動分數 i=1..N r i w i (2')
如上所述(參考式2),權重w i 使得互動分數 1.0
雖然在此實例中使用加權和,但熟習此項技術者在閱讀此描述後將認識及理解,可使用不同及/或其他函數來判定一互動是否正在發生。舉例而言,如下文之式2"所展示,可使用加權平均分數來判定互動分數:
圖4K中所描繪之流程圖展示一實施中之偵測互動步驟(S406'),其中各偵測機制產生一分數(例如,在範圍0.01.0中之實值R i ),且至少部分地依據彼等分數(例如,依據上文之方程式22')來判定關於是否偵測到一互動之最終判定。在此實例中,示意動作偵測機制168試著判定(在S410')其經由攝影機感測器偵測之任何移動是否對應於一示意動作,且產生指示此判定之一分數(R 1 [0..1])。臉部/凝視偵測機制184試著判定(在S412')其經由攝影機感測 器偵測之任何影像是否對應於至少一臉部,且產生指示此判定之一分數(R 2 [0..1])。話音/語音偵測機制176試著判定(在S414')其經由麥克風感測器偵測之任何聲音是否對應於一語音,且產生指示此判定之一分數(R 3 [0..1])。其他介面機制190試著判定(在S416)其經由感測器138偵測之內容(例如,觸碰、移動、其他使用者裝置之接近)是否對應於與該裝置之一互動,且產生指示此等判定之一分數(R 4 [0..1])。該(該等)使用者偵測機制試著偵測(在S418')一使用者是否正與該裝置互動,且產生指示其判定之一分數(R 7 [0..1])。
如在先前實例(圖4J)中,若偵測到臉部(在S412'),則可使用凝視偵測機制(在S420')來判定偵測到之臉部是否正看著裝置。在此情況下,凝視偵測機制(若使用)產生指示其判定之一分數(R 5 [0..1])。類似地,臉部移動偵測機制187可用以:判定(在S422')偵測到之臉部是否以對應於示意動作及/或語音之方式正在移動,且產生表示其判定之一分數((R 6 [0..1]))。關於是否起始或使用凝視偵測及/臉部移動偵測機制之決策可基於(例如)藉由臉部偵測機制(在S412')產生之分數(R 2 ),其中預定臨限值(在圖4K中表示為T G T M )可用以起始凝視及/或臉部移動偵測。此等臨限值(T G T M )之值可相同。該等臨限值可係預設且固定的,或該等值可基於(例如)系統知道其偵測成功之資訊而為動態的。
如上所述,各偵測機制可具有與之相關聯的對應 偵測權重。舉例而言,如下表中所概述:
系統較佳產生(在S407)對應於藉由各種偵測機制之各者產生之最近分數(在此實例實施中,R1..R7)之一執行中值。各偵測機制可具有與之相關聯的對應偵測權重,且可使用各種分數之加權函數(例如,使用上文之式22'2")來產生該執行中值。關於是否已偵測到一互動之決策可至少部分地基於此分數(在S407計算)與另一臨限值(在圖4K中之圖式中表示為TInteraction)之間的比較。臨限值TInteraction可係預設且固定的,或基於(例如)系統知道其偵測成功之資訊而為動態的。
各種互動偵測機制/程序可彼此並行且獨立地進行。然而,應瞭解,各種機制/程序在一些情況下可存取並使用藉由其他機制產生之分數。可使用此等其他機制之分數來(例如)觸發其他偵測(如在圖4K中之例示性情況中,其中使用在S412'藉由臉部偵測產生之分數(R2)作為用於凝視及臉部移動偵測之觸發程序)。
用於各種偵測機制之權重可基於裝置已自先前偵測知道之資訊而動態地變化。各權重係在0至用於max_weight之某一值的max_weight的範圍中之值。雖然只要分數臨限值(以上實例中之TInteraction)係相應地設定,可使 用任何值,但對此描述而言,假設max_weight為1.0。最初,可給予所有機制相同權重(例如,max_weight),且接著可基於彼等機制之準確度或有用性來調整指定給特定機制之權重。舉例而言,在變暗之房間中,可給予示意動作及臉部偵測機制減小之權重,或在嘈雜之房間(其中裝置不能充分篩選出雜訊)中,可給予語音偵測機制減小之權重。一旦房間中之光改變或房間中之雜訊減少,即可上升調整對應機制之權重。另外,由於裝置學習其先前決策,故可調整權重。
應理解,具有可能互動之假肯定偵測通常優於遺 漏實際互動。若裝置未提供對互動之足夠(例如,接近即時之)回應,則使用者將停止使用該等互動且可能停止使用該裝置。因此,較佳地,權重應謹慎地設定為高且對應臨限值應謹慎地為低,以便偵測與裝置之可能互動。
偵測機制之各者消耗電力,且裝置對此等機制之 持續使用可使裝置使用過多電力。因此必須平衡對準確互動偵測之需要與節省裝置之電力之需要。然而,當裝置經連接至一外部電源時,不必將限制加諸於偵測機制之使用者。可使用用於各種機制之觸發程序來節省電力。舉例而言,可藉由一較簡單之聲音偵測機制(其消耗較少電力)來觸發語音偵測機制,且可藉由偵測藉由攝影機感測器獲取之影像之變化之一較簡單機制(其消耗較少電力)來觸發臉部及示意動作偵測機制。
在一些實施中,可使裝置處於一模式(例如,睡 眠模式或忽略模式)中,在該模式期間,該等裝置執行最少互動偵測。舉例而言,可基於當日時間、地點、使用者指令或某一其他因素而進入此模式。舉例而言,裝置可經設定而在工作日之午夜與7 AM之間執行最少互動偵測。在於擁擠或嘈雜地點中使用一裝置(例如,宴會中之揚聲器或繁忙機場中之電話)之一些情況下,該裝置可經設定而忽略特定互動或需要用於互動之觸發程序或確定。在一些情況下,可基於該裝置目前正在做的事而停用特定互動,例如,語音輸入可在一音樂播放裝置正在積極地播放音樂時停用,而在兩首音樂之間重新啟動。可藉由調整與偵測機制中之一些相關聯之權重來進行此種設定(例如,在舞會中將用於示意動作偵測之權重設定為極低)。設定用於一特別偵測機制之低權重將不使該機制停用,且因此,該機制將仍操作並消耗電力。此外,即使具有低權重值,一機制亦可偵測裝置可看作為一可能互動之一示意動作。在較佳實施中,可關閉或停用特定互動偵測機制,使得該等互動偵測機制不操作或不消耗任何電力。在一些情況下,可藉由將用於偵測機制之對應權重設定為零(0.0)來達成此操作。
在較佳實施中,各偵測機制在某一時間段(例 如,5秒至10秒)之後或在偵測到之互動已實際進行之後將偵測機制之分數重設為零(或假)。
檢查可能互動之進行中程序(例如,圖4I中之 S406)通常在不知道何人可能起始互動之情況下執行。因此,就此程序需要(或可獲益於)使用語料庫而言,裝置較佳 使用與裝置相關聯之使用者之語料庫來執行辨識程序。如下文將解釋,一旦偵測到一可能互動,裝置即可使用(或試著使用)不同語料庫來辨識及處理實際互動。
在偵測到可能互動(S406圖4I)後,裝置較佳維 持可繼續進行的互動之種類之指示。可藉由使判定可能互動之程序(S406圖4J圖4K)產生並提供資訊以供後續處理使用來達成此操作。在圖4J之布林實施之情況下,程序可設定位元向量,其對應於用以判定上文之式1中之偵測到之互動之值的值b i ,i=1...N。在圖4K中之實施中所使用之實值之情況下,程序可設定值之陣列或向量,其對應於藉由各偵測機制產生以供後續處理使用之分數。其他方法可用於裝置以維持關於可能互動之資訊,且系統不受藉以維持或傳達此資訊之方式限制。
儘管試著判定一互動是否正發生(在S406 4I),但裝置可能不知道(或不必知道)將哪些語料庫用於各種介面機制162。在較佳實施中,若互動偵測需要一語料庫,則裝置102使用相關聯於該裝置所相關聯之使用者110之語料庫。在一些情況下,裝置在此處理階段可使用其他語料庫(例如,一般語料庫或與其他授權使用者相關聯之語料庫)。
在偵測到一可能互動(S406圖4I)後,裝置進行 至處理該互動。實際互動之處理較佳使用介面機制162以及其他操作機制154來處理互動。為了處理一互動,裝置可能必須使用用於各種介面機制162之語料庫。因此,如 圖4L中之流程圖中所展示,裝置首先判定(在S409)將哪些語料庫用於各種介面機制。
可(例如)如圖4D圖4H中所示地組織(裝置上 及後端處)之語料庫,使得當裝置根據臉部、示意動作、話音或某一其他方式辨識一特別人時,可藉由對應機制來判定並使用與該人員相關聯之其他語料庫。舉例而言,若裝置首先辨識人員之臉,則裝置可(若需要)存取並使用與該人員相關聯之其他語料庫(圖4D)(或裝置可藉由使用者之智慧型裝置(例如,電話或平板電腦)進行關聯)。類似地,若裝置首先辨識人員之示意動作(圖4E)、話音/語音(圖4F)或該人員之某一其他態樣(圖4G),則裝置可(若需要)存取並使用與該人員相關聯之其他語料庫。另外,若裝置可判定正與其互動之使用者,則裝置可(若需要)存取用於該使用者之語料庫(圖4H)。應記住,在系統100內,「使用者」110係用以形成系統內之一或多個裝置的某一種類之關聯或繫結之概念。使用者110通常對應於人,然而,並非與裝置互動或嘗試與裝置互動之所有人都必需係系統100內之使用者。
圖4M中展示了用以選擇語料庫之例示性流程 (圖4L中之S409)。針對此例示性實施,假設裝置包括用於各種介面機制之至少一些一般語料庫。此等一般語料庫可在製造時或在後續佈建或組配期間包括於裝置中。為了實現此程序(選擇語料庫),裝置已偵測到某一種類之互動(在S406圖4I)。裝置可能已偵測到聲音、外部移動、觸碰、 裝置之移動等中之一或多者。此偵測可使用裝置感測器138之一些或全部,使得(例如)裝置麥克風可偵測聲音,裝置攝影機可偵測外部移動,裝置加速計可偵測裝置之移動,裝置觸控感測器可偵測裝置正被人或另一裝置觸碰,且裝置可偵測來自一使用者之互動,等。回憶,此時裝置可具有偵測到可能類型之互動之指示(例如,使用位元向量(用於實施圖4J))或分數值之向量(用於實施圖4K)。裝置可使用此資訊來試著判定是何種互動且將使用哪些語料庫。
視裝置偵測到之可能互動(在S406圖4JS406'圖4K)而定,裝置可接著判定(在S426圖4M)其是否可辨識特別使用者或人員。若裝置辨識使用者或人員,則(在S428圖4M)裝置選擇用於該使用者或人員之對應語料庫。另一方面,若裝置未辨識可能互動為對應於裝置已知的任何使用者或任何(在S426圖4M),則裝置選擇裝置之一般語料庫(在S430圖4M)。
視藉由裝置偵測之可能互動之類型(在S424)而 定,裝置將使用適當介面機制(在S426)以便試著辨識裝置已知的人員或使用者。若裝置具有為人員或使用者儲存之至少一語料庫,則認為該人員或使用者係裝置已知的。人員可基於與裝置之先前互動而為裝置所知,因為該人員係與裝置相關聯之使用者,或因為該人員係與相關聯於裝置之使用者(例如,其朋友)相關聯且已被給予在某些方面存取裝置之權限。在較佳實施中,與裝置相關聯之使用者應始終為裝置所知。
因此,例如,如圖4I所示,在偵測到某一互動 正在發生(在S424)後,裝置可使用示意動作偵測及辨識機制168170(在S432)來試著判定偵測到之示意動作是否對應於已知使用者/人員之示意動作。若裝置辨識該等示意動作(在S432)為已知使用者/人員之示意動作,則裝置選擇對應語料庫(在S434)。裝置可使用圖4E中所展示之映射來基於辨識出之示意動作而判定語料庫。
裝置亦可(或替代地)結合感測器138(例如,係攝 影機之感測器)使用臉部/凝視偵測機制184及辨識機制186(在S436)來試著判定互動是否係臉部為裝置或系統所知的使用者/人員之互動。若裝置判定一附近或可視臉部係裝置已知的(亦即,對應於裝置已知之使用者/人員),則裝置可基於該臉部而選擇對應語料庫(在S438)。裝置可使用圖4D中所展示之映射來基於辨識出之臉部而判定語料庫。
裝置亦可(或替代地)使用偵測到聲音(使用係麥 克風之感測器138)及話音/語音偵測機制176及辨識機制178來試著(在S440)判定偵測到語音是否係語音,且在偵測到語音係語音之情況下判定偵測到聲音是否對應於裝置已知的使用者/人員之語音。若判定(在S440)偵測到語音係裝置已知的人員/使用者之語音,則裝置可基於該語音而選擇適當語料庫(在S442)。裝置可使用圖4F中所展示之映射來基於辨識出之語音而判定語料庫。
裝置亦可(或替代地)使用某一(某些)其他介面機制190來辨識人員/使用者(在S444),在此情況下,裝置可 (在S446)基於(例如,使用)圖4G中所展示之映射來選擇用於該人員/使用者之適當對應語料庫。
裝置亦可(或替代地)辨識互動係關於已知使用 者(在S448),在此情況下,裝置可(在S450)基於(例如,使用)圖4H中所展示之映射來選擇用於該使用者之適當對應語料庫。
雖然圖4M展示各種辨識嘗試(在S426),但應瞭 解,並非所有此等步驟將在每一個裝置或類型之裝置中執行(或甚至可用)。此外,應瞭解,在一些裝置或一些類型之裝置中,該等步驟可並行地、串行地或以其某一組合來執行。在一些情況下,可使用多個測試以在選擇語料庫之前辨識及/或確定辨識(在S426中)。因此,例如,特別裝置或類型之裝置可首先使用臉部辨識,且接著只有當臉部辨識失敗時才使用某一其他技術。作為另一實例,特別裝置或類型之裝置可同時試著辨識臉部(在S412圖4JS412'圖4K)及使用者(在S418圖4JS418'圖4K)且接著視情況繼續進行其他辨識方法。
熟習此項技術者在閱讀此描述後將認識及理 解,系統不受藉以進行各種使用者/人員辨識步驟之方式或次序(包括同時、連續或其組合)限制,系統無論如何不受可用於或用以試著辨識使用者/人員之機制限制。
若使用一個以上辨識機制(在S426中),則裝置 需要能夠應對衝突。衝突可(例如)在一個機制識別一個使用者/人員且另一辨識機制識別一不同使用者/人員時發生。此 情況可在裝置不能夠判定關於與裝置互動之人員/使用者之足夠資訊時發生,且可能係因為裝置不具有關於該人員之足夠資訊及/或因為存在一個以上可能與裝置互動之人員。舉例而言,新裝置可能尚不具有關於其可能使用者之足夠資訊以作為準確辨識決策,使得不同機制可作出不同辨識決策。裝置有可能因為附近存在一個以上人員而混淆,使得裝置之感測器正自不同人拾取細節。舉例而言,若裝置之附近存在多個人,則裝置之麥克風可能正在拾取一個人員之話音,而裝置之攝影機正在拾取另一人員之臉部。
特別感測器能辨識一個以上人員亦係可能的。舉 例而言,裝置中之攝影機可辨識一個以上臉部或該等攝影機可找到多個臉部。
裝置102較佳具有至少一衝突解決策略。衝突解 決策略可為適應性的,因為裝置基於先前互動及辨識決策來學習。在一些情況下,裝置可使用辨識決策之加權函數,例如,將最大加權給予使用者辨識(在S448)、將較小加權給予臉部辨識(在S436)、將更小加權給予話音/語音辨識(在S440)等。熟習此項技術者在閱讀此描述後將認識及理解,可使用不同及/或其他函數,且可提供不同及/或其他衝突解決策略。舉例而言,衝突解決策略可為動態的、隨時間改變(例如,基於學習)。
除衝突解決策略外,裝置102亦可包括各種最佳 化以改良對判定人員是否正試著與裝置互動,且在人員試 著與裝置互動之情況下判定該人員的辨識。一個例示性最佳化係使用凝視偵測(使用臉部/凝視機制182)來判定某人是否實際上看著裝置。可使用凝視偵測來(例如)選擇一語料庫,作為用於其他辨識及互動之觸發程序,及/或作為衝突解決策略之部分。舉例而言,若裝置偵測聲音(使用裝置之麥克風),則裝置可能不知道該聲音是否對應於裝置之命令或查詢。若裝置亦可偵測某人正看著該裝置,則凝視(單獨地或與偵測到聲音一起)可用以觸發語音辨識。應瞭解,凝視偵測不需要或不依賴於臉部辨識。
作為額外最佳化,在一些實施中,裝置可使用臉 部移動偵測機制187來判定裝置(使用臉部/凝視偵測機制184)已偵測到之臉部是否以可用以確定(或拒絕)偵測之方式在移動。舉例而言,若系統找到多個臉部(使用臉部/凝視偵測機制184)且亦偵測語音(使用話音/語音機制174),則展示對應於語音之移動(例如,嘴正在動)的任何臉部係選擇之較佳候選者。應瞭解,臉部移動偵測機制187無需解譯語音,該等機制僅需偵測可對應於語音的嘴或下巴移動或某一其他種類之移動。
在一些實施中,臉部移動偵測機制187可用以偵 測臉部之其他部分(例如,眉毛、眼睛、下巴、嘴等)之移動以供示意動作機制166使用。臉部移動本身可為藉由裝置辨識之示意動作,或臉部移動可用以確定其他偵測到示意動作。
類似地,示意動作(如藉由示意動作機制166判 定)可單獨使用或用以確定其他偵測到資訊(例如,臉部、話音、移動等)。
熟習此項技術者在閱讀此描述後將認識及理 解,一般而言,各介面機制162可單獨地或與其他介面機制組合地使用。當一起使用時,各種介面機制可用以彼此確定及/或作為用於彼此之觸發程序。
應瞭解,並非所有裝置或種類之裝置必須具有全 部介面機制,且此等組織可能並非全部在所有裝置或種類之裝置上使用。另外,應瞭解,一些裝置可使用不同及/或其他技術來判定將使用哪些語料庫。
雖然將互動偵測(例如,圖4J中之S406圖4K 中之S406')及語料庫選擇(圖4L)展示為單獨程序,但熟習此項技術者在閱讀此描述後將認識及理解,進行互動偵測之判定中之一者可用於後續處理(例如,判定人員/使用者是否被辨識(在S426中,圖4M))中。因此,在一些情況下,在偵測可能互動之程序(圖4J中之S406圖4K中之S406')中,裝置可已判定關於與裝置互動之人員/使用者之足夠資訊從而跳過(或簡化)使用者/人員辨識之程序(S426)。
參看圖4L,在判定(在S409)哪些語料庫將用於 實際互動後,裝置可使用(在S409)判定之語料庫及各種介面機制162進行至判定實際互動(在S411)。熟習此項技術者在閱讀此描述後將容易瞭解,可藉由人員辨識(S426)及語料庫選擇(S428)之程序來(完全或部分地)判定實際互動。若此等兩個程序不產生實際互動之判定,則裝置進行至判定 實際互動(在S411)。
用以處理實際實施之替代實施/方法假設待使用 之語料庫係裝置之使用者110之語料庫,除非某一其他授權使用者經特定辨識或識別。在此例示性實施中,使用藉由互動偵測機制產生之分數來控制哪些辨識機制被使用。 參看圖4N中之流程圖,裝置判定(在S409")哪些語料庫將用於實際互動。若偵測使用者程序(例如,圖4K中之S418')產生大於某一臨限值(在圖4N中表示為T user )之分數,則裝置試著辨識使用者(在S418"),且在辨識成功之情況下選擇用於經辨識使用者之語料庫(在S450")。若裝置未能辨識使用者(較佳為授權使用者)或若藉由偵測使用者程序/機制產生之分數(R7)未超過臨限值(T user ),則裝置選擇與裝置之使用者相關聯之語料庫(其可為一般語料庫)。在選擇語料庫(在S409")後,裝置進行至判定實際互動(在S411")。在圖4N之例示性實施中,裝置可使用藉由各種介面偵測機制產生之分數來判定是否調用對應辨識機制。舉例而言,如圖4N所示,若藉由示意動作偵測機制168產生(例如,在圖4K中之S410")之分數(R 1 )超過一臨限值(在圖4N中表示為T Gesture ),則裝置可調用示意動作辨識機制170(在S410")。 類似地,若藉由臉部偵測機制168產生(例如,在圖4K中之S412")之分數(R 2 )超過一臨限值(在圖4N中表示為T Face ),則裝置可調用臉部辨識機制184(在S412")。且類似地,若藉由話音/語音偵測機制176產生(例如,在圖4K中之S414")之分數(R 3 )超過一臨限值(在圖4N中表示為 T Speech ),則裝置可調用話音/語音辨識機制178(在S414");且若藉由偵測其他介面機制190產生(例如,在圖4K中之S416")之分數(R 4 )超過一臨限值(在圖4N中表示為T Other ),則裝置可調用其他介面機制190(在S416")。
應理解並瞭解,用以判定互動之各種機制可同時 地或以某一預定義次序進行(例如,基於藉由偵測機制產生之分數或加權分數)。熟習此項技術者在閱讀此描述後將認識及理解,系統無論如何不受藉以調用各種辨識機制之次序限制。
亦應理解並瞭解,辨識機制中之一些可與其他機制一起工作或可與其他機制整合。
參考例示性實施所描述之臨限值(例如,在圖4N中)可為靜態或動態的,且任何特別辨識機制之調用可基於不同及/或其他因素。在一些實施中,臨限值中之一些或全部可基於裝置自先前互動學習之資訊進行修改。熟習此項技術者在閱讀此描述後將認識及理解,系統無論如何不受用以調用各種辨識機制之值或觸發程序限制。
圖4N中之圖式顯而易見,用以偵測可能互動之機制中之一些(例如,凝視偵測及臉部移動偵測)可能不需要或不由互動辨識機制使用。因此,例如,一旦偵測到凝視,即可將該資訊用以觸發互動辨識,但實際辨識可能不再需要該資訊。應瞭解,在偵測程序期間所使用之資訊中之一些(藉由各種機制產生之分數除外)可由辨識機制提供。因此,例如,臉部辨識機制(在圖4NS412"之調用) 可能已具有來自凝視偵測機制之資訊從而知道將試著辨識哪個臉部。替代地,臉部及/或示意動作辨識機制本身可調用凝視偵測及/或臉部移動偵測機制。
處理實際互動
在判定實際互動(在S411)後,裝置進行至執行與實際互動相關聯之指令或命令或查詢。判定及/或執行實際互動(在S411S413)可在裝置上本端地進行,或其可能需要(或獲益於)來自後端104(例如,來自資料庫114)之資訊、經由後端與某一其他實體(例如,社交網路服務116,或內容提供者118等)之互動以及來自新增功能性實體120之處理或幫助。進行實際互動亦可包括與另一裝置102互動。裝置與後端之間的互動對應於圖1中之弧#7;與後端資料庫114之互動對應於弧#8;與社交網路服務116或內容提供者之互動分別對應於弧#9及弧#10,且與新增功能性實體120之互動對應於弧#11。裝置與其他裝置之互動對應於圖1中之弧#1
執行實際互動(在S413)可能需要裝置使用先前緩衝之資訊(S404圖4I)。舉例而言,若一裝置偵測且緩衝可為語音互動之聲音,則該裝置可不開始語音辨識,直至(或除非)該裝置亦偵測一人員正看著(凝視)該裝置(例如,S420,圖4JS420'圖4K)。因此,凝視充當用於後續語音辨識(例如,S414"圖4N)之觸發程序。此方法允許一裝置獲取一人員在尚未看著該裝置時開始給出且在看著該裝置時繼續提供之語音或其他資訊(例如,示意動作)。應 瞭解,可使用其他互動(例如,示意動作、臉部移動、輕觸裝置等)作為用於互動(包括可能已開始之互動)的後續辨識之觸發程序。由於系統已緩衝可能互動,故一旦一或多個觸發事件發生,即能夠使用緩衝資訊。
熟習此項技術者在閱讀此描述後將認識及理解,可藉由感測器138偵測及/或量測的任何種類之資訊可經緩衝且接著在偵測到一或多個觸發事件之後使用。
學習
如之前所提及,用於互動之偵測及辨識的各種機制可包括學習特徵,使得該等機制可隨著時間及使用而變得更準確。在一些情況下,當一機制知道一特別使用者時,該機制可更新用於該使用者對應語料庫。舉例而言,當一語音辨識機制學習一特別使用者之語音時,該機制可更新與該特別使用者相關聯之語音語料庫。
除自與使用者之互動學習之各個別機制外,裝置本身亦可學習特別使用者如何與裝置互動且可基於該學習而將其處置最佳化。舉例而言,若一特別使用者始終組合語音命令使用相同示意動作(例如,指向裝置),則裝置可學習該型樣。在該實例中,可給予該指向示意動作較大權重,作為用於語音辨識之觸發程序。作為另一實例,若一特別使用者始終將一特別手部示意動作與臉部移動(例如,眉毛抬起)及特定詞一起使用,則可藉由裝置給予組合的彼等特徵較高權重。
雖然在圖4B中之圖中將各種操作機制展示為單 獨機制,但此等分離僅以舉例方式提供且用以幫助此描述,而無論如何不欲限制此描述之範疇。熟習此項技術者在閱讀此描述後將認識及理解,不需要圖4B中之分離,且機制中之一些或全部可組合至不同及/或其他其他功能單元中,包括組合至單一功能操作機制中。舉例而言,示意動作偵測機制168及辨識機制170可為單一示意動作機制之部分。類似地,話音/語音偵測機制176及辨識機制178可為單一話音/語音機制之部分。且類似地,臉部/凝視偵測機制184及辨識機制186可為單一臉部/凝視偵測及辨識機制之部分。類似地,給予圖4C中之操作機制之儲存器155之邏輯描繪以幫助描述,且該邏輯描繪無論如何不欲限制此描述之範疇。熟習此項技術者在閱讀此描述後將瞭解及理解,不同及/或其他儲存組配係可能的且在本文中被考慮到。
裝置狀態、佈建及組配裝置
如本文中所使用,參考架構100內之裝置102,「佈建」一詞係指安裝(或更新)藉由裝置使用之各種系統機制之程序。佈建可包括安裝及/或更新裝置上之韌體或軟體。如本文中所使用,參考架構100內之裝置102,「組配」一詞係指建立或設定用於藉由裝置使用之各種機制之操作選項及/或參數之程序。舉例而言,組配一裝置可包括設定用於該裝置之密碼、建立用於該裝置之網路參數等。
現參看圖6A,裝置102可被視為處於各種佈建及組配狀態中。裝置102在其尚未以系統機制佈建時處於 預佈建狀態中。裝置102在其已經以系統機制佈建但尚未與使用者110相關聯時處於一般佈建狀態中。裝置102在其尚未經組配時處於未組配狀態中。裝置102在其已針對系統100上之使用組配但未針對特別使用者110組配時處於一般組配狀態中。裝置102咸信在其已針對特別使用者110佈建時處於使用者佈建狀態中。裝置102咸信在其已針對特別使用者110組配時處於使用者組配狀態中。圖6A中展示了用於裝置102之各種可能狀態轉換(表示為T1T2、……、T6)。此等狀態及轉換僅係描述性及例示性的,且在此僅用以幫助此描述。應瞭解,此系統不受此處所描述的此等各種狀態、其名稱或狀態轉換限制。亦應瞭解,此等狀態及轉換可獨立於裝置特定功能性。
存在用以佈建及組配架構100內之裝置102的兩 個態樣。第一態樣基本上獨立於任何使用者且使裝置102遵照所有系統機制之當前及/或區域化版本。此態樣對應於用於裝置的自預佈建至一般佈建之狀態轉換 T1 ,且可能對應於自未組配至一般組配之轉換 T2
佈建且組配架構100內之裝置102之第二態樣使 裝置遵照目前與裝置相關聯之特別使用者110之設定/需求。對於先前一般佈建或一般組配之裝置而言,此態樣對應於自一般佈建至使用者佈建之狀態轉換T3,且可能對應於自一般組配至使用者組配之轉換T4。裝置與特別使用者之關聯可改變,可能僅暫時地或在有限條件(例如,地點、持續時間、用途等)下改變。因此,佈建及組配之此第二態 樣亦可對應於針對一不同使用者而佈建使用者佈建之裝置的狀態轉換T5,及/或針對一不同使用者而組配使用者組配之裝置的狀態轉換T6
佈建裝置之程序因此可包括在裝置上安裝所有 機制(例如,軟體、韌體等)之最新版本。在製造裝置102時,製造商108通常將系統機制134之版本(與其他機制(諸如用於使用者特定功能性之機制)之版本一起)安裝在裝置上。然而,彼等版本即使在製造時亦常常係過時的。因此,在佈建程序中,自我啟動/佈建機制152可在第一次通電時或甚至在運輸或銷售裝置之前更新一些或所有機制(例如,軟體、韌體等)。在一些情況下,裝置102可在低功率模式下運輸,其中定時器經設定以在固定時段(例如,36小時)之後加電且接著執行自我啟動/佈建機制152從而試著更新所有機制。裝置102在通電後將搜尋用以連接至網際網路之已知無線(Wi-Fi)網路或其他方式。較佳地,裝置係以關於已知且受信任之網路的資訊預組配(作為裝置之一般組配之部分),且裝置使用彼等網路以經由網路101連接至可自其獲得更新的已知且受信任之源位置。一旦網路連接被找到並建立,裝置102即可開始自受信任源更新其本身。以此方式,當一裝置達到一使用者時(例如,在該裝置被賣給該使用者之後),該裝置應具有所有機制之最新近版(或最近版本)且針對該使用者完全地(或實質上完全地)佈建。
對於可能需要語料庫之彼等機制(例如,語音辨 識、示意動作辨識等),最初在裝置上安裝一般語料庫。
較佳地,以組配資訊來組配(例如,在製造時)各裝置102以允許裝置與後端104建立安全連絡(secure contact)。為此,用於裝置之初始一般組配可包括用於各種無線網路之名稱及密碼及/或一般認證以支援裝置與後端104之間的安全無線(例如,蜂巢式、WiFi、藍芽或BLE)通訊。「安全」一詞在此處用以認為與可受信任且較佳未被監聽之通訊頻道有關。安全程度依據裝置之類型而定,且針對裝置至裝置通訊及裝置至後端通訊,不同類型之裝置可需要不同安全程度。
藉由製造商進行且直至裝置與任何使用者相關聯之處理對應於圖6A中之狀態轉換T1(及可能T2)。
為了以此方式操作以利用系統100,各裝置102較佳與使用者110相關聯。裝置可不與任何使用者相關聯(例如,當裝置最初被製造時),但裝置可不與一個以上所有者相關聯(且較佳地,並非同時與一個以上使用者相關聯)。如本文中所解釋,裝置102可由一個以上人員或使用者110使用,但在系統100內,該裝置僅與單一使用者相關聯。
在一些情況下,可將一裝置與一使用者關聯以作為製造及/或佈建程序之佈建步驟(例如,若一使用者在製造裝置102之前定購或購買該裝置且提供該使用者之識別(使用者身分識別))。
第一佈建程序(上文所述)可在裝置不與使用者相關聯之情況下進行。第二層級之佈建及組配較佳在將裝 置102與使用者110關聯後進行。詳言之,一旦裝置102與使用者相關聯,該裝置102即可自該使用者獲得組配資訊(例如,無線網路資訊,諸如網路ID及密碼)。當一裝置係針對特別使用者組配時,該裝置可自使用者資料庫130獲得關於該使用者之資訊。舉例而言,裝置102可獲得關於該使用者之使用者設定檔資訊、使用者本端語料庫及/或組配資訊。此資訊可由該裝置儲存以供(例如)操作機制155使用。舉例而言,裝置102可自使用者資料庫130獲得使用者本端語料庫且將彼等語料庫儲存於該裝置上的對應適當介面機制之儲存器163中。以此方式,若一使用者已使用一特別裝置或種類之裝置,則新得到之裝置可不必重新受訓以偵測並辨識與該使用者之各種互動。
來自使用者資料庫130之某一資訊(例如,使用 者之裝置清單一使用者所擁有之裝置的裝置ID之清單,及使用者之朋友清單一使用者之朋友的使用者ID之清單)在裝置上可以單向編碼(例如,使用諸如MD5之密碼編譯雜湊)來編碼。以此方式,裝置ID及使用者ID不會暴露,但(如稍後將解釋)可使用該等清單中之資訊(例如,用以評估兩個裝置之間的可能關係)。
裝置資料庫及使用者資料庫較佳經更新(較佳接 近即時地)以反映各裝置之佈建及組配狀態,使得裝置資料庫較佳提供系統中之各裝置之狀態及組配的當前視圖。應瞭解,未連接至或不能連接至網路101或使用某一其他方法(例如,蜂巢式系統)之裝置可推遲將資訊提供至後端。然 而,較佳地,各裝置在經連接至網路101時且在重新連接至網路101時以裝置之狀態資訊來更新後端。類似地,當裝置102以某一方式連接至後端104時,該裝置較佳自該後端獲得更新,包括與裝置之使用者有關之任何更新。
詳言之,各裝置102應有規律地更新裝置資料庫 128中之語料庫以反映裝置上之當前語料庫。此等更新可基於規律排程(例如,一天一次)來更新或每當裝置可連接至資料庫(經由後端104)且判定裝置資料庫需要更新時進行。
另外,使用者資料庫130中之語料庫資訊應反映 各使用者之裝置上之語料庫之當前狀態。因此,應更新使用者資料庫130(例如,其方式與裝置資料庫的更新方式相同)以反映用於使用者之最新語料庫。回憶,使用者資料庫130可包括使用者本端語料庫及使用者擴充語料庫。該等使用者本端語料庫對應於使用者之裝置上之語料庫。該等使用者擴充語料庫對應於藉由後端或其他外部系統(例如,新增功能性120)使用以處理使用者互動之語料庫。舉例而言,該等使用者本端語料庫可包括裝置102可使用之有限語音辨識語料庫,而該等使用者擴充語料庫可包括用於使用者的可由(例如)新增功能性120使用之擴充語音辨識語料庫。
用於各使用者之語料庫可基於使用者之裝置之 種類或能力而組織或儲存於使用者資料庫130上。此允許系統支援多個種類之裝置。當使用者用來自一特別裝置之語料庫更新使用者資料庫130時,資料庫較佳基於裝置之 種類及能力來儲存彼等語料庫。
較佳地,裝置資料庫128及使用者資料庫130維持語料庫之先前版本。
在一些情況下,裝置可具有相同類型之多個裝置(例如,多個揚聲器)。使用者之裝置(尤其是相同類型之裝置)之各者上之該等語料庫較佳具有用於該類型之裝置的該使用者之語料庫之最新近版本。因此,各裝置應例行地連絡後端以判定裝置是否具有語料庫之最新版本。若不具有,則裝置可自使用者資料庫130獲得語料庫之最新版本。
裝置在最初與使用者關聯後之佈建及組配對應於圖6A中之狀態轉換T3(及可能T4)。
裝置製造及佈建
圖6B圖6I展示製造裝置102之實例。裝置製造商108較佳經系統100授權以製造具備系統能力之裝置102
圖6B中之實例中,各裝置具有藉由製造商提供之唯一序號,且各裝置具有依據裝置之唯一序號之裝置ID。在圖6C中之實例中,如下文將描述,各裝置具有藉由M系統提供之唯一序號。應瞭解,藉由M系統使用之唯一序號可不同於藉由裝置製造商使用之其他序號。
參看圖6B圖6C中之諸圖,在一個例示性實施例中,裝置製造商108(在S601)將裝置序號(個別地或成批地)提供至裝置憑證產生器172(其可為後端104之部分)。裝置憑證產生器172使用藉由製造商提供之裝置資訊 (例如,序號)而(在S602)針對該裝置(亦即,針對與或將與序號相關聯之裝置)建立唯一裝置ID。將該唯一裝置ID發送至裝置CA 124(在S603),此操作將唯一裝置ID輸入至由裝置CA 124簽署之憑證中。裝置CA 124接著將已簽署憑證發送回至製造商(在S604S605)以待輸入至裝置中。 將具有唯一裝置ID之已簽署憑證儲存於裝置之憑證150中。
熟習此項技術者在閱讀此描述後將認識及理 解,裝置憑證產生器可使用(不同於由製造商108S601提供之資訊或除此之外的)不同及/或其他資訊來產生裝置憑證(在S602)。
較佳地,由製造商提供之資訊(在S602)亦包括關 於裝置之能力及/或組件之資訊。
一旦裝置憑證已產生並簽署,即將關於該憑證之 資訊(可能包括該憑證之複本)發送至後端112(在S606)。與該憑證相關聯之裝置ID可由裝置資料庫128用作為進入資料庫中之密鑰或索引。由於後端104提供用以產生裝置ID之資訊,故關於裝置之資訊(例如,裝置之能力)可能已被後端知道,且因此,此等資訊可與裝置資料庫128中之裝置ID相關聯。
較佳地,對憑證中之資訊進行加密,使得資訊僅 可由裝置用適當解密密鑰來讀取。
應瞭解,一旦裝置憑證藉由後端104(例如,經由 裝置憑證產生器172)產生,該憑證即可僅與單一裝置(具有 與該憑證相關聯之唯一裝置ID)相關聯。若裝置出於某原因而變得無用或丟失(或實際上從未製造),則應再使用該裝置ID及憑證。
製造商108與後端104之間的互動(經由裝置憑 證產生器170)(在S601S605S606)對應於圖1中之互動#13。裝置CA 124與後端104之間的互動(經由裝置憑證產生器172)對應於圖1中之互動#6
在一些情況下,裝置憑證產生器172可基於來自 製造商之序號清單而將憑證大批地提供至製造商。
在替代性且目前較佳之例示性實施例中,系統產 生(或獲得)序號及相關聯憑證之區塊,且將彼等序號及憑證以區塊提供至製造商。因此,參看圖6D圖6E中之圖,後端104產生序號且(在S651)將該等序號提供至裝置憑證產生器172'。如在先前實例中,裝置憑證產生器172'可為後端104之部分及/或與後端104同置。
裝置憑證產生器172'使用藉由後端提供之資訊 (例如,序號)而針對與或將與序號相關聯之裝置建立唯一裝置ID。將該唯一裝置ID發送至裝置CA 124(在S653),此操作將唯一裝置ID輸入至由裝置CA 124簽署之憑證中。 裝置CA 124接著將已簽署憑證發送回至裝置憑證產生器172'(在S654),裝置憑證產生器172'將該已簽署憑證發送回至後端(在S655)。具有唯一裝置ID之已簽署憑證將被儲存於裝置之憑證150中。
較佳加密憑證中之資訊,使得該資訊僅可由授權 裝置讀取。裝置憑證產生器172'可在將憑證提供至裝置CA 124之前對序號及唯一裝置ID加密。
一般熟習此項技術者在閱讀此描述後將認識及 瞭解,由於後端104正在提供序號,故彼等序號可至少部分地用以形成裝置ID。
後端104為裝置製造商108提供序號及對應憑證 (在S656),較佳提供序號及憑證之區塊。製造商可在裝置中使用彼等憑證中之一些或全部,且為後端108(在S657)提供製造商使用之序號/憑證之清單。
應瞭解,由於後端具有所有序號之清單及所有憑 證之複本,故後端可追蹤所使用之序號且可藉此驗證藉由製造商提供之資訊。舉例而言,若製造商未能報告特別序號在特別裝置中之使用,則後端將在特別裝置連接至系統時偵測序號之使用。類似地,若製造商在多個裝置中使用相同的序號/憑證組合,則後端將偵測到重複。
圖6E中之流程圖描繪圖6D中之製造商實例之 之態樣。提供圖6E中之垂直虛線以展示哪些態樣係由系統執行及哪些態樣係由製造商執行。系統產生序號及憑證(在S661)且將彼等序號及憑證、較佳以序號/憑證之區塊提供至後端(在S662)。製造商得到序號/憑證之區塊(在S663)且在裝置中使用該等序號/憑證之一些(在S664)。製造商報告其已使用哪些序號/憑證(在S665),且後端得到已使用序號/憑證之清單(在S666)。
在一些實施中,製造商可報告諸如裝置類型、能 力等之額外資訊(在S665)。
佈建、組配且關聯於使用者
圖6F之流程圖中展示裝置102之例示性初始佈建及組配(分別對應於圖6A中之狀態變化T1T2)。在此階段,假設裝置具有與其相關聯之裝置ID(如上所述)。製造商按裝置102之需要而提供所需機制及其他組件(例如,系統機制134、感測器138、通訊142)(在S608)。此等機制及其他組件可以具有用於裝置特定組件之連接的單一板或套組之形式提供,或此等機制及其他組件可完全或部分地與裝置特定組件整合。當作為套組或板提供時,並非所有組件可為作用中或已啟動的。舉例而言,可基於裝置之地點、裝置之種類或因為使用者將由於後續啟動而裝載額外量來撤銷啟動特定組件。
在機制經安裝後,為裝置提供一初始組配(在S610)。該初始組配可視需要包括用於各種機制之一般語料庫。該初始組配亦可包括支援裝置至後端之連接之資訊(例如,關於已知或受信任網路之資訊等)。
較佳地,裝置維持所有機制及該等組件之當前組配狀態之清單或資訊清單,包括版本資訊及語料庫細節。一旦裝置最初經佈建及組配(例如,在製造期間),即將裝置之當前資訊清單提供至後端以供儲存於相關聯於裝置之資料庫輸入項中(在S612)。
如上所述,經佈建/經組配裝置可在其與使用者相關聯之前更新裝置之機制及組配(在S614)。舉例而言, 裝置可使用已知/受信任Wi-Fi連接在運輸期間更新裝置之韌體。任何此等更新應在裝置之在裝置上及裝置資料庫中之資訊清單中反映出來(在S616)。裝置資料庫可維持裝置之更新之歷史。由裝置使用之某些機制(例如,話音/語音辨識、示意動作辨識等)可由第三方提供。在彼等情況下,機制可具有韌體及/或隨之包括的語料庫,且彼等組件之更新可能必須自第三方獲得。
使用者註冊
回憶,各使用者110在系統100內必須具有至少一唯一使用者身分識別(ID)。較佳地,各使用者110藉由向系統100註冊而獲得其使用者ID。使用者註冊可經由離線程序、經由至後端之網頁介面或經由裝置102來進行。使用者可在具有任何裝置102之前註冊。作為使用者註冊(如上文所解釋)之部分,各使用者具有在系統100內必須唯一的使用者ID。一旦使用者註冊,用於該使用者之輸入項即在使用者資料庫130中形成,較佳主要根據使用者之使用者ID來加密鑰或索引。使用者之資料庫輸入項(對應於其使用者ID)係在註冊程序期間填入以包括由使用者(例如,經由表單或調查表)提供之資訊及/或系統可基於使用者(直接或間接地)提供之資訊可獲得或演繹之資訊。舉例而言,若使用者使用社交網路ID或經由社交網路註冊,則來自社交網路的關於使用者之資訊可包括於資料庫中。
雖然較佳使用使用者ID來索引使用者資料庫130,但熟習此項技術者在閱讀此描述後將瞭解及理解,不 同及/或其他密鑰可用以存取使用者資料庫中之資料。
如所提及,多個裝置102可與各使用者110相關 聯。雖然裝置較佳不具有階層狀態,但描述組配使用者獲得之第一裝置之程序係有用的。
圖2所示,各使用者較佳具有其上儲存有使用 者之使用者ID及相關聯使用者憑證175的至少一使用者裝置174(例如,智慧型手機或其類似者)。使用者裝置174亦可具有一或多個系統機制178(例如,以在使用者裝置174上執行之應用程式之形式)。系統機制/使用者應用程式178為使用者提供用以組配系統100內之使用者裝置174以及組配使用者裝置之其他態樣的方式。詳言之,使用者裝置174可為使用者提供用以設定Wi-Fi及其他網路資訊(諸如,用於區域Wi-Fi網路之識別資訊、服務集識別符(SSID)及密碼)之方式。此資訊可作為組配資訊180而儲存於使用者裝置174上(圖2)且亦可作為與使用者相關聯之組配資訊而儲存於使用者資料庫130中(圖3A)。熟習此項技術者在閱讀此描述後將認識及理解,此組配資訊係敏感的且應秘密地維持(例如,經由加密)。
應瞭解,使用者裝置174可為裝置102之實例。
參看圖6G描述例示性使用者註冊。首先,(在S620)使用者(例如,如上所述地)自系統獲得使用者ID。系統接著針對使用者建立一使用者資料庫輸入項(較佳根據使用者ID而加密鑰或索引)(在S622)。系統接著填入用於使用者之資料庫欄位(在S624)。
關聯裝置與使用者
各裝置102必須與使用者110關聯以使裝置完全在系統100內操作。應瞭解,未與任何使用者關聯之裝置可能仍能夠提供裝置之使用者功能性之一些或全部。
當一使用者得到一裝置102(例如,一新裝置)時,該裝置需要與該使用者關聯。參看圖6H描述裝置與使用者之例示性關聯。首先(在S626),關聯裝置與裝置資料庫及使用者資料庫128130中之使用者。在裝置資料庫128中,將裝置之所有者設定為使用者之使用者ID。在使用者資料庫130中,將裝置之唯一裝置ID添加至與使用者之使用者ID相關聯之裝置。可將關於裝置之資訊添加至使用者資料庫130中之其他欄位,且可更新歷史以反映使用者與此裝置之關聯。
在一些實施例中,可藉由令一使用者用該使用者之另一裝置觸碰(或輕觸)一裝置而使該裝置變得與該使用者相關聯。在較佳實施中,當一特別裝置尚未被任何使用者擁有時,當該特別裝置第一次被另一裝置輕觸時,該特別裝置變得與另一裝置之使用者關聯。該特別裝置可自後端資料庫及/或自使用者的輕觸該裝置之裝置獲得使用者之組配資訊(圖6H中之S628)。當一特別裝置已與一使用者關聯時,接著可使用來自另一裝置之後續觸碰(或輕觸)而將暫時權限提供至該特別裝置,例如,允許該等裝置以某一方式組合或允許該特別裝置自觸碰其之裝置繼承某一組配資訊(較佳暫時地)。一旦裝置已經配對(例如,藉由觸碰), 該等裝置即可接著經由藍芽、BLE或WiFi信號或其類似者來共用資訊。應瞭解,共用資訊可為多個形式,例如,後設資料可經由藍芽共用,而內容(例如,音樂或視訊內容)可經由WiFi共用。此外,在先前已配對後,兩個裝置可偵測彼此之存在(例如,藉由在裝置之範圍內之藍芽信號)以繼續或重新建立協作。
較佳地,各裝置維持關於與裝置相關聯之使用者 之某一資訊(例如,系統機制/資料134圖4A)。(在S628)可更新裝置上之資訊以反映關於使用者之資訊。此資訊可包括與使用者資料庫130中的使用者之使用者ID相關聯之資訊中之至少一些。舉例而言,儲存於裝置102上之資訊可包括使用者之使用者ID、來自使用者之設定檔的資訊、關於相關聯於使用者之其他裝置的資訊、關於使用者之朋友(例如,藉由朋友各自之使用者ID)的資訊、使用者憑證、使用者語料庫及使用者組配資訊。應瞭解,較佳應以安全方式(例如,以加密形式)來儲存及維持裝置上之使用者之資訊之至少一些。
一旦裝置已經更新(在S628)以包括使用者之資 訊,裝置資料庫128即可能必須經更新(在S630)以反映對裝置所作之改變。舉例而言,若使用者之區域語料庫係儲存於裝置上(以替代已存在之任何語料庫,例如,一般語料庫),則應更新裝置資料庫128以(在裝置語料庫中及在裝置歷史中)反映此資訊。
此處所描述的用以將裝置與系統100中之特別 使用者110關聯之例示性程序對應於圖6A中的自一般佈建至使用者佈建之狀態變化T3及自一般組配至使用者組配之狀態變化T4
若一使用者得到先前已由系統使用(且因此與另 一使用者相關聯之)一裝置,則該裝置可能首先必須恢復至該裝置不具有與之相關聯之使用者資訊的狀態。可藉由將裝置恢復至其原廠設定(或預使用者設定)之任何技術來恢復該裝置。此類重設對應於圖6A中的自使用者佈建回至一般佈建之狀態變化T3'及自使用者組配回至一般組配之狀態變化T4'
關聯組配資訊與裝置
如所提及,一裝置可在該裝置最初變得與使用者相關聯時自使用者資料庫130(或自另一裝置)獲得使用者組配資訊(圖6HS628)。然而,當使用者資訊可能改變(例如,使用者在系統內交上新朋友或使用者具有經更新或新的無線網路資訊,或使用者具有新的蜂巢式通訊資訊等)時,該資訊應自資料庫傳播至裝置(且反之亦然)。因此,如圖6H所示,視需要(在可能時)重複將使用者之組配資訊提供至裝置(在S628)及更新使用者資料庫及裝置資料庫128130(在S630)。舉例而言,裝置可在其可以時(例如,在裝置能夠連接至後端104時)檢查資料庫以判定該裝置是否具有使用者之資訊之最新版本。在一些情況下,後端可試著將通知推送至裝置以警告裝置關於使用者資訊之更新。由於裝置可改變使用者之資訊(或導致使用者之資訊改 變)(例如,裝置可具有經更新語料庫或網路組配資訊),故此等變化亦必須傳播回至裝置資料庫及使用者資料庫。此程序係反映於圖6I中,圖6I重複地展示(視需要或在可能時)將來自裝置之資訊提供至後端104(在S632),且接著相應地更新使用者資料庫及裝置資料庫(在S634)。應瞭解,用於特別使用者之使用者資料庫130的任何更新可需要將發送至該使用者之裝置的對應更新及裝置資料庫128的對應更新。舉例而言,若一使用者具有多個裝置,且語料庫及/或組配資訊在彼等裝置中之一者上有變化,則語料庫及/組配資訊應傳播至該裝置之其他裝置。以此方式,使用者無需必須獨立或單獨地訓練或組配其所有裝置,且各裝置可獲益於應用於該使用者之其他裝置之訓練及組配。
應瞭解且理解,使用者之裝置可避免彼此及/或 與使用者資料庫及裝置資料庫128130中之資訊同步。此可(例如)在裝置不能夠連接至後端歷時某一時間段時發生。系統較佳應用一衝突解決技術以便同步裝置及資料庫。一例示性衝突解決方法可使用時間戳記來選擇組配及語料庫資訊之最新近版本。另一例示性衝突解決方法可始終假設使用者資料庫中之組配及語料庫資訊之版本係正確的。
較佳地,可在無使用者介入之情況下執行任何衝突解決技術,雖然使用者可具備至後端及/或使用者之裝置(例如,經由諸如電話174之使用者裝置上之應用程式或經由網頁介面)的介面以允許使用者選擇特定組配及/或語料 庫。在一些實施中,使用者可能夠強加(例如,推送)其裝置之更新。
關於語料庫之註解
語料庫係(例如)由裝置102中之各種介面機制162使用。舉例而言,話音/語音辨識機制178可使用本端語音語料庫(儲存於裝置102上)。然而,如熟習此項技術者將連接,即使對於相同話音/語音辨識機制178,話音/語音辨識可受許多因素影響。舉例而言,即使對於相同話音/語音辨識機制178,不同品質或種類之輸入感測器(例如,麥克風)可導致不同語料庫。為此,若需要,則可基於使用者之裝置之硬體詳細規格來組織裝置資料庫128中之語料庫。在此等情況下,當一特別使用者之某些語料庫改變(例如,基於相關聯於該特別使用者之一特定裝置上之學習程序)時,彼等語料庫在資料庫中經更新,但僅傳播至該使用者之可比較裝置(亦即,傳播至該使用者之具有用於相關聯於彼等語料庫之辨識機制的一可比較硬體及感測器組配之裝置)。
舉例而言,假定一特別使用者110具有多個裝置,該多個裝置中之一些具有用於其系統機制134及/或感測器138之第一硬體組配,且其他裝置具有用於其系統機制134及/或感測器138之第二硬體組配。具有第一硬體組配之該等裝置使用用於其對應操作機制之語料庫之第一集合,且具有第二硬體組配之該等裝置使用用於其對應操作機制之語料庫之第二集合(不同於語料庫之第一集合)。在此 實例中,當具有第一硬體組配之第一裝置更新其語料庫(例如,語音辨識語料庫或示意動作辨識語料庫)時,該更新應被發送至使用者資料庫130及裝置資料庫128,但該更新應僅傳播至該特別使用者之具有第一硬體組配之其他裝置。
熟習此項技術者在閱讀此描述後將認識及理 解,不同類型(亦即,具有不同基礎使用者特定功能性)之裝置可具有用於其系統機制之相同硬體組配。類似地,相同類型之裝置(例如,揚聲器)可具有用於其系統機制之不同硬體組配。
發明人認識到,使裝置在具有最少使用者介入及 動作之情況下學習各種設置及組配資訊可係有用的。因此,發明人認識到,使裝置彼此學習係有利且較佳的。因此,在一些態樣中,裝置102-A可自另一裝置102-B獲得組配資訊。在一些情況下,藉由使兩個裝置彼此觸碰,一裝置可自另一裝置獲得資訊。此等互動對應於圖1中所描繪之裝置至裝置互動#1,且可至少部分地藉由裝置至裝置機制156來實施。在其他情況下,一裝置可藉由按照使用者命令受指示以獲得資訊而自另一裝置獲得資訊。使用者之裝置亦可自使用者資料庫獲得組配及其他資訊。
裝置活動訊號及互動
回憶,各裝置102較佳包括活動訊號(HB)機制194(圖4B)。裝置102上之活動訊號機制194具有兩個主要功能:(1)產生活動訊號訊息(活動訊號),及(2)監視來自其他裝置之活動訊號。
因此,特別裝置102上之活動訊號機制194可用 以將關於特別裝置102之狀態或存在之各種信號提供至系統(例如,後端104)及/或其他裝置102。裝置之活動訊號(HB)機制194可使用裝置之通訊機制142來經由以下各者中之一或多者廣播裝置之活動訊號(及相關聯資訊):用於區域通訊之裝置機制(例如,藍芽,包括BLE、ZigBee等);用於Wi-Fi通訊之裝置機制(例如,802.11等);用於蜂巢式通訊之裝置機制(例如,數據機或使用蜂巢式電話網路之其他裝置等);及用於有線通訊之裝置機制(例如,乙太網路及其類似者)。每一活動訊號訊息可含有允許系統100之其他組件(例如,後端104、其他裝置102)辨識(及可能確定)該訊息係一活動訊號訊息之資訊,及識別裝置使得系統100之其他組件可辨識(及可能確定)裝置識別資訊之資訊。
可經由不同通訊機制來廣播不同活動訊號訊息 (具有不同格式且具有不同資訊,且處於不同頻率)。舉例而言,可每天或在將提供某一歷史資訊時發出欲供後端104使用且經由網路101或蜂巢式網路發送之活動訊號訊息。 另一方面,欲供其他裝置使用且經由裝置之本端通訊機制(例如,藍芽、BLE或其類似者)廣播或在裝置所連接至之區域網路上發送之活動訊號訊息可每分鐘(或以某一其他規律且短的時間間隔)發出。
活動訊號信號應包括關於裝置之某一資訊,較佳至少包括裝置之裝置ID。舉例而言,如圖7A所示,來自一裝置之活動訊號信號700包括對應裝置ID之編碼,且可 能包括用於裝置之所有者之使用者ID之編碼。活動訊號信號可包括額外資訊(藉由圖7A中之圖式中之點劃線展示)。發送至後端之信號可包括額外資訊,諸如裝置之地點、歷史等。本端活動訊號信號可僅包括裝置ID。活動訊號信號中之資訊較佳受保護(例如,經由加密)。亦可用單向編碼(例如,諸如MD5之密碼編譯雜湊)來編碼裝置ID及使用者ID以防止該等ID暴露。
各裝置102亦應例行地(較佳連續地)監視來自可能在附近或在同一網路上之其他裝置102之活動訊號(例如,使用用於區域通訊之裝置機制以及用於Wi-Fi及有線通訊之裝置機制)。若一特別裝置可經由該特別裝置之區域通訊機制視圖其他裝置活動訊號,則另一裝置可咸信在該特別裝置附近。本文中使用且考慮接近之其他概念。
圖7B展示實例裝置A(102-A),其經由使用裝置之通訊機制142-A(例如,區域通訊機制)的裝置之活動訊號(HB)機制194-A來廣播活動訊號信號。如圖式所示,一第二裝置(裝置B-120-B)經由裝置B之通訊機制142-B來偵測裝置A之活動訊號信號。雖然圖式中未圖示,但應瞭解,裝置B亦在廣播其活動訊號信號,且裝置A可偵測裝置B之活動訊號信號。此外,且圖式中亦未圖示,裝置之各者亦可能正在經由不同通訊機制發送其他活動訊號信號。
圖7C展示各種之102(例如,裝置之活動訊號機制194)用來監視來自其他裝置之活動訊號(在S702)的例示性處理。若偵測到來自另一裝置之活動訊號(在S704),則 處理該活動訊號(在S706),否則系統繼續監視活動訊號(在S702)。一旦偵測到活動訊號經處理(或一旦裝置開始處理偵測到活動訊號),裝置即繼續監視來自其他裝置之活動訊號。
裝置合作/協作/聯合
某些裝置102可單獨地及與一或多個其他裝置組合地操作。應瞭解,裝置並非必須為了一起操作而係同質或甚至相同種類的。舉例而言,為揚聲器之裝置可一起操作(如下文將描述)。作為另一實例,為揚聲器之一裝置可與為視訊顯示器之一裝置一起操作。
以某一方式一起操作之裝置102被說成合作或協作。對於本文件之剩餘部分,「合作(cooperate、cooperation及cooperating)」等詞分別係指「合作及/或協作(cooperate及/或collaborate、cooperation及/或collaboration以及cooperating及/或collaborating)」。
如本文中所使用,若裝置102為了其操作之至少一些態樣而組合並合作,則稱該等裝置經聯合。裝置可以各種方式聯合。在一些情況下,一裝置可僅藉由使處於其他裝置附近而聯合一或多個其他裝置。在一些情況下,可藉由經由使用者介面之特定指令來聯合裝置。在一些情況下,可藉由使裝置中之一者觸碰其他裝置來聯合裝置。
應瞭解,裝置可在不改變其所有權之情況下合作。亦即,一個使用者之裝置可在裝置均不改變所有權(亦即,裝置均不與系統100中之一不同使用者相關聯)之情況 下與另一使用者之裝置合作或聯合。
處理活動訊號
裝置對自另一裝置偵測之活動訊號之處理(S704)可視許多因素而定,該等因素包括(例如)以下各者中之至少一些:
第一裝置是否知道第二裝置(例如,自先前互動)。
第一裝置及第二裝置是否(由同一使用者)共同擁有。
該等裝置是否係朋友所有。
該等裝置是否可以某一方式合作(此可至少部分地視裝置之種類或各裝置特定功能性、裝置接近性及/或各裝置已進行之操作而定)。舉例而言,智慧型手機裝置及揚聲器裝置在處於同一房間中之情況下可合作以在揚聲器裝置上播放來自智慧型手機裝置之音樂;或兩個揚聲器裝置可合作以皆播放該兩個裝置中之一者已播放之相同音樂。另一方面,兩個頭戴式耳機裝置在其均已播放(亦即,呈現)聲音之情況下不可合作。
僅以實例提供此處給出之因素及實例,且不同因素可用以判定如何處理偵測到之活動訊號。
圖7D展示裝置(此處出於此論述目的而稱為裝置A)對另一裝置(此處稱為裝置B)之活動訊號之例示性處理(在S706)。首先,裝置A(此程序正在該裝置上執行)自接收到之活動訊號訊息(例如,圖7B中之活動訊號信號700-A)判定裝置B之裝置ID。以裝置ID可藉由其他裝置提取之 方式在信號中編碼裝置ID。在一些情況下,裝置之活動訊號可含有裝置之裝置ID的密碼編譯雜湊(例如,MD5雜湊)。在此等情況下,其他裝置可使用裝置ID之雜湊作為決策之依據,且裝置ID本身不被暴露。
在判定其他裝置之裝置ID(在S708)(或其他裝 置之雜湊)後,裝置A接著判定該裝置及裝置B是否由同一使用者擁有(亦即,該等裝置是否係共有的)(在S710)。回憶,各裝置儲存並維持來自用於裝置之使用者的使用者資料庫130之資訊。此資訊較佳包括使用者之裝置的(例如)依據裝置ID之清單。裝置A可判定活動訊號訊息中之裝置ID匹配使用者之裝置清單中之裝置ID。若裝置ID係以某一其他方式雜湊或單向編碼,則裝置A可使用相同編碼方法儲存共有裝置之清單。
若判定該等裝置係共有的(在S710),則裝置A 評估與裝置B之可能合作(在S712)。如上所述,可能合作可視許多因素而定。除相對於裝置之基礎功能性(例如,揚聲器等)之合作外,當共有裝置找到彼此(例如,經由活動訊號)時,該等裝置可視需要共用及/或更新組配資訊。
無論該等裝置是否實際合作(如S712中判定), 裝置A較佳更新其歷史以反映其與裝置B之相遇(在S714)。裝置A可接著通知後端該相遇(在S716)。請注意,較佳地,裝置對偵測到活動訊號之處理在裝置不必連絡後端之情況下進行。因此,通知後端該相遇無需進行,直至與後端形成另一常規連接。亦請注意,若任一裝置由於相 遇而更新其組配,則該更新應最終傳播回至後端。
若裝置並非共有的(如S710中判定),則裝置A 試著判定(在S718)裝置B是否係裝置A之所有者之朋友所有。回憶,活動訊號訊息可含有裝置B之使用者之使用者ID的編碼,且各裝置儲存來自使用者資料庫130之資訊,包括朋友清單。可比較活動訊號訊息中之使用者ID與朋友清單中之使用者ID以判定是否存在匹配。應瞭解,若活動訊號訊息中之使用者ID係單向編碼的,則朋友清單中之使用者ID應以類似方式編碼。
若判定(在S718中)裝置B係裝置A之所有者之 朋友所有,則裝置之間的某種合作仍可發生。因此,裝置A接著評估裝置之間的可能合作(如朋友之裝置之間的合作)(在S720)。此類合作可包括與共有裝置之間的合作(在S712中)相同種類之合作,然而此類合作可視與朋友相關聯之權限而定。朋友之裝置甚至可共用某一組配及語料庫資訊,然而,此共用較佳係有限且暫時的。
與共有裝置之間的合作(在S712)一樣,無論朋友 之裝置是否實際上合作(如S720中判定),裝置A較佳更新其歷史以反映其與裝置B之相遇(在S714),且再次地,裝置A可接著通知後端該相遇(在S716)。
若判定(在S718)裝置並非朋友所有,則裝置A 判定(在S722)其之前是否已遇到裝置B。裝置A可接著記錄關於裝置B之資訊(在S724)且接著進行至更新裝置A之歷史(在S714)且最總通知後端該相遇(在S716)。
如將瞭解,裝置(共有的或朋友之裝置)之間的合 作可能需要裝置之間的額外通訊。舉例而言,共有裝置可必須彼此通訊以便同步該等裝置之組配資訊。各裝置102因此較佳具有在執行中的經由各種通訊機制監聽來自其他裝置之通訊之至少一機制或程序。彼此相遇之兩個裝置(例如,經由該兩個裝置之活動訊號中之一者或兩者)可接著視需要而進一步互動。兩個裝置之間的通訊(例如,經由區域無線機制或區域有線網路等)較佳使用所使用之任何頻道上之安全通訊。在一些情況下,兩個裝置可首先經由一個通訊機制(例如,藍芽或BLE)上之活動訊號而彼此相遇,且接著具有使用一不同通訊機制(例如,Wi-Fi)的後續通訊。
圖7E中展示用於共有裝置之間的可能合作 (在S712)之例示性處理。在此實例中,裝置A(偵測到裝置B之活動訊號之裝置)首先(在S726)試著連絡裝置B且與裝置B建立連接。一旦連接,裝置即可(在S728)更新/同步其組配資訊(若需要)。(更新/同步(在S728))對應於圖6A中之狀態轉換T6。)該等裝置亦判定關於本身及另一裝置之資訊以便判定任何合作是否可能且係所要的。裝置可判定另一裝置之使用者特定功能性(在S730)、另一裝置在做什麼(在S732)及該裝置本身在做什麼(在S734)。此資訊可用以判定(在S736)裝置之間的可能合作。可針對各種裝置或類型之裝置建立協定以支援裝置之合作。舉例而言,在一些實施中,使一個裝置觸碰另一裝置以建立或指示裝置之間的所要合作。因此,裝置A亦可判定(在S738)是否已存在所要 合作之任何指示(例如,一個裝置是否已觸碰另一裝置,或一人員在找到特定裝置之情況下是否已命令裝置與特定裝置合作)。基於所判定之資訊(在S730S732S734S736S738),裝置可選擇並起始一可能合作(在S740)。若多個合作係可能的(如在S736判定),則可根據所要合作之指示(如在S738判定)而偏愛選擇該多個合作中之一者。
請注意,由於裝置A偵測到裝置B之活動訊號, 故有可能裝置B亦偵測到裝置A之活動訊號。在兩個裝置正在評價與彼此之合作之情況下,可必須建立關於哪些裝置作出特定決策之約定。一個例示性約定係首先起始與另一裝置之連絡的裝置在決策決定中係帶頭的,若需要/在需要時。另一可能方法係使具有最高裝置ID的裝置在決策決定中係帶頭的,若需要/在需要時。熟習此項技術者在閱讀此描述後將認識及理解,若需要/在需要時,可使用不同及/或其他衝突解決方法。
應瞭解,正因為裝置A起始與裝置B之合作(在 S740)並不意味裝置B將贊同該合作。在一些情況下,裝置A及B在起始合作之前可協商且同意合作,在此等情況下,裝置B按照協定贊同合作。
熟習此項技術者在閱讀此描述後將認識及理 解,正因為特定合作在共有裝置之間係可能的並不意味特定合作將進行。此外,應瞭解,不同及/或其他因素可用以判定且可能起始共有裝置之間的合作。
圖7F中展示用於朋友裝置之間的可能合作 (在圖7D中之S720)之例示性處理。此程序類似於用於共有裝置之程序(上文參看圖7E來描述),但此程序需要(i)裝置具有合作之權限,且(ii)較佳僅更新支援任何所選合作所需之組配資訊。若圖7F所示,若准許(基於相關聯於裝置B之所有者的朋友權限),則裝置A與裝置B建立一連接(在S742)。若准許,裝置A判定裝置B之特定功能性(在S744)及裝置B在做什麼(在S746)。裝置A判定其目前正在做什麼(在S748)。至少部分地基於已判定之資訊中之一些及相關聯於裝置B之所有者之朋友權限,裝置A接著判定(在S750)與裝置B之可能合作。裝置A亦判定(在S752)是否已存在裝置之間的所要合作之任何其他指示。至少部分地基於此等判定,裝置A選擇(在S754)與裝置B之可能且准許之合作。若多個合作係可能的(如在S736判定),則可根據所要合作之指示(如在S738判定)而偏愛選擇該多個合作中之一者。裝置A及B更新(在S756)其組配資訊(視需要且若需要)以支援選定/准許之cc合作。接著起始准許之合作(在S758)。
應瞭解,與共有裝置一樣,正因為裝置A起始與裝置B之合作(在S758)並不意味裝置B將贊同該合作。在一些情況下,裝置A及B在起始合作之前可協商且同意合作,在此等情況下,裝置B按照協定贊同合作。
熟習此項技術者在閱讀此描述後將認識及理解,正因為特定合作在朋友之裝置之間係可能的並不意味特定合作將進行。此外,應瞭解,不同及/或其他因素可用 以判定且可能起始朋友之裝置之間的合作。
雖然上文基於活動訊號偵測描述了裝置合作(其 中其他因素可能用以確定或選擇可能裝置互動),但熟習此項技術者在閱讀此描述後將認識及理解,(如上所述),其他因素可用以起始裝置合作。舉例而言,如之前所提及,在一些情況下,一裝置可僅藉由使處於其他裝置附近而聯合一或多個其他裝置;在一些情況下,可經由使用者介面藉由特定指令來聯合裝置;且在一些情況下,可藉由使裝置中之一者觸碰其他裝置來聯合裝置。在一些情況下,此等其他因素(例如,觸碰、接近、特定命令等)可超越其他因素,包括裝置中之任一者當時在做什麼。
因此,例如,如圖7G所示,各裝置102可例行 地監視來自其他裝置的某一類型之連絡(在S760)。偵測到之連絡之類型可視諸如裝置之類型之一或多個因素(亦即,裝置之基礎使用者特定功能性)而定。一些裝置可嘗試基於實體觸碰、使用者指令等而起始與其他裝置之連絡。 因此,偵測來自另一裝置之連絡嘗試(在S762)可包括解譯來自感測器輸入(來自一或多個感測器138)等之話音及/或示意動作指令(使用話音/語言機制174及/或示意動作機制166)。在偵測到可能連絡嘗試(在S762)後,裝置進行(在S764)至處理與其他裝置之連絡。
可能連絡嘗試之處理(在S764)可類似於上文(參 看圖7D圖7F)所描述之活動訊號處理。詳言之,當第一裝置偵測來自第二裝置之連絡嘗試時,第一裝置將仍必須 判定第二裝置之裝置ID(且反之亦然)、判定該等裝置係共有的抑或係朋友所有,且相應地處理該連絡嘗試。然而,在連絡嘗試之情況下,裝置可假設另一裝置(起始連絡之裝置)正試著在裝置之間建立某一形式之合作。
因此,在裝置起始連絡之情況下,用以評估共有 裝置之間的合作(在圖7D圖7E中之S712)及評估朋友之裝置之間的合作(在圖7D圖7F中之S720)之處理可如此處參看圖7H圖7J所描述地進行修改。請注意,處理之間的主要不同在於所要合作係在選擇可能合作之前給定。 因此,在評估共有裝置之間的裝置起始合作(在圖7I中之S712')中,若判定所要的裝置起始合作係一可能合作,則選擇並起始所要的裝置起始合作(在圖7I中之S740');且在評估朋友之裝置之間的裝置起始合作(在圖7J中之S720')中,若裝置起始合作係可能的且被准許,則選擇並起始所要的裝置起始合作(在S754'S758')。
正在合作之裝置亦必須能夠結束該等裝置之合 作。可以各種方式來終止合作,該等方式包括(但不限於)藉由使該等裝置中之一或多者斷電、藉由顯式使用者指令、藉由權限之變化(如自藉由一裝置接收之更新組配資訊判定)、藉由以該等裝置不再可合作之方式(例如,將一個裝置移除至屋子中之一不同房間)使該等裝置變得分離。熟習此項技術者在閱讀此描述後將認識及理解,可使用終止裝置合作之不同及/或其他方式。
裝置之間的互動對應於圖1中之弧#1
上文針對裝置至裝置互動描述之處理僅以實例給出,且無論如何不欲限制系統之範疇。熟習此項技術者在閱讀此描述後將認識及理解,不同及/或其他互動可執行且在此系統之範疇內。
計算
一般熟習此項技術者在閱讀此描述後將容易瞭解及理解,可藉由(例如)具任何大小及複雜性的經適當程式化之通用電腦、專用電腦及計算裝置來實施本文中所描述之各種程序。一或多個此等電腦或計算裝置可被稱為電腦系統。
至少部分地藉由在系統100之一或多個電腦上執行之軟體來實施上文所展示且描述之服務、機制、操作及動作。舉例而言,可藉由在一或多個電腦上執行之軟體來實施與後端104相關聯之功能性。
可以許多方式使用多種媒體(例如,電腦可讀媒體)來儲存並傳輸實施此等方法之程式(以及其他類型之資料)。硬佈線電路或定製硬體可用以替代可實施各種實施例之程序的軟體指令之一些或全部或與可實施各種實施例之程序的軟體指令之一些或全部組合。因此,可使用硬體與軟體之各種組合而非僅軟體。
一般熟習此項技術者在閱讀此描述後將容易瞭解及理解,可藉由(例如)經適當程式化之通用電腦、專用電腦及計算裝置來實施本文中所描述之各種程序。一或多個此等電腦或計算裝置可被稱為電腦系統。
圖5A係電腦系統500之示意圖,本發明之實施例可在該電腦系統上實施並進行。
根據本實例,電腦系統500可包括匯流排502(亦即,互連)、一或多個處理器504、一或多個通訊埠514、主記憶體506、唯讀記憶體508、抽取式儲存媒體510及大容量儲存器512
如本文中所使用,「處理器」意味一或多個微處理器、中央處理單元(CPU)、計算裝置、微控制器、數位信號處理器或類似裝置,或前述裝置之任何組合,不管裝置之架構如何。執行一程序之設備可包括(例如)適合執行該程序的一處理器及諸如輸入裝置及輸出裝置之彼等裝置。
處理器504可為定製處理器或任何已知處理器,諸如(但不限於)Intel® Itanium®或Itanium 2®處理器、AMD® Opteron®或Athlon MP®處理器或Motorola®處理器系統、基於ARM之處理器及類似處理器。通訊埠514可為供基於數據機之撥號連接使用之RS-232埠、10/100乙太網路埠、使用銅或光纖之十億位元埠或USB埠及類似埠中之任一者。可視網路(諸如,區域網路(LAN)、廣域網路(WAN)或電腦系統500連接至的任何網路)來選擇通訊埠514。電腦系統500可經由輸入/輸出(I/O)埠520而與周邊裝置(例如,顯示幕516、輸入裝置518)通訊。
儘管在本文中被稱為周邊裝置,但應瞭解,此等裝置可整合至某一形式的包含電腦系統500之裝置中。舉例而言,用於蜂巢式電話中之電腦系統具有作為電話之部 分的顯示幕及輸入裝置。亦應瞭解,可組合周邊裝置(若提供)(例如,在觸控螢幕或其類似者之情況下)。
熟習此項技術者在閱讀此描述後將認識及理解,並非每一個電腦系統500都必須包括所有該等組件。舉例而言,並非每一個電腦系統500都需要抽取式儲存媒體510或大容量儲存器512。類似地,並非每一個電腦系統500都將具有顯示幕516
主記憶體506可為隨機存取記憶體(RAM),或此項技術中通常已知之任何其他動態儲存裝置。唯讀記憶體508可為任何靜態儲存裝置,諸如用於儲存靜態資訊(諸如用於處理器504之指令)之可程式化唯讀記憶體(PROM)晶片。大容量儲存器512可用以儲存資訊及指令。舉例而言,可使用硬碟(諸如,小型電腦串列介面(SCSI)磁碟機之Adaptec®系列)、光碟、磁碟陣列(諸如,獨立磁碟冗餘陣列(RAID),諸如RAID磁碟機之Adaptec®系列)或任何其他大容量儲存裝置。
匯流排502以通訊方式耦接處理器504與其他記憶體、儲存器及通訊區塊。視所使用之儲存裝置及其類似者而定,匯流排502可為PCI/PCI-X、SCSI、基於通用串列匯流排(USB)之系統匯流排(或其他匯流排)。抽取式儲存媒體510可為任何種類之外部硬碟機、軟碟機、IOMEGA®Zip磁碟機、緊密光碟-唯讀記憶體(CD-ROM)、可重寫緊密光碟(CD-RW)、數位視訊磁碟-唯讀記憶體(DVD-ROM)、SDRAM等。
本文中之實施例可提供為一或多個電腦程式產 品,該一或多個電腦程式產可包括其上儲存有指令之機器可讀媒體,該等指令可用以程式化一電腦(或其他電子裝置)以執行一程序。如本文中所使用,「機器可讀媒體」一詞係指任何媒體、複數個相同媒體或不同媒體之組合,所述媒體參與提供可藉由電腦、處理器或類似裝置讀取之資料(例如,指令、資料結構)。此媒體可採用許多形式,包括(但不限於)非揮發性媒體、揮發性媒體及傳輸媒體。舉例而言,非揮發性媒體包括光碟或磁碟及其他持續記憶體。揮發性媒體包括構成電腦之主記憶體之動態隨機存取記憶體。傳輸媒體包括同軸纜線、銅線及光纖,包括包含耦接至處理器之系統匯流排之線。傳輸媒體可包括或傳遞聲波、光波及電磁放射,諸如在射頻(RF)及紅外線(IR)資料通訊期間產生之光波及電磁放射。
機器可讀媒體可包括(但不限於)軟碟、光碟、 CD-ROM、磁光碟、ROM、RAM、可抹除可程式化唯讀記憶體(EPROM)、電可抹除可程式化唯讀記憶體(EEPROM)、SDRAM、磁性或光學卡、快閃記憶體,或適合儲存電子指令之其他類型之媒體/機器可讀媒體。此外,本文中之實施例亦可下載為一電腦程式產品,其中該程式可經由一通訊鏈路(例如,數據機或網路連接)藉由具體化於載波或其他傳播媒體中之資料信號而自遠端電腦轉送至請求電腦。
在將資料(例如,指令序列)攜載至處理器中可涉及各種形式之電腦可讀媒體。舉例而言,資料可(i)自RAM 傳遞至處理器;(ii)經由無線傳輸媒體攜載;(iii)根據眾多格式、標準或協定來格式化及/或傳輸;及/或(iv)以此項技術中已知的多種方式加密。
電腦可讀媒體可儲存(以任何適當格式)適合執行該等方法之彼等程式要素。
如所展示,用支援如本文中所論述之功能性之應用程式522-1來編碼主記憶體506(應用程式522-1可為提供本文中所描述之服務之功能性(例如,後端處理)之一些或全部的應用程式)。可將應用程式522-1具體化為支援根據本文中所描述之不同實施例的處理功能性之軟體程式碼,諸如資料及/或邏輯指令(例如,儲存於記憶體中或諸如磁碟之另一電腦可讀媒體上之程式碼)。
舉例而言,如圖5B圖5C所示,當使用電腦系統500來實施後端104之功能性時,則應用程式522-1可包括後端應用程式524-1,且當使用電腦系統500來實施裝置之功能性時,則應用程式522-1可包括裝置應用程式526-1
在一個實施例之操作期間,處理器504經由使用匯流排502來存取主記憶體506以便啟動、運行、執行、解譯或以其他方式執行應用程式522-1之邏輯指令。應用程式522-1之執行產生與應用程式有關之服務之處理功能性。換言之,程序522-2表示在電腦系統500中之處理器504內或上執行之應用程式522-1之一或多個部分。
舉例而言,如圖5D圖5E所示,當使用電腦 系統500來實施後端104之功能性時,程序522-2可包括後端程序524-2;且當使用電腦系統500來實施裝置之功能性時,程序522-2可包括裝置程序526-2
應注意,除進行如本文中所論述之操作的程序 522-2外,本文中之其他實施例亦包括應用程式522-1本身(亦即,未執行或非執行邏輯指令及/或資料)。應用程式522-1可儲存於諸如磁碟之電腦可讀媒體(例如,儲存庫)中或光學媒體上。根據其他實施例,應用程式522-1亦可儲存於記憶體類型系統中,諸如儲存於韌體、唯讀記憶體(ROM)中,或如在此實例中,作為可執行程式碼而儲存於主記憶體506內(例如,隨機存取記憶體或RAM內)。舉例而言,應用程式522-1亦可儲存於抽取式儲存媒體510、唯讀記憶體508及/或大容量儲存裝置512中。
熟習此項技術者將理解,電腦系統500可包括其 他程序及/或軟體及硬體組件,諸如控制硬體資源之分配及使用之作業系統。舉例而言,包括核心(kerne1)之作業系統(OS)程式可為電腦系統上之程序。
如本文中所論述,本發明之實施例包括各種步驟 或操作。多種此等步驟可藉由硬體組件來執行,或可具體化為機器可執行指令,該等步驟可用以使經該等指令程式化之通用或專用處理器執行操作。替代地,可藉由硬體、軟體及/或韌體之組合來執行該等步驟。「模組」一詞係指自含式功能組件,其可包括硬體、軟體、韌體或其任何組合。
一般熟習此項技術者在閱讀此描述後將容易瞭解及理解,設備之實施例可包括可操作以執行所述程序之一些(但未必全部)的電腦/計算裝置。
儲存程式或資料結構之電腦可讀媒體之實施例包括儲存在執行時可使處理器執行所述程序之一些(但未必全部)之程式之電腦可讀媒體。
在本文中所描述之程序之情況下,熟習此項技術者將瞭解,該程序可在無任何使用者介入之情況下操作。在另一實施例中,該程序包括某一人為互動(例如,藉由人類或在人類幫助下執行步驟)。
再參看圖4A圖4B,回憶,裝置102包括電腦系統146。在一些情況下,電腦系統146(單獨地,或與系統機制/資料134組合)可對應於如上所述之電腦系統500(參看圖5A圖5C),儘管如應瞭解,電腦系統146可不包括圖5A所示之組件之全部,且電腦系統146可包括額外組件(例如,關於裝置102所需之特殊處理)。舉例而言,電腦系統146可包括多個處理器、多個記憶體等。亦應瞭解,電腦系統146可由多個電腦系統500形成。另外,電腦系統146可實施使用者特定功能性132之一些或全部。
控制裝置
可藉由話音控制、示意動作控制、連絡控制中之一或多者(例如,使用按鈕及其類似者)來控制具備系統功能之裝置102。另外,當存在其他類似裝置時,可藉由其他裝置中之一或多者或藉由給予其他裝置中之一或多者之指令 來完全或部分地控制特定種類之具備系統功能之裝置102。舉例而言,當裝置102係揚聲器時,可將多個裝置組合以一起操作。在此等情況下,可由使用者將特定命令(例如,提高音量)給予該等裝置(揚聲器)中之一者,但所有的合作裝置應遵照該等特定命令。
話音控制
裝置之話音機制166可用以支援裝置之話音控制。話音機制166較佳包括用於適合該類裝置之基本命令的話音辨識機制。舉例而言,對於根本上為揚聲器之裝置,話音命令可包括用以使裝置斷電(或自低功率模式通電)、較大聲地播放、較溫和地播放等的命令。可使用特定硬體或電路及DSP(數位信號處理器)來實施話音機制166
各裝置較佳維持來自使用者之經辨識詞之語料庫。在一些情況下,裝置可維持詞之多個語料庫,許多裝置之各者有一個語料庫。由於可由一個以上人員來控制裝置(且,視裝置中之權限設定而定,控制裝置之人員可能並非系統之已知使用者),故裝置必須能夠將特定命令與適當使用者關聯。以此方式,裝置可判定詞之哪個語料庫將用於話音/命令辨識。
裝置102可結合一或多個攝影機(感測器138)來使用臉部辨識機制168以關聯話音與一特別使用者,從而選擇適當語料庫。
在一些情況下,裝置可能不能夠處理話音命令/請求。此可歸因於任何數目個因素,包括命令/請求之複雜 性、環境因素(例如,雜訊)、說話人之口音等。在此等情況下,若可能(例如,若連接至網路)且若可准許,則裝置可將話音命令/請求發送至後端以(例如,藉由話音辨識提供之新增功能性120)進行處理。話音可以原始形式或以某一經預處理形式發送。此處理之結果可為用於後端之命令/請求或用於裝置本身之命令。應瞭解,經由後端遠端處理的裝置命令對控制裝置之特定態樣而言可能不夠快(例如,對於揚聲器,較大聲地播放),且後端處理對較複雜命令(尤其是涉及資料庫查詢之命令)更有用。
示意動作控制
裝置之示意動作機制164可單獨地或與話音機制166組合使用以支援裝置之示意動作控制。示意動作機制164較佳包括用於適合該類裝置之基本命令的示意動作辨識機制。示意動作機制164可使用包括(例如)一或多個攝影機之感測器138中之一或多者。可使用專用示意動作偵測/辨識硬體及電路。
臉部及凝視偵測
在一些情況下,在裝置附近可存在同時說話的多個人。該等人所說的話中之一些可能不欲作為用於裝置之命令。因此,在一些情況下,裝置可使用凝視偵測(藉由臉部/凝視機制168判定)之組合來判定話音命令是否欲供裝置使用。臉部/凝視機制168可使用一或多個感測器(例如,一或多個攝影機)來判定說話之人是否實際上看著裝置102。由於某人可在其完全面對裝置之前開始(對著裝置)說 話,故較佳地,各裝置不斷地緩衝一段聲音,使得一旦偵測到凝視,裝置即可開始緩衝串流之話音辨識。
在一些情況下,嘴移動偵測可組合凝視偵測來使用以確定看著裝置之人係對著裝置說話之人。
熟習此項技術者在閱讀此描述後將認識及理解,話音辨識、示意動作偵測及辨識與臉部及/或凝視偵測可以各種組合使用以控制裝置。
報告回至後端
在操作中,各裝置向後端102報告資訊(對應於圖1中之弧#7)。資訊較佳包括報告裝置之唯一裝置ID,及與報告裝置之所有者相關聯之唯一使用者ID,若該裝置與一使用者相關聯。藉由各裝置報告之資訊之一些或全部可(例如)分別作為裝置歷史及/使用者歷史而儲存於裝置資料庫128及/或使用者資料庫130中。由於各裝置具有唯一裝置ID,且由於各使用者具有唯一使用者ID,故可將來自裝置之資訊儲存於根據裝置ID及使用者ID加密鑰之資料庫中。
在一些情況下,裝置102可包括關於其在報告時所在之地點之資訊。在彼等情況下,可將地點資訊(作為當前裝置地點及裝置歷史兩者)儲存於裝置資料庫中。類似地,可根據裝置歷史而將地點資訊儲存於使用者資料庫中。以此方式,對資料庫之查詢可包括關於裝置地點之查詢。
當使用者向系統註冊時,使用者可提供與裝置在 註冊時之當前地點相關聯之地點識別資訊。使用者亦可將多個地點儲存於系統中,各地點具有由使用者提供之不同識別。舉例而言,使用者可儲存用於使用者之家、工作、使用者之朋友之家等的GPS地點資訊。以此方式,系統可支援基於已命名地點之資料庫查詢(例如,系統對「裝置在哪裡?」之回應可為「在Joe家」)。較佳地,使用者不必特別請求儲存地點資訊,因為地點(例如,GPS)資料係較佳作為歷史資料之部分或上下文後設資料而自動地儲存。
裝置102亦可報告特定於該類裝置之資訊(例 如,裝置之特定功能性)。舉例而言,根本上為揚聲器之裝置可向後端報告關於裝置之播放內容及裝置之所在的資訊。在一些情況下,資訊可包括關於裝置設定及涉及(例如,聯合)哪些其他裝置的資訊。以此方式,資料庫將支援對「昨晚10點左右在Joe家播放了什麼」之類的查詢,系統可將歌曲清單提供至查詢。
裝置102亦可報告關於最接近裝置或使用者的資訊。
實例裝置-聲音呈現裝置
圖8A圖8D描繪例示性裝置800(裝置102之實施例)之架構之態樣,其中裝置之特定功能性係聲音呈現。裝置800可用作為(例如)揚聲器。如圖8A圖8B所示,聲音呈現裝置800包括支援使用者特定功能性之組件832。此等組件832包括一或多個揚聲器驅動程式860、一或多個信號處理器862、一或多個處理器864、記憶體/儲 存器866及控制項868
圖8A圖8C所示,裝置800可包括通訊機 制,包括藍芽機制(BLE機制)、乙太網路機制、ZigBee機制、蜂巢式機制及Wi-Fi機制。在一個實施中,裝置800之該等通訊機制包括藍芽機制,而不包括乙太網路、ZigBee或蜂巢式機制。
圖8A圖8D所示,聲音呈現裝置800亦可 包括感測器838,該等感測器包括一或多個攝影機870、一或多個麥克風872、裝置運動感測器、地點/位置感測器、外部運動感測器、觸碰/接觸感測器、光感測器、溫度感測器及其他感測器。在一個實施中,裝置800之感測器不包括攝影機或溫度感測器。
在一個例示性實施中,以下各者可用於此等組件中之一者:
在另一例示性實施中,以下各者可用於此等組件中之一者:
應瞭解,以上清單係僅以實例給出且無論如何不 欲限制裝置之範疇。
可將任何已知機制用於各種介面機制162。舉例 而言,臉部移動偵測可將CANDIDE系統用於人臉之基於模型編碼。CANDIDE使用具有少數多邊形(近似100)之面部模型,其允許具有中等計算能力之快速重建構。
聲音呈現裝置800可像如上所述之裝置102一樣 操作。
熟習此項技術者在閱讀此描述後將認識及理 解,可在聲音呈現裝置800內使用不同及/或其他特定組件,且本文中考慮此等其他組件且該等組件在系統之範疇內。應瞭解,可以多個方式來實施及封裝各種組件,且裝置不受藉以實施或封裝該等組件之方式限制。應進一步瞭解,裝置不受封裝或裝置採用之形式(亦即,裝置之外觀尺寸)限制。
下表含有裝置可使用話音辨識機制在本端解譯 之例示性命令(亦即,片語)之清單的語法。如本文中所使用,片語意味一或多個詞。在下面的語料庫表中,粗斜體字型之片語在本端語料庫中;方括號中之片語(「[“,”]」)係可選的。片語之間的豎線(|)意味「或」(亦即,片語中之 一者)。因此,例如,「A」}「B」意味片語「A」或片語「B」。表示為「#n」之片語意味數字。跟有星號(「*」)之片語意味該片語可重複。跟有「(s)」之詞片語意味可使用單數或複數個詞。因此,例如,表中之第二項目,[[稍]|*|#n]較溫和|較低|較高|[較]平穩
可對應於「稍低」、「更高」、「較溫和」、「低一點」、「溫和一點」、「更更較溫和」、「平穩」、「較平穩」、「稍平穩」等。
作為一實例,該表中之第三項目可意味以下各者 之任一者:「播放接下來的十首曲子」、「播放任何隨機歌曲」、「播放接下來的曲子」、「再播放之前的歌曲」、「播放多首隨機曲子」、「再播放」、「播放」等。作為另一實例,第五項目可意味以下各者之任一者:「跳過」、「接下來三首歌曲」、「一曲子」、「跳過七首」、「之前曲子」等。作為再一實例,第八項目可意味「音調」、「向上調整高音」、「低音較低」等之任一者。
在下文中:<musical entity>可為特定歌曲、表演者或專輯,<artist entity>係表演者之名稱(例如,Pink Floyd)
<album entity>係歌曲之有序特定集合(例如,「Dark side of the moon」)
在一些實施例中,話音命令可包括:「播放」(<musical entity>|<musical entity>「按照」<artist entity>|<album entity>「按照」<artist entity>|「某些內容」|「新內容」|「不同內容」|「我的最愛」)
話音/語音辨識機制178因此可辨識特定所說片語,且接著將必須判定其對應語義(亦即,意義)且將對應指令提供至其他操作機制(例如,至命令/控制機制158)以實際上控制裝置。
應瞭解,此例示性語料庫提供已辨識片語之語法,且並非所有片語都將具有針對裝置之意義(或合理意義)。舉例而言,上文之第三項目可支援對片語「再播放接下來任何三首歌曲」之辨識,且上文之第五項目可支援對片語「跳過之前的一首曲子」之辨識。雖然此等片語兩者在語法上正確(根據語料庫中之語法),但該等片語可不對應於任何有意義命令且可被裝置忽略。
僅提供上文針對話音/語音辨識機制178給出之語料庫語法作為實例,且熟習此項技術者在閱讀此描述後將認識及理解,不同及/或其他話音指令可被聲音呈現裝置800理解且在本文中予以考慮。
聲音呈現裝置800可彼此合作以呈現同一聲音(例如,同時(較佳同步地)播放來自同一源之同一音樂)。當兩個或兩個以上聲音呈現裝置800合作以呈現來自同一源 之聲音時,該等聲音呈現裝置不必全部呈現完全相同之聲音。舉例而言,多個聲音呈現裝置800可合作以將來自同一源之聲音呈現為環繞聲系統。作為另一實例,多個聲音呈現裝置800可合作以呈現來自同一源之聲音,以使得該等聲音呈現裝置中之一些呈現(例如,來自某些樂器之)某一聲音,而其他聲音呈現裝置呈現(例如,來自其他樂器之)其他聲音。
應瞭解,聲音呈現裝置800亦可為用以產生聲音 之信號之源。舉例而言,智慧型手機(諸如,iPhone或其類似者)可具有一揚聲器且產生可用以產生聲音之一信號(藉由手機本身及其他裝置800兩者)。
下文參看圖9A圖9C給出聲音呈現裝置800之間的合作之實例。
實例合作-立體聲
參看圖9A中之圖式,兩個聲音呈現裝置800-A800-B可合作以提供立體聲效應。該等裝置中之DSP合作以產生(例如)哈斯效應(Hass effect)。應瞭解,該等裝置可判定其自身之相對位置(例如,使用回波定位或某一其他機制),且該等裝置可使用此相對位置資訊來最佳化合作效應。
實例合作-獨立儀器
參看圖9B中之圖式,多個聲音呈現裝置800-A800-D可合作以使得該等多個聲音呈現裝置之各者僅使該等儀器中之一些以原始信號播放。原始信號可提供用於 每一儀器之獨立串流,或各DSP可經程式化以篩選出特定儀器。當裝置聯合此群組時,各裝置經分配一或多個儀器以用於呈現。舉例而言,假設裝置A最初正在單獨播放且使所有聲音以原始信號呈現。當裝置B聯合裝置A時,裝置A接著可呈現(例如)貝斯及小提起,且裝置B可呈現大提琴及人聲。當裝置C聯合裝置A及B時,裝置C接著可僅負責小提琴,而令裝置A僅具有貝斯。接著,當裝置D聯合時,裝置D可負責來自裝置B之人聲(如圖9B中之圖式所示)。若其他裝置聯合該群組,則該等裝置可與已存在裝置中之一或多者組合或該等裝置可具有某一其他責任。 若一裝置離開該群組,則應將該裝置所負責的信號之部分重新指派給仍在該群組中之另一裝置。
雖然此實例展示對音訊信號中之不同儀器之選 擇性責任,但熟習此項技術者在閱讀此描述後將認識及理解,裝置800負責不同及/或其他態樣之音訊系統。應瞭解,裝置800可呈現(或不呈現)裝置之DSP可篩選(加入或除去)之音訊串流之任何一或多個部分。此外,裝置800可增強或修改裝置之DSP可篩選之音訊串流之任何一或多個部分。
實例合作-任意配置
參看圖9C中之圖式,處於或位於任意(偶然性)配置之多個聲音呈現裝置800-A至圖800-E可合作。該等裝置可判定其自身之相對位置(例如,使用回波定位或某一其他方法),且該等裝置可使用此相對位置資訊來最佳化合 作效應。該等裝置亦合作以針對收聽者產生最佳或有益合作效應(若收聽者之位置係已知的或可判定)。
若該等裝置假設收聽者係給出命令(話音、示意 動作等)之人,則裝置可使用其各自攝影機定位(且跟隨)收聽者,從而相應地調整聲音。單一裝置中之單一攝影機可能夠判定收聽者所處之方向。一些技術允許多個單一攝影機判定近似距離。多個攝影機(在單一裝置中或在多個裝置中)可較準確地定位收聽者(例如,藉由臉部定位及/或移動追蹤)。除使用一或多個攝影機來定位人員外(或替代使用一或多個攝影機來定位人員),可使用話音輸入及回波偵測來達成地點偵測。因此,例如,在不具有攝影機話音輸入之裝置中,可單獨回波偵測來判定地點。在具有攝影機、話音輸入之裝置中,可單獨或與攝影機組合地使用回波偵測來判定地點。
在此實例中,用於合作之各種選項係可能的。舉 例而言,可沿著不同立體聲線路(圖式中之L1L2L3)置放不同儀器;裝置800-A至裝置800-E中之一些可用以添加諸如回聲、混響或其類似者之效應;該等裝置中之一些可用以抵消室內雜訊或回聲等。
舉例而言,如圖9C所示,可藉由裝置A及C來 呈現貝斯(沿著立體聲線路L1),可藉由裝置A及E來呈現小提琴及大提琴(沿著立體聲線L2),且可藉由裝置D及E來呈現人聲(沿著立體聲線路L3)。可接著裝置B來執行多個效應(例如,室內雜訊或回聲之消除)。
若音訊信號含有多個頻道或其他編碼,則該等裝 置可合作以呈現此等頻道。
聲音呈現裝置800(尤其是攜帶型裝置)之性質適 合於其合作。在一些實施中,一使用者可授予一朋友共用其裝置800之來客特權。在一些實施中,一使用者可授予暫時(宴會模式)特徵給全部任何其他裝置以共用其聲音呈現裝置800
衝突解決
如上所述(參看活動訊號處理),一個裝置可能需要操控何時多個裝置試著合作。在聲音呈現裝置800之情況下,較佳約定係首先起始與另一裝置之連絡(例如,藉由觸碰另一裝置等)的裝置在決策決定中係帶頭的,若需要/在需要時。一般熟習此項技術者在閱讀此描述後將認識及瞭解,判定哪些裝置操縱之不同及/或其他技術可以使用且在本文中被考慮到。
內容類型分類
聲音可分類為內容類型(例如,人聲、儀器、爵士、古典、口語等),且此等內容類型可具備聲音原始信號且可用以自動地設定或調整聲音呈現裝置800中之DSP。在一些情況下,預設內容類型資訊可與使用者偏好組合或被使用者偏好超越(使用者偏好可經由某一使用者介面提供或基於使用者與裝置之互動藉由裝置學習)。舉例而言,若使用者始終針對特定內容類型之音樂調整DSP設定、始終超越預定DSP設定,則裝置800可學習使用者之所要設 定且始終使用彼等設定來替代系統對該內容類型之預設設定。
舉例而言,可在分析源聲音之離線程序之前設定 內容類型資訊。舉例而言,來源媒體櫃之提供者可預分析其媒體櫃中之全部音樂以分類每一音樂項目之內容類型。 該分類可被儲存(例如,表示內容類型之位元向量)且可具備原始資料。然而,應瞭解,原始信號中之內容類型資訊之處理與藉以獲得或設定內容類型資訊之方式無關。
合作中裝置800可使用原始信號中之內容類型 資訊來判定及調整該等裝置如何合作。因此,當呈現對應於多首歌曲之聲音時,合作裝置800可視各歌曲之內容類型而修改該等裝置藉以合作之方式。
熟習此項技術者在閱讀此描述後將認識及理 解,可由多個聲音呈現裝置800使用不同及/或其他種類之合作,且此(此等)合作在本文中被考慮且在系統之範疇內。
歷史及學習
如上所述,系統100可自各裝置102獲得資訊。在聲音呈現裝置800之情況下,該等裝置較佳通知後端184該等裝置正在呈現什麼聲音(例如,該等裝置正在播放什麼音樂)以及在何時及在何處聲音開始呈現。為此,各裝置800保留其活動之歷史且有規律地及/或在裝置能夠提供時將該歷史提供至後端184。歷史可作為活動及可用以重現裝置之活動之裝置設定的帶時間戳記之有序清單而提供。若一裝置正與另一裝置合作,則該資訊亦包括於歷史中,且兩 個(全部)操作裝置將其本身之歷史資訊提供至後端。
後端將裝置歷史資訊儲存於裝置資料庫及使用者資料庫128130中。
此種裝置歷史資訊支援以下種類之後續查詢(經由後端184及可能之新增功能性120):
1.「播放我在星期一在收聽什麼。」
2.「播放我和[使用者]Joe一起在星期天在收聽什麼。」
3.「將我的裝置設定至在2012年7月1日之設定。」
4.「播放[使用者及朋友]Mary現在正收聽什麼。」
請注意,查詢#2可要求Joe與進行查詢之使用者為朋友且可要求來自Joe之權限。查詢#4可要求Mary與進行查詢之使用者為朋友且可要求來自Mary之權限。亦請注意,查詢#4假設系統已被更新從而知道(接近即時地)Mary正在收聽什麼。
僅提供此等查詢作為實例,且此等查詢無論如何不欲限制系統之範疇。
雜訊消除
如上所述,裝置可試著篩選出環境雜訊以便較精確地處理話音互動。聲音呈現裝置800擁有額外問題,因為該裝置本身可為環境雜訊之來源。在任何情況下,該裝置不應將藉由裝置呈現之聲音感覺為至裝置本身之命令。因此,在較佳實施中,聲音呈現裝置800自藉由裝置之聲音感測器(麥克風)獲得之聲音篩選出其產生之聲音。
如本文中所使用,詞「第一」、「第二」等在其用 作為項目之前的形容詞時僅用以區別相似項目,且該等詞之使用並不暗示或定義任何數值限制或任何排序(時間的或其他)。因此,「第一裝置」及「第二裝置」等詞僅用以提及並區別不同裝置。
如本文中所使用(包括在申請專利範圍中),片語 「基於」意味至少部分地基於,除非另有特殊規定。因此,片語「基於XYZ」意味「至少部分地基於XYZ」。
如此描述用於裝置組配、互動及控制之統一架構,以及其中所使用之系統、裝置及機制。雖然已結合認為是最實際且較佳之實施例來描述本發明,但將理解,本發明並不限於所揭示實施例,正相反,本發明意欲涵蓋包括於附加之申請專利範圍之精神及範疇內的各種修改及等效配置。
100‧‧‧系統
101‧‧‧網路
102、102-n、102-1、102-2、102-3、‧‧‧裝置
104‧‧‧後端系統
106‧‧‧憑證授權單位(CA)
108‧‧‧授權裝置製造商
110‧‧‧使用者
112‧‧‧後端應用程式
114‧‧‧資料庫
116‧‧‧社交網路服務
118‧‧‧內容提供者
120‧‧‧實體/新增功能性
122‧‧‧雜項外部組件

Claims (51)

  1. 一種裝置,其包含:(A)支援該裝置之裝置特定功能性的第一機制;以及(B)支援對該等第一機制之控制的第二機制,該等第二機制包括:(B)(1)感測器,經組配以獲得關於該裝置及/或該裝置周圍之一環境之物理性質及環境性質的資訊;(B)(2)控制機制;以及(B)(3)人性化介面機制,經組配以自該等感測器之至少一些獲得感測器輸入、基於該感測器輸入而判定感測器資訊且將該感測器資訊提供至該等控制機制,(C)其中該等控制機制經組配以(C)(i)基於來自該等人性化介面機制之該感測器資訊而判定控制資訊,且(C)(ii)將該控制資訊之至少一些提供至該等第一機制,且(D)其中該等第一機制經組配且經調適以自該等控制機制獲得該控制資訊且至少部分地根據自該等控制機制獲得之該控制資訊而操作,且(E)其中該等感測器包括: (E)(1)一或多個攝影機,經組配以自該裝置周圍之該環境獲得影像資訊且將該影像資訊提供至該等人性化介面機制,以及(E)(2)一或多個麥克風,經組配以自該裝置周圍之該環境獲得聲音資訊且將該聲音資訊提供至該等人性化介面機制,且(F)其中該等人性化介面機制包含:(F)(1)語音機制,經組配以辨識該聲音資訊中之語音且將關於該聲音資訊中之經辨識語音的資訊作為語音資訊提供至該等控制機制,其中該等控制機制基於該語音資訊而判定該控制資訊;以及(F)(2)臉部機制,經組配以偵測該影像資訊中之臉部資訊及/或凝視資訊;其中該等語音機制(F)(1)經組配以基於藉由該等面部機制偵測之資訊而起始語音辨識。
  2. 如請求項1之裝置,其中該等語音機制經組配以基於藉由該等臉部機制偵測之凝視資訊而起始語音辨識。
  3. 如請求項1或2之裝置,其中該等語音機制經組配以緩衝來自該裝置周圍之該環境之聲音資訊且基於藉由該等臉部機制偵測之凝視資訊而起始經緩衝聲音資訊之語音辨識。
  4. 如請求項1或2之裝置,其中該等語音機制使用至少一語音語料庫,且其中該等語音機制經組配以基於藉由該等臉部機制提供之臉部資訊而自該至少一語音語料庫 選擇一語音語料庫。
  5. 如請求項1或2之裝置,其中該等人性化介面機制進一步包含:(F)(3)示意動作機制,經組配以偵測及辨識該影像資料中之示意動作;且將關於該影像資訊中之經辨識示意動作的資訊作為示意動作資訊提供至該等控制機制,且其中該等控制機制經組配以基於該示意動作資訊而判定該控制資訊。
  6. 一種裝置,其包含:(A)支援該裝置之裝置特定功能性的裝置特定機制;以及(B)支援對該等裝置特定機制之控制的第二機制,該等第二機制包括:(B)(1)控制機制;(B)(2)感測器,包括經組配以自該裝置周圍之一環境獲得影像資訊的一或多個攝影機,及經組配以自該裝置周圍之該環境獲得聲音資訊的一或多個麥克風;以及(B)(3)人性化介面機制,包含:(B)(3)(1)臉部機制,經組配以判定自該一或多個攝影機獲得之影像資訊中之凝視資訊,以及(B)(3)(2)語音機制,經組配以辨識自該 一或多個麥克風獲得之聲音資訊中之語音且將關於該聲音資訊中之經辨識語音的資訊作為語音資訊提供至該等控制機制,其中該等語音機制經組配以基於藉由該等臉部機制偵測之凝視資訊而起始語音辨識,且其中該等人性化介面機制經組配以基於自該等語音機制獲得的關於經辨識語音之該資訊而判定介面資訊,且將該介面資訊提供至該等控制機制,且其中該等控制機制經組配以:基於來自該等人性化介面機制之該介面資訊而判定控制資訊,且將該控制資訊之至少一些提供至該等裝置特定機制,且其中該等裝置特定機制經組配以自該等控制機制獲得該控制資訊且至少部分地根據自該等控制機制獲得之該控制資訊而操作。
  7. 如前述請求項中任一項之裝置,其中該裝置特定功能性包含聲音呈現。
  8. 如請求項7之裝置,其中該裝置係一揚聲器。
  9. 一種操作一裝置之方法,該方法至少部分地藉由包括至少一處理器及一記憶體之硬體來實施,該方法包含:(A)將來自該裝置周圍之一環境的感測器資訊作為緩衝感測器資訊而緩衝於該記憶體之一緩衝器中;(B)偵測該環境中之一人員之一凝視; (C)基於在(B)中偵測到之該凝視,起始對包括該緩衝感測器資訊之某一感測器資訊之辨識;(D)在(C)中起始之該辨識判定包括該緩衝感測器資訊之該感測器資訊中的至少一指令;以及(E)基於該至少一指令而操作該裝置。
  10. 如請求項9之方法,其中該感測器資訊包含影像資訊,且其中在(C)中起始之該辨識包含示意動作辨識,且其中該至少一指令係基於藉由該示意動作辨識辨識之至少一示意動作而判定。
  11. 如請求項8或9之方法,其中該感測器資訊包含聲音資訊,且其中在(C)中起始之該辨識包含語音辨識,且其中該至少一指令係基於藉由該語音辨識辨識之至少一所說片語而判定。
  12. 一種操作一裝置之方法,該方法至少部分地藉由包括至少一處理器及一記憶體之硬體來實施,該方法包含:(A)將來自該裝置周圍之一環境的聲音作為緩衝聲音而緩衝於該記憶體中;(B)偵測該環境中之一人員之一凝視;(C)基於在(B)中偵測到之該凝視,起始對包括該緩衝聲音之某一聲音之辨識;(D)該語音辨識判定包括該緩衝聲音之該聲音中的至少一指令;以及(E)基於該至少一指令而操作該裝置。
  13. 一種操作一裝置之方法,該方法至少部分地藉由包括至 少一處理器及一記憶體之硬體來實施,該方法包含:(A)將來自該裝置周圍之一環境的影像資訊作為緩衝影像資訊而緩衝於該記憶體中;(B)偵測該環境中之一人員之一凝視;(C)基於在(B)中偵測到之該凝視,起始對包括該緩衝影像資訊之某一影像資訊之示意動作辨識;(D)該示意動作辨識判定包括該緩衝影像資訊之該影像資訊中的至少一指令;以及(E)基於該至少一指令而操作該裝置。
  14. 如請求項9至13中任一項之方法,其中該裝置係一聲音呈現裝置。
  15. 如請求項14之方法,其中該裝置係一揚聲器。
  16. 一種在一架構中可操作之方法,該方法包含:(A)提供一裝置,該裝置具有一裝置特定功能性;(B)關聯該裝置與該架構之一使用者,該使用者具有與之關聯的使用者特定組配資訊,用於該使用者之該使用者特定組配資訊包含:支援對該使用者之語音之辨識的至少一語音語料庫;以及(C)基於相關聯於該使用者之該使用者特定組配資訊而以組配資訊自動地組配該裝置。
  17. 如請求項16之方法,其中用於該使用者之該使用者特定組配資訊進一步包含以下各者中之一或多者:網路組配資訊;密碼資訊; 用於相關聯於該使用者之示意動作辨識的至少一示意動作語料庫;以及用於該使用者之臉部辨識的臉部資訊。
  18. 如請求項16及17中任一項之方法,其進一步包含:(D)基於相關聯於該使用者之更新使用者特定組配資訊而更新該裝置上之該組配資訊之至少一些。
  19. 如請求項18之方法,其中該裝置自另一裝置獲得該更新使用者特定組配資訊。
  20. 如請求項19之方法,其進一步包含:(D)將至少一些使用者特定組配資訊提供至另一裝置。
  21. 如請求項18之方法,其中該裝置基於與該裝置之一或多個人為互動而更新該使用者特定組配資訊之一些。
  22. 如請求項21之方法,其進一步包含:(D)將更新使用者特定組配資訊提供至另一地點。
  23. 如請求項22之方法,其中該更新使用者特定組配資訊係儲存於另一地點處。
  24. 一種在一架構中可操作之方法,該方法包含:(A)關聯一第一裝置與該架構之一使用者,該使用者具有與之關聯的使用者特定組配資訊,該使用者特定組配資訊包括用於辨識相關聯於該使用者之互動的至少一語料庫;以及(B)以相關聯於該使用者之該使用者特定組配資 訊之至少一些自動地組配該裝置。
  25. 如請求項24之方法,其中該至少一語料庫包含以下各者中之一或多者:用於相關聯於該使用者之語音辨識的至少一語音語料庫;以及用於相關聯於該使用者之示意動作辨識的至少一示意動作語料庫。
  26. 如請求項24或25之方法,其中該使用者特定組配資訊進一步包含以下各者中之一或多者:網路組配資訊;密碼資訊;以及用於該使用者之臉部辨識的臉部資訊。
  27. 如請求項26之方法,其中該第一裝置基於一或多個人為互動而更新該使用者特定組配資訊之一些。
  28. 如請求項27之方法,其中該第一裝置將更新使用者特定組配資訊提供至另一地點。
  29. 如請求項28之方法,其進一步包含:(C)在該另一地點處,關聯自該第一裝置接收之更新使用者特定組配資訊與該使用者。
  30. 如請求項29之方法,其進一步包含:(D)關聯一第二裝置與該使用者;以及(E)以該更新使用者特定組配資訊自動地組配該第二裝置。
  31. 如請求項24至30中任一項之方法,其中該第一裝置係 一聲音呈現裝置。
  32. 如請求項30之方法,其中該第一裝置及該第二裝置係聲音呈現裝置。
  33. 一種支援代表多個使用者之多個裝置之操作的架構,其中該等多個裝置之各裝置經組配以在該架構中主要關聯於該等多個使用者中之一個使用者,該架構包含:包含硬體及軟體之一後端系統,包括至少一處理器及記憶體,該後端系統包括一資料庫系統及多個後端應用程式,該等後端應用程式在該硬體上執行且經組配以:(a)與該資料庫系統及該等多個裝置介接,且(b)將關於該等多個裝置之各裝置的裝置資訊維持在該資料庫系統中,關於各特別裝置之該裝置資訊包括關於相關聯於該特別裝置之任何使用者的資訊,且(c)將關於該等多個使用者之各使用者的使用者資訊維持在該資料庫系統中,用於各特別使用者之該使用者資訊包括支援相關聯於該特別使用者之裝置中之至少一人性化介面控制機制的資訊;且(d)將來自該資料庫系統之使用者資訊之至少一些提供至相關聯於該等多個使用者之一特定使用者之至少一裝置。
  34. 如請求項33之架構,其中用於各特別使用者之該使用者資訊進一步包括相關聯於該特別使用者之組配資訊,且其中在(d)中藉由該後端系統提供的該特定使用者 之使用者資訊包括相關聯於該特定使用者之組配資訊。
  35. 如請求項33之架構,其中藉由該後端系統提供的該特定使用者之使用者資訊包括支援相關聯於該特定使用者之多個裝置中之該至少一人性化介面控制機制的該資訊。
  36. 如請求項33至35中任一項之架構,其中該至少一人性化介面控制機制包括一語音辨識機制,且其中,對於一特定使用者,支援該至少一人性化介面控制機制的該資訊包含相關聯於該特定使用者且可由一語音辨識機制使用以支援對該特定使用者之語音之辨識的至少一語音語料庫。
  37. 如請求項33至35中任一項之架構,其中該至少一人性化介面控制機制包括一示意動作辨識機制,且其中,對於一特定使用者,支援該至少一人性化介面控制機制的該資訊包含相關聯於該特定使用者且可由一示意動作辨識機制使用以支援對該特定使用者之示意動作之辨識的至少一示意動作語料庫。
  38. 如請求項33之架構,其中該等後端應用程式經進一步組配以:(e)自多個裝置獲得更新使用者資訊;且(f)在該資料庫系統中,關聯該更新使用者資訊與對應使用者。
  39. 如請求項38之架構,其中來自一特別裝置之該更新使用者資訊包含支援該特別裝置上之一人性化介面控制 機制之更新資訊。
  40. 如請求項39之架構,其中該等後端應用程式在(f)中關聯支援該特別裝置上之該人性化介面控制機制的該更新資訊與相關聯於該特別裝置之一使用者。
  41. 如請求項39之架構,其中該特別裝置上之該人性化介面控制機制包含一語音辨識機制,且其中該更新使用者資訊包含用於該語音辨識機制之一更新語音語料庫。
  42. 如請求項41之架構,其中該等後端應用程式在(f)中關聯用於該特別裝置上之該語音辨識機制的該更新語音語料庫與相關聯於該特別裝置之一使用者。
  43. 一種在支援代表多個使用者之多個裝置之操作的架構中可操作之方法,其中該等多個裝置中之各裝置經組配以在該架構中主要關聯於該等多個使用者中之一個使用者,該架構包含:包含硬體及軟體之一後端系統,包括至少一處理器及記憶體,該後端系統包括:一資料庫系統及多個後端應用程式,該等後端應用程式在該硬體上執行且經組配以與該資料庫系統及該等多個裝置介接,該方法包含:(A)將關於該等多個裝置之各裝置的裝置資訊維持在該資料庫系統中,關於各特別裝置之該裝置資訊包括關於相關聯於該特別裝置之任何使用者的資訊;(B)將關於該等多個使用者之各使用者的使用者資訊維持在該資料庫系統中,用於各特別使用者之該使 用者資訊包括支援相關聯於該特別使用者之裝置中之至少一人性化介面控制機制的資訊;以及(C)將來自該資料庫系統之使用者資訊之至少一些提供至相關聯於該等多個使用者之一特定使用者之至少一裝置。
  44. 如請求項43之方法,其中用於各特別使用者之該使用者資訊進一步包括相關聯於該特別使用者之組配資訊,且其中在(C)中提供的該特定使用者之使用者資訊包括相關聯於該特定使用者之組配資訊。
  45. 如請求項43之方法,其中在(C)中提供的該特定使用者之使用者資訊包括支援相關聯於該特定使用者之多個裝置中之該至少一人性化介面控制機制的該資訊。
  46. 如請求項43至45中任一項之方法,其中該至少一人性化介面控制機制包括一語音辨識機制,且其中,對於一特定使用者,支援該至少一人性化介面控制機制的該資訊包含相關聯於該特定使用者且可由一語音辨識機制使用以支援對該特定使用者之語音之辨識的至少一語音語料庫。
  47. 如請求項33至35中任一項之方法,其中該至少一人性化介面控制機制包括一示意動作辨識機制,且其中,對於一特定使用者,支援該至少一人性化介面控制機制的該資訊包含相關聯於該特定使用者且可由一示意動作辨識機制使用以支援對該特定使用者之示意動作之辨識的至少一示意動作語料庫。
  48. 如請求項43之方法,其進一步包含,藉由該等後端應用程式:(D)自一特別裝置獲得更新使用者資訊;以及(E)在該資料庫系統中,關聯該更新使用者資訊與該特別裝置之一對應使用者。
  49. 如請求項48之方法,其中來自該特別裝置之該更新使用者資訊包含支援該特別裝置上之一人性化介面控制機制之更新資訊。
  50. 如請求項49之方法,其中該特別裝置上之該人性化介面控制機制包含一語音辨識機制,且其中該更新使用者資訊包含用於該語音辨識機制之一更新語音語料庫。
  51. 如請求項43之方法,其進一步包含:(D)在該資料庫系統中,關聯一新裝置與一使用者。
TW102141732A 2012-11-16 2013-11-15 用於裝置組配、互動及控制之統一架構、與相關聯方法、裝置及系統 TW201423485A (zh)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
US201261727217P 2012-11-16 2012-11-16

Publications (1)

Publication Number Publication Date
TW201423485A true TW201423485A (zh) 2014-06-16

Family

ID=50731669

Family Applications (1)

Application Number Title Priority Date Filing Date
TW102141732A TW201423485A (zh) 2012-11-16 2013-11-15 用於裝置組配、互動及控制之統一架構、與相關聯方法、裝置及系統

Country Status (6)

Country Link
EP (1) EP2920673A1 (zh)
JP (1) JP2016502137A (zh)
KR (1) KR20150086332A (zh)
CA (1) CA2891202A1 (zh)
TW (1) TW201423485A (zh)
WO (1) WO2014078480A1 (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
TWI677751B (zh) * 2017-12-26 2019-11-21 技嘉科技股份有限公司 攝像裝置與運作攝像裝置的方法
TWI826031B (zh) * 2022-10-05 2023-12-11 中華電信股份有限公司 基於歷史對話內容執行語音辨識的電子裝置及方法

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR102707293B1 (ko) 2018-03-29 2024-09-20 삼성전자주식회사 사용자 음성 입력을 처리하는 장치
KR102512446B1 (ko) 2018-05-04 2023-03-22 구글 엘엘씨 자동화된 어시스턴트 기능(들)의 핫-워드 프리 적응
CN112236739B (zh) 2018-05-04 2024-05-17 谷歌有限责任公司 基于检测到的嘴运动和/或凝视的适配自动助理
US10890969B2 (en) * 2018-05-04 2021-01-12 Google Llc Invoking automated assistant function(s) based on detected gesture and gaze
JP2021144259A (ja) * 2018-06-06 2021-09-24 ソニーグループ株式会社 情報処理装置および方法、並びにプログラム

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7438414B2 (en) * 2005-07-28 2008-10-21 Outland Research, Llc Gaze discriminating electronic control apparatus, system, method and computer program product
WO2008069519A1 (en) * 2006-12-04 2008-06-12 Electronics And Telecommunications Research Institute Gesture/speech integrated recognition system and method
US8707329B2 (en) * 2007-01-05 2014-04-22 Ajou University Industry Cooperation Foundation Open framework system for heterogeneous computing and service integration
US8676942B2 (en) * 2008-11-21 2014-03-18 Microsoft Corporation Common configuration application programming interface
US8843893B2 (en) * 2010-04-29 2014-09-23 Sap Ag Unified framework for configuration validation
KR101789619B1 (ko) * 2010-11-22 2017-10-25 엘지전자 주식회사 멀티미디어 장치에서 음성과 제스쳐를 이용한 제어 방법 및 그에 따른 멀티미디어 장치

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
TWI677751B (zh) * 2017-12-26 2019-11-21 技嘉科技股份有限公司 攝像裝置與運作攝像裝置的方法
TWI826031B (zh) * 2022-10-05 2023-12-11 中華電信股份有限公司 基於歷史對話內容執行語音辨識的電子裝置及方法

Also Published As

Publication number Publication date
KR20150086332A (ko) 2015-07-27
EP2920673A1 (en) 2015-09-23
CA2891202A1 (en) 2014-05-22
JP2016502137A (ja) 2016-01-21
WO2014078480A1 (en) 2014-05-22

Similar Documents

Publication Publication Date Title
TW201423485A (zh) 用於裝置組配、互動及控制之統一架構、與相關聯方法、裝置及系統
KR102213637B1 (ko) 디바이스들 간의 상태 상호작용의 캡슐화 및 동기화
US11741979B1 (en) Playback of audio content on multiple devices
US10966044B2 (en) System and method for playing media
JP7225301B2 (ja) 音声インターフェイスデバイスにおけるマルチユーザパーソナライゼーション
US11942085B1 (en) Naming devices via voice commands
US9431021B1 (en) Device grouping for audio based interactivity
JP2021121928A (ja) ホームオートメーションのためのインテリジェントアシスタント
WO2019108311A1 (en) Microphone mesh network
CN113574846A (zh) IoT装置的位置推断方法、服务器和支持该方法的电子装置
US11238353B2 (en) Cognitive engine for multiple internet of things devices
KR102421824B1 (ko) 외부 장치를 이용하여 음성 기반 서비스를 제공하기 위한 전자 장치, 외부 장치 및 그의 동작 방법
KR102226817B1 (ko) 콘텐츠 재생 방법 및 그 방법을 처리하는 전자 장치
US11012780B2 (en) Speaker system with customized audio experiences
AU2015280337A1 (en) Proximity discovery using audio signals
US10936276B2 (en) Confidential information concealment
WO2019225109A1 (ja) 情報処理装置、情報処理方法および情報処理プログラム
TW201407414A (zh) 輸入裝置及搭配其使用之主機
JP6557212B2 (ja) 装置プロファイルを用いたデバイス装置連携
TW202415977A (zh) 用於以雷達為基礎之手勢偵測器之使用者區分
JP2017116742A (ja) 選曲支援装置、選曲支援プログラムおよび選曲支援方法