TW202347096A

TW202347096A - 用於受損使用者或具備殘疾的使用者之智慧眼鏡介面

Info

Publication number: TW202347096A
Application number: TW112103991A
Authority: TW
Inventors: 約翰納蓋比亞拉寇約克厄斯克德羅; 史考特菲力普賽爾馮; 賽門波爾特; 克莉絲提米勒; 丁堯; 凱莉格雷戈里薩爾基斯; 布雷特奧爾登拉瓦拉; 風阿奴拉格庫瑪; 喬納森Ｙ李
Original assignee: 美商元平台技術有限公司
Priority date: 2022-02-04
Filing date: 2023-02-04
Publication date: 2023-12-01
Also published as: WO2023150327A1; US20230260534A1

Abstract

本發明提供一種經設計以包容受損使用者之頭戴裝置。該頭戴裝置包括一框架、安裝於該框架上之兩個目鏡及安裝於該框架上之至少一個麥克風及一揚聲器。該頭戴裝置亦包括一相機、經組態以儲存多個指令之一記憶體及經組態以執行該等指令之一處理器，其中該等指令包含將來自由該麥克風及該相機提供之一信號之一環境背景提供至一使用者。亦提供一種使用該上述頭戴裝置之方法及一種用於執行該方法之系統。

Description

用於受損使用者或具備殘疾的使用者之智慧眼鏡介面

本發明係關於容許語言受損或具備殘疾的使用者之智慧眼鏡。更具體言之，如本文中所揭露之具體實例係關於包括使用者介面之智慧眼鏡，該使用者介面將背景及態勢感知提供至受損使用者及具備殘疾的使用者。相關申請案之交叉參考

本發明根據35 U.S.C. §119(e)而關於且主張2022年2月4日申請之名稱為用於受損使用者或具備殘疾的使用者之智慧眼鏡及VR/AR裝置中之介面（INTERFACE IN SMART GLASSES AND VR/AR DEVICES FOR IMPAIRED USERS OR USERS WITH DISABILITIES）之美國臨時申請案第63/306,854號，2022年3月25日申請之名稱為用於受損使用者或具備殘疾的使用者之智慧眼鏡及VR/AR裝置中之介面（INTERFACE IN SMART GLASSES AND VR/AR DEVICES FOR IMPAIRED USERS OR USERS WITH DISABILITIES）之美國臨時申請案第63/323,901號，2022年6月2日申請之名稱為用於智慧眼鏡之手語偵測（SIGN LANGUAGE DETECTION FOR SMART GLASSES）之美國臨時申請案第63/348,392號及2023年2月2日申請之名稱為用於受損使用者或具備殘疾的使用者之智慧眼鏡介面（SMART GLASS INTERFACE FOR IMPAIRED USERS OR USERS WITH DISABILITIES）之美國非臨時申請案第18/163,436號之優先權，所有申請案屬於Johana Gabriela Coyoc ESCUDERO 等人，該等申請案之內容出於所有目的以全文引用之方式併入下文中。

在穿戴式裝置之領域中，在假設具備殘疾的使用者涵蓋較小部分的市場之情況下，具備殘疾的使用者受到極少關注。然而，添加幫助具有特定需要之使用者的技術特徵可打開一般公眾可受益之新應用。在語言受損之使用者的情況下，手語偵測提供具挑戰性命題，此係因為需要具有高解析度（例如，影像辨識中之數毫米誤差可使努力毫無意義）且以相對較高步調（至少以可接受之交談式速度）之複雜三維圖案辨識。雖然在當前技術中不可能達成此等特徵，但其實施將不僅為了語言受損之使用者而且為公眾打開新的可能性。

在第一具體實例中，智慧眼鏡包括框架、安裝於框架上之兩個目鏡、安裝於框架上之至少一個麥克風及揚聲器、相機、經組態以儲存多個指令之記憶體及經組態以執行指令之處理器，其中指令包含將來自由麥克風及相機提供之信號的環境背景提供至使用者。

在第二具體實例中，電腦實施方法包括自使用者佩戴之頭戴裝置或穿戴式裝置收集指示使用者環境之感測器信號，基於信號屬性識別使用者環境，及在頭戴裝置中將使用者環境之背景傳達至使用者。

在第三具體實例中，非暫時性電腦可讀媒體儲存指令，當該等指令由處理器執行時使得電腦執行一方法。該方法包括自使用者佩戴之頭戴裝置或穿戴式裝置收集指示使用者環境之感測器信號；基於信號屬性識別使用者環境；及在頭戴裝置中將使用者環境之背景傳達至使用者。

在又其他具體實例中，系統包括用以儲存指令之第一構件及用以執行指令且使得系統執行一方法之第二構件，該方法包括：自使用者佩戴之頭戴裝置或穿戴式裝置收集指示使用者環境之感測器信號；基於信號屬性識別使用者環境；及在頭戴裝置中將使用者環境之背景傳達至使用者。

此等及其他具體實例將鑒於下文而由所屬領域中具通常知識者識別。

在以下實施方式中，闡述眾多特定細節以提供對本發明之充分理解。然而，所屬技術領域中具有通常知識者將顯而易見，可在不具有一些此等特定細節之情況下實踐本發明之具體實例。在其他情況下，未詳細展示熟知結構及技術以免混淆本發明。

具有語音及聽力殘疾之使用者通常被諸如用於沉浸式實境應用之網路化穿戴式裝置的電子電器市場排除在外。此主要歸因於使此等裝置達至此類使用者之需要的速度所涉及的挑戰，諸如理解及瞭解沉浸式實境情形（例如，周圍雜訊及背景、環境及其類似者）之完整背景的能力。

如本文中所揭露之具體實例提供對用於沉浸式實境應用之網路化穿戴式裝置的領域中產生之上述技術問題的技術解決方案。為此，一些具體實例使用安裝於頭戴裝置或智慧眼鏡上之多個感測器來捕捉背景及/或環境輸入。另外，一些具體實例利用快速網路連接策略以及配對的行動裝置及網路化伺服器以將感測器輸入提供至經訓練以為使用者提供對不同刺激之經校準回應之人工智慧（artificial intelligence；AI）伺服器。

在2011年，世界衛生組織（World Health Organization；WHO）估計10億（約1/7）人患有殘疾。超過5000萬美國人患有殘疾。殘疾群集由五個殘疾群組組成：聾及重聽、語音受損及喪失、認知及學習、行動性及視力受損。具備殘疾的人面對比一般人群更高的健康及健身的障礙。另外，此等具備殘疾的人面對對於其參與身體及休閒活動的巨大身體、社會及態度上的障礙。殘疾可為永久性的（例如，先天性、意外、舊傷及其類似者）、臨時的（例如，手臂骨折）或境遇性（例如，雜耍或帶孩子）。除了經歷永久性殘疾之十億人之外，思及設計具有殘疾人可存取性之電氣設備，例如「包容性設計」-DFI-確保產品覆蓋不同客戶群及多種情形。

如本文中所揭露之具體實例係關於利用諸如智慧眼鏡或頭戴裝置之穿戴式裝置或腕帶裝置進行感官轉譯，以提供體驗公平且解決以上問題。一些具體實例將先前視覺地遞送（例如，顯示心率/呼吸/計步器/等之螢幕）之運動/健康體驗併入至由視覺受損觀眾使用之智慧眼鏡的音訊中。因此，如本文中所揭露之具體實例填充重要間隙以平衡具備殘疾的人與社會其餘人口之間的領域。

一些具體實例可包括為盲人提供關於導航、購物、排隊及多種日常任務的即時人類支援之第三方服務。一些具體實例包括針對使用者或旁觀者之獨特語音型樣訓練語音辨識模型的能力。在識別旁觀者之後，該系統可將旁觀者身分提供至使用者，以促進一對一通信。其他具體實例包括對長格式口頭互動之替代方案，例如，代替用『你好』開始所有事物而具有一鍵通助手模式，或甚至完全無字喚醒模式，且確保話音存取具有替代輸入模態。一些具體實例包括即時隱藏字幕及鍵盤輸入以幫助聾或重聽的人。

如本文中所揭露之DFI具體實例橋接核心流程上之應用介面間隙，其涵蓋：裝置設置、裝置設定、硬體使用、音訊、配套應用及其類似者。硬體（HW）及軟體（SW）決策係基於優先化應用介面特徵。雖然智慧眼鏡及VR/AR頭戴裝置不可替代醫療裝置（諸如助聽器），但一些具體實例旨在補充及增強產品經驗、產率及具備殘疾的使用者的通信。VR/AR裝置及智慧眼鏡經設計用於密集型、全天穿著性能，且因此自然地經組態以為可存取的及且避免干擾穿戴者可能使用的醫學及輔助性技術。

如本文中所揭露之裝置中之一些主要包括識別且設計智慧眼鏡可具有最大影響之群組；最大化針對具有最大介面特徵增益之群組的模型效用及可用性；及減輕對醫療裝置（助聽器、耳蝸植入物、起搏器及其類似者）之干擾。其他相關所需特徵包括最大化跨所有殘疾群組之裝置效用及可用性，且藉由進階音訊特徵增強具備聽力喪失之人的聽力能力。例示性系統架構

圖1繪示根據一些具體實例之架構10，其包括彼此耦接之一或多個穿戴式裝置（智慧眼鏡100及腕帶裝置105）、行動裝置110、遠端伺服器130及資料庫152之。行動裝置110可為智慧手機，以上所有裝置可經由無線通信彼此通信且交換第一資料集103-1。資料集103-1可包括所記錄視訊、音訊或一些其他檔案或串流媒體。使用者101亦為所有者或與行動裝置110相關聯。使用者101做出手勢20，以與受損交談者通信。

行動裝置110可經由網路150與遠端伺服器130及資料庫152通信地耦接，且彼此傳輸/共用資訊、檔案及其類似者（例如，資料集103-2及103-3）。

在一些具體實例中，智慧眼鏡100可包括安裝於框架109內之諸如慣性量測單元（inertial measurement unit；IMU）、陀螺儀的感測器121、麥克風/揚聲器124、相機125及其類似者。可包括於穿戴式裝置（例如，智慧眼鏡100、腕帶105及其類似者）中之其他感測器121可為磁力計、光電二極體、觸控感測器及諸如電容感測器之其他電磁裝置、壓力感測器及其類似者。在一些具體實例中，智慧眼鏡100可包括在至少一個目鏡106上的顯示器107以將表達來自交談者之語音之模型手勢提供至使用者101。

另外，智慧眼鏡100或腕帶105及任何其他穿戴式裝置、行動裝置110、伺服器130及資料庫152可包括儲存指令之記憶體電路120及處理器電路112，該處理器電路經組態以執行指令以使得智慧眼鏡100至少部分地執行與本發明一致的方法中之一些步驟。在一些具體實例中，記憶體120儲存針對用於具備聽力殘疾的人之文字含義所辨識的多個手勢。

在一些具體實例中，智慧眼鏡100、腕帶或穿戴式裝置105、行動裝置110、伺服器130及/或資料庫152可進一步包括通信模組118，其使得裝置能夠經由網路150與遠端伺服器130無線地通信。智慧眼鏡100可因此自遠端伺服器130下載多媒體線上內容（例如，資料集103-1），以至少部分地執行如本文中所揭露之方法中的一些操作。網路150可包括例如區域網路（local area network；LAN）、廣域網路（wide area network；WAN）、網際網路及其類似者中之任何一或多者。此外，網路可包括但不限於以下網路拓樸中之任何一或多者，包括匯流排網路、星形網路、環形網路、網狀網路、星形匯流排網路、樹或階層式網路及其類似者。

圖2繪示根據一些具體實例之來自智慧眼鏡200上之多個麥克風225-1、225-2、225-3、225-4及225-5（下文中，統稱為麥克風陣列225，例如mic 225-1、mic 225-2、mic 225-3、mic 225-4及mic 225-5）之音訊源205的到達方向（direction of arrival；DA）215之選擇。因此，可基於聲音波形至智慧眼鏡200上之空間分佈的麥克風225中之各者的到達時間差而選擇DA 215。在一些具體實例中，知曉到達時間差便可足以將DA 215評估為具有兩個方向餘弦之單位向量。在一些具體實例中，系統可能夠判定音源205相對於智慧眼鏡200且甚至相對於地理座標之特定方位。智慧眼鏡200亦可包括經組態以沿著DA 215自音訊源205產生立體聲音的揚聲器223-1及223-2（在下文中，統稱為「揚聲器223」）。在一些具體實例中，DA 215為相對於世界框架250及眼鏡框架251中之任一者定向的向量，該等框架可相對於彼此任意地定向。

在一些具體實例中，DA 215及音源205之方位的評估可包括基於DA 215及音速解決使到達時間或聲音信號與麥克風225中之各者相關聯的線性回歸問題。為了判定到達時間，系統可經組態以選擇由音源205產生之波形之特性部分，該特性部分可易於在麥克風225中之各者處使用數位濾波器識別。在一些具體實例中，且為了提供準確性，整個波形或其實質性部分可用於匹配音源起源。可實施使用硬體或軟體之其他濾波技術，以識別涉及任何給定事件之不同音源。在一些具體實例中，軟體可包括非線性技術，諸如非線性回歸、神經網路、機器學習及人工智慧。因此，在一些具體實例中，系統可包括地理方位感測器及裝置（例如，IMU感測器121）以在事件記錄時更好地識別環境中之方位及距離。繪示了眼鏡框架及世界框架，展示了歸因於智慧眼鏡移動而引起的兩者之間的輕微相對位移。

圖3繪示根據一些具體實例之用於將聽覺環境背景305提供至受損使用者之方塊圖300。在方塊310中，麥克風陣列捕捉聲音。ML演算法315執行聲音分類，且在方塊312中，警告使用者（例如，聲音為汽車接近或一些其他環境危害）。在一些具體實例中，ML 315識別已知人之話音，且方塊312包括告知使用者關於此人之身分。

在一些具體實例中，方塊圖300藉由給予使用者空間音訊提示（例如，「敲門」)而充當使用者之「音訊監護人」。此類具體實例之目標群組可包括聾及重聽的人。

在一些具體實例中，系統可經設定為自動偵測特定環境聲音，諸如煙霧警報、火警、叫喊等。在一些具體實例中，除了聲音分類器之外，系統可偵測環境聲音/雜訊級、方向及量且告知使用者，使得她/他可調整語音級、行為及與環境條件之其他互動。在一些具體實例中，安裝於智慧眼鏡之框架上之麥克風可用於拾取環境聲音及裝置（門戶呼叫）及手機鈴聲/通知。此尤其適用於使用者識別為「重要」或「緊急」聲音之聲音，如警報、槍聲、嬰兒哭泣等。不同使用者可具有不同種類之聽力殘疾：一些使用者可能夠自一隻耳朵聽到，非兩隻，一些使用者可能聽不到低雜訊，或一些使用者可能受高音量影響（具有不同嚴重程度）。因此，一些具體實例可經由自動化ML演算法或藉由使用者可調整的設定考慮此等不同。

一些具體實例可包括音樂偵測（例如，以判定是否存在表明環境之所欲情感的環境音樂播放）。此環境意識為聾人特別需要的。另外，在一些具體實例中，ML演算法315可包括基於AI之人群雜訊偵測。因此，當較大群組共調表達某物（威脅、歡呼或噓聲）時，可警告使用者。此特徵可改良對聽力受損使用者之安全性或包容性。方塊312中之其他類型的警報可包括環境音量級通知（例如，使用者自我意識：「我在一個吵鬧還是安靜的地方？」）或「是聲音變大（更靠近）或變弱（走遠）了嗎？」

在方塊圖300中，系統之一些優點包括聾人能夠在房間中為他的孩子或家人或朋友設定音訊裝置之音量。可經由可穿戴物或手機配對經由觸覺回饋告知使用者。在一些具體實例中，此特徵為使用者可選擇的：鈴聲/振動、app通知或手機LED指示（例如，使用手電筒閃屏效果）。舉例而言，「穿戴式」（腕帶/手錶）解決方案實際上將更有意義，但配對手機將更通用。

在一些具體實例中，方塊圖300可包括指示聲音方向性以回答諸如「誰正在和我說話」、「那個大聲音來自哪兒」、「聲音方位在相對於我的位置移動嗎（如一輛開著警報的救護車正通過我前方）？」及其類似者之問題之選項。

圖4繪示根據一些具體實例之用於將視覺環境背景提供至受損使用者之方塊圖400。在方塊410中，相機捕捉使用者環境之圖像。影像處理軟體415基於圖像之突出屬性而產生描述（例如，文字字幕)。影像處理軟體415使用物體辨識技術以產生相片之描述，因此當在智慧眼鏡上顯示場景時，使用者聽到圖像中所含有的項目之清單。在方塊412中，向使用者（例如，經由智慧眼鏡中之揚聲器）閱讀描述。在一些具體實例中，當使用者能夠閱讀時，將描述作為文本提供於智慧眼鏡之目鏡中之一者中的顯示器上。方塊圖400中之系統的目標群組可包括盲/低視力/低行動性的人。吾人預期，即使佩戴眼鏡，約8%穿戴式裝置使用者仍可難以看到，且約6.4%使用者可具有行動困難。因此，方塊圖400為此類使用者提供可描述場景之某人的體驗。

在一些具體實例中，影像處理軟體415處於遠端伺服器中，且因此，智慧眼鏡將圖像提供至遠端伺服器且接著經由網路通信自遠端伺服器接收描述412。

在一些具體實例中，智慧眼鏡中之相機可經組態以提取其偵測為重要/可共用的所記錄視訊之不同部分。相機可由AI照片/視訊捕捉軟體供電，從而避免需要相機指向精度。在一些具體實例中，方塊圖400將即時指示/敍述提供至視力受損穿戴者（例如，人）且在恰當權限下，甚至輔助宣告接近人之姓名（例如，『姓名線索』）、風險及其類似物。

在一些具體實例中，方塊410可包括捕捉內容，諸如記錄自房間水平移動之視訊或拍攝廣角鏡頭照片（對具備有限行動性的人有幫助）。在一些具體實例中，AI處理可識別人、物件及事件且將其提取為「時刻」，包括：人及其他主體之照片（在適當權限及隱私設置考慮因素的情況下）、物件之照片或值得注意的景物，或事件之視訊，如嬰兒跳舞或笑。在一些具體實例中，方塊410可包括保存/共用內容，使得使用者可保存所產生照片/視訊與其他人共用。

圖5繪示根據一些具體實例之用於將語音至文本（speech to text；STT）能力505與使用者聽力配對之方塊圖500。在方塊510中，麥克風陣列捕捉語音。「超人聽覺」（super-human hearing；SHH）演算法515基於波形之頻譜簽名來分離選定話音。在方塊512中，來自選定話音之語音經轉換成文本且為使用者顯示（例如，在使用者佩戴之行動裝置的螢幕中，或在智慧眼鏡之目鏡中之一者上的顯示器中）。在一些具體實例中，可經由揚聲器為使用者閱讀來自分離話音之文本（例如，當使用者無法自顯示器閱讀時）。用於激活方塊圖500之目標群組可包括聾及重聽的人。另外，激活方塊圖500可適用於具備視力、身體或認知障礙之人。

在一些具體實例中，SHH 515包括在與智慧眼鏡配對之行動裝置中運行的語音辨識（ASR）應用。取決於背景，詞彙可針對命令及訊息傳遞來最佳化或針對通用語音而調整。智慧眼鏡中之麥克風可針對揚聲器之話音語音而高度最佳化。在一些具體實例中，方塊圖500可經激活為交談式焦點的下游特徵。方塊512可將交談式聚焦的音訊（例如，經由利用麥克風陣列225之波束成形）直接輸送至行動電話上之ASR。

在方塊512中組合語音分離（增強之聽覺）與SHH 515亦清除語音信號以用於語音至文本之更精確轉換。將增強型聽力與STT 505配對允許使用者捕捉遠場語音且區分來自不同方向及/或揚聲器之STT 505。一些具體實例將此特徵輸送至語言轉譯引擎。另外，經轉譯文本可經即時地轉換回至語音。

在用於激活方塊圖500之一些情景中，佩戴智慧眼鏡之聾人接近說話人，以將其話音轉譯成文本。甚至在雜訊環境中，使用者可自然地保持接近說話人，從而避免社交不適或不可接受的情形。用於激活方塊圖500之其他組態可包括揚聲器識別（無論經由聲紋、穿戴者話音活動偵測、到達方向、基於相機的講話者ID及其類似者）。此適用於當多於一個人說話（可能包括眼鏡穿戴者）時，以避免自轉錄。

在一些具體實例中，智慧眼鏡可包括用於更遠距離處之語音至文本之高端麥克風，從而在使用者之手機上或甚至在智慧眼鏡顯示器上顯示文本。高端技術可包括波束成形（用於較佳語音拾取，參見麥克風陣列225）及經由智慧眼鏡在場景或多方會話中施加多個揚聲器的空間字幕/標記。

在一些具體實例中，方塊圖500用以將AR話語轉換成文本。一些具體實例可將交談式聚焦與來自SHH軟體515之音訊超能力組合。此可為當環境過於吵鬧使得智慧眼鏡不可安全地遞送經放大內容的情況：替代地，切換至STT 505。

圖6繪示根據一些具體實例之用於將可自訂音訊提供至受損使用者之方塊圖600。方塊610將音訊提供至使用者，該使用者已在方塊615中選定關於輸出之使用者偏好。因此，輸出可包括立體聲輸出612a、單聲道輸出612b（例如，當使用者僅一隻耳朵聽到時）或定製/平衡輸出612c（例如，當使用者的一隻耳朵具有部分聽力喪失且需要經由相關聯通道之較高音量時，下文統稱為「音訊輸出612」）中之任一者。用於激活方塊圖600之目標群組包括聾及重聽的人及偏好單聲道音訊輸出之一隻耳朵聽力喪失之使用者。方塊圖600之激活為具有不對稱聽力喪失之人的耳朵定向提供更多靈活性。

對於一些人而言，空間音訊分散注意力，因此可能需要使使用者能夠變窄聲場。在一些具體實例中，使用者可偏好專注於給定音訊信號且不由立體聲音分散注意力。舉例而言，代替聽到立體聲音，使用者可能偏好聽到宣告「5點鐘的聲音」。此外，激活方塊圖600提供使用者控制聲場是否基於其頭部定向而改變或保持固定而不管其如何轉動其頭部。

在一些具體實例中，使用者偏好615可包括具有用於最佳化話音頻率或用於降低對雜訊敏感之人之環境雜訊的預設的聲音彙集能力。在一些具體實例中，裝置選項可包括立體聲、具有可調整權重（針對不對稱聽力喪失）之L/R及單聲道，且能夠將表示L/R域之空間音訊彙集至可自訂輸出中。舉例而言，具備一隻耳朵聽力喪失的人將傾向於將自身策略性地定位以最佳捕捉聲音/對話（例如，坐在拐角處、傾斜/旋轉頭等）。來自激活方塊圖600之聲音彙集為使用者提供更多定向自由同時仍捕捉吾人所需聲音。

圖7為繪示根據一些具體實例之用於將語音辨識併入沉浸式實境環境中之方法700中的步驟之流程圖。在一些具體實例中，方法700中之步驟中之至少一或多者可藉由處理器執行，該處理器執行儲存在智慧眼鏡或使用者之身體部位（例如，頭、手臂、手腕、腿、腳踝、手指、腳趾、膝部、肩部、胸部、背部及其類似者）上之其他穿戴式裝置中的任一者中之記憶體中的指令。在一些具體實例中，方法700中之步驟中之至少一或多者可藉由執行儲存於記憶體中的指令之處理器執行，其中處理器或記憶體或兩者經由網路彼此通信地耦接之用於使用者之行動裝置、遠端伺服器或資料庫的部分。此外，行動裝置、智慧眼鏡及穿戴式裝置可經由無線通信系統及協定（例如，無線電、Wi-Fi、藍牙、近場通信-NFC-及其類似者）彼此通信地耦接。在一些具體實例中，與本發明一致之方法可包括來自方法700之一或多個步驟，該一或多個步驟按任何次序、同時、半同時或在時間上重疊地執行。

步驟702包括自使用者佩戴之頭戴裝置或穿戴式裝置收集指示使用者環境之感測器信號。在一些具體實例中，步驟702包括自安裝於頭戴裝置上之相機收集影像且識別使用者環境包含判定影像之文字描述。在一些具體實例中，步驟702包括自安裝於頭戴裝置上之相機收集影像，且傳達使用者環境之背景包含經由揚聲器提供來自相機之影像的口頭描述。在一些具體實例中，步驟702包括藉由麥克風收集背景聲音，且傳達使用者環境之背景包含自經由揚聲器提供至使用者之聲音信號中移除背景聲音。在一些具體實例中，步驟702包括自麥克風陣列收集多個音訊信號，藉由同步與選定聲源相關聯之波形的音訊信號之間的時間延遲來識別選定聲源之方向，及增強來自選定聲源之音訊信號。

步驟704包括基於信號屬性而識別使用者環境。在一些具體實例中，感測器信號為來自麥克風之人類話音，且步驟704包括識別來自麥克風之人類話音。

步驟706包括在頭戴裝置中將使用者環境之背景傳達至使用者。在一些具體實例中，感測器信號為來自麥克風之寬頻頻譜聲音，信號屬性為寬頻頻譜聲音之頻譜剖面，且步驟706包括使用者環境之背景且包含將頻譜剖面轉換成可由使用者聽到的窄頻頻譜聲音。在一些具體實例中，步驟706包括為使用者提供與人類話音相關聯的人之姓名。在一些具體實例中，感測器信號為包括多個人之多個話音的聲音波形，信號屬性為各人之話音，且步驟706包括在頭戴裝置顯示器中為各人添加帶有姓名之字幕。在一些具體實例中，感測器信號為包括多個人之話音之聲音波形，且步驟706包括在頭戴裝置顯示器上顯示人之話音中的至少一者之轉錄。在一些具體實例中，感測器信號為包括為使用者而言為外來的語言中之語音的聲音波形，且步驟706包括將語音轉譯為由使用者選定之語言。硬體概述

圖8為繪示根據一些具體實例之可實施頭戴裝置及其他用戶端裝置110及方法700之例示性電腦系統800的方塊圖。在某些態樣中，電腦系統800可使用在專屬伺服器中或整合至另一實體中或跨多個實體而分佈的硬體或軟體與硬體之組合來實施。電腦系統800可包括桌上型電腦、膝上型電腦、平板電腦、平板手機、智慧型手機、功能型手機（feature phone）、伺服器電腦或其他。伺服器電腦可遠端地位於資料中心或在本端儲存。

電腦系統800包括用於通信資訊之匯流排808或其他通信機制及與匯流排808耦接以用於處理資訊之處理器802（例如，處理器112）。舉例而言，電腦系統800可由一或多個處理器802實施。處理器802可為通用微處理器、微控制器、數位信號處理器（Digital Signal Processor；DSP）、特殊應用積體電路（Application Specific Integrated Circuit；ASIC）、場可程式化閘陣列（Field Programmable Gate Array；FPGA）、可程式化邏輯裝置（Programmable Logic Device；PLD）、控制器、狀態機、閘控邏輯、離散硬體組件或可執行資訊之計算或其他操控的任何其他適合的實體。

除硬體以外，電腦系統800可包括為所討論之電腦程式創建執行環境的程式碼，例如，構成處理器韌體、協定堆迭、資料庫管理系統、作業系統或儲存於所包括記憶體804（例如，記憶體120）中之前述各者中之一或多者的組合之程式碼，所包括記憶體諸如隨機存取記憶體（Random Access Memory；RAM）、快閃記憶體、唯讀記憶體（Read-Only Memory；ROM）、可程式化唯讀記憶體（Programmable Read-Only Memory；PROM）、可抹除PROM（Erasable PROM；EPROM）、暫存器、硬碟、可移磁碟、CD-ROM、DVD或任何其他適合的儲存裝置，其耦接匯流排808以用於儲存待由處理器802執行的資訊及指令。處理器802及記憶體804可由專用邏輯電路補充或併入於專用邏輯電路中。

指令可儲存在記憶體804中，且根據所屬技術領域中具有通常知識者熟知之任何方法在例如電腦可讀媒體上編碼之電腦程式指令的一或多個模組的一或多個電腦程式產品中實施以供電腦系統800執行或控制該電腦系統之操作，該等指令包括但不限於諸如以下之電腦語言：資料導向語言（例如，SQL、dBase）、系統語言（例如，C、Objective-C、C++、彙編）、架構語言（例如，Java、.NET）及應用語言（例如，PHP、Ruby、Perl、Python）。指令亦可以電腦語言實施，諸如陣列語言、特性導向語言、彙編語言、製作語言、命令行介面語言、編譯語言、並行語言、波形括號語言、資料流語言、資料結構式語言、宣告式語言、深奧語言、擴展語言、第四代語言、函數語言、互動模式語言、解譯語言、反覆語言、串列為基的語言、小語言、以邏輯為基的語言、機器語言、巨集語言、元程式設計語言、多重範型語言（multiparadigm language）、數值分析、非英語語言、基於物件導向分類之語言、基於物件導向原型之語言、場外規則語言、程序語言、反射語言、基於規則的語言、指令碼處理語言、基於堆疊的語言、同步語言、語法處置語言、視覺語言、沃思語言（wirth languages）及基於xml的語言。記憶體804亦可用於在待由處理器802執行之指令之執行期間儲存暫時性變數或其他中間資訊。

如本文中所論述之電腦程式未必對應於檔案系統中的檔案。可將程式儲存於保存其他程式或資料（例如，儲存於標示語言文件中之一或多個指令碼）之檔案的一部分中、儲存於專用於所討論程式之單一檔案中，或儲存於多個經協調檔案（例如，儲存一或多個模組、子程式或部分程式碼的檔案）中。電腦程式可經部署以在一個電腦上或在位於一個位點或跨多個位點分佈且由通信網路互連的多個電腦上執行。本說明書中所描述之過程及邏輯流程可由一或多個可程式化處理器執行，該一或多個可程式化處理器執行一或多個電腦程式以藉由對輸入資料進行操作且產生輸出來執行功能。

電腦系統800進一步包括諸如磁碟或光碟之資料儲存裝置806，其與匯流排808耦接以用於儲存資訊及指令。電腦系統800可經由輸入/輸出模組810耦接至各種裝置。輸入/輸出模組810可為任何輸入/輸出模組。例示性輸入/輸出模組810包括資料埠，諸如USB埠。輸入/輸出模組810經組態以連接至通信模組812。例示性通信模組812包括網路連接介面卡，諸如乙太網卡及數據機。在某些態樣中，輸入/輸出模組810經組態以連接至複數個裝置，諸如輸入裝置814及/或輸出裝置816。例示性輸入裝置814包括鍵盤及指標裝置，例如滑鼠或軌跡球，消費者可藉由該指標裝置將輸入提供至電腦系統800。其他種類之輸入裝置814亦可用於提供與消費者的互動，諸如觸覺輸入裝置、視覺輸入裝置、音訊輸入裝置或腦機介面裝置。舉例而言，提供給消費者之回饋可為任何形式之感測回饋，諸如視覺回饋、聽覺回饋或觸覺回饋；且可自消費者接收任何形式之輸入，包括聲輸入、語音輸入、觸覺輸入或腦波輸入。例示性輸出裝置816包括用於向消費者顯示資訊之顯示裝置，諸如液晶顯示（liquid crystal display；LCD）監視器。

根據本發明之一個態樣，可回應於處理器802執行記憶體804中所含有之一或多個指令的一或多個序列而至少部分地使用電腦系統800實施頭戴裝置及用戶端裝置110。此類指令可自另一機器可讀媒體（諸如資料儲存裝置806）讀取至記憶體804中。主記憶體804中所含有之指令序列的執行促使處理器802執行本文中所描述之過程步驟。呈多處理配置之一或多個處理器亦可用以執行記憶體804中所含有的指令序列。在替代態樣中，硬連線電路可代替軟體指令使用或與軟體指令組合使用，以實施本發明之各個態樣。因此，本發明的態樣不限於硬體電路系統及軟體之任何特定組合。

本說明書中所描述之主題的各種態樣可在計算系統中實施，該計算系統包括後端組件，例如資料伺服器，或包括中間軟體組件，例如應用伺服器，或包括前端組件，例如具有消費者可與本說明書中所描述之主題之實施方式互動所經由的圖形消費者介面或網路瀏覽器的用戶端電腦，或一或多個此類後端組件、中間軟體組件或前端組件的任何組合。系統之組件可藉由數位資料通信之任何形式或媒體（例如，通信網路）互連。通信網路可包括例如LAN、WAN、網際網路及其類似者中之任一或多者。另外，通信網路可包括但不限於例如以下網路拓樸中之任何一或多者，包括匯流排網路、星形網路、環形網路、網狀網路、星形匯流排網路、樹或階層式網路或其類似者。通信模組可例如為數據機或乙太網卡。

電腦系統800可包括用戶端及伺服器。用戶端及伺服器一般彼此遠離且通常經由通信網路進行互動。用戶端及伺服器之關係藉助於在各別電腦上運行且彼此具有主從式關係的電腦程式產生。電腦系統800可為例如但不限於桌上型電腦、膝上型電腦或平板電腦。電腦系統800亦可嵌入於另一裝置中，例如但不限於行動電話、PDA、行動音訊播放器、全球定位系統（Global Positioning System；GPS）接收器、視訊遊戲控制台及/或電視機上盒。

如本文中所使用之術語「機器可讀儲存媒體」或「電腦可讀媒體」係指參與將指令提供至處理器802以供執行之任何一或多個媒體。此媒體可呈許多形式，包括（但不限於）非揮發性媒體、揮發性媒體及傳輸媒體。非揮發性媒體包括例如光碟或磁碟，諸如資料儲存裝置806。揮發性媒體包括動態記憶體，諸如記憶體804。傳輸媒體包括同軸電纜、銅線及光纖，包括形成匯流排808之電線。機器可讀媒體之常見形式包括例如軟碟、軟性磁碟、硬碟、磁帶、任何其他磁性媒體、CD-ROM、DVD、任何其他光學媒體、打孔卡、紙帶、具有孔圖案之任何其他實體媒體、RAM、PROM、EPROM、FLASH EPROM、任何其他記憶體晶片或卡匣，或可供電腦讀取之任何其他媒體。機器可讀儲存媒體可為機器可讀儲存裝置、機器可讀儲存基板、記憶體裝置、影響機器可讀傳播信號之物質的組成物，或其中之一或多者的組合。

為繪示硬體與軟體之互換性，諸如各種說明性方塊、模組、組件、方法、操作、指令及演算法之項目已大體關於其功能性加以描述。將此類功能性實施為硬體、軟體抑或硬體與軟體之組合取決於外加在整個系統上之特定應用及設計約束。所屬技術領域中具有通常知識者可針對各特定應用以不同方式實施所描述功能性。

如本文中所使用，在一系列項目之前的藉由術語「及」或「或」分隔該等項目中之任一者的片語「中之至少一者」修飾清單整體，而非清單中之各成員（例如，各項目）。片語「中之至少一者」不需要選擇至少一個項目；相反，該片語允許包括該等項目中之任一者中之至少一者及/或該等項目之任何組合中之至少一者及/或該等項目中之各者中之至少一者之涵義。舉例而言，片語「A、B及C中之至少一者」或「A、B或C中之至少一者」各自指僅A、僅B或僅C；A、B及C之任何組合；及/或A、B及C中之各者中的至少一者。

本文中所用的字語「例示性」意謂「充當實例、例子或說明」。在本文中描述為「例示性」之任何具體實例不應解釋為比其他具體實例較佳或有利。諸如一態樣、該態樣、另一態樣、一些態樣、一或多個態樣、一實施方式、該實施方式、另一實施方式、一些實施方式、一或多個實施方式、一具體實例、該具體實例、另一具體實例、一些具體實例、一或多個具體實例、一組態、該組態、另一組態、一些組態、一或多個組態、本發明技術、本發明（the disclosure/the present disclosure）、其其他變化及類似者之片語是為方便起見，且不暗示與此類片語相關之揭示內容對於本發明技術是必需的，亦不暗示此類揭示內容適用於本發明技術之所有組態。與此類片語相關之揭示內容可適用於所有組態或一或多個組態。與此類片語相關之揭示內容可提供一或多個實例。諸如一態樣或一些態樣之片語可指一或多個態樣且反之亦然，且此情況類似地適用於其他前述片語。

除非具體陳述，否則以單數形式對元件的提及並不意欲意謂「一個且僅一個」，而指「一或多個」。陽性代詞（例如，他的）包括陰性及中性性別（例如，她的及其）且反之亦然。術語「一些」係指一或多個。帶下劃線及/或斜體標題及子標題僅為了便利，而不限制本發明技術，且不結合本發明技術之描述的解釋予以參考。諸如第一及第二及其類似者之關係術語可用於區分一個實體或動作與另一實體或動作，而未必需要或意指此類實體或動作之間的任何實際此類關係或次序。所屬技術領域中具有通常知識者已知或稍後將知曉的貫穿本揭示而描述之各種組態之元件的所有結構及功能等效物係以引用方式明確地併入本文中，且意欲由本發明技術涵蓋。此外，本文所揭示之任何內容皆不意欲專用於公眾，無論在以上描述中是否明確地敍述此揭示。所主張的元件不應被解釋為依據35 U.S.C. §112第六段的規定，除非元件係明確地使用片語「用於...的構件」來敍述，或在方法技術方案的情況下，元件係使用片語「用於...的步驟」來敍述。

雖本說明書含有許多特殊性，但此等特殊性不應理解為對可能描述之內容的範疇之限制，而應理解為對主題之具體實施的描述。在個別具體實例之上下文中描述於本說明書中之某些特徵亦可在單一具體實例中以組合形式實施。相反，在單一具體實例之上下文中描述的各種特徵亦可在多個具體實例中分別或以任何合適子組合形式實施。此外，儘管上文可將特徵描述為以某些組合起作用且甚至最初按此來描述，但來自所描述組合之一或多個特徵在一些情況下可自該組合刪除，且所描述之組合可針對子組合或子組合之變化。

本說明書之主題已關於特定態樣加以描述，但其他態樣可經實施且在以下申請專利範圍之範疇內。舉例而言，儘管在圖式中以特定次序來描繪操作，但不應將此理解為需要以所展示之特定次序或以順序次序執行此等操作，或執行所有所繪示操作以達成合乎需要的結果。申請專利範圍中所陳述之動作可以不同次序執行且仍達成所需結果。作為一個實例，隨附圖式中描繪之過程未必需要展示之特定次序或順序次序以實現合乎需要之結果。在某些情形中，多任務及並行處理可為有利的。此外，不應將上文所描述之態樣中之各種系統組件的分離理解為在所有態樣中皆要求此分離，且應理解，所描述之程式組件及系統可大體一同整合於單個軟體產品或封裝至多個軟體產品中。

在此將標題、先前技術、圖式簡單說明、摘要及圖式併入本發明中且提供為本發明之說明性實例而非限定性描述。遵從以下理解：其將不用於限制申請專利範圍之範疇或含義。另外，在實施方式中可見，出於精簡本揭示內容之目的，本說明書提供說明性實例且在各種實施中將各種特徵分組在一起。然而，不應將本揭示方法解釋為反映以下意圖：相較於各技術方案中明確陳述之特徵，所描述之主題需要更多的特徵。實情為，如申請專利範圍所反映，本發明主題在於單個所揭示組態或操作之少於全部的特徵。申請專利範圍特此併入實施方式中，其中各技術方案就其自身而言作為分開描述之主題。

申請專利範圍並不意圖限於本文中所描述之態樣，而應符合與語言申請專利範圍一致之完整範疇且涵蓋所有法定等效物。儘管如此，申請專利範圍均不意欲涵蓋未能滿足可適用專利法之要求之主題，且亦不應以此方式解釋該等主題。

10:架構 20:手勢 100、200:智慧眼鏡 101:使用者 103-1、103-2、103-3:資料集 105:腕帶裝置 106:目鏡 107:顯示器 109:框架 110:行動裝置/用戶端裝置 112、802:處理器 118:通信模組 120、804:記憶體 121:感測器 124:麥克風/揚聲器 125:相機 130:遠端伺服器 150:網路 152:資料庫 205:音訊源 215:到達方向 223、223-1、223-2:揚聲器 225、225-1、225-2、225-3、225-4、225-5:麥克風 250:世界框架 251:眼鏡框架 300、400、500、600:方塊圖 305:聽覺環境情境 310、312、410、412、510、512:方塊 315:ML演算法 415:影像處理軟體 505:話語至文本能力 515:超人聽覺演算法 612a:立體聲輸出 612b:單聲道輸出 612c:定製/平衡輸出 615:使用者偏好 700:方法 702、704、706:步驟 800:電腦系統 806:資料儲存裝置 808:匯流排 810:輸入/輸出模組 812:通信模組 814:輸入裝置 816:輸出裝置

[圖1]繪示根據一些具體實例之架構，該架構包括彼此耦接之一或多個穿戴式裝置、行動裝置、遠端伺服器及資料庫。 [圖2]繪示根據一些具體實例之來自智慧眼鏡上之多個麥克風的音訊源之到達方向之選擇。 [圖3]繪示根據一些具體實例之用於將聽覺環境背景提供至受損使用者之方塊圖。 [圖4]繪示根據一些具體實例之用於將視覺環境背景提供至受損使用者之方塊圖。 [圖5]繪示根據一些具體實例之用於將語音至文本能力與使用者聽力配對之方塊圖。 [圖6]繪示根據一些具體實例之用於將可自訂音訊提供至受損使用者之方塊圖。 [圖7]為繪示根據一些具體實例之用於將語音辨識併入沉浸式實境環境中之方法中的步驟之流程圖。 [圖8]為繪示可藉以實施頭戴裝置及其他用戶端裝置以及圖7中之方法的例示性電腦系統之方塊圖。在諸圖中，除非另外明確陳述，否則具有相同或類似標記編號之元件具有與相同或類似屬性相關的特徵及屬性。

10:架構

20:手勢

100:智慧眼鏡

101:使用者

103-1、103-2、103-3:資料集

105:腕帶裝置

106:目鏡

107:顯示器

109:框架

110:行動裝置

112:處理器

118:通信模組

120:記憶體

121:感測器

124:麥克風/揚聲器

125:相機

130:遠端伺服器

150:網路

152:資料庫

Claims

一種智慧眼鏡，其包含：一框架；兩個目鏡，其安裝於該框架上；至少一個麥克風及一揚聲器，其安裝於該框架上；一相機；一記憶體，其經組態以儲存多個指令；及一處理器，其經組態以執行該等指令，其中該等指令包含將來自由該麥克風及該相機提供之一信號之一環境背景提供至一使用者。
如請求項1之智慧眼鏡，其進一步包含經組態以與該使用者之一穿戴式裝置通信的一通信模組，其中該穿戴式裝置將一環境資料提供至該處理器。
如請求項1之智慧眼鏡，其進一步包含一通信模組，該通信模組經組態以將由該麥克風及該相機提供之該信號傳達至一行動裝置，且該行動裝置在一螢幕上顯示該環境背景，以供該使用者觀看。
如請求項1之智慧眼鏡，其進一步包含一通信模組，該通信模組經組態以將由該麥克風及該相機提供之該信號傳達至一網路伺服器且自該網路伺服器接收該環境背景。
如請求項1之智慧眼鏡，其中該等目鏡中之至少一者包括一顯示器，該顯示器經組態以將該環境背景作為一可閱讀文本提供至該使用者。
如請求項1之智慧眼鏡，其中該揚聲器經組態以將該環境背景作為一音訊描述提供至該使用者。
如請求項1之智慧眼鏡，其中該麥克風包括一陣列，該陣列經組態以捕捉一立體聲聲音且該處理器基於該立體聲聲音而將關於一聲源之一方向的一提醒提供至該使用者。
如請求項1之智慧眼鏡，其中該麥克風包括一陣列，該陣列經組態以捕捉一立體聲聲音且該處理器將該立體聲聲音轉換成來自該揚聲器之一單音訊輸出以用於一隻耳朵具有聽力減弱之一使用者。
如請求項1之智慧眼鏡，其中該麥克風包括一陣列，該陣列經組態以捕捉一立體聲聲音且該處理器識別與該立體聲聲音中之一波形相關聯的一源之一方向，且該等目鏡中之至少一者包括標記與該波形相關聯之該源的一顯示器。
如請求項1之智慧眼鏡，其中該相機經組態以收集該環境背景之一圖像，該處理器執行該記憶體中之該等指令以獲得該圖像之一文字描述且使該揚聲器為該使用者閱讀該圖像的該文字描述。
一種電腦實施方法，其包含：自一使用者佩戴之一頭戴裝置或穿戴式裝置收集指示一使用者環境之一感測器信號；基於一信號屬性識別該使用者環境；及在該頭戴裝置中將該使用者環境之一背景傳達至該使用者。
如請求項11之電腦實施方法，其中收集該感測器信號包含自安裝於該頭戴裝置上之一相機收集一影像，且識別該使用者環境包含判定該影像之一文字描述。
如請求項11之電腦實施方法，其中收集該感測器信號包含自安裝於該頭戴裝置上之一相機收集一影像，且傳達該使用者環境之該背景包含經由一揚聲器提供來自該相機之該影像的一口頭描述。
如請求項11之電腦實施方法，其中收集該感測器信號包含利用一麥克風收集一背景聲音，且傳達該使用者環境之該背景包含自經由一揚聲器提供至該使用者的一聲音信號移除該背景聲音。
如請求項11之電腦實施方法，其中收集該感測器信號包含：自一麥克風陣列收集多個音訊信號；藉由同步與一選定聲源相關聯之一波形之該等音訊信號之間的一時間延遲來識別該選定聲源之一方向；及增強來自該選定聲源之該音訊信號。
如請求項11之電腦實施方法，其中該感測器信號為來自一麥克風之一寬頻頻譜聲音，該信號屬性為該寬頻頻譜聲音之一頻譜剖面，且傳達該使用者環境之該背景包含將該頻譜剖面轉換成可由該使用者聽到之一窄頻頻譜聲音。
如請求項11之電腦實施方法，其中該感測器信號為來自一麥克風之一人類話音，其中基於該信號屬性識別該使用者環境包含識別來自該麥克風之該人類話音，且傳達該使用者環境之該背景包含將與該人類話音相關聯之一人之一姓名提供至該使用者。
如請求項11之電腦實施方法，其中該感測器信號為包括多個人之多個話音之一聲音波形，該信號屬性為各人之一話音，且傳達該使用者環境之該背景包含在一頭戴裝置顯示器中為各人添加帶有一姓名之一字幕。
如請求項11之電腦實施方法，其中該感測器信號為包括多人之話音之一聲音波形，且傳達該使用者環境之該背景包含在一頭戴裝置顯示器上顯示該等人之話音中之至少一者的一轉錄。
如請求項11之電腦實施方法，其中該感測器信號為包括對於該使用者為外來之一語言中的一語音之一聲音波形，且傳達該使用者環境之該背景包含將該語音轉譯成由該使用者選定之一語言。