TW202328871A - 用於擴展現實系統的動態內容呈現 - Google Patents
用於擴展現實系統的動態內容呈現 Download PDFInfo
- Publication number
- TW202328871A TW202328871A TW111139812A TW111139812A TW202328871A TW 202328871 A TW202328871 A TW 202328871A TW 111139812 A TW111139812 A TW 111139812A TW 111139812 A TW111139812 A TW 111139812A TW 202328871 A TW202328871 A TW 202328871A
- Authority
- TW
- Taiwan
- Prior art keywords
- user
- virtual content
- level
- display
- perception
- Prior art date
Links
- 230000008447 perception Effects 0.000 claims abstract description 302
- 210000001508 eye Anatomy 0.000 claims abstract description 259
- 238000000034 method Methods 0.000 claims abstract description 114
- 230000004048 modification Effects 0.000 claims abstract description 76
- 238000012986 modification Methods 0.000 claims abstract description 76
- 230000004424 eye movement Effects 0.000 claims abstract description 45
- 230000010344 pupil dilation Effects 0.000 claims abstract description 22
- 238000010801 machine learning Methods 0.000 claims description 110
- 230000015654 memory Effects 0.000 claims description 50
- 210000000744 eyelid Anatomy 0.000 claims description 30
- 208000004350 Strabismus Diseases 0.000 claims description 15
- 230000008569 process Effects 0.000 claims description 6
- 230000001711 saccadic effect Effects 0.000 claims 2
- 230000000193 eyeblink Effects 0.000 claims 1
- 238000003384 imaging method Methods 0.000 abstract description 98
- 230000004434 saccadic eye movement Effects 0.000 abstract description 17
- 230000004397 blinking Effects 0.000 abstract description 6
- 238000012545 processing Methods 0.000 description 58
- 238000011156 evaluation Methods 0.000 description 57
- 210000003128 head Anatomy 0.000 description 49
- 238000013528 artificial neural network Methods 0.000 description 40
- 230000004044 response Effects 0.000 description 38
- 230000007246 mechanism Effects 0.000 description 33
- 238000001514 detection method Methods 0.000 description 28
- 238000010586 diagram Methods 0.000 description 27
- 238000004891 communication Methods 0.000 description 24
- 230000006870 function Effects 0.000 description 20
- 230000008054 signal transmission Effects 0.000 description 19
- 230000003287 optical effect Effects 0.000 description 17
- 230000009471 action Effects 0.000 description 15
- 238000004458 analytical method Methods 0.000 description 14
- 230000033001 locomotion Effects 0.000 description 13
- 238000012549 training Methods 0.000 description 11
- 230000004462 vestibulo-ocular reflex Effects 0.000 description 10
- 230000003993 interaction Effects 0.000 description 9
- 230000004466 optokinetic reflex Effects 0.000 description 9
- 230000002093 peripheral effect Effects 0.000 description 9
- 206010011469 Crying Diseases 0.000 description 8
- 230000008859 change Effects 0.000 description 8
- 239000000463 material Substances 0.000 description 8
- 238000013473 artificial intelligence Methods 0.000 description 7
- 230000000694 effects Effects 0.000 description 7
- 239000011521 glass Substances 0.000 description 7
- 230000005291 magnetic effect Effects 0.000 description 7
- 238000005259 measurement Methods 0.000 description 7
- 230000019771 cognition Effects 0.000 description 6
- 238000005516 engineering process Methods 0.000 description 6
- 230000008921 facial expression Effects 0.000 description 6
- 230000004447 accommodation reflex Effects 0.000 description 5
- 230000003190 augmentative effect Effects 0.000 description 5
- 230000001413 cellular effect Effects 0.000 description 4
- 230000001149 cognitive effect Effects 0.000 description 4
- 230000006998 cognitive state Effects 0.000 description 4
- 238000004590 computer program Methods 0.000 description 4
- 238000013527 convolutional neural network Methods 0.000 description 4
- 238000013500 data storage Methods 0.000 description 4
- 230000009467 reduction Effects 0.000 description 4
- 230000011514 reflex Effects 0.000 description 4
- 230000002207 retinal effect Effects 0.000 description 4
- 230000003068 static effect Effects 0.000 description 4
- 230000002350 accommodative effect Effects 0.000 description 3
- 239000002131 composite material Substances 0.000 description 3
- 210000005069 ears Anatomy 0.000 description 3
- 210000001747 pupil Anatomy 0.000 description 3
- 230000000306 recurrent effect Effects 0.000 description 3
- 239000004065 semiconductor Substances 0.000 description 3
- 239000007787 solid Substances 0.000 description 3
- 230000004308 accommodation Effects 0.000 description 2
- 230000006399 behavior Effects 0.000 description 2
- 230000008901 benefit Effects 0.000 description 2
- 230000005540 biological transmission Effects 0.000 description 2
- 238000006243 chemical reaction Methods 0.000 description 2
- 230000001886 ciliary effect Effects 0.000 description 2
- 238000013461 design Methods 0.000 description 2
- 230000010339 dilation Effects 0.000 description 2
- 230000007613 environmental effect Effects 0.000 description 2
- 230000014509 gene expression Effects 0.000 description 2
- 230000004886 head movement Effects 0.000 description 2
- 229910044991 metal oxide Inorganic materials 0.000 description 2
- 150000004706 metal oxides Chemical class 0.000 description 2
- 210000003205 muscle Anatomy 0.000 description 2
- 238000003909 pattern recognition Methods 0.000 description 2
- 230000001179 pupillary effect Effects 0.000 description 2
- 210000001525 retina Anatomy 0.000 description 2
- 230000035945 sensitivity Effects 0.000 description 2
- 230000001953 sensory effect Effects 0.000 description 2
- 239000004984 smart glass Substances 0.000 description 2
- 238000012546 transfer Methods 0.000 description 2
- 238000013519 translation Methods 0.000 description 2
- 230000016776 visual perception Effects 0.000 description 2
- 230000001755 vocal effect Effects 0.000 description 2
- 241000579895 Chlorostilbon Species 0.000 description 1
- 208000028698 Cognitive impairment Diseases 0.000 description 1
- 206010013774 Dry eye Diseases 0.000 description 1
- 101001093748 Homo sapiens Phosphatidylinositol N-acetylglucosaminyltransferase subunit P Proteins 0.000 description 1
- 241001465754 Metazoa Species 0.000 description 1
- 206010041349 Somnolence Diseases 0.000 description 1
- 206010044565 Tremor Diseases 0.000 description 1
- 230000004913 activation Effects 0.000 description 1
- 230000036626 alertness Effects 0.000 description 1
- 238000003491 array Methods 0.000 description 1
- 230000003416 augmentation Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000003930 cognitive ability Effects 0.000 description 1
- 208000010877 cognitive disease Diseases 0.000 description 1
- 238000010411 cooking Methods 0.000 description 1
- 238000001816 cooling Methods 0.000 description 1
- 238000013501 data transformation Methods 0.000 description 1
- 229910052876 emerald Inorganic materials 0.000 description 1
- 239000010976 emerald Substances 0.000 description 1
- 230000008451 emotion Effects 0.000 description 1
- 230000002708 enhancing effect Effects 0.000 description 1
- 230000003203 everyday effect Effects 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 210000000887 face Anatomy 0.000 description 1
- 239000000835 fiber Substances 0.000 description 1
- 230000004907 flux Effects 0.000 description 1
- 239000006260 foam Substances 0.000 description 1
- 230000004927 fusion Effects 0.000 description 1
- 238000002955 isolation Methods 0.000 description 1
- 238000007726 management method Methods 0.000 description 1
- 230000006996 mental state Effects 0.000 description 1
- 239000000203 mixture Substances 0.000 description 1
- 238000012544 monitoring process Methods 0.000 description 1
- 239000005022 packaging material Substances 0.000 description 1
- 230000000704 physical effect Effects 0.000 description 1
- 238000012805 post-processing Methods 0.000 description 1
- 238000003672 processing method Methods 0.000 description 1
- 239000000047 product Substances 0.000 description 1
- 230000001902 propagating effect Effects 0.000 description 1
- 150000003839 salts Chemical class 0.000 description 1
- 238000005070 sampling Methods 0.000 description 1
- 230000003595 spectral effect Effects 0.000 description 1
- 238000001228 spectrum Methods 0.000 description 1
- 238000003756 stirring Methods 0.000 description 1
- 239000002887 superconductor Substances 0.000 description 1
- 239000013589 supplement Substances 0.000 description 1
- 230000001360 synchronised effect Effects 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
- XLYOFNOQVPJJNP-UHFFFAOYSA-N water Substances O XLYOFNOQVPJJNP-UHFFFAOYSA-N 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F3/00—Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
- G06F3/01—Input arrangements or combined input and output arrangements for interaction between user and computer
- G06F3/011—Arrangements for interaction with the human body, e.g. for user immersion in virtual reality
- G06F3/013—Eye tracking input arrangements
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F3/00—Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
- G06F3/01—Input arrangements or combined input and output arrangements for interaction between user and computer
- G06F3/011—Arrangements for interaction with the human body, e.g. for user immersion in virtual reality
-
- A—HUMAN NECESSITIES
- A61—MEDICAL OR VETERINARY SCIENCE; HYGIENE
- A61B—DIAGNOSIS; SURGERY; IDENTIFICATION
- A61B5/00—Measuring for diagnostic purposes; Identification of persons
- A61B5/16—Devices for psychotechnics; Testing reaction times ; Devices for evaluating the psychological state
- A61B5/163—Devices for psychotechnics; Testing reaction times ; Devices for evaluating the psychological state by tracking eye movement, gaze, or pupil change
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/10—Image acquisition
- G06V10/17—Image acquisition using hand-held instruments
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/20—Scenes; Scene-specific elements in augmented reality scenes
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
- G06V40/18—Eye characteristics, e.g. of the iris
- G06V40/19—Sensors therefor
-
- G—PHYSICS
- G02—OPTICS
- G02B—OPTICAL ELEMENTS, SYSTEMS OR APPARATUS
- G02B27/00—Optical systems or apparatus not provided for by any of the groups G02B1/00 - G02B26/00, G02B30/00
- G02B27/01—Head-up displays
- G02B27/0101—Head-up displays characterised by optical features
- G02B2027/0138—Head-up displays characterised by optical features comprising image capture systems, e.g. camera
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Human Computer Interaction (AREA)
- Multimedia (AREA)
- Life Sciences & Earth Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Psychology (AREA)
- Biomedical Technology (AREA)
- Hospice & Palliative Care (AREA)
- Psychiatry (AREA)
- Developmental Disabilities (AREA)
- Social Psychology (AREA)
- Child & Adolescent Psychology (AREA)
- Biophysics (AREA)
- Pathology (AREA)
- Educational Technology (AREA)
- Heart & Thoracic Surgery (AREA)
- Medical Informatics (AREA)
- Molecular Biology (AREA)
- Surgery (AREA)
- Animal Behavior & Ethology (AREA)
- Public Health (AREA)
- Veterinary Medicine (AREA)
- Ophthalmology & Optometry (AREA)
- User Interface Of Digital Computer (AREA)
Abstract
描述了用於擴展現實(XR)操作的系統和技術。XR系統根據顯示設定使用顯示器來顯示虛擬內容。顯示設定可以辨識所顯示的虛擬內容的例如位置、方位及/或大小。當顯示器(例如,使用透視顯示器或穿透顯示器)顯示虛擬內容時,使用顯示器可觀看環境。成像系統可以基於成像系統的使用者的一隻或兩隻眼睛的一或多個屬性來決定使用者對使用顯示器顯示的虛擬內容的感知程度。屬性可以辨識例如眼睛位置、眼睛運動、瞳孔擴張、迅速掃視、注視、眨眼及/或眯眼。XR系統可以基於使用者對虛擬內容的感知程度來決定對顯示設定的修改。
Description
本案係關於影像處理。更具體地,本案係關於決定使用者對虛擬內容的感知位準並且基於所決定的使用者對虛擬內容的感知位準來修改用於向使用者顯示虛擬內容的顯示設定的系統和方法。
擴展現實(Extended Reality,XR)設備是例如經由頭戴式顯示器(Head-Mounted Display,HMD)或其他設備向使用者顯示環境的設備。該環境至少部分不同於使用者所處的現實世界環境。使用者通常可以例如經由傾斜或移動HMD或其他設備來互動地改變他們的環境的視圖。虛擬實境(Virtual Reality,VR)和增強現實(Augmented Reality,AR)是XR的實例。
在一些情況下,XR系統可以包括光學「透視(see-through)」顯示器,光學透視顯示器允許使用者基於來自現實世界環境的穿過顯示器的光看見他們的現實世界環境。在一些情況下,XR系統可以包括數位「穿透(pass-through)」顯示器,數位穿透顯示器允許使用者基於由一或多個相機擷取並顯示在顯示器上的環境的視圖而看見他們的現實世界環境的視圖或基於他們的現實世界環境的虛擬環境的視圖。當使用者在他們的現實世界環境中從事活動時,使用者可以佩戴光學「透視」或數位「穿透」XR系統。
XR系統可以在使用者的環境的視圖上覆蓋虛擬內容。虛擬內容可以向XR系統的使用者提供有説明的資訊。然而,有些情形下,虛擬內容可能會干擾使用者在其現實世界環境中的活動,或者使使用者對此類活動分心。另一態樣,有些情形下,使用者亦許沒有注意到可能對使用者有説明的虛擬內容(諸如警告)。
在一些實例中,描述了用於擴展現實(XR)內容管理的系統和技術。在一些實例中,一種XR系統使得根據與虛擬內容相關聯的顯示設定使用顯示器來顯示虛擬內容。顯示設定可以辨識,例如,在顯示器上顯示的虛擬內容的位置、方位及/或大小,及/或相對於經由顯示器可觀看的環境部分的位置、方位及/或大小。當顯示器顯示虛擬內容時,經由顯示器(例如經由透視顯示器或穿透顯示器)可觀看環境。成像系統可以基於成像系統的使用者的一隻或兩隻眼睛的一或多個位置屬性來決定使用者對使用顯示器顯示的虛擬內容的感知位準。成像系統可以基於聚焦於使用者的一或多個感測器(諸如面向使用者的一隻或兩隻眼睛的一或多個相機)來決定位屬性。位置屬性可以辨識,例如,眼睛位置、眼睛運動、瞳孔擴張、迅速掃視、注視、眨眼、眯眼、視動反射或反應、前庭眼反射或反應、調節反射或反應或其組合。在一些實例中,決定成像系統對虛擬內容的感知位準可以包括決定使用者對虛擬內容的理解位準。使用者對虛擬內容的理解位準可以基於使用者對虛擬內容的感知位準、虛擬內容的複雜性、虛擬內容的獨特性、與使用者相關聯的歷史資料及/或情境資料。成像系統可以基於使用者對虛擬內容的感知位準及/或使用者對虛擬內容的理解位準來決定對與虛擬內容相對應的顯示設定的修改。對顯示設定的修改可以對虛擬內容進行例如隱藏、移除、縮小、降低其突出度、降低其優先順序或終止其顯示。對顯示設定的修改可以對虛擬內容進行例如強調、放大、移動、重定向、提高其突出度及/或提高其優先順序。
在一個實例中,提供了一種用於影像處理的裝置。該裝置包括記憶體和耦合到記憶體的(例如,在電路中實施的)一或多個處理器。一或多個處理器被配置為並且能夠:使得根據與虛擬內容相關聯的顯示設定使用顯示器來顯示虛擬內容,其中當顯示器顯示虛擬內容時,使用顯示器可觀看環境;基於使用者的一或多個感知相關屬性來決定使用者對使用顯示器顯示的虛擬內容的感知位準;及基於使用者對虛擬內容的感知位準來決定對與虛擬內容相對應的顯示設定的修改。
在另一實例中,提供了一種影像處理方法。該方法包括:使得根據與虛擬內容相關聯的顯示設定使用顯示器來顯示虛擬內容,其中當顯示器顯示虛擬內容時,使用顯示器可觀看環境;基於使用者的一或多個感知相關屬性來決定使用者對使用顯示器顯示的虛擬內容的感知位準;及基於使用者對虛擬內容的感知位準來決定對與虛擬內容相對應的顯示設定的修改。
在另一實例中,提供了一種其上儲存有指令的非暫時性電腦可讀取媒體,當該指令由一或多個處理器執行時使得一或多個處理器:使得根據與虛擬內容相關聯的顯示設定使用顯示器來顯示虛擬內容,其中當顯示器顯示虛擬內容時,使用顯示器可觀看環境;基於使用者的一或多個感知相關屬性來決定使用者對使用顯示器顯示的虛擬內容的感知位準;及基於使用者對虛擬內容的感知位準來決定對與虛擬內容相對應的顯示設定的修改。
在另一實例中,提供了一種用於影像處理的裝置。該裝置包括:用於使得根據與虛擬內容相關聯的顯示設定使用顯示器來顯示虛擬內容的部件,其中當顯示器顯示虛擬內容時,使用顯示器可觀看環境;用於基於使用者的一或多個感知相關屬性來決定使用者對使用顯示器顯示的虛擬內容的感知位準的部件;及用於基於使用者對虛擬內容的感知位準來決定對與虛擬內容相對應的顯示設定的修改的部件。
在一些態樣,使用者的一或多個感知相關屬性與使用者的一隻或更多只眼睛相關聯。在一些態樣,使用者的一或多個感知相關屬性包括以下至少一項:使用者的一隻或更多只眼睛的一或多個屬性、使用者的一或多個面部表情的一或多個屬性以及使用者的一或多個手勢。
在一些態樣,至少部分基於來自環境的穿過顯示器的至少一部分的光,使用顯示器可觀看環境。在一些態樣,至少部分基於使得顯示器顯示環境的視圖,使用顯示器可觀看環境。
在一些態樣,決定使用者對虛擬內容的感知位準包括使用使用者的一或多個感知相關屬性作為對一或多個經訓練機器學習系統的輸入。在一些態樣,上述方法、裝置和電腦可讀取媒體亦包括:經由使用者介面接收與使用者對虛擬內容的感知位準相對應的回饋;及基於回饋來更新一或多個經訓練機器學習系統。
在一些態樣,上述方法、裝置和電腦可讀取媒體亦包括:接收由一或多個感測器擷取的感測器資料,其中感測器資料指示使用者的一隻或更多只眼睛;及基於感測器資料來決定使用者的一或多個感知相關屬性。在一些態樣,上述方法、裝置和電腦可讀取媒體亦包括:一或多個感測器。
在一些態樣,上述方法、裝置和電腦可讀取媒體亦包括:基於由一或多個影像感測器擷取的感測器資料來決定使用者的一或多個感知相關屬性,其中感測器資料包括使用者的一隻或更多只眼睛的一或多個影像。
在一些態樣,上述方法、裝置和電腦可讀取媒體亦包括:基於使用者對虛擬內容的感知位準來決定使用者對虛擬內容的理解位準,其中基於感知位準來決定對顯示設定的修改包括基於理解位準來決定對顯示設定的修改。在一些態樣,上述方法、裝置和電腦可讀取媒體亦包括:接收與使用者相關聯的歷史資訊,其中決定使用者對虛擬內容的理解位準基於關於使用者的歷史資訊。
在一些態樣,上述方法、裝置和電腦可讀取媒體亦包括:決定虛擬內容的特性,其中決定使用者對虛擬內容的感知位準基於虛擬內容的特性。在一些態樣,上述方法、裝置和電腦可讀取媒體亦包括:決定虛擬內容的複雜性位準,其中決定使用者對虛擬內容的感知位準基於虛擬內容的複雜性位準。在一些態樣,上述方法、裝置和電腦可讀取媒體亦包括:決定虛擬內容的獨特性位準,其中決定使用者對虛擬內容的感知位準基於虛擬內容的獨特性位準。在一些態樣,上述方法、裝置和電腦可讀取媒體亦包括:決定虛擬內容相對於環境的區別性位準,其中決定使用者對虛擬內容的感知位準基於虛擬內容相對於環境的區別性位準。
在一些態樣,對與虛擬內容相對應的顯示設定的修改包括使得顯示器停止顯示虛擬內容的至少一部分。在一些態樣,對與虛擬內容相對應的顯示設定的修改包括使得顯示器比修改之前更突出地顯示虛擬內容的至少一部分。在一些態樣,對與虛擬內容相對應的顯示設定的修改包括對虛擬內容的一或多個特性的修改,其中一或多個特性包括位置、方位、深度、大小、顏色、字體大小、字體顏色、字體、語言和佈局中的至少一個。
在一些態樣,決定使用者對虛擬內容的感知位準包括決定使用者已經感知到虛擬內容。在一些態樣,決定使用者對虛擬內容的感知位準包括決定使用者沒有感知到虛擬內容。在一些態樣,決定使用者對虛擬內容的感知位準包括決定使用者已經將虛擬內容感知到複數個感知位準中的第一感知位準。在一些態樣,決定使用者對虛擬內容的感知位準包括決定使用者已經將虛擬內容感知到複數個感知位準中的第二感知位準。
在一些態樣,對顯示設定的修改基於使用者將在閾值時間量內查看虛擬內容的可能性。
在一些態樣,決定使用者對虛擬內容的感知位準包括決定與使用者對虛擬內容的感知位準相對應的置信度位準,其中對顯示設定的修改基於置信度位準。
在一些態樣,使用者的一或多個感知相關屬性包括使用者的一隻或更多只眼睛相對於虛擬內容的一或多個眼睛位置。在一些態樣,使用者的一或多個感知相關屬性包括使用者的一隻或更多只眼睛的一次或多次迅速掃視的一或多個特性,其中一或多個特性包括頻率、持續時間、定時、迅速掃視速度、迅速掃視幅度、眼睛位置和眼睛運動中的至少一個。在一些態樣,使用者的一或多個感知相關屬性包括使用者的一隻或更多只眼睛的一次或多次注視的一或多個特性,其中一或多個特性包括頻率、持續時間、定時、眼睛位置和眼睛運動中的至少一個。在一些態樣,使用者的一或多個感知相關屬性包括使用者的一隻或更多只眼睛的一次或多次瞳孔擴張的一或多個特性,其中一或多個特性包括頻率、持續時間、定時、瞳孔擴張位準、眼睛位置和眼睛運動中的至少一個。在一些態樣,使用者的一或多個感知相關屬性包括使用者的一或多個眼瞼的一次或多次眨眼的一或多個特性,其中一或多個特性包括頻率、持續時間、定時、眨眼速度、眼睛位置和眼睛運動中的至少一個。在一些態樣,使用者的一或多個感知相關屬性包括使用者的一或多個眼瞼的一次或多次眯眼的一或多個特性,其中一或多個特性包括頻率、持續時間、定時、眯眼位準、眼睛位置和眼睛運動中的至少一個。
在一些態樣,上述方法、裝置和電腦可讀取媒體亦包括:基於對虛擬內容的感知位準和字串的長度來決定使用者對字串的閱讀程度,其中虛擬內容包括字串。
在一些態樣,上述方法、裝置和電腦可讀取媒體亦包括:顯示器。
在一些態樣,上述方法、裝置和電腦可讀取媒體亦包括:至少部分基於包括使用者的一隻或更多只眼睛的表示的感測器資料來決定使用者的一或多個感知相關屬性中的至少一個,其中一或多個感測器被配置為擷取感測器資料。
在一些態樣,決定使用者對虛擬內容的感知位準包括基於使用者的一或多個感知相關屬性來決定使用者對虛擬內容的理解位準。在一些態樣,決定使用者對虛擬內容的理解位準基於使用者的一或多個感知相關屬性以及虛擬內容的一或多個特性、情境資料和使用者的使用者簡檔中的至少一個。在一些態樣,使用者簡檔包括與使用者相關聯的歷史資料。在一些態樣,情境資料包括使用者對虛擬內容的一或多個回應。在一些態樣,情境資料包括XR系統的定位。
在一些態樣,該裝置是可佩戴設備、擴展現實設備(例如,虛擬實境(VR)設備、增強現實(AR)設備或混合現實(Mixed Reality,MR)設備)、頭戴式顯示器(HMD)設備、無線通訊設備、行動設備(例如,行動電話及/或行動手機及/或所謂的「智慧型電話」或其他行動設備)、相機、個人電腦、膝上型電腦、伺服器電腦、交通工具或交通工具的計算設備或部件、另一設備或其組合的一部分及/或包括前述設備。在一些態樣,該裝置包括用於擷取一或多個影像的一或多個相機。在一些態樣,該裝置亦包括用於顯示一或多個影像、通知及/或其他可顯示資料的顯示器。在一些態樣,上述裝置可以包括一或多個感測器(例如,一或多個慣性量測單元(Inertial Measurement Unit,IMU),諸如一或多個陀螺儀、一或多個回轉儀、一或多個加速度計、其任何組合及/或其他感測器)。
本發明內容不意欲標識所要求保護的主題的關鍵或必要特徵,亦不意欲孤立地用於決定所要求保護的主題的範疇。應當經由參考本專利的整個說明書、任何或所有附圖以及每個請求項的適當部分來理解主題。
參考以下說明書、申請專利範圍和附圖,前述內容以及其他特徵和實施例將變得更加明顯。
下文提供了本案的某些態樣和實施例。這些態樣和實施例中的一些可以獨立應用,並且它們中的一些可以組合應用,這對於本發明所屬領域中具有通常知識者來說是顯而易見的。在以下描述中,出於解釋的目的,闡述了具體細節,以便提供對本案的實施例的全面理解。然而,顯而易見的是,可以在沒有這些具體細節的情況下實踐各種實施例。附圖和描述並不意欲為限制性的。
隨後的描述僅提供示例性實施例,並不意欲限制本案的範疇、適用性或配置。相反,示例性實施例的隨後的描述將為本發明所屬領域中具有通常知識者提供實現示例性實施例的描述。應當理解,在不脫離所附請求項中闡述的本案的精神和範疇的情況下,可以對元件的功能和佈置進行各種改變。
相機是一種接收光並使用影像感測器擷取影像訊框(諸如靜止影像或視訊訊框)的設備。術語「影像」、「影像訊框」和「訊框」在本文中可互換使用。相機可以配置有各種影像擷取和影像處理設置。不同的設置引起具有不同外觀的影像。在擷取一或多個影像訊框之前或期間,決定並應用一些相機設置,諸如ISO、曝光時間、光圈大小、光圈值(f/stop)、快門速度、焦距和增益。例如,可以將設置或參數應用於影像感測器以擷取一或多個影像訊框。其他相機設置可以配置一或多個影像訊框的後處理,諸如更改對比度、亮度、飽和度、銳度、色階、曲線或顏色。例如,可以將設置或參數應用於處理器(例如,影像訊號處理器或ISP)以處理由影像感測器擷取的一或多個影像訊框。
擴展現實(XR)系統或設備可以向使用者提供虛擬內容及/或可以組合實體環境(場景)的現實世界視圖和虛擬環境(包括虛擬內容)。XR系統促進使用者與這種組合XR環境的互動。現實世界視圖可以包括現實世界物件(亦稱為實體物件),諸如人、交通工具、建築物、桌子、椅子及/或其他現實世界物件或實體物件。XR系統或設備可以促進與不同類型的XR環境的互動(例如,使用者可以使用XR系統或設備來與XR環境進行互動)。XR系統可以包括促進與虛擬實境(VR)環境的互動的VR系統、促進與增強現實(AR)環境的互動的AR系統、促進與混合現實(MR)環境的互動的MR系統及/或其他XR系統。XR系統或設備的實例包括頭戴式顯示器(HMD)、智慧眼鏡等。在一些情況下,XR系統可以追蹤使用者的部位(例如,使用者的手及/或指尖)以允許使用者與虛擬內容的專案進行互動。
本文描述了用於最佳化擴展現實(XR)系統(諸如增強現實(AR)系統、虛擬實境(VR)系統及/或混合現實(MR)系統等)的內容理解和現實世界參與的系統和技術。XR系統可以包括例如HMD、AR眼鏡、交通工具中的平視顯示器、行動手機以及其他類型的設備和系統。
在一些情況下,XR系統可以包括光學「透視」或數位「穿透」顯示器(例如,透視或穿透AR HMD或AR眼鏡),從而允許XR系統將XR內容(例如,AR內容)直接顯示在現實世界視圖上,而不顯示視訊內容。例如,使用者可以經由顯示器(例如,眼鏡或透鏡)觀看實體物件,並且AR系統可以將AR內容顯示在顯示器上,以向使用者提供對一或多個現實世界物件的增強視覺感知。在一個實例中,光學透視AR系統的顯示器可以包括在每只眼睛前面的透鏡或眼鏡(或者在兩隻眼睛上的單個透鏡或眼鏡)。透視顯示器可以允許使用者直接看見現實世界或實體物件,並且可以顯示(例如,投影或以其他方式顯示)該物件的增強影像或額外的AR內容。這允許增強使用者對現實世界的視覺感知。
光學透視或數位穿透XR系統可以在使用者參與現實世界時佩戴(與VR相反,在VR中,使用者沉浸在虛擬內容中,並且現實世界被完全遮擋)。與智慧型電話、PC和其他計算設備不同,頭戴式XR設備(例如,智慧眼鏡、HMD等)戴在臉上,從而協調使用者的視覺和聽覺感官通道。正因如此,頭戴式XR設備上的內容呈現有時可能會干擾或分散使用者有效地與使用者周圍環境進行互動以及意識到使用者周圍環境的能力。
本文描述了XR系統和用於操作XR系統的技術。在一些實例中,成像系統(諸如XR系統)根據與虛擬內容相關聯的顯示設定使用顯示器來顯示虛擬內容。顯示設定可以辨識例如在顯示器上顯示的虛擬內容的位置、方位、大小、顏色及/或佈局,及/或相對於經由顯示器可觀看的環境部分的位置、方位、大小、顏色及/或佈局。當顯示器(例如經由透視顯示器或穿透顯示器)顯示虛擬內容時,可以經由顯示器觀看環境。成像系統可以基於成像系統的使用者的一隻或兩隻眼睛的一或多個屬性來決定使用者經由使用者的一隻或兩隻眼睛對使用顯示器顯示的虛擬內容的感知位準。成像系統可以基於聚焦於使用者的一或多個感測器(諸如面向使用者的一隻或兩隻眼睛的一或多個相機)來決定屬性。眼睛位置屬性可以辨識例如眼睛位置、眼睛運動、瞳孔擴張、迅速掃視、注視、眨眼、眯眼、視動反射或反應、前庭眼反射或反應、調節反射或反應、本文描述的與眼睛及/或眼瞼相關的其他屬性或其組合。對虛擬內容的感知位準可以辨識例如使用者是否已經感知到該內容,並且在一些情況下亦可以辨識使用者感知該內容的位準。在一些實例中,成像系統決定對虛擬內容的感知位準可以包括決定使用者對虛擬內容的理解位準。使用者對虛擬內容的理解位準可以基於使用者對虛擬內容的感知位準、虛擬內容的一或多個特性、使用者的使用者簡檔、情境資料或其組合。虛擬內容的一或多個特性可以包括虛擬內容的複雜性、虛擬內容的獨特性、虛擬內容相對於經由顯示器可查看的環境的區別性等。使用者的使用者簡檔可以包括與使用者相關聯的歷史資料及/或使用者的當前能力。成像系統可以基於使用者對虛擬內容的感知位準及/或對虛擬內容的理解位準來決定對與虛擬內容相對應的顯示設定的修改。對顯示設定的修改可以對虛擬內容進行例如隱藏、移除、縮小、降低其突出度、降低其優先順序或終止其顯示。對顯示設定的修改可以對虛擬內容進行例如強調、放大、移動、重定向、提高其突出度及/或提高其優先順序。
本文描述的XR系統和技術整體上提供了優於習知XR技術和顯示技術的許多技術優勢和益處。例如,本文描述的XR系統和技術基於對使用者的動作、感知及/或理解的偵測而向使用者提供XR內容呈現的定製,包括對使用者的虛擬內容顯示。例如,基於對虛擬內容的分析(例如,虛擬內容的複雜性、虛擬內容的獨特性以及虛擬內容相對於環境的區別性)、對使用者自己的分析(例如,基於諸如教育和職業以及先前行為的歷史資料)及/或對情境的分析,基於對使用者對虛擬內容的感知位準及/或理解位準的分析來定製對使用者的虛擬內容顯示。本文描述的XR系統和技術經由將某些虛擬內容優先於其他虛擬內容及/或優先於環境的視圖來最佳化有限顯示不動產(real-estate)的使用。例如,本文描述的XR系統和技術最佳化並強調重要的虛擬內容(諸如警告使用者即將發生危險的內容),並且最小化或隱藏不太重要的虛擬內容(諸如使用者已經看過及/或消除的內容)。本文描述的XR系統和技術經由在使用者需要專注於至關重要且潛在危險的任務(諸如駕駛、烹飪或手術)時減少對虛擬內容的分心、轉而強調幫助使用者執行至關重要的任務的虛擬內容,來提高XR技術的安全性。與基於使用者已經感知及/或理解虛擬內容而不智慧地隱藏或消除虛擬內容的系統相比,本文描述的XR系統和技術經由減少顯示的虛擬內容的量及/或顯示虛擬內容的持續時間來提高XR系統效率。這些效率增益包括去往和來自顯示器的頻寬使用或資料的減少、顯示器的功率使用的減少、顯示器及/或處理器及/或相關部件所產生的熱量的減少、顯示器及/或處理器及/或相關部件所需的散熱的減少或其組合。
將參考附圖描述本案的各個態樣。圖1是示出影像擷取和處理系統100的架構的方塊圖。影像擷取和處理系統100包括用於擷取和處理一或多個場景的影像(例如,場景110的影像)的各種部件。影像擷取和處理系統100可以擷取獨立的影像(或照片)及/或可以擷取包括特定序列的多個影像(或視訊訊框)的視訊。系統100的透鏡115面向場景110,並且接收來自場景110的光。透鏡115將光轉向影像感測器130。由透鏡115接收的光穿過由一或多個控制機構120控制的光圈,並且由影像感測器130接收。在一些實例中,場景110是環境(諸如圖2的面向環境的感測器210所面向的環境)中的場景。在一些實例中,場景110是使用者(諸如圖2的面向使用者的感測器205所面向的使用者)的至少一部分的場景。例如,場景110可以是使用者的一隻或兩隻眼睛及/或使用者面部的至少一部分的場景。
一或多個控制機構120可以基於來自影像感測器130的資訊及/或基於來自影像處理器150的資訊來控制曝光、聚焦及/或縮放。一或多個控制機構120可以包括多個機構和部件;例如,控制機構120可以包括一或多個曝光控制機構125A、一或多個聚焦控制機構125B及/或一或多個縮放控制機構125C。一或多個控制機構120亦可以包括除了所示出的那些之外的額外控制機構,諸如控制模擬增益、閃光、HDR、景深及/或其他影像擷取屬性的控制機構。
控制機構120的聚焦控制機構125B可以獲得聚焦設置。在一些實例中,聚焦控制機構125B將聚焦設置儲存在記憶體暫存器中。基於聚焦設置,聚焦控制機構125B可以相對於影像感測器130的位置調整透鏡115的位置。例如,基於聚焦設置,聚焦控制機構125B可以經由啟動馬達或伺服機構來移動透鏡115使其靠近影像感測器130或遠離影像感測器130,從而調整聚焦。在一些情況下,系統100中可以包括額外的透鏡,諸如影像感測器130的每個光電二極體上的一或多個微型透鏡,在光到達光電二極體之前,每個微型透鏡將從透鏡115接收的光轉向相應的光電二極體。聚焦設置可以經由對比度偵測自動聚焦(Contrast Detection Autofocus,CDAF)、相位偵測自動聚焦(Phase Detection Autofocus,PDAF)或其某種組合來決定。可以使用控制機構120、影像感測器130及/或影像處理器150來決定聚焦設置。聚焦設置可以被稱為影像擷取設置及/或影像處理設置。
控制機構120的曝光控制機構125A可以獲得曝光設置。在一些情況下,曝光控制機構125A將曝光設置儲存在記憶體暫存器中。基於該曝光設置,曝光控制機構125A可以控制光圈的大小(例如,光圈大小或光圈值)、光圈打開的持續時間(例如,曝光時間或快門速度)、影像感測器130的靈敏度(例如,ISO速度或感光速度)、影像感測器130應用的類比增益或其任何組合。曝光設置可以被稱為影像擷取設置及/或影像處理設置。
控制機構120的縮放控制機構125C可以獲得縮放設置。在一些實例中,縮放控制機構125C將縮放設置儲存在記憶體暫存器中。基於縮放設置,縮放控制機構125C可以控制包括透鏡115和一或多個額外透鏡的透鏡元件組件(透鏡組件)的焦距。例如,縮放控制機構125C可以經由致動一或多個馬達或伺服機構以相對於彼此移動一或多個透鏡,來控制透鏡組件的焦距。縮放設置可以被稱為影像擷取設置及/或影像處理設置。在一些實例中,透鏡組件可以包括齊焦縮放透鏡或變焦縮放透鏡。在一些實例中,透鏡組件可以包括聚焦透鏡(在一些情況下可以是透鏡115),聚焦透鏡首先接收來自場景110的光,隨後在光到達影像感測器130之前,光穿過聚焦透鏡(例如,透鏡115)與影像感測器130之間的無焦縮放系統。在一些情況下,無焦縮放系統可以包括兩個焦距相等或相似(例如,在閾值差內)的正(例如,會聚、凸)透鏡,在它們之間有一個負(例如,發散、凹)透鏡。在一些情況下,縮放控制機構125C移動無焦縮放系統中的一或多個透鏡,諸如負透鏡和一個或兩個正透鏡。
影像感測器130包括一或多個光電二極體陣列或其他光敏元件。每個光電二極體量測最終對應於由影像感測器130產生的影像中的特定圖元的光量。在一些情況下,不同的光電二極體可以被不同的濾色器覆蓋,因此可以量測與覆蓋光電二極體的濾色器的顏色相匹配的光。例如,拜耳濾色器包括紅色濾色器、藍色濾色器和綠色濾色器,其中影像的每個圖元是基於來自覆蓋於紅色濾色器中的至少一個光電二極體的紅光資料、來自覆蓋於藍色濾色器中的至少一個光電二極體的藍光資料以及來自覆蓋於綠色濾色器中的至少一個光電二極體的綠光資料而產生的。其他類型的濾色器可以使用黃色、品紅色及/或青色(亦稱為「祖母綠」)的濾色器來代替或補充紅色、藍色及/或綠色的濾色器。一些影像感測器可能完全沒有濾色器,而是可能在整個圖元陣列(在一些情況下垂直堆疊)中使用不同的光電二極體。整個圖元陣列中的不同光電二極體可以具有不同的光譜靈敏度曲線,因此回應不同波長的光。單色影像感測器亦可能缺少濾色器,因此缺少色深。
在一些情況下,影像感測器130替代地或補充地包括不透明及/或反光的遮罩,這種遮罩在某些時間及/或從某種角度(其可以用於相位偵測自動聚焦(PDAF))阻擋光到達某些光電二極體或某些光電二極體的部分。影像感測器130亦可以包括用以放大由光電二極體輸出的類比訊號的類比增益放大器,及/或用以將光電二極體輸出(及/或由類比增益放大器放大)的類比訊號轉換成數位訊號的類比數位轉換器(Analog to Digital Converter,ADC)。在一些情況下,針對一或多個控制機構120所論述的某些部件或功能可以被替代地或補充地包括在影像感測器130中。影像感測器130可以是電荷耦合裝置(Charge-Coupled Device,CCD)感測器、電子倍增CCD(Electron-Multiplying CCD,EMCCD)感測器、主動圖元感測器(Active-Pixel Sensor,APS)、互補金屬氧化物半導體(Complimentary Metal-Oxide Semiconductor,CMOS)、N型金屬氧化物半導體(N-type Metal-Oxide Semiconductor,NMOS)、混合CCD/CMOS感測器(例如,sCMOS)或其某種其他組合。
影像處理器150可以包括一或多個處理器,諸如一或多個影像訊號處理器(Image Signal Processor,ISP)(包括ISP 154)、一或多個主處理器(包括主處理器152)及/或針對計算系統1100所論述的一或多個任何其他類型的處理器1110。主處理器152可以是數位訊號處理器(Digital Signal Processor,DSP)及/或其他類型的處理器。在一些實施方式中,影像處理器150是包括主處理器152和ISP 154的單個積體電路或晶片(例如,稱為片上系統或SoC)。在一些情況下,晶片亦可以包括一或多個輸入/輸出埠(例如,輸入/輸出(Input/Output,I/O)埠156)、中央處理單元(Central Processing Unit,CPU)、圖形處理單元(graphics processing unit,GPU)、寬頻數據機(例如,3G、4G或LTE、5G等)、記憶體、連接部件(例如,藍芽
TM、全球定位系統(Global Positioning System,GPS)等)、其任何組合及/或其他部件。I/O埠156可以包括根據一或多個協定或規範的任何合適的輸入/輸出埠或介面,諸如積體電路間2(Inter-Integrated Circuit 2,I2C)介面、積體電路間3(Inter-Integrated Circuit 3,I3C)介面、串列周邊介面(Serial Peripheral Interface,SPI)介面、串列通用輸入/輸出(General Purpose Input/Output,GPIO)介面、行動工業處理器介面(Mobile Industry Processor Interface,MIPI)(諸如MIPI CSI-2實體(physical,PHY)層埠或介面、高級高效能匯流排(Advanced High-performance Bus,AHB)匯流排、其任何組合及/或其他輸入/輸出埠。在一個說明性實例中,主處理器152可以使用I2C埠與影像感測器130進行通訊,並且ISP 154可以使用MIPI埠與影像感測器130進行通訊。
影像處理器150可以執行多個任務,諸如去馬賽克、顏色空間轉換、影像訊框下取樣、圖元內插、自動曝光(Automatic Exposure,AE)控制、自動增益控制(Automatic Gain Control,AGC)、CDAF、PDAF、自動白平衡、為了形成HDR影像的影像訊框合併、影像辨識、物件辨識、特徵辨識、輸入接收、管理輸出、管理記憶體或其某種組合。影像處理器150可以將影像訊框及/或經處理的影像儲存在隨機存取記憶體(Random Access Memory,RAM)140及/或1120、唯讀記憶體(Read-Only Memory,ROM)145及/或1125、快取記憶體、記憶體單元、另一存放裝置或其某種組合中。
各種輸入/輸出(I/O)設備160可以連接到影像處理器150。I/O設備160可以包括顯示螢幕、鍵盤、小鍵盤、觸控式螢幕、軌跡板、觸敏表面、印表機、任何其他輸出設備1135、任何其他輸入設備1145或其某種組合。在一些情況下,字幕可以經由I/O設備160的實體鍵盤或小鍵盤或者經由I/O設備160的觸控式螢幕的虛擬鍵盤或小鍵盤輸入到影像處理設備105B中。I/O 160可以包括一或多個埠、插孔或實現系統100與一或多個周邊設備之間的有線連接的其他連接器,系統100可以經由此類有線連接從一或多個周邊設備接收資料及/或向一或多個周邊設備發送資料。I/O 160可以包括實現系統100與一或多個周邊設備之間的無線連接的一或多個無線收發器,系統100可以經由此類無線連接從一或多個周邊設備接收資料及/或向一或多個周邊設備發送資料。周邊設備可以包括任何前述類型的I/O設備160,並且一旦它們耦合到埠、插孔、無線收發器或其他有線及/或無線連接器,就可以認為它們本身是I/O設備160。
在一些情況下,影像擷取和處理系統100可以是單個設備。在一些情況下,影像擷取和處理系統100可以是兩個或兩個以上單獨的設備,包括影像擷取裝置105A(例如,相機)和影像處理設備105B(例如,耦合到相機的計算設備)。在一些實施方式中,影像擷取裝置105A和影像處理設備105B可以例如經由一或多個電線、電纜或其他電連接器耦合在一起,及/或經由一或多個無線收發器無線地耦合在一起。在一些實施方式中,影像擷取裝置105A和影像處理設備105B可以彼此斷開連接。
如圖1所示,垂直虛線將圖1的影像擷取和處理系統100分成分別表示影像擷取裝置105A和影像處理設備105B的兩部分。影像擷取裝置105A包括透鏡115、控制機構120和影像感測器130。影像處理設備105B包括影像處理器150(包括ISP 154和主處理器152)、RAM 140、ROM 145和I/O 160。在一些情況下,影像擷取裝置105A中示出的某些部件(諸如ISP 154及/或主處理器152)可以被包括在影像擷取裝置105A中。
影像擷取和處理系統100可以包括電子設備,諸如行動或固定電話手機(例如,智慧型電話、蜂巢式電話等)、桌上型電腦、膝上型或筆記型電腦、平板電腦、機上盒、電視機、相機、顯示裝置、數位媒體播放機、視訊遊戲控制台、視訊流設備、網際網路協定(Internet Protocol,IP)相機或任何其他合適的電子設備。在一些實例中,影像擷取和處理系統100可以包括用於無線通訊(諸如蜂巢網路通訊、802.11 wi-fi通訊、無線區域網路(Wireless Local Area Network,WLAN)通訊或其某種組合)的一或多個無線收發器。在一些實施方式中,影像擷取裝置105A和影像處理設備105B可以是不同的設備。例如,影像擷取裝置105A可以包括相機設備,並且影像處理設備105B可以包括計算設備,諸如行動手機、桌上型電腦或其他計算設備。
儘管影像擷取和處理系統100被示為包括某些部件,但是具有普通知識者將會理解,影像擷取和處理系統100可以包括比圖1所示更多的部件。影像擷取和處理系統100的部件可以包括軟體、硬體或者軟體和硬體的一或多個組合。例如,在一些實施方式中,影像擷取和處理系統100的部件可以包括電子電路或其他電子硬體及/或可以使用電子電路或其他電子硬體來實施,電子電路或其他電子硬體可以包括一或多個可程式設計電子電路(例如,微型處理器、GPU、DSP、CPU及/或其他合適的電子電路),及/或可以包括電腦軟體、韌體或其任何組合及/或使用電腦軟體、韌體或其任何組合來實施,以執行本文描述的各種操作。軟體及/或韌體可以包括儲存在電腦可讀取儲存媒體上並可由實施影像擷取和處理系統100的電子設備的一或多個處理器執行的一或多個指令。
圖2是示出執行用於決定觀看顯示器225的使用者對使用顯示器225顯示的虛擬內容的感知位準及/或理解位準的程序的擴展現實(XR)系統200的實例架構的方塊圖。在一些實例中,XR系統200包括至少一個影像擷取和處理系統100、影像擷取裝置105A、影像處理設備105B或其(一或多個)組合。在一些實例中,XR系統200包括至少一個計算系統1100。
XR系統200包括一或多個面向使用者的感測器205。面向使用者的感測器205擷取量測及/或追蹤關於使用者身體及/或使用者行為的各態樣的資訊的感測器資料。在一些實例中,面向使用者的感測器205包括面向使用者的至少一部分的一或多個相機。一或多個相機可以包括擷取使用者的至少一部分的影像的一或多個影像感測器。例如,面向使用者的感測器205可以包括聚焦於使用者的一隻或兩隻眼睛(及/或眼瞼)的一或多個相機,其中相機的影像感測器擷取使用者的一隻或兩隻眼睛的影像。一或多個相機亦可以被稱為(一或多個)眼睛擷取感測器。在一些實施方式中,一或多個相機可以隨時間的推移擷取一系列影像,在一些實例中,這些影像可以按時間次序排列在一起,例如排列成視訊。這一系列影像可以圖示或以其他方式指示例如(一隻或更多只)使用者眼睛的運動、瞳孔擴張、眨眼(使用眼瞼)、眯眼(使用眼瞼)、迅速掃視、注視、眼睛濕度位準、視動反射或反應、前庭眼反射或反應、調節反射或反應、本文所述的與眼睛及/或眼瞼相關的其他屬性或其組合。在圖2內,一或多個面向使用者的感測器205被示為面向使用者眼睛並擷取使用者眼睛影像的相機。面向使用者的感測器205可以包括追蹤關於使用者的身體及/或行為的資訊的一或多個感測器,諸如相機、影像感測器、麥克風、心率監視器、血氧計、生物感測器、位置接收器、全球導航衛星系統(Global Navigation Satellite System,GNSS)接收器、慣性量測單元(IMU)、加速度計、陀螺儀、回轉儀、氣壓計、溫度計、高度計、深度感測器、光偵測和測距(Light Detection and Ranging,LIDAR)感測器、無線電偵測和測距(Radio Detection and Ranging,RADAR)感測器、聲音偵測和測距(Sound Detection and Ranging,SODAR)感測器、聲音導航和測距(Sound Navigation and Ranging,SONAR)感測器、飛行時間(Time of Flight,ToF)感測器、結構光感測器、本文論述的其他感測器或其組合。在一些實例中,一或多個面向使用者的感測器205包括至少一個影像擷取和處理系統100、影像擷取裝置105A、影像處理設備105B或其(一或多個)組合。在一些實例中,一或多個面向使用者的感測器205包括計算系統1100的至少一個輸入設備1145,或者它們本身是計算系統1100的輸入設備1145。
XR系統200包括產生虛擬內容的虛擬內容產生器215。虛擬內容可以包括二維(2D)形狀、三維(3D)形狀、2D物件、3D物件、2D模型、3D模型、2D動畫、3D動畫、2D影像、3D影像、紋理、其他影像的部分、文數字字元、文數字字串或其組合。在圖2內,由虛擬內容產生器215產生的虛擬內容被示為四面體。包括文數字字串的虛擬內容的實例包括虛擬內容525、虛擬內容530、虛擬內容535、虛擬內容630和虛擬內容730。在一些實例中,虛擬內容產生器215包括執行在處理器(諸如計算系統1100的處理器1110、影像處理器150、主處理器152、ISP 154或其組合)上的軟體元件,諸如與程式相對應的指令集。在一些實例中,虛擬內容產生器215包括一或多個硬體元件。例如,虛擬內容產生器215可以包括處理器,諸如計算系統1100的處理器1110、影像處理器150、主處理器152、ISP 154或其組合。在一些實例中,虛擬內容產生器215包括一或多個軟體元件和一或多個硬體元件的組合。
XR系統200包括顯示至少部分覆蓋在環境的視圖上的虛擬內容的顯示器225。環境的視圖可以包括XR系統200周圍的現實世界環境的視圖。環境的視圖可以包括虛擬環境及/或混合環境的視圖,混合環境至少部分基於現實世界環境並且至少部分是虛擬的。在一些實例中,顯示器225可以包括輸出設備1135。在一些實例中,輸出設備1135可以包括顯示器225。
在一些實例中,XR系統200的顯示器225是光學「透視」顯示器,光學透視顯示器允許來自XR系統200周圍的現實世界環境(場景)的光穿越(例如,穿過)顯示器225到達使用者的一隻或兩隻眼睛。例如,顯示器225可以是至少部分透明的、半透明的、透光的或其組合。在說明性實例中,顯示器225包括透明的、半透明的及/或透光的透鏡和投影儀。投影儀將虛擬內容投影到透鏡上。透鏡可以是例如一副眼鏡的透鏡、護目鏡的透鏡、隱形眼鏡、頭戴式顯示器(HMD)設備的透鏡或其組合。來自現實世界環境的光穿過透鏡並到達使用者的一隻或兩隻眼睛。因為投影儀將虛擬內容投影到透鏡上,所以從使用者的一隻或兩隻眼睛的視角來看,虛擬內容看起來覆蓋在使用者的環境的視圖上。由投影儀投影到透鏡上的虛擬內容的位置可以由顯示設定(例如,第一顯示設定250、第二顯示設定255)來辨識及/或指示。合成器220可以決定及/或修改顯示設定。
在一些實例中,XR系統200的顯示器225包括沒有上面針對光學透視顯示器所論述的透鏡的投影儀。相反,顯示器225可以使用其投影儀將虛擬內容投影到使用者的一隻或兩隻眼睛上。在一些實例中,顯示器225的投影儀可以將虛擬內容投影到使用者的一隻或兩隻眼睛的一個或兩個視網膜上。這種顯示器225可以被稱為光學透視顯示器、虛擬視網膜顯示器(Virtual Retinal Display,VRD)、視網膜掃瞄顯示器(Retinal Scan Display,RSD)或視網膜投影儀(Retinal Projector,RP)。來自現實世界環境(場景)的光仍然到達使用者的一隻或兩隻眼睛。因為投影儀將虛擬內容投影到使用者的一隻或兩隻眼睛上,所以從使用者的一隻或兩隻眼睛的視角來看,虛擬內容看起來覆蓋在使用者的環境的視圖上。由投影儀投影到使用者的一隻或兩隻眼睛上的虛擬內容的位置可以由顯示設定(例如,第一顯示設定250、第二顯示設定255)來辨識及/或指示。合成器220可以決定及/或修改顯示設定。
在一些實例中,XR系統200的顯示器225是數位「穿透」顯示器,數位穿透顯示器允許使用者經由在顯示器225上顯示環境的視圖來查看環境的視圖。顯示在數位穿透顯示器上的環境的視圖可以是(例如,基於由XR系統200的一或多個面向環境的感測器210擷取的(影像)感測器資料的)XR系統200周圍的現實世界環境的視圖。顯示在穿透顯示器上的環境的視圖可以是虛擬環境的視圖或者與現實世界環境不同但基於現實世界環境的混合環境的視圖。例如,虛擬環境或混合環境可以包括虛擬物件及/或背景,但是它們可以被映射到具有基於使用者和XR系統200所處的現實世界環境內的區域及/或空間體積的尺寸的區域及/或空間體積。XR系統200可以決定使用者和XR系統200所處的現實世界環境內的區域及/或空間體積的尺寸。在一些實施方式中,XR系統可以包括XR系統200的擷取(例如,XR系統周圍的)環境的影像及/或環境的深度資料的一或多個面向環境的感測器210。這可以確保,當使用者探索顯示器225上顯示的虛擬環境或混合環境時,使用者不會意外地從一段樓梯上摔下來、撞到牆壁或障礙物或者以其他方式與現實世界環境發生負面的互動及/或潛在危險的互動。
在顯示器225是數位穿透顯示器的實例中,XR系統200可以使用合成器220將虛擬內容產生器215產生的虛擬內容覆蓋在顯示器225上顯示的環境的至少一部分上。在一些實例中,合成器220可以將虛擬內容完全覆蓋在顯示器225上顯示的環境上,使得從觀看顯示器225的使用者的一隻或兩隻眼睛的視角來看,虛擬內容看起來完全在顯示器225上顯示的環境的其餘部分的前面。在一些實例中,合成器220可以將虛擬內容的至少一部分覆蓋在顯示器225上顯示的環境部分上,使得從觀看顯示器225的使用者的一隻或兩隻眼睛的視角來看,虛擬內容看起來在顯示器225上顯示的環境的某些部分的前面,但是在顯示器225上顯示的環境的其他部分的後面。合成器220因此可以向虛擬內容提供類比深度,將顯示器225上顯示的環境部分覆蓋在虛擬內容的部分上。這種模擬深度的實例在圖5B中示出,其中根據顯示設定555,裡德•奧爾巴赫(Red Auerbach)雕像的頭部部分地覆蓋在虛擬內容530的一部分上。
在顯示器225是光學透視顯示器的實例中,XR系統200可以使用合成器220來避免現實世界環境的一部分被虛擬內容產生器215產生的虛擬內容所覆蓋。在一些實例中,合成器220可以將虛擬內容僅部分地覆蓋在顯示器上的現實世界環境上,使得從觀看顯示器225的使用者的一隻或兩隻眼睛的視角來看,虛擬內容看起來在現實世界環境的至少一部分的後面。在一些實例中,合成器220可以將虛擬內容僅部分地覆蓋在顯示器上的現實世界環境上,使得從觀看顯示器225的使用者的一隻或兩隻眼睛的視角來看,虛擬內容看起來在現實世界環境的至少一部分的後面並且在現實世界環境的其他部分的前面。合成器220因此可以向虛擬內容提供類比深度,從而避免現實世界環境的部分被虛擬內容覆蓋。虛擬內容相對於環境的位置可以由顯示設定(例如,第一顯示設定250、第二顯示設定255)來辨識及/或指示。合成器220可以決定及/或修改顯示設定。
XR系統200的一或多個面向環境的感測器210是背向使用者、背對使用者及/或遠離聚焦於使用者,及/或指向、對準及/或聚焦於現實世界環境的一部分的一或多個感測器。例如,一或多個面向環境的感測器210可以指向、對準及/或面向使用者及/或XR系統200的正面所面向的方向。面向環境的感測器210擷取量測及/或追蹤關於現實世界環境的資訊的感測器資料。在一些實例中,面向環境的感測器210包括面向現實世界環境的至少一部分的一或多個相機。該一或多個相機可以包括擷取現實世界環境的至少一部分的影像的一或多個影像感測器。例如,面向環境的感測器210可以包括聚焦於(例如,XR系統200周圍的)現實世界環境的一或多個相機,其中相機的影像感測器擷取(例如,周圍的)現實世界環境的影像。這種相機可以隨時間的推移擷取一系列影像,在一些實例中,這些影像可以按時間次序排列在一起,例如排列成視訊。這一系列影像可以圖示或以其他方式指示例如地板、地面、牆壁、天花板、天空、水、植物、除使用者之外的其他人、使用者身體的部分(例如,手臂或腿)、結構、交通工具、動物、設備、其他物件或其組合。在圖2內,一或多個面向環境的感測器210被示為面向房屋(結構的實例)的相機。在一些實例中,一或多個面向環境的感測器210包括至少一個影像擷取和處理系統100、影像擷取裝置105A、影像處理設備105B或其(一或多個)組合。在一些實例中,一或多個面向環境的感測器210包括計算系統1100的至少一個輸入設備1145,或者它們本身是計算系統1100的輸入設備1145。
聚焦於環境的感測器210可以包括相機、影像感測器、位置接收器、全球導航衛星系統(GNSS)接收器、慣性量測單元(IMU)、加速度計、陀螺儀、回轉儀、氣壓計、溫度計、高度計、深度感測器、光探測和測距(LIDAR)感測器、無線電探測和測距(RADAR)感測器、聲音探測和測距(SODAR)感測器、聲音導航和測距(SONAR)感測器、飛行時間(ToF)感測器、結構光感測器、本文論述的其他感測器或其組合。
在一些實例中,XR系統200亦可以包括一或多個額外感測器208,諸如相機、影像感測器、位置接收器、全球導航衛星系統(GNSS)接收器、慣性量測單元(IMU)、加速度計、陀螺儀、回轉儀、氣壓計、溫度計、高度計、深度感測器、光偵測和測距(LIDAR)感測器、無線電偵測和測距(RADAR)感測器、聲音偵測和測距(SODAR)感測器、聲音導航和測距(SONAR)感測器、飛行時間(ToF)感測器、結構光感測器、本文論述的其他感測器或其組合。在一些實施方式中,(一或多個)額外感測器208可以補充或改進來自(一或多個)面向使用者的感測器205及/或(一或多個)面向環境的感測器210的感測器讀數。例如,屬性引擎230可以使用慣性量測單元(IMU)、加速度計、陀螺儀或其他感測器來改進對虛擬內容的使用者感知的決定(例如,經由偵測使用者的搖頭或點頭)。在另一實例中,合成器220可以使用深度感測器、光偵測和測距(LIDAR)感測器、無線電偵測和測距(RADAR)感測器、聲音偵測和測距(SODAR)感測器、聲音導航和測距(SONAR)感測器、飛行時間(ToF)感測器來辨識在建立虛擬內容的類比深度時現實世界環境的要避免被顯示覆蓋的部分(例如,可辨識的物件)。
XR系統200包括合成器220。合成器220編制(compose)、合成及/或組合使用者經由顯示器225觀看的環境中(內)的虛擬內容的視圖。XR系統200的合成器220可以決定顯示器225的第一組顯示設定(例如,第一顯示設定250)。XR系統200的合成器220可以修改顯示器225的第一組顯示設定,以產生顯示器225的第二組顯示設定(例如,第二顯示設定255)。在顯示器225是數位「穿透」顯示器的XR系統200中,合成器220可以產生將(例如,基於來自面向環境的感測器210的感測器資料的)環境的視圖與虛擬內容產生器215所產生的虛擬內容編制、合成及/或組合的影像。由合成器220產生的顯示設定可以指示虛擬內容及/或虛擬內容的特定元素或部分的位置、方位、深度、大小、顏色、字體大小、字體顏色、本文語言、佈局及/或其他屬性。在顯示器225是光學「透視」顯示器的XR系統200中,合成器220可以產生指示由顯示器225顯示的(例如,由顯示器225的投影儀投影到透鏡上的)虛擬內容及/或虛擬內容的特定元素或部分的位置、方位、深度、大小、顏色、字體大小、字體顏色、本文語言及/或其他屬性的顯示設定。在顯示器225是虛擬視網膜顯示器(VRD)的XR系統200中,合成器220可以產生指示由顯示器225顯示的(例如,由顯示器225的投影儀投影到使用者的一隻或兩隻眼睛上的)虛擬內容及/或虛擬內容的特定元素或部分的位置、方位、深度、大小、顏色、字體大小、字體顏色、本文語言及/或其他屬性的顯示設定。在圖2內,合成器220(在XR系統200左手側)被示為將虛擬內容(由四面體表示)添加到環境的視圖(由房屋表示)。在圖2內,顯示器225(在XR系統200左手側)被示為顯示及/或提供虛擬內容視圖(由四面體表示)和環境的視圖(由房屋表示)兩者的視圖的顯示器。在一些實例中,合成器220包括執行在處理器(諸如計算系統1100的處理器1110、影像處理器150、主處理器152、ISP 154或其組合)上的軟體元件,諸如與程式相對應的指令集。在一些實例中,合成器220包括一或多個硬體元件。例如,合成器220可以包括處理器,諸如計算系統1100的處理器1110、影像處理器150、主處理器152、ISP 154或其組合。在一些實例中,合成器220包括一或多個軟體元件和一或多個硬體元件的組合。
XR系統200包括屬性引擎230,屬性引擎230基於來自面向使用者的感測器205的感測器資料來決定一或多個感知相關屬性。使用者的感知相關屬性可以包括使用者的一隻或更多只眼睛的一或多個屬性、使用者的面部表情的一或多個屬性、使用者的一或多個手勢或者上述的組合。例如,使用者的屬性可以包括使用者的一隻或兩隻眼睛在特定的時間的(一或多個)位置、使用者的一隻或兩隻眼睛的運動、使用者的一隻或兩隻眼睛的迅速掃視眼睛位置、使用者的一隻或兩隻眼睛的迅速掃視眼睛運動、使用者的一隻或兩隻眼睛的迅速掃視次數、使用者的一隻或兩隻眼睛的迅速掃視訊率、使用者的一隻或兩隻眼睛的迅速掃視持續時間、使用者的一隻或兩隻眼睛的注視眼睛位置、使用者的一隻或兩隻眼睛的注視眼睛運動、使用者的一隻或兩隻眼睛的注視次數、使用者的一隻或兩隻眼睛的注視訊率、使用者的一隻或兩隻眼睛的注視持續時間、使用者的一隻或兩隻眼睛及/或眼瞼的眨眼眼睛位置及/或眨眼眼瞼位置、使用者的一隻或兩隻眼睛及/或眼瞼的眨眼眼睛運動及/或眨眼眼瞼運動、使用者的一隻或兩隻眼睛及/或眼瞼的眨眼次數、使用者的一隻或兩隻眼睛及/或眼瞼的眨眼頻率、使用者的一隻或兩隻眼睛及/或眼瞼的眨眼持續時間、使用者的一隻或兩隻眼睛及/或眼瞼的眯眼眼睛位置及/或眯眼眼瞼位置、使用者的一隻或兩隻眼睛及/或眼瞼的眯眼眼睛運動及/或眯眼眼瞼運動、使用者的一隻或兩隻眼睛及/或眼瞼的眯眼次數、使用者的一隻或兩隻眼睛及/或眼瞼的眯眼頻率、使用者的一隻或兩隻眼睛及/或眼瞼的眯眼持續時間、使用者的一隻或兩隻眼睛及/或眼瞼的眯眼程度或位準、使用者的一隻或兩隻眼睛的停留眼睛位置、使用者的一隻或兩隻眼睛的停留次數、使用者的一隻或兩隻眼睛的停留頻率、使用者的一隻或兩隻眼睛的停留持續時間、使用者的一隻或兩隻眼睛的停留程度或位準、使用者的一隻或兩隻眼睛的瞳孔擴張眼睛位置、使用者的一隻或兩隻眼睛的瞳孔擴張眼睛運動、使用者的一隻或兩隻眼睛的瞳孔擴張次數、使用者的一隻或兩隻眼睛的瞳孔擴張頻率、使用者的一隻或兩隻眼睛的瞳孔擴張持續時間、使用者的一隻或兩隻眼睛的瞳孔擴張程度或位準、使用者的一隻或兩隻眼睛的眼睛晶狀體形狀(例如,與使用(一或多個)睫狀肌的調節相關聯)、使用者的一隻或兩隻眼睛的眼睛晶狀體形狀的改變(例如、與使用(一或多個)睫狀肌的調節相關聯)、使用者的一隻或兩隻眼睛的眼睛晶狀體形狀的改變次數、使用者的一隻或兩隻眼睛的眼睛晶狀體形狀的改變頻率、使用者的一隻或兩隻眼睛的眼睛晶狀體形狀的改變程度、使用者頭部的頭部傾斜次數、使用者頭部的頭部傾斜頻率、使用者頭部的頭部傾斜持續時間、使用者頭部的頭部傾斜程度或位準、使用者頭部的頭部傾斜次數、使用者頭部的頭部傾斜頻率、使用者頭部的頭部傾斜持續時間、使用者頭部的頭部傾斜程度或位準、使用者頭部傾斜期間使用者的一隻或兩隻眼睛的眼睛位置、使用者頭部傾斜期間使用者的一隻或兩隻眼睛的眼睛運動、使用者頭部的搖頭次數、使用者頭部的搖頭頻率、使用者頭部的搖頭持續時間、使用者頭部的搖頭程度或位準、使用者頭部的搖頭次數、使用者頭部的搖頭頻率、使用者頭部的搖頭持續時間、使用者頭部的搖頭程度或位準、使用者搖頭期間使用者的一隻或兩隻眼睛的眼睛位置、使用者搖頭期間使用者的一隻或兩隻眼睛的眼睛運動、使用者頭部的點頭次數、使用者頭部的點頭頻率、使用者頭部的點頭持續時間、使用者頭部的點頭程度或位準、使用者頭部的點頭次數、使用者頭部的點頭頻率、使用者頭部的點頭持續時間、使用者頭部的點頭程度或位準、使用者點頭期間使用者的一隻或兩隻眼睛的眼睛位置、使用者點頭期間使用者的一隻或兩隻眼睛的眼睛運動、使用者的微笑次數、使用者的微笑頻率、使用者的微笑持續時間、使用者的微笑程度或位準、使用者的微笑次數、使用者的微笑頻率、使用者的微笑持續時間、使用者的微笑程度或位準、使用者微笑期間使用者的一隻或兩隻眼睛的眼睛位置、使用者微笑期間使用者的一隻或兩隻眼睛的眼睛運動、使用者的大笑次數、使用者的大笑頻率、使用者的大笑持續時間、使用者的大笑程度或位準、使用者的大笑次數、使用者的大笑頻率、使用者的大笑持續時間、使用者的大笑程度或位準、使用者大笑期間使用者的一隻或兩隻眼睛的眼睛位置、使用者大笑期間使用者的一隻或兩隻眼睛的眼睛運動、使用者的皺眉次數、使用者的皺眉頻率、使用者的皺眉持續時間、使用者的皺眉程度或位準、使用者的皺眉次數、使用者的皺眉頻率、使用者的皺眉持續時間、使用者的皺眉程度或位準、使用者皺眉期間使用者的一隻或兩隻眼睛的眼睛位置、使用者皺眉期間使用者的一隻或兩隻眼睛的眼睛運動、使用者的哭泣次數、使用者的哭泣頻率、使用者的哭泣持續時間、使用者的哭泣程度或位準、使用者的哭泣次數、使用者的哭泣頻率、使用者的哭泣持續時間、使用者的哭泣程度或位準、使用者哭泣期間使用者的一隻或兩隻眼睛的眼睛位置、使用者哭泣期間使用者的一隻或兩隻眼睛的眼睛運動、使用者的一隻或兩隻眼睛的眼睛濕度位準、使用者的一隻或兩隻眼睛的眼睛乾澀位準、使用者的一隻或兩隻眼睛的視動反射或反應眼睛位置、使用者的一隻或兩隻眼睛的視動反射或反應眼睛運動、使用者的一隻或兩隻眼睛的視動反射或反應次數、使用者的一隻或兩隻眼睛的視動反射或反應頻率、使用者的一隻或兩隻眼睛的視動反射或反應持續時間、使用者的一隻或兩隻眼睛的前庭眼反射或反應眼睛位置、使用者的一隻或兩隻眼睛的前庭眼反射或反應眼睛運動、使用者的一隻或兩隻眼睛的前庭眼反射或反應次數、使用者的一隻或兩隻眼睛的前庭眼反射或反應頻率、使用者的一隻或兩隻眼睛的前庭眼反射或反應持續時間、本文描述的與眼睛及/或眼瞼相關的其他屬性、使用者的一隻或兩隻眼睛的調節反射或反應眼睛位置、使用者的一隻或兩隻眼睛的調節反射或反應眼睛運動、使用者的一隻或兩隻眼睛的調節反射或反應次數、使用者的一隻或兩隻眼睛的調節反射或反應頻率、使用者的一隻或兩隻眼睛的調節反射或反應持續時間或其組合。
在圖2內,屬性引擎230被示為辨識使用者眼睛的凝視方向(由黑色實線箭頭表示)的移動(由虛線箭頭表示)。在一些實例中,屬性引擎230包括執行在處理器(諸如計算系統1100的處理器1110、影像處理器150、主處理器152、ISP 154或其組合)上的軟體元件,諸如與程式相對應的指令集。在一些實例中,屬性引擎230包括一或多個硬體元件。例如,屬性引擎230可以包括處理器,諸如計算系統1100的處理器1110、影像處理器150、主處理器152、ISP 154或其組合。在一些實例中,屬性引擎230包括一或多個軟體元件和一或多個硬體元件的組合。在一些實例中,屬性引擎230包括及/或執行一或多個人工智慧(Artificial Intelligence,AI)演算法及/或機器學習(ML)系統。一或多個AI演算法及/或ML系統可以接收來自面向使用者的感測器205的感測器資料作為輸入,並且可以輸出屬性。屬性引擎230的一或多個ML系統的實例包括第一經訓練ML模型825及/或神經網路900。
XR系統200包括感知引擎235,感知引擎235決定及/或估計使用者(例如,使用使用者的一隻或兩隻眼睛)對虛擬內容的感知位準。感知引擎235基於屬性引擎230所辨識的感知相關屬性,及/或直接基於來自聚焦於使用者的感測器205的感測器資料,來決定及/或估計使用者對虛擬內容的感知位準。感知引擎235基於由合成器220產生的虛擬內容的顯示設定(例如,顯示設定250)來決定及/或估計使用者對虛擬內容的感知位準。感知引擎235可以使用顯示設定(例如,顯示設定250)來辨識虛擬內容沿著顯示器225顯示在哪裡。感知引擎235可以使用屬性引擎230所辨識的感知相關屬性來決定使用者的一隻或兩隻眼睛正在看哪裡、使用者的一隻或兩隻眼睛正在如何運動、使用者的一隻或兩隻眼睛在看的同時正在眯眼的程度、使用者的一隻或兩隻眼睛正在眨眼的程度、使用者的一隻或兩隻眼睛正在注視的程度,使用者的一隻或兩隻眼睛正在執行迅速掃視的程度、使用者正在微笑的程度、使用者正在大笑的程度、使用者正在皺眉的程度、使用者正在哭泣的程度或其組合。感知引擎235可以決定使用者是否已經看了及/或靠近虛擬內容、使用者已經看了及/或靠近虛擬內容多長時間、使用者的凝視與虛擬內容的位置有多接近等等。感知引擎235可以將眯眼及/或注視解釋為例如指示使用者聚焦於虛擬內容及/或顯示器225上顯示的另一段內容。感知引擎235可以將眨眼及/或迅速掃視解釋為例如指示使用者潛在地錯過(例如,沒有感知到)虛擬內容及/或顯示器225上顯示的另一段內容。由感知引擎235輸出的使用者對虛擬內容的感知位準可以是指示使用者對虛擬內容完全沒有感知的值,例如,在當虛擬內容已經顯示在顯示器225上,而使用者已經閉上了他或她的眼睛,及/或已經看得離虛擬內容的位置非常遠的情況下。由感知引擎235輸出的使用者對虛擬內容的感知位準可以是指示使用者對虛擬內容的感知非常高的值,例如,在使用者已經盯著顯示虛擬內容的位置很長時間的情況下。由感知引擎235輸出的使用者對虛擬內容的感知位準可以是介於指示高於上述沒有感知的實例的感知位準與低於上述高感知的實例的感知位準之間的值。由感知引擎235決定和輸出的對虛擬內容的感知位準可以被稱為虛擬內容的感知程度及/或對虛擬內容的感知度量。
在圖2內,感知引擎235被示為辨識使用者眼睛的凝視方向(由黑色實線箭頭表示)是否匹配虛擬內容的位置(由四面體表示)。在一些實例中,感知引擎235包括執行在處理器(諸如計算系統1100的處理器1110、影像處理器150、主處理器152、ISP 154或其組合)上的軟體元件,諸如與程式相對應的指令集。在一些實例中,感知引擎235包括一或多個硬體元件。例如,感知引擎235可以包括處理器,諸如計算系統1100的處理器1110、影像處理器150、主處理器152、ISP 154或其組合。在一些實例中,感知引擎235包括一或多個軟體元件和一或多個硬體元件的組合。在一些實例中,感知引擎235包括及/或執行一或多個AI演算法及/或ML系統。一或多個AI演算法及/或ML系統可以接收由屬性引擎230產生的一或多個感知相關屬性(及/或由面向使用者的感測器205擷取的感測器資料)作為輸入,並且可以輸出使用者對虛擬內容的感知位準。感知引擎235的一或多個ML系統的實例包括第二經訓練ML模型835及/或神經網路900。
XR系統200包括理解引擎240,理解引擎240決定及/或估計使用者對虛擬內容的理解位準及/或認識位準。理解引擎240基於由感知引擎235決定的使用者對虛擬內容的感知位準來決定及/或估計使用者對虛擬內容的理解位準及/或認識位準。在一些實例中,理解引擎240基於虛擬內容評估引擎245對虛擬內容的分析來決定及/或估計使用者對虛擬內容的理解位準及/或認識位準。在一些實例中,理解引擎240基於與使用者相關聯的歷史資料來決定及/或估計使用者對虛擬內容的理解位準及/或認識位準。
在一些實例中,XR系統200包括虛擬內容評估引擎245。虛擬內容評估引擎245產生對虛擬內容的分析。在一些實例中,虛擬內容評估引擎245基於虛擬內容的複雜性、虛擬內容的獨特性或其組合來產生對虛擬內容的分析。在一些實例中,虛擬內容評估引擎基於獨特性來決定度量。獨特性可以是虛擬內容(例如,先前)在顯示器225上顯示有多頻繁(例如,次數及/或頻率)的度量,若有的話。若虛擬內容包括在顯示器225上非常頻繁顯示的訊息或物件,則虛擬內容可以決定該虛擬內容具有低獨特性。若虛擬內容包括之前從未在顯示器225上顯示過的訊息或物件,則虛擬內容評估引擎245可以決定該虛擬內容具有高獨特性。若虛擬內容包括不頻繁在顯示器225上顯示的訊息或物件(例如,之前顯示過一次或兩次),則虛擬內容評估引擎245可以決定該虛擬內容具有中等獨特性。獨特性可以落在可能值範圍內(例如,低、中、高,以及其中任何兩者之間的一或多個值)。在一些實例中,獨特性可以被稱為獨特性分數、獨特性位準、獨特性度量或獨特性程度。
在一些實例中,虛擬內容包括文數字字串(例如,本文字串)。虛擬內容評估引擎245可以至少部分基於字串的長度來評估虛擬內容的複雜性,其中較長的字串比較短的字串具有更高的複雜性。虛擬內容評估引擎245可以至少部分基於虛擬內容中的指令集中包括的步驟數量來產生虛擬內容的複雜性度量。例如,虛擬內容評估引擎245可以為包括具有較多步驟的指令的虛擬內容提供較高的複雜性度量,並且為包括具有較少步驟的指令的虛擬內容提供較低的複雜性度量。虛擬內容評估引擎245可以至少部分基於由虛擬內容評估引擎245決定的字串中包括的單詞的複雜性來分析虛擬內容的複雜性。例如,虛擬內容評估引擎245可以向複雜的技術術語(例如,「半導體」、「排氣歧管墊圈」、「防虹吸閥」)分配比更常見的日常單詞(例如,「今天」、「停止」、「繼續」)更高的複雜性。與包括較少複雜單詞及/或較多不複雜及/或不太複雜的單詞(例如,常見及/或簡單的單詞)的字串相比,虛擬內容評估引擎245可以向包括較多複雜單詞的字串分配或提供更高的複雜性。虛擬內容評估引擎245可以至少部分基於字串中包括的任何等式或公式的由虛擬內容評估引擎245決定的複雜性來分析虛擬內容的複雜性。例如,與包括較少變數及/或對應於較低數學難度位準的等式或公式相比,虛擬內容評估引擎245可以向包括較多變數及/或對應於較高數學難度位準的等式或公式分配較高的複雜性。與包括較少複雜的等式或公式及/或較多不太複雜的等式或公式的字串相比,虛擬內容評估引擎245可以向包括較多複雜的等式或公式的字串分配更高的複雜性。複雜性可以落在可能值範圍內(例如,低、中、高,以及其中任何兩者之間的一或多個值)。在一些實例中,複雜性可以被稱為複雜性分數、複雜性位準、複雜性度量或複雜性程度。
虛擬內容評估引擎245可以至少部分基於理解或領會虛擬內容中描述的主題所需的估計的先驗知識量來產生虛擬內容的複雜性度量。例如,虛擬內容評估引擎245可以向包括與高先驗知識位準相關聯的主題的虛擬內容分配較高的複雜性,並且向包括需要較低先驗知識位準的主題的虛擬內容分配較低的複雜性。高先驗知識位準和低先驗知識位準可以與例如主題可能通常在哪些課程中被教授及/或學習相關聯。例如,需要較低先驗知識位準的主題可能是通常在(小學)三年級教授及/或學習的主題,而需要較高先驗知識位準的主題可能是通常在研究生院(例如,在特定研究生課程中(另一研究生課程和許多本科生課程是其先決條件))教授及/或學習的主題。例如,描述微分方程或巴拿赫空間的虛擬內容比描述畢氏定理的虛擬內容需要更高先驗知識位準。虛擬內容評估引擎245可以基於虛擬內容中包括的單詞來決定虛擬內容的主題。虛擬內容評估引擎245可以將主題與辨識與該主題相關聯的相應先驗知識位準的查閱資料表進行比較。
虛擬內容評估引擎245可以至少部分基於虛擬內容的一或多個形狀、物件、影像及/或紋理的複雜性來產生虛擬內容的複雜性度量。例如,與包括不太複雜的多邊形及/或多面體的虛擬內容相比,虛擬內容評估引擎245可以向包括較多複雜的多邊形及/或多面體的虛擬內容分配更高的複雜性。在圖2內,虛擬內容評估引擎245被示為辨識從低複雜性(由三角形表示)到中等複雜性(由四面體表示)再到高複雜性(由星形十二面體表示)的複雜性。
在一些情況下,為了評估虛擬內容,虛擬內容評估引擎245可以決定虛擬內容的複雜性度量和獨特性度量。虛擬內容評估引擎245可以將複雜性度量和獨特性度量轉換成虛擬內容的單個度量。該單個度量是基於複雜性度量和獨特性度量的融合度量,其可以是複雜性度量和獨特性度量的乘積、總和或平均值。在一個說明性實例中,虛擬內容可以包括「警告:熱爐子!」的通知,在此種情況下,虛擬內容評估引擎245可以分配值為1的複雜性度量和值為2的獨特性度量。虛擬內容評估引擎245可以將單個度量的值決定為1×2 = 2。在另一說明性實例中,虛擬內容可以包括「加鹽並攪拌麵糊,直到混合物起泡為止」的通知,在此種情況下,虛擬內容評估引擎245可以決定值為3的複雜性度量和值為5的獨特性度量。虛擬內容評估引擎245可以將單個度量的值決定為3×5 = 15。
與使用者相關聯的歷史資料可以包括使用者的教育位準,諸如一些高中、高中校友、一些大學、大學校友、一些本科生院、本科生院校友、一些研究生院、研究生校友等。與使用者相關聯的歷史資料可以包括使用者教育的專業,諸如專業、輔修專業、研究領域、上課主題、學院或專案(例如,工程學院、生命科學學院)等。與使用者相關聯的歷史資料可以包括使用者的工作、職業、貿易及/或行業。與使用者相關聯的歷史資料可以包括使用者的交易歷史、使用者的瀏覽歷史、使用者的玩遊戲歷史、使用者的虛擬內容觀看歷史、使用者的定位歷史、使用者的居住歷史等。與使用者相關聯的歷史資料可以包括使用者的年齡、一天中的時間(例如,其可以指示使用者是否疲勞)、使用者對先前呈現的虛擬內容的理解或認識的歷史、使用者對先前呈現的虛擬內容的回饋(例如,經由回饋引擎260)的歷史、使用者成功完成先前呈現的虛擬內容所請求或建議的動作的歷史等等。
理解引擎240基於由感知引擎235決定的使用者對虛擬內容的感知位準、虛擬內容評估引擎245對虛擬內容的分析、與使用者相關聯的歷史資料或其組合來決定及/或估計使用者對虛擬內容的理解位準及/或認識位準。例如,若感知引擎235指示使用者看了虛擬內容10秒,虛擬內容已經從虛擬內容評估引擎245接收到低獨特性和低複雜性的評估,並且基於使用者的歷史資料,虛擬內容涉及使用者非常熟悉的主題,則理解引擎240可以決定及/或估計使用者已經將虛擬內容理解及/或認識到高理解位準及/或高認識位準。另一態樣,若感知引擎235指示使用者看了虛擬內容5秒,虛擬內容已經從虛擬內容評估引擎245接收到高獨特性和高複雜性的評估,並且基於使用者的歷史資料,虛擬內容不涉及使用者熟悉的主題,則理解引擎240可以決定及/或估計使用者已經將虛擬內容理解及/或認識到低理解位準及/或低認識位準。由理解引擎240決定和輸出的對虛擬內容的理解位準及/或認識位準可以被稱為對虛擬內容的理解程度及/或認識程度及/或對虛擬內容的理解度量及/或認識度量。
感知位準、來自虛擬內容評估引擎245的評估以及與使用者相關聯的歷史資料的不同組合可以引起理解引擎240決定及/或估計使用者對虛擬內容的不同理解位準及/或認識位準。例如,若基於使用者的歷史資料,虛擬內容涉及使用者非常熟悉的主題,則理解引擎240可以決定及/或估計使用者已經將虛擬內容理解及/或認識到合理高的理解位準及/或認識位準,即使虛擬內容已經從虛擬內容評估引擎245接收到高獨特性和高複雜性的評估,及/或即使感知引擎235指示使用者看虛擬內容的時間相對較短。若感知引擎235指示使用者看了虛擬內容很長時間,則理解引擎240可以決定及/或估計使用者已經將虛擬內容理解及/或認識到合理高的理解位準及/或認識位準,即使虛擬內容已經從虛擬內容評估引擎245接收到高獨特性和高複雜性的評估,及/或即使基於使用者的歷史資料,虛擬內容不涉及使用者熟悉的主題。若感知引擎235指示虛擬內容評估引擎245已經將虛擬內容評估為具有低獨特性及/或低複雜性,則理解引擎240可以決定及/或估計使用者已經將虛擬內容理解及/或認識到合理高的理解位準及/或認識位準,即使感知引擎235指示使用者看虛擬內容的時間相對較短,及/或即使基於使用者的歷史資料,虛擬內容不涉及使用者熟悉的主題。
在一些實例中,理解引擎240可以基於由屬性引擎230決定的感知相關屬性來決定及/或估計使用者對虛擬內容的理解位準及/或認識位準。例如,若由屬性引擎230決定的感知相關屬性指示使用者似乎正在對虛擬內容做出回應(例如,經由微笑、大笑、皺眉、哭泣、點頭、搖頭、傾斜頭部或者說一些與虛擬內容相關的事),則理解引擎240可以增加其對虛擬內容的理解位準及/或認識位準的決定及/或估計。在一些實例中,若由屬性引擎230決定的感知相關屬性指示使用者似乎正在對虛擬內容做出負面回應(例如,經由皺眉、哭泣或搖頭(例如,以「否」的動作)或口頭表達負面情緒),則理解引擎240可以降低其對虛擬內容的理解位準及/或認識位準的決定及/或估計,因為這些可能指示由於使用者不能將虛擬內容理解到高位準,使用者心煩或沮喪。
在一些實例中,理解引擎240可以基於情境資料來決定及/或估計使用者對虛擬內容的理解位準及/或認識位準。情境資料可以包括例如使用者對虛擬內容的回應。在一些實例中,理解引擎240可以基於辨識出使用者已經執行了虛擬內容請求使用者執行或者建議使用者執行的動作,來增加其對使用者對虛擬內容的理解位準及/或認識位準的決定及/或估計。例如,若虛擬內容請求使用者拿起物件,並且XR系統200(例如,基於來自面向使用者的感測器205及/或面向環境的感測器210的感測器資料)決定使用者已經拿起物件,則理解引擎240可以決定及/或估計使用者已經將虛擬內容理解及/或認識到高理解位準及/或高認識位準。在一些實例中,理解引擎240可以基於辨識出使用者已經執行了與虛擬內容請求或建議使用者做的相反的動作,來降低其對使用者對虛擬內容的理解位準及/或認識位準的決定及/或估計。例如,若虛擬內容提供請求使用者轉向特定街道的駕駛指引,並且XR系統200(例如,基於來自面向使用者的感測器205及/或面向環境的感測器210的感測器資料)決定使用者沒有轉向該街道,則理解引擎240可以決定及/或估計使用者已經將虛擬內容理解及/或認識到低理解位準及/或低認識位準。
情境資料可以包括例如使用者及/或在環境中偵測到的其他物件的定位、XR系統200的定位、XR系統200的狀態(例如,低電量或高電量)、一天中的時間、經由XR系統200的使用者介面接收的(一或多個)使用者輸入、XR系統顯示的先前虛擬內容、顯示器225的解析度、使用者及/或XR系統200的行進速度,XR系統200周圍的環境是靜態的還是動態的、環境障礙偵測、環境雜訊位準、第二個人正在對使用者說話或其某種組合。在一些實例中,若使用者正在走路而不是駕駛,則理解引擎240可以提供對使用者對虛擬內容的理解位準及/或認識位準的較高的決定及/或估計,因為使用者在駕駛時可能比在走路時更容易對虛擬內容分心。在一些情況下,XR系統200可以延遲虛擬內容的顯示,直到使用者停止駕駛之後,以提高安全性。在一些實例中,若使用者及/或XR系統200周圍的環境雜訊位準低於環境雜訊位準較高的情況,則理解引擎240可以提供對使用者對虛擬內容的理解位準及/或認識位準的較高的決定及/或估計,因為較低的環境雜訊位準比較高的環境雜訊位準向使用者暗示較少的對虛擬內容的分心。在一些實例中,與沒有第二個人對使用者說話相比,若第二個人正在對使用者說話,則理解引擎240可以提供對使用者對虛擬內容的理解位準及/或認識位準的較低的決定及/或估計,因為第二個人對使用者說話使使用者對虛擬內容分心。在一些實例中,若使用者及/或XR系統200正在以較慢的速度而不是較快的速度移動,則理解引擎240可以提供對使用者對虛擬內容的理解位準及/或認識位準的較高的決定及/或估計,因為使用者在以較快的速度移動時可能比在以較慢的速度移動時更容易對虛擬內容分心。XR系統200可以延遲虛擬內容的顯示,直到使用者減速到較慢的速度之後,以在使用者正在駕駛或以其他方式操作交通工具的情況下提高安全性。在一些實例中,理解引擎240可以在下午期間提供比清晨或傍晚更高的對使用者對虛擬內容的理解位準及/或認識位準的決定及/或估計,因為使用者在下午期間可能比在清晨或傍晚期間更不疲勞。
由理解引擎240輸出的使用者對虛擬內容的理解位準或認識位準可以是指示使用者完全沒有理解或認識虛擬內容的值,例如,在虛擬內容已經顯示在顯示器225上,而使用者已經閉上了他或她的眼睛,及/或已經看得離虛擬內容的位置非常遠的情況下。由理解引擎240輸出的使用者對虛擬內容的理解位準或認識位準可以是指示使用者對虛擬內容的感知非常高的值,例如,在使用者已經長時間盯著顯示虛擬內容的位置,虛擬內容具有低複雜性,虛擬內容具有低獨特性,並且與使用者相關聯的歷史資料指示使用者非常熟悉虛擬資料所涉及的主題的情況下。由理解引擎240輸出的使用者對虛擬內容的感知位準可以是指示介於高於上面沒有理解或認識的實例的感知位準與低於上面高理解或認識的實例的感知位準之間的值。
在圖2內,理解引擎240被示為辨識使用者是否理解或認識虛擬內容,由從虛擬內容(由四面體表示)到使用者頭腦的虛線箭頭表示。在一些實例中,理解引擎240包括執行在處理器(諸如計算系統1100的處理器1110、影像處理器150、主處理器152、ISP 154或其組合)上的軟體元件,諸如與程式相對應的指令集。在一些實例中,理解引擎240包括一或多個硬體元件。例如,理解引擎240可以包括處理器,諸如計算系統1100的處理器1110、影像處理器150、主處理器152、ISP 154或其組合。在一些實例中,理解引擎240包括一或多個軟體元件和一或多個硬體元件的組合。在一些實例中,理解引擎240包括及/或執行一或多個AI演算法及/或ML系統。一或多個AI演算法及/或ML系統可以接收由屬性引擎230產生的一或多個感知相關屬性(及/或由聚焦於使用者的感測器205擷取的感測器資料)作為輸入,並且可以輸出虛擬內容的感知位準。理解引擎240的一或多個ML系統的實例包括第三經訓練ML模型865及/或神經網路900。
合成器220和顯示器225皆在圖2的XR系統200中圖示兩次——一次在XR系統200左側,一次在XR系統200右側。應當理解,合成器220和顯示器225的這兩個實例可以表示相同的但是在不同時間的合成器220及/或顯示器225。例如,XR系統200左側示出的合成器220和顯示器225表示產生第一顯示設定250的合成器220,以及基於第一顯示設定250來顯示覆蓋在環境的視圖上的虛擬內容的顯示器225。XR系統200右側示出的合成器220和顯示器225表示至少部分經由修改第一顯示設定250來產生第二顯示設定255的合成器220,以及基於第二顯示設定255來顯示覆蓋在環境的視圖上的虛擬內容的顯示器225。
合成器220可以基於一或多個因素來執行對第一顯示設定250的修改以產生第二顯示設定255。這些因素可以包括例如由感知引擎235決定的使用者對虛擬內容的感知位準、由理解引擎240決定的使用者對虛擬內容的理解位準及/或認識位準、由屬性引擎230決定的使用者的感知相關屬性、關於使用者的歷史資料、情境資料、來自面向使用者的感測器205的感測器資料、來自面向環境的感測器210的感測器資料或其組合。合成器220對第一顯示設定250進行修改以產生第二顯示設定255可以改變虛擬內容的各態樣。例如,修改可以改變虛擬內容及/或虛擬內容的特定元素或部分的位置、方位、深度、大小、顏色、字體大小、字體顏色、本文語言及/或其他屬性。在一些實例中,修改可以刪除、移除、隱藏及/或終止虛擬內容在顯示器225上的顯示。在一些情況下,修改可以添加用於在顯示器225上顯示的額外虛擬內容。在說明性實例中,若感知引擎235指示使用者已經將一段虛擬內容感知到高位準,及/或理解引擎240指示使用者已經將該段虛擬內容理解到高位準,則合成器220可以縮小顯示在顯示器225上的該段虛擬內容,或者甚至終止虛擬內容在顯示器225上的顯示。另一態樣,若感知引擎235指示使用者已經將一段虛擬內容感知到低位準,及/或理解引擎240指示使用者已經將該段虛擬內容理解到低位準,但是來自屬性引擎230的感知相關屬性指示使用者正在試圖感知及/或理解虛擬內容,則合成器220可以增加該段虛擬內容的大小,及/或增加顯示器225上顯示的虛擬內容的(一或多個)文數字字串的字體大小,並且可以縮小及/或終止顯示器225上其他虛擬內容的顯示,以減少使用者的分心。
在圖2內,XR系統200左手側的合成器220被示為根據第一顯示設定250將虛擬內容(由四面體表示)添加到環境的視圖(由房屋表示),其中虛擬內容(由四面體表示)很小。在圖2內,XR系統200左手側的顯示器225被示為根據第一顯示設定250顯示及/或提供虛擬內容(由四面體表示)和環境的視圖(由房屋表示)兩者的視圖的顯示器,其中虛擬內容(由四面體表示)很小。在圖2內,XR系統200右手側的合成器220被示為根據第二顯示設定255將虛擬內容(由四面體表示)添加到環境的視圖(由房屋表示),其中虛擬內容(由四面體表示)很大。在圖2內,XR系統200右手側的顯示器225被示為根據第二顯示設定255顯示及/或提供虛擬內容(由四面體表示)和環境的視圖(由房屋表示)兩者的視圖的顯示器,其中虛擬內容(由四面體表示)很大。
在一些實例中,XR系統200包括回饋引擎260。回饋引擎260可以偵測從使用者介面接收的回饋。回饋可以是與虛擬內容、合成器220從第一顯示設定250到第二顯示設定255的修改及/或合成器220從第一顯示設定250到第二顯示設定255的修改所基於的XR系統200的決定有關的回饋。XR系統200的決定可以包括例如由感知引擎235決定的使用者對虛擬內容的感知位準、由理解引擎240決定的使用者對虛擬內容的理解位準及/或認識位準、由屬性引擎230決定的感知相關屬性、關於使用者的歷史資料、情境資料、來自面向使用者的感測器205的感測器資料、來自面向環境的感測器210的感測器資料或其組合。由回饋引擎260接收的回饋可以是正面回饋或負面回饋。例如,若虛擬內容請求或建議使用者執行特定動作(例如,右轉),並且使用者執行該動作,則回饋引擎260可以將使用者對該動作的執行解釋為正面回饋。正面回饋亦可以基於感知相關屬性,諸如使用者微笑、大笑、點頭、說出正面陳述(例如,「是」、「確認」、「好的」、「下一個」)或者以其他方式對虛擬內容做出正面回應。另一態樣,若虛擬內容請求或建議使用者執行特定動作(例如,在XYZ街右轉),並且使用者不執行該動作或執行不同的動作(例如,使用者在XYZ街左轉),則回饋引擎260可以將使用者不執行該動作或使用者執行不同的動作解釋為負面回饋。負面回饋亦可以基於感知相關屬性,諸如使用者皺眉、哭泣、搖頭(例如,以「否」的動作)、說出負面陳述(例如,「不」、「否」、「不好」、「不是這個」)或者以其他方式對虛擬內容做出負面回應。
在一些實例中,回饋引擎260向XR系統200的一或多個ML系統提供回饋,以更新XR系統200的一或多個ML系統。回饋引擎260可以向XR系統200的一或多個ML系統提供以下各項作為訓練資料:回饋、觸發回饋的虛擬內容、觸發回饋的顯示設定、對觸發回饋的顯示設定的修改、由感知引擎235決定的使用者對虛擬內容的感知位準、由理解引擎240決定的使用者對虛擬內容的理解位準及/或認識位準、與回饋相對應的由屬性引擎230決定的感知相關屬性、與回饋相對應的關於使用者的歷史資料、與回饋相對應的情境資料、與回饋相對應的來自面向使用者的感測器205的感測器資料、與回饋相對應的來自面向環境的感測器210的感測器資料或其組合。例如,回饋引擎260可以將此類訓練資料提供給屬性引擎230的一或多個ML系統(例如,第一經訓練ML模型825)、感知引擎235的一或多個ML系統(例如,第二經訓練ML模型835)、理解引擎240的一或多個ML系統(例如,第三經訓練ML模型865)或其組合。
在一些實例中,回饋引擎260包括執行在處理器(諸如計算系統1100的處理器1110、影像處理器150、主處理器152、ISP 154或其組合)上的軟體元件,諸如與程式相對應的指令集。在一些實例中,回饋引擎260包括一或多個硬體元件。例如,回饋引擎260可以包括處理器,諸如計算系統1100的處理器1110、影像處理器150、主處理器152、ISP 154或其組合。在一些實例中,回饋引擎260包括一或多個軟體元件和一或多個硬體元件的組合。
隨著時間的推移,系統可以學習並最佳化訊息應當為使用者保留的時間。系統將(例如,經由設定訊息的置信度位準)決定在一定時間量內閱讀/查看訊息的可能性。若決定了高度的可能性,則可能不需要使用眼睛追蹤相機。
圖3A是示出用作擴展現實(XR)系統200的頭戴式顯示器(HMD)310的透視圖300。HMD 310可以是例如增強現實(AR)耳機、虛擬實境(VR)耳機、混合現實(MR)耳機、擴展現實(XR)耳機或其某種組合。HMD 310可以是XR系統200的實例。HMD 310包括沿著HMD 310的前部的第一相機330A和第二相機330B。第一相機330A和第二相機330B可以是XR系統200的面向環境的感測器210的實例。當使用者的(一隻或更多只)眼睛面對(一或多個)顯示器340時,HMD 310包括面對使用者的(一隻或更多只)眼睛的第三相機330C和第四相機330D。第三相機330C和第四相機330D可以是XR系統200的面向使用者的感測器205的實例。在一些實例中,HMD 310可以僅具有帶有單個影像感測器的單個相機。在一些實例中,HMD 310可以包括除了第一相機330A、第二相機330B、第三相機330C和第四相機330D之外的一或多個額外相機。在一些實例中,HMD 310可以包括除了第一相機330A、第二相機330B、第三相機330C和第四相機330D之外的一或多個額外感測器,其亦可以包括XR系統200的其他類型的面向使用者的感測器205及/或面向環境的感測器210。在一些實例中,第一相機330A、第二相機330B、第三相機330C及/或第四相機330D可以是影像擷取和處理系統100、影像擷取裝置105A、影像處理設備105B或其組合的實例。
HMD 310可以包括一或多個顯示器340,顯示器340對於在使用者320頭上佩戴HMD 310的使用者320是可見的。HMD 310的一或多個顯示器340可以是XR系統200的一或多個顯示器225的實例。在一些實例中,HMD 310可以包括一個顯示器340和兩個取景器。兩個取景器可以包括用於使用者320的左眼的左取景器和用於使用者320的右眼的右取景器。左取景器可以被定向為使得使用者320的左眼看見顯示器的左側。右取景器可以被定向為使得使用者320的左眼看見顯示器的右側。在一些實例中,HMD 310可以包括兩個顯示器340,包括向使用者320的左眼顯示內容的左顯示器和向使用者320的右眼顯示內容的右顯示器。HMD 310的一或多個顯示器340可以是數位「穿透」顯示器或光學「透視」顯示器。
HMD 310可以包括一或多個聽筒335,聽筒335可以被用作向HMD 310的使用者的一隻或更多只耳朵輸出音訊的揚聲器及/或頭戴式耳機。在圖3A和圖3B中圖示一個聽筒335,但是應當理解,HMD 310可以包括兩個聽筒,其中使用者的每只耳朵(左耳和右耳)一個聽筒。在一些實例中,HMD 310亦可以包括一或多個麥克風(未圖示)。一或多個麥克風可以是XR系統200的面向使用者的感測器205及/或面向環境的感測器210的實例。在一些實例中,由HMD 310經由一或多個聽筒335向使用者輸出的音訊可以包括或基於使用一或多個麥克風記錄的音訊。
圖3B是示出使用者320佩戴的圖3A的頭戴式顯示器(HMD)的透視圖350。使用者320將使用者320頭上的HMD 310佩戴在使用者320的眼睛上。HMD 310可以用第一相機330A和第二相機330B擷取影像。在一些實例中,HMD 310使用(一或多個)顯示器340向使用者320的眼睛顯示一或多個輸出影像。在一些實例中,輸出影像可以包括由虛擬內容產生器215產生的、使用合成器220合成的及/或由顯示器225根據顯示設定(例如,第一顯示設定250、第二顯示設定255)顯示的虛擬內容。輸出影像可以基於由第一相機330A和第二相機330B擷取的影像(例如覆蓋有虛擬內容的影像)。輸出影像可以提供環境的立體視圖(在一些情況下覆蓋有虛擬內容及/或其他修改)。例如,HMD 310可以向使用者320的右眼顯示第一顯示影像,第一顯示影像基於由第一相機330A擷取的影像。HMD 310可以向使用者320的左眼顯示第二顯示影像,第二顯示影像基於由第二相機330B擷取的影像。例如,HMD 310可以在覆蓋在由第一相機330A和第二相機330B擷取的影像上的顯示影像中提供覆蓋的虛擬內容。第三相機330C和第四相機330D可以在使用者觀看由(一或多個)顯示器340顯示的顯示影像之前、期間及/或之後擷取眼睛的影像。這樣,來自第三相機330C及/或第四相機330D的感測器資料可以擷取使用者的眼睛(及/或使用者的其他部分)對虛擬內容的回應。HMD 310的聽筒335被示出在使用者320的耳朵中。HMD 310可以經由聽筒335及/或經由HMD 310的位於使用者320的另一隻耳朵(未圖示)中的另一聽筒(未圖示)向使用者320輸出音訊。
圖4A是示出包括前置相機並且可以用作擴展現實(XR)系統200的行動手機410的前表面的透視圖400。行動手機410可以是XR系統200的實例。行動手機410可以是例如蜂巢式電話、衛星電話、可攜式遊戲控制台、音樂播放機、健康追蹤設備、可佩戴設備、無線通訊設備、膝上型電腦、行動設備、本文論述的任何其他類型的計算設備或計算系統或其組合。
行動手機410的前表面420包括顯示器440。行動手機410的前表面420包括第一相機430A和第二相機430B。第一相機430A和第二相機430B可以是XR系統200的面向使用者的感測器205的實例。當內容(例如,覆蓋在環境上的虛擬內容)顯示在顯示器440上時,第一相機430A和第二相機430B可以面向使用者,包括使用者的(一隻或更多只)眼睛。顯示器440可以是XR系統200的顯示器225的實例。
第一相機430A和第二相機430B被示出在行動手機410的前表面420上的顯示器440周圍的邊框中。在一些實例中,第一相機430A和第二相機430B可以位於從行動手機410的前表面420上的顯示器440切出的凹口或切口中。在一些實例中,第一相機430A和第二相機430B可以是位於顯示器440與行動手機410的其餘部分之間的顯示器下相機,使得光在到達第一相機430A和第二相機430B之前穿過顯示器440的一部分。透視圖400的第一相機430A和第二相機430B是前置相機。第一相機430A和第二相機430B面向與行動手機410的前表面420的平面表面垂直的方向。第一相機430A和第二相機430B可以是行動手機410的一或多個相機中的兩個。第一相機430A和第二相機430B可以分別是感測器405A和感測器405B。在一些實例中,行動手機410的前表面420可以僅具有單個相機。
在一些實例中,行動手機410的前表面420可以包括除了第一相機430A和第二相機430B之外的一或多個額外相機。一或多個額外相機亦可以是XR系統200的面向使用者的感測器205的實例。在一些實例中,行動手機410的前表面420可以包括除了第一相機430A和第二相機430B之外的一或多個額外感測器。一或多個額外感測器亦可以是XR系統200的面向使用者的感測器205的實例。在一些情況下,行動手機410的前表面420包括不止一個顯示器440。行動手機410的前表面420的一或多個顯示器440可以是XR系統200的(一或多個)顯示器225的實例。例如,一或多個顯示器440可以包括一或多個觸控式螢幕顯示器。
行動手機410可以包括可向行動手機410的使用者的一隻或更多只耳朵輸出音訊的一或多個揚聲器435A及/或其他音訊輸出設備(例如,耳機或頭戴式耳機或其連接器)。在圖4A中圖示一個揚聲器435A,但是應當理解,行動手機410可以包括不止一個揚聲器及/或其他音訊設備。在一些實例中,行動手機410亦可以包括一或多個麥克風(未圖示)。一或多個麥克風可以是XR系統200的面向使用者的感測器205及/或面向環境的感測器210的實例。在一些實例中,行動手機410可以包括沿著及/或鄰近行動手機410的前表面420的一或多個麥克風,其中這些麥克風是XR系統200的面向使用者的感測器205的實例。在一些實例中,行動手機410經由一或多個揚聲器435A及/或其他音訊輸出設備向使用者輸出的音訊可以包括或基於使用一或多個麥克風記錄的音訊。
圖4B是圖示包括後置相機並且可以被用作擴展現實(XR)系統200的行動手機的後表面460的透視圖450。行動手機410包括在行動手機410的後表面460上的第三相機430C和第四相機430D。透視圖450的第三相機430C和第四相機430D是後置的。第三相機430C和第四相機430D可以是圖2的XR系統200的面向環境的感測器210的實例。第三相機430C和第四相機430D面向與行動手機410的後表面460的平面表面垂直的方向。
第三相機430C和第四相機430D可以是行動手機410的一或多個相機中的兩個。在一些實例中,行動手機410的後表面460可以僅具有單個相機。在一些實例中,行動手機410的後表面460可以包括除了第三相機430C和第四相機430D之外的一或多個額外相機。一或多個額外相機亦可以是XR系統200的面向環境的感測器210的實例。在一些實例中,行動手機410的後表面460可以包括除了第三相機430C和第四相機430D之外的一或多個額外感測器。一或多個額外感測器亦可以是XR系統200的面向環境的感測器210的實例。在一些實例中,第一相機430A、第二相機430B、第三相機430C及/或第四相機430D可以是影像擷取和處理系統100、影像擷取裝置105A、影像處理設備105B或其組合的實例。
行動手機410可以包括可以向行動手機410的使用者的一隻或更多只耳朵輸出音訊的一或多個揚聲器435B及/或其他音訊輸出設備(例如,耳機或頭戴式耳機或其連接器)。在圖4B中圖示一個揚聲器435B,但是應當理解,行動手機410可以包括不止一個揚聲器及/或其他音訊設備。在一些實例中,行動手機410亦可以包括一或多個麥克風(未圖示)。一或多個麥克風可以是XR系統200的面向使用者的感測器205及/或面向環境的感測器210的實例。在一些實例中,行動手機410可以包括沿著及/或鄰近行動手機410的後表面460的一或多個麥克風,其中這些麥克風是XR系統200的面向環境的感測器210的實例。在一些實例中,行動手機410經由一或多個揚聲器435B及/或其他音訊輸出設備向使用者輸出的音訊可以包括或基於使用一或多個麥克風記錄的音訊。
行動手機410可以使用前表面420上的顯示器440作為穿透顯示器。例如,顯示器440可以顯示輸出影像。輸出影像可以基於由第三相機430C及/或第四相機430D擷取的影像(例如覆蓋有虛擬內容的影像)。在顯示器440上顯示具有虛擬內容的輸出影像之前、期間及/或之後,第一相機430A及/或第二相機430B可以擷取使用者的眼睛(及/或使用者的其他部分)的影像。這樣,來自第一相機430A及/或第二相機430B的感測器資料可以擷取使用者的眼睛(及/或使用者的其他部分)對虛擬內容的回應。
圖5A是示出在根據顯示設定520顯示的虛擬內容的覆蓋之前和之後的波士頓的環境510的影像505的概念圖500。在圖5A的左手側,在沒有覆蓋虛擬內容的情況下(覆蓋之前)圖示波士頓的環境510的影像505。在圖5A的右手側,在覆蓋有虛擬內容(包括虛擬內容525、虛擬內容530和虛擬內容535)的情況下(覆蓋之後)圖示波士頓的環境510的影像505。根據顯示設定520,虛擬內容被覆蓋在環境510的影像505上。
環境510的影像505可以是由XR系統200的面向環境的感測器210擷取的影像的實例。例如,環境510的影像505可以是由HMD 310的第一相機330A及/或第二相機330B擷取的影像的實例。類似地,環境510的影像505可以是由行動手機410的第三相機430C及/或第四相機430D擷取的影像的實例。波士頓的環境510的影像505包括波士頓凱爾特人隊的教練裡德•奧爾巴赫的雕像的視圖。波士頓的環境510的影像505包括波士頓凱爾特人隊的球員拉裡•伯德的鞋子的紀念碑的視圖。波士頓的環境510的影像505包括運動服裝店的入口的視圖。
虛擬內容525、虛擬內容530和虛擬內容535是由XR系統200的虛擬內容產生器215產生的虛擬內容的實例。顯示設定520是由XR系統200的合成器220產生的第一顯示設定250的實例。虛擬內容525包括本文「地標:波士頓凱爾特人隊球員拉裡•伯德的鞋子的紀念碑」。依照顯示設定,虛擬內容525被覆蓋在環境510的影像505上靠近影像505底部,其中在影像505中圖示了拉裡•伯德的鞋子的紀念碑。虛擬內容530包括本文「地標:波斯頓凱爾特人隊教練裡德•奧爾巴赫的雕像」。依照顯示設定,虛擬內容530被覆蓋在環境510的影像505上靠近影像505中間,其中在影像505中圖示了裡德•奧爾巴赫的雕像。虛擬內容535包括本文「商家:運動服裝店」。依照顯示設定,虛擬內容530被覆蓋在環境510的影像505上靠近影像505右側,其中在影像505中圖示了運動服裝店的入口。
圖5B是示出在對顯示設定520的修改之前和之後的覆蓋有虛擬內容的波士頓的環境510的影像505的概念圖550。在圖5B的左手側,波士頓的環境510的影像505被示為根據顯示設定520覆蓋有虛擬內容,類似於圖5A的右手側。在圖5B的右手側,波士頓的環境510的影像505被示為根據顯示設定555覆蓋有虛擬內容。顯示設定555不同於顯示設定520。顯示設定555可以是由XR系統200的合成器220產生的第二顯示設定255的實例。對顯示設定520的修改—即從顯示設定520到顯示設定555的修改—可以是XR系統200的合成器220從第一顯示設定250到第二顯示設定255的修改的實例。
根據第二顯示設定555,虛擬內容535(描述運動服裝店)現在被隱藏、移除及/或終止顯示。在一些實例中,第二顯示設定555中的這種移除虛擬內容535的修改可以回應於來自XR系統200(例如,來自感知引擎235及/或理解引擎240)的使用者已經將虛擬內容535感知及/或理解到高位準的指示。在一些實例中,第二顯示設定555中的這種移除虛擬內容535的修改可以回應於經由回饋引擎260接收的對虛擬內容535的負面回饋,諸如用以濾除與商家相關的虛擬內容的請求、對虛擬內容535的有意迴避、在使用者正在看虛擬內容535時偵測到來自使用者的負面言語表達(例如,「不」)或其組合。在一些實例中,第二顯示設定555中的這種移除虛擬內容535的修改可以回應於經由回饋引擎260接收的對虛擬內容525及/或虛擬內容530的正面回饋,諸如從使用者(例如,經由回饋引擎260的使用者介面)接收的用以對與地標相關的虛擬內容聚焦的請求,或者對虛擬內容525及/或虛擬內容530的高度聚焦。
與在第一顯示設定520下相比,根據第二顯示設定555,虛擬內容525(描述拉裡•伯德的鞋子的紀念碑)現在更大、具有更大字體的本文。與在第一顯示設定520下相比,根據第二顯示設定555,虛擬內容525被更突出地強調及/或顯示及/或具有更高的優先順序。虛擬內容525的本文現在亦被加長,使得它現在是「地標:波士頓凱爾特人隊球員拉裡•伯德(1979-1992)的鞋子的紀念碑」。在一些實例中,第二顯示設定555中的這種強調虛擬內容525的修改可以回應於來自XR系統200(例如,來自感知引擎235及/或理解引擎240)的使用者已經將虛擬內容525感知到足夠的使用者感知位準(例如,超過閾值)但亦沒將虛擬內容525理解到足夠的理解位準(例如,超過閾值)的指示。在一些實例中,第二顯示設定555中的這種強調虛擬內容525的修改可以回應於來自XR系統200(例如,來自感知引擎235及/或理解引擎240及/或感知相關屬性引擎230)的使用者注視虛擬內容525及/或已經經歷了與虛擬內容525相關的迅速掃視及/或在觀看虛擬內容525時已經經歷了瞳孔擴張的指示。在一些實例中,第二顯示設定555中的這種強調虛擬內容525的修改可以回應於經由回饋引擎260接收的對虛擬內容525的正面回饋,諸如使用者的凝視高度聚焦於虛擬內容及/或拉裡•伯德的鞋子的紀念碑的相關圖示上、當使用者正在看虛擬內容525時偵測到來自使用者的正面言語表達(例如,「給我看更多關於該的內容」)或其組合。在一些實例中,第二顯示設定555中的這種強調虛擬內容525的修改可以回應於對虛擬內容535及/或虛擬內容530的負面回饋。
根據第二顯示設定555,虛擬內容530(描述裡德•奧爾巴赫的雕像)已經被稍微向右移動,並且已經被向後移動(就深度而言)以出現在裡德•奧爾巴赫的雕像頭部的一部分後面。在一些實例中,第二顯示設定555中的這種移動虛擬內容530的修改可以回應於來自XR系統200(例如,來自感知引擎235及/或理解引擎240)的使用者亦沒有將虛擬內容530感知及/或理解到(一或多個)足夠位準(例如,超過(一或多個)閾值)的指示。在一些實例中,第二顯示設定555中的這種移動虛擬內容530的修改可以回應於經由回饋引擎260接收的對虛擬內容530及/或虛擬內容525的正面回饋,諸如從使用者(例如,經由回饋引擎260的使用者介面)接收的用以聚焦於與地標相關的虛擬內容上的請求。
圖6是示出在根據顯示設定620顯示的虛擬內容630的覆蓋之前和之後的環境610的影像605的概念圖600。在圖6的左手側,在沒有覆蓋虛擬內容630的情況下(覆蓋之前)圖示具有書的環境610的影像605。為了清楚起見,在影像605中的書的本文中示出的唯一單詞是「超導性」。在圖6的右手側,在覆蓋有虛擬內容630的情況下(覆蓋之後)圖示具有書的環境610的影像605。根據顯示設定620,虛擬內容630被覆蓋在環境610的影像605上。
環境610的影像605可以是由XR系統200的面向環境的感測器210擷取的影像的實例。例如,環境610的影像605可以是由HMD 310的第一相機330A及/或第二相機330B擷取的影像的實例。類似地,環境610的影像605可以是由行動手機410的第三相機430C及/或第四相機430D擷取的影像的實例。
虛擬內容630是由XR系統200的虛擬內容產生器215產生的虛擬內容的實例。顯示設定620是由XR系統200的合成器220產生的顯示設定(例如,第一顯示設定250、第二顯示設定255)的實例。虛擬內容630包括對書中的單詞「超導性」的突出顯示,其中在書的上方覆蓋有額外本文「定義:超導性是在某些材料中觀察到的一系列物理性質,其中電阻消失,磁通量場從材料中排出。任何展現出這些性質的材料都是超導體。」
在一些實例中,根據顯示設定620在具有書的環境610的影像605上覆蓋有虛擬內容630的顯示可以回應於來自XR系統200(例如,來自感知引擎235及/或理解引擎240及/或屬性引擎230)的使用者在注視書中的單詞「超導性」時眯眼及/或傾斜其頭部的指示。在一些實例中,XR系統200以類似的方式提供其他單詞的定義。在一些實例中,XR系統200以類似的方式提供單詞從一種語言到另一種語言的翻譯。
圖7是示出在根據顯示設定720顯示的虛擬內容730的覆蓋之前和之後的街道上的環境710的影像705的概念圖700。在圖7的左手側,在沒有覆蓋虛擬內容730的情況下(覆蓋之前)圖示街道上的環境710的影像705。在圖7的右手側,在覆蓋有虛擬內容730的情況下(覆蓋之後)圖示街道上的環境710的影像705。根據顯示設定720,虛擬內容730被覆蓋在環境710的影像705上。
環境710的影像705可以是由XR系統200的面向環境的感測器210擷取的影像的實例。例如,環境710的影像705可以是由HMD 310的第一相機330A及/或第二相機330B擷取的影像的實例。類似地,環境710的影像705可以是由行動手機410的第三相機430C及/或第四相機430D擷取的影像的實例。
虛擬內容730是由XR系統200的虛擬內容產生器215產生的虛擬內容的實例。顯示設定720是由XR系統200的合成器220產生的顯示設定(例如,第一顯示設定250、第二顯示設定255)的實例。街道上的環境710的影像705圖示了朝著相機行駛從而朝著XR系統200的使用者行駛的汽車。虛擬內容730包括帶有警告圖示和本文「警告:汽車來了!」的警告。警告以及本文的字體很大。
在一些實例中,根據顯示設定720在街道上的環境710的影像705上覆蓋虛擬內容730的顯示可以回應於XR系統200從面向環境的感測器210的感測器資料偵測到汽車。XR系統200可以包括物件偵測引擎。物件偵測引擎可以包括特徵偵測演算法、特徵提取演算法、特徵辨識演算法、特徵追蹤演算法、物件偵測演算法、物件辨識演算法、物件追蹤演算法、面部偵測演算法、臉孔辨識演算法、面部追蹤演算法、人物偵測演算法、人物辨識演算法、人物追蹤演算法、交通工具偵測演算法、交通工具辨識演算法、交通工具追蹤演算法、分類器或其組合。物件偵測引擎可以包括一或多個AI演算法及/或ML系統。物件偵測引擎可以包括例如神經網路900。在一些實例中,根據顯示設定720在街道上的環境710的影像705上覆蓋虛擬內容730的顯示可以回應於來自XR系統200(例如,來自感知引擎235及/或理解引擎240及/或屬性引擎230)的使用者沒有將XR系統200偵測到的汽車感知到足夠的位準(例如,超過閾值的位準)的指示。
圖8是示出基於一或多個經訓練機器學習(ML)模型來決定虛擬內容的感知位準和理解位準的程序的方塊圖800。圖8的程序由成像系統(諸如圖2的XR系統200)來執行。
該程序開始於面向使用者820的一隻或兩隻眼睛815的一或多個感測器810擷取感測器資料805。感測器810可以是XR系統200的面向使用者的感測器205的實例。成像系統將感測器資料805作為輸入提供給第一經訓練ML模型825。第一經訓練ML模型825可以是成像系統的一部分。在一些實例中,第一經訓練ML模型825可以是XR系統200的屬性引擎230的一部分。回應於接收到感測器資料805作為輸入,第一經訓練ML模型825輸出與使用者820的(一隻或更多只)眼睛815相對應的感知相關屬性資料830。感知相關屬性資料830可以辨識例如使用者的(一隻或更多只)眼睛的運動、瞳孔擴張、眨眼、眯眼、迅速掃視、注視、眼睛濕度位準等。
成像系統將感知相關屬性資料830作為輸入提供給第二經訓練ML模型835。成像系統亦提供用於經由顯示器845顯示虛擬內容840的顯示設定837,作為對第二經訓練ML模型835的輸入。顯示器845是XR系統200的顯示器225的實例。顯示設定837是XR系統200的第一顯示設定250及/或第二顯示設定255的實例。成像系統亦可以向第二經訓練ML模型835提供情境資訊890作為輸入。情境資訊可以包括例如成像系統的定位、環境聲音、環境照明、被偵測為由使用者執行的活動等。
第二經訓練ML模型835可以是成像系統的一部分。在一些實例中,第二經訓練ML模型835可以是XR系統200的感知引擎235的一部分。回應於接收到感知相關屬性資料830及/或顯示設定837及/或情境資訊890作為輸入,第二經訓練ML模型835輸出使用者820使用(一隻或更多只)眼睛815對虛擬內容840的感知位準850。虛擬內容840可以是根據由XR系統200的合成器220決定的顯示設定(例如,第一顯示設定250、第二顯示設定255)由XR系統200的虛擬內容產生器215產生並由XR系統200的顯示器225顯示的虛擬內容的實例。使用者820對虛擬內容840的感知位準850可以基於例如使用者820的(一隻或更多只)眼睛815的凝視落在顯示器845上根據顯示設定837顯示虛擬內容840的(一或多個)位置上或附近的程度(例如,基於時間及/或距離)。
成像系統將使用者820對虛擬內容840的感知位準850作為輸入提供給第三經訓練ML模型865。在一些實例中,成像系統亦可以向第三經訓練ML模型865提供與使用者820相關聯的歷史資料855作為輸入。在一些實例中,成像系統亦可以向第三經訓練ML模型865提供情境資訊890作為輸入。與使用者820相關聯的歷史資料855可以辨識例如使用者820的教育位準、使用者820的行業、關於使用者820的歷史動作的資訊及/或與使用者相關聯的任何其他歷史資訊。在一些實例中,成像系統亦可以向第三經訓練ML模型865提供虛擬內容的一或多個特性作為輸入。例如,虛擬內容的一或多個特性可以包括由虛擬內容評估引擎(例如,諸如XR系統200的虛擬內容評估引擎245)產生的對虛擬內容840的評估。評估可以包括例如關於虛擬內容840的複雜性及/或獨特性的一或多個度量。在一些實例中,虛擬內容評估引擎可以產生複雜性度量和獨特性度量,並且可以將這兩個度量轉換成反映複雜性和獨特性兩者的單個組合度量。在一些實例中,虛擬內容評估引擎對獨特性度量的值和複雜性度量的值進行平均,以產生組合度量。在一些實例中,虛擬內容評估引擎將獨特性度量的值與複雜性度量的值相乘,以產生組合度量。在一些實例中,虛擬內容評估引擎將獨特性度量的值與複雜性度量的值相加,以產生組合度量。
第三經訓練ML模型865可以是成像系統的一部分。在一些實例中,第三經訓練ML模型865可以是XR系統200的理解引擎240的一部分。回應於接收到感知位準850、歷史資料855、(一或多個)評估860及/或情境資訊890作為輸入,第三經訓練ML模型865輸出使用者820對虛擬內容840的理解位準870。理解位準870可以被稱為理解程度870及/或理解度量870。理解位準870可以基於例如感知位準850與適當考慮虛擬內容840的複雜性及/或獨特性的位準一致或超過該位準的程度(例如,基於(一或多個)評估860)、基於使用者820自身的背景(例如,基於歷史資料855)、基於情境資訊890或其組合。
成像系統使用對虛擬內容840的理解位準870、對虛擬內容840的感知位準850、感知相關屬性資料830及/或情境資訊890中的一或多個作為用於產生對顯示設定837的修改875的基礎。對顯示設定837的修改875可以是XR系統200的合成器220從第一顯示設定250到第二顯示設定255的修改的實例。成像系統可以例如經由回饋引擎(例如,回饋引擎260)的使用者介面接收回饋880。成像系統可以基於回饋880對第一經訓練ML模型825、第二經訓練ML模型835及/或第三經訓練ML模型865執行額外的訓練885。成像系統可以在訓練885中使用正面的回饋880來加強第一經訓練ML模型825、第二經訓練ML模型835及/或第三經訓練ML模型865中的權重。成像系統可以在訓練885中使用負面的回饋880來修改、移除或添加第一經訓練ML模型825、第二經訓練ML模型835及/或第三經訓練ML模型865中的權重。儘管第一經訓練ML模型825、第二經訓練ML模型835和第三經訓練ML模型865在圖8中被示為單獨的ML模型,但是應當理解,這些ML模型中的任何兩個(或所有三個)可以在單個ML模型中實現。此外,在一些實例中,圖8所示的任何經訓練ML模型(例如,第一經訓練ML模型825、第二經訓練ML模型835或第三經訓練ML模型865)可以被分成兩個或兩個以上次要的經訓練ML模型。例如,一個次要的經訓練ML模型可以接收圖8所示的與所論述的經訓練ML模型相關聯的(一或多個)輸入,並且可以產生中間資料。另一次要的經訓練ML模型可以接收中間資料作為其(一或多個)輸入中的至少一個,並且可以產生圖8所示的與所論述的經訓練ML模型相關聯的(一或多個)輸出。
使用者820的感知位準850及/或理解位準870可以包括與使用者的認知能力和狀態有關的因素。基於認知的因素的實例可以包括特定任務的先前經驗及/或技能位準,諸如特定XR任務(例如,閱讀通知)、特定現實世界任務(例如,在廚房中烹飪)、被增強的特定現實世界任務(例如,在城市中行走並接收導航指令)、關於使用者教育位準的資訊、關於使用者在特定領域中的知識位準的資訊、關於使用者行業的資訊、關於使用者認知障礙的資訊等或其組合。基於認知的因素的實例可以替代地或補充地包括應用於增強內容的注意力,諸如迅速掃視(用於將視網膜中央凹從一點移動到另一點的眼球運動類型)和注視時間、停留時間、重複觀看、與內容的互動(例如,滾動、反應、消除等)等。基於認知的因素的實例可以替代地或補充地包括使用者的精神狀態,諸如警覺性、疲憊、在不止一個活動當中分散的注意力等。
XR系統的使用情境可以包括在使用XR系統時現實世界環境的各態樣。這些態樣的實例可以包括環境中的雜訊位準(例如,環境聲音、環境中另外的人說話等)、環境中的照明(例如,環境照明)、使用者的活動、XR系統正在被使用的定位、與內容進行互動的過去歷史、一天中的時間、環境是靜態的還是動態的(例如,若使用者在移動的物件(諸如交通工具、火車、電梯、自動扶梯等)上)、環境中的(一或多個)障礙物等。
與XR系統所輸出的內容相關聯的資訊可以包括虛擬內容的特性及/或實體內容的特徵(例如,增強的物件)。這些特性的實例可以包括訊息或其他虛擬內容的語義複雜性、訊息或其他虛擬內容的嚴重性和關鍵性、訊息或其他虛擬內容的長度、訊息或其他虛擬內容與正在執行的任務(例如,看書)的相關性、虛擬內容相對於環境的區別性、訊息或其他虛擬內容是否是情境所期望的(例如,接收訊息內容是否適當或與情形、時間、地點、活動等相關)。
在一些態樣,XR系統可以監視其他外部因素,諸如使用者輸入、先前呈現的虛擬內容的(一或多個)顯示持續時間、設備狀態(例如,功率狀態,諸如低功率)、AR設備螢幕解析度、XR系統行進(從而使用者行進)的速度及/或其他外部因素。
這些系統和技術可以用於決定XR系統中內容的初始呈現及/或評估使用者對虛擬內容的感知以及決定潛在的結果。例如,為了決定內容的初始呈現,XR系統可以監視使用者的認知狀態、使用情境(例如,現實世界環境的各態樣)、正在執行的任務。在一些情況下,XR系統可以監視內容,該內容可以包括其上可以顯示增強內容的實體物件。基於認知狀態、使用情境和任務(以及在一些情況下的內容),XR系統可以決定增強將是有益的。隨後,XR系統可以提供(例如,輸出)增強,這可以針對認知狀態、情境和任務(以及在一些情況下的內容)進行定製。在一個說明性實例中,任務可以包括使用者在圖書館中看書,認知可以包括使用者困倦並且可能沒有很好地吸收材料(例如,基於XR系統監視迅速掃視和其他眼睛特性),情境可以包括,基於在圖書館中並且在中午靠近窗戶(例如,基於來自環境光感測器和全球導航衛星系統(GNSS)接收器的輸入),使用者所在的房間是明亮的,並且內容可以包括使用者正在閱讀的關於實體的挑戰性書籍,並且使用者之前沒有上過實體課程。在看書時,AR設備可以決定使用者盯著一個單詞並且雙眼眯眼。AR設備隨後可以決定世界的定義或翻譯顯示為相對於該單詞的快顯訊窗將會是有用的。
如前述,該系統和技術可以用於評估使用者對虛擬內容的感知並且決定潛在的結果。例如,XR系統可以呈現虛擬內容(例如,諸如「低電量」的警告通知、諸如帶有「不要按這個按鈕」標籤的開關旁邊的箭頭的AR內容、具有與感興趣的點或地點相關聯的資訊的AR內容等)。若使用者完成與虛擬內容相關聯的任務或者手動消除虛擬內容,則XR系統可以移除虛擬內容。否則,XR系統可以執行分析來決定使用者是否已經感知到虛擬內容。
為了評估使用者對虛擬內容的使用者感知,該系統和技術可以決定對虛擬內容的感知位準或使用者對虛擬內容的感知程度。在一些實例中,為了決定使用者是否已經感知到虛擬內容及/或對虛擬內容的感知位準或程度,XR系統可以評估內容、執行使用者的眼睛分析(例如,迅速掃視分析)及/或執行使用者的輔助分析(例如,經由檢查瞳孔、眯眼和頭部運動)。在一些情況下,XR系統可以使用基於機器學習(ML)的模式辨識(例如,使用一或多個神經網路)來決定使用者是否已經感知到虛擬內容。若決定使用者已經感知到虛擬內容(例如,在虛擬內容的方向上看了超過閾值時間量),則XR系統可以消除或移除虛擬內容(例如,從顯示中移除內容)。若XR系統決定使用者沒有感知到虛擬內容,則XR系統可以決定(例如,基於情境,諸如環境光、雜訊、使用者活動等)是否將內容保持在原位、是否提升內容的突出度(例如,基於情境)及/或執行其他動作。例如,若情境指示環境光是明亮的,則XR系統可以提升顯示器亮度。在另一實例中,若情境指示周圍環境是嘈雜的,則XR系統可以增加AR內容的音量(例如,當輸出可聽虛擬內容時)。
在一些態樣,為了執行眼睛分析,XR系統可以打開眼睛追蹤相機,並且可以使用眼睛追蹤相機在虛擬內容上追蹤眼睛。例如,XR系統可以區分對虛擬內容的關注與對虛擬內容後面的視場中的某個事物的關注。若為虛擬內容決定了低值(例如,小於閾值的值,諸如閾值10),則XR系統可以移除虛擬內容。若為虛擬內容決定了高值(例如,大於閾值的值),則XR系統可以將該內容保持在原位一段時間(例如,5秒、10秒等),以給使用者時間來重新閱讀該內容。若XR系統決定使用者正在重新閱讀虛擬內容,則XR系統可以將該內容留在原位。
在一些態樣,為了執行輔助分析,XR系統可以檢查使用者的瞳孔、使用者是否正在眯眼及/或使用者的頭部運動。例如,若XR系統決定使用者的一或多個瞳孔沒有擴張、使用者正在眯眼、使用者的頭部歪向一側或向前伸長、使用者正在頻繁眨眼、使用者盯著虛擬內容達某一持續時間(例如,3秒或更長)、使用者以某一頻率(例如,每秒2次)看內容,則XR系統可以將內容保持在原位。
在一些情況下,隨著時間的推移,XR系統可以學習(例如,使用基於ML的模式辨識)並且最佳化應當為使用者將訊息保留在原位的時間。XR系統可以決定將在閾值時間量內(例如,在閾值時間段內,諸如1秒、2秒、3秒、4秒、5秒、10秒、15秒等)閱讀及/或觀看虛擬內容的可能性。在一些實例中,XR系統可以為顯示的虛擬內容(例如,虛擬訊息或通知)設定置信度位準以決定可能性。在一些情況下,若為虛擬內容的給定專案決定了高度的可能性,則XR系統可以不利用眼睛追蹤相機來進行上述眼睛分析。
圖9是圖示可以由經訓練機器學習系統用來分析觀看擴展現實內容的使用者的神經網路(Neural Network,NN)900的實例的方塊圖。神經網路900可以包括任何類型的深度網路,例如迴旋神經網路(Convolutional Neural Network,CNN)、自動編碼器、深度信念網路(Deep Belief Net,DBN)、遞迴神經網路(Recurrent Neural Network,RNN)、產生性對抗網路(Generative Adversarial Network,GAN)及/或其他類型的神經網路。神經網路900可以是第一經訓練ML模型825、第二經訓練ML模型835、第三經訓練ML模型865或其組合中的一或多個經訓練神經網路之一的實例。
神經網路900的輸入層910包括輸入資料。輸入層910的輸入資料可以包括表示一或多個輸入影像訊框的圖元的資料。在一些實例中,輸入層910的輸入資料包括表示影像資料(例如,由面向使用者的感測器205、第三相機330C、第四相機330D、第一相機430A、第二相機430B及/或感測器810擷取的影像)的圖元及/或與影像資料相對應的中繼資料的資料。在一些實例中,輸入層910的輸入資料包括由面向使用者的感測器205、第三相機330C、第四相機330D、第一相機430A、第二相機430B及/或感測器810擷取的影像。
在一些實例中,輸入層910的輸入資料可以包括感知相關屬性資料,諸如感知相關屬性資料830及/或由屬性引擎230產生的感知相關屬性資料。在一些實例中,輸入層910的輸入資料可以包括用於顯示虛擬內容的顯示設定,諸如第一顯示設定250、第二顯示設定255、顯示設定6520、顯示設定555、顯示設定620、顯示設定720、顯示設定837或其組合。
在一些實例中,輸入層910的輸入資料可以包括使用者經由使用者的眼睛對虛擬內容的感知位準,諸如感知位準850及/或使用感知引擎235決定的感知位準。在一些實例中,輸入層910的輸入資料可以包括與使用者相關聯的歷史資料,諸如歷史資料855。在一些實例中,輸入層910的輸入資料可以包括與虛擬內容相關聯的一或多個評估,諸如(一或多個)評估860、由虛擬內容評估引擎245產生的(一或多個)評估及/或(一或多個)度量或其組合。在一些實例中,實例中,輸入層910的輸入資料可以包括情境資料及/或情境資訊,諸如情境資訊890。在一些態樣,(一或多個)評估860可以被稱為(一或多個)度量及/或(一或多個)分數。
影像可以包括來自影像感測器的、包括原始圖元資料(包括例如基於拜耳濾色器的每圖元單個顏色)或經處理的圖元值(例如,RGB影像的RGB圖元)的影像資料。神經網路900包括多個隱藏層912A、912B至912N。隱藏層912A、912B至912N包括「N」個隱藏層,其中「N」是大於或等於1的整數。對於給定的應用,隱藏層的數量可以根據需要包括儘可能多的層。神經網路900亦包括輸出層914,輸出層914提供由隱藏層912A、912B至912N執行的處理產生的輸出。在一些實例中,輸出層914可以提供輸出影像。在一些實例中,輸出層914可以提供感知相關屬性資料,諸如感知相關屬性資料830及/或由屬性引擎230產生的感知相關屬性資料。在一些實例中,輸出層914可以提供對虛擬內容的感知位準,諸如感知位準850及/或使用感知引擎235決定的感知位準。在一些實例中,輸出層914可以提供使用者對虛擬內容的理解位準及/或認識位準,諸如理解位準870及/或使用理解引擎240決定的理解位準。
神經網路900是互連的濾波器的多層神經網路。可以訓練每個濾波器來學習表示輸入資料的特徵。與濾波器相關聯的資訊在不同層之間共享,並且每一層在資訊被處理時保留資訊。在一些情況下,神經網路900可以包括前饋網路,在這種情況下,不存在其中網路的輸出被回饋到其自身的回饋連接。在一些情況下,網路900可以包括遞迴神經網路,遞迴神經網路可以具有允許在讀取輸入時跨節點攜帶資訊的迴路。
在一些情況下,資訊可以經由不同層之間的節點到節點互連在層之間交換。在一些情況下,網路可以包括迴旋神經網路,迴旋神經網路可能不將一層中的每一個節點連結到下一層中的每另一個節點。在層之間交換資訊的網路中,輸入層910的節點可以啟動第一隱藏層912A中的節點集合。例如,如圖所示,輸入層910的每個輸入節點可以連接到第一隱藏層912A的每個節點。隱藏層的節點可以經由對每個輸入節點的資訊應用啟動函數(例如,濾波器)來對該資訊進行變換。從變換中得到的資訊隨後可以被傳遞到下一隱藏層912B的節點,並且可以啟動下一隱藏層912B的節點,這些節點可以執行它們自己的指定功能。實例函數包括迴旋函數、縮小尺寸、放大尺寸、資料變換及/或任何其他合適的函數。隱藏層912B的輸出隨後可以啟動下一隱藏層的節點,等等。最後一個隱藏層912N的輸出可以啟動輸出層914的一或多個節點,這提供了經處理的輸出影像。在一些情況下,儘管神經網路900中的節點(例如,節點916)被示為具有多條輸出線,但是節點具有單個輸出,並且被示為從節點輸出的所有線表示相同的輸出值。
在一些情況下,每個節點或節點之間的互連可以具有權重,該權重是從神經網路900的訓練中得到的參數集。例如,節點之間的互連可以表示關於互連節點的一條資訊。該互連可以具有可調諧數位權重,該可調諧數位權重可以被調諧(例如,基於訓練資料集),允許神經網路900適應輸入,並且能夠隨著越來越多的資料被處理而學習。
神經網路900被預先訓練以使用不同的隱藏層912A、912B至912N處理來自輸入層910中的資料的特徵,以便經由輸出層914提供輸出。
圖10是示出用於擴展現實(XR)顯示操作的程序的流程圖。程序1000可以由成像系統來執行。在一些實例中,成像系統可以包括例如影像擷取和處理系統100、影像擷取裝置105A、影像處理設備105B、影像處理器150、ISP 154、主處理器152、XR系統200、HMD 310、行動手機410、擷取影像505並覆蓋虛擬內容525-535的成像設備、擷取影像605並覆蓋虛擬內容630的成像設備、擷取影像705並覆蓋虛擬內容730的成像設備、圖8的成像設備、第一經訓練ML模型825、第二經訓練ML模型835、第三經訓練ML模型865、神經網路900、計算系統1100、處理器1110或其組合。
在操作1005處,成像系統被配置為並且能夠使得根據與虛擬內容相關聯的顯示設定使用顯示器來顯示虛擬內容,其中當顯示器顯示虛擬內容時,使用顯示器可觀看環境。在一些實例中,成像系統包括顯示器。顯示器的實例包括顯示器225、(一或多個)顯示器340、顯示器440、顯示器845、輸出設備1135、本文描述的其他顯示器或其組合。虛擬內容的實例包括由虛擬內容產生器215產生的虛擬內容、虛擬內容515、虛擬內容525、虛擬內容530、虛擬內容535、虛擬內容615、虛擬內容630、虛擬內容715、虛擬內容730、虛擬內容840、本文描述的其他虛擬內容或其組合。顯示設定的實例包括第一顯示設定250、第二顯示設定255、顯示設定520、顯示設定555、顯示設定620、顯示設定720、顯示設定837(修改875之前)、顯示設定837(修改875之後)、本文描述的其他顯示設定或其組合。
在一些實例中,成像系統被配置為並且能夠在使得使用顯示器顯示虛擬內容之前產生虛擬內容。例如,成像系統的虛擬內容產生器215可以產生虛擬內容。在一些實例中,成像系統的合成器220可以產生顯示設定。
在一些實例中,至少部分基於來自環境的穿過顯示器的至少一部分的光,使用顯示器可觀看環境。例如,顯示器可以是至少部分透明的、半透明的、感光的、透光的及/或不透光的。在此類實例中,成像系統可以被稱為具有光學透視顯示器。在此類實例中,成像系統可以根據顯示設定使用顯示器使得虛擬內容的至少一部分顯示在環境的視圖的至少一部分上。在一些態樣,成像系統的合成器220可以產生顯示設定,以將虛擬內容的至少一部分覆蓋在環境的視圖上。在一些態樣,成像系統的合成器220可以產生顯示設定,以在類比深度處顯示虛擬內容的顯示部分,使得環境的至少一部分看起來在虛擬內容的至少一隱藏部分的前面,依照顯示設定該隱藏部分未被顯示。
在一些實例中,至少部分基於成像系統使得顯示器顯示環境的視圖,使用顯示器可觀看環境。例如,成像系統可以使用成像系統的一或多個聚焦環境的感測器210來擷取圖示環境的視圖的一或多個影像。成像系統可以使得顯示器結合虛擬內容顯示環境的一或多個影像。例如,成像系統可以經由(例如使用成像系統的合成器220)將虛擬內容的至少一部分與環境的一或多個影像的至少一部封包合及/或合成以產生(一或多個)合成影像,並且使得顯示器顯示所得的(一或多個)合成影像,來使得虛擬內容被顯示。在一些態樣,成像系統的合成器220可以產生顯示設定,以將虛擬內容的至少一部分覆蓋在環境的一或多個影像中的環境的視圖的至少一部分上。在一些態樣,成像系統的合成器220可以產生顯示設定,以在類比深度處顯示虛擬內容的顯示部分,使得環境的至少一部分(來自環境的一或多個影像)看起來在虛擬內容的至少一隱藏部分的前面,依照顯示設定環境覆蓋該隱藏部分。
在操作1010處,成像系統被配置為並且能夠基於使用者的一或多個感知相關屬性來決定使用者對使用顯示器顯示的虛擬內容的感知位準。感知位準可以被稱為感知程度及/或感知度量。在一些實例中,成像系統可以使用成像系統的屬性引擎230、成像系統的第一經訓練ML模型825、神經網路900或其組合來決定使用者的感知相關屬性。感知相關屬性的實例包括使用屬性引擎230決定的感知相關屬性、感知相關屬性資料830、使用NN 900決定的感知相關屬性或其組合。
在一些實例中,成像系統可以使用成像系統的感知引擎235、成像系統的第二經訓練ML模型835、神經網路900或其組合來決定使用者對虛擬內容的感知位準。在一些實例中,感知位準包括理解位準,並且成像系統可以使用成像系統的感知引擎235、成像系統的理解引擎240、成像系統的虛擬內容評估引擎245、成像系統的第二經訓練ML模型835、成像系統的第三經訓練ML模型865、神經網路900或其組合來決定感知位準及/或理解位準。使用者對虛擬內容的感知位準的實例包括使用感知引擎235決定的感知位準、感知位準850、使用NN 900決定的感知位準或其組合。在一些實例中,感知位準包括理解位準,並且感知位準及/或理解位準的實例包括使用感知引擎235決定的感知位準、使用理解引擎240決定的理解位準、感知位準850、理解位準870、使用NN 900決定的感知位準、使用NN 900決定的理解位準或其組合。
在一些實例中,使用者的一或多個感知相關屬性與使用者的一隻或更多只眼睛相關聯。在一些實例中,使用者的一或多個感知相關屬性包括以下至少一項:使用者的一隻或更多只眼睛的一或多個屬性、使用者的一或多個面部表情的一或多個屬性、使用者的一或多個手勢或其組合。在一些實例中,決定使用者的一或多個感知相關屬性包括追蹤使用者的(一隻或更多只)眼睛的(一或多個)眼睛位置、追蹤使用者的(一隻或更多只)眼睛的(一或多個)眼睛位置、追蹤使用者的(一隻或更多只)眼睛的(一次或多次)眼睛運動、追蹤使用者的(一隻或更多只)眼睛的(一次或多次)瞳孔擴張、追蹤使用者的(一隻或更多只)眼睛的(一次或多次)迅速掃視、追蹤使用者的(一隻或更多只)眼睛的(一次或多次)注視、追蹤使用者的(一或多個)眼瞼的眨眼、追蹤使用者的(一或多個)眼瞼的眯眼、追蹤使用者的(一隻或更多只)眼睛的(一次或多次)視動反射、追蹤使用者的(一隻或更多只)眼睛的(一次或多次)前庭眼反射、追蹤使用者的(一隻或更多只)眼睛的(一次或多次)調節反射、追蹤使用者的面部表情、追蹤使用者的手勢或其組合。在上面列出的操作中,追蹤可以指對定時、頻率、程度、幅度、眼睛位置、眼睛運動、眼睛速度或其組合的追蹤。
在一些實例中,使用者的一或多個感知相關屬性包括使用者的一隻或更多只眼睛相對於虛擬內容的一或多個眼睛位置。在一些實例中,使用者的一或多個感知相關屬性包括使用者的一隻或更多只眼睛的一次或多次迅速掃視的一或多個特性。一或多個特性包括頻率、持續時間、定時、迅速掃視速度、迅速掃視幅度、眼睛位置、眼睛運動、本文論述的其他特性或其組合中的至少一個。在一些實例中,使用者的一或多個感知相關屬性包括使用者的一隻或更多只眼睛的一次或多次注視的一或多個特性。一或多個特性包括頻率、持續時間、定時、眼睛位置和眼睛運動中的至少一個。在一些實例中,使用者的一或多個感知相關屬性包括使用者的一隻或更多只眼睛的一次或多次瞳孔擴張的一或多個特性。一或多個特性包括頻率、持續時間、定時、瞳孔擴張位準、眼睛位置和眼睛運動中的至少一個。在一些實例中,使用者的一或多個感知相關屬性包括使用者的一或多個眼瞼的一次或多次眨眼的一或多個特性。一或多個特性包括頻率、持續時間、定時、眨眼速度、眼睛位置和眼睛運動中的至少一個。在一些實例中,使用者的一或多個感知相關屬性包括使用者的一或多個眼瞼的一次或多次眯眼的一或多個特性。一或多個特性包括頻率、持續時間、定時、眯眼位準、眼睛位置和眼睛運動中的至少一個。
在一些實例中,成像系統被配置為並且能夠接收由一或多個感測器擷取的感測器資料。感測器資料指示使用者的一隻或更多只眼睛。成像系統亦被配置為並且能夠基於感測器資料來決定使用者的一或多個感知相關屬性。在一些實例中,成像系統包括一或多個感測器。在一些實例中,一或多個感測器被配置為並且能夠擷取感測器資料。一或多個感測器的實例包括(一或多個)面向使用者的感測器205、(一或多個)額外感測器208、(一或多個)感測器810、第三相機330C、第四相機330D、第一相機430A、第二相機430B、輸入設備1145、本文描述的其他感測器或其組合。感測器資料的實例包括由前一句子中列出的任何感測器擷取的感測器資料,例如包括感測器資料805。在一些實例中,一或多個感測器包括一或多個影像感測器,並且感測器資料包括一或多個影像、視訊或其組合。在一些實例中,感測器資料包括使用者的一隻或更多只眼睛的表示。在一些實例中,感測器資料包括
在一些實例中,決定使用者對虛擬內容的感知位準包括使用使用者的一或多個感知相關屬性作為對一或多個經訓練機器學習系統的輸入。一或多個經訓練ML系統的實例包括屬性引擎230、感知引擎235、理解引擎240、第一經訓練ML模型825、第二經訓練ML模型835、第三經訓練ML模型865、NN 900或其組合。在一些實例中,成像系統被配置為並且能夠經由使用者介面接收與使用者對虛擬內容的感知位準相對應的回饋。在一些實例中,成像系統被配置為並且能夠基於回饋來更新一或多個經訓練機器學習系統。在一些實例中,成像系統包括成像系統用來接收回饋的回饋引擎260,並且使用經訓練ML系統的進一步訓練及/或學習來更新經訓練ML系統。回饋的實例包括回饋880。訓練的實例包括訓練885。
在一些實例中,成像系統被配置為並且能夠基於使用者對虛擬內容的感知位準來決定使用者對虛擬內容的理解位準。在一些實例中,決定使用者對虛擬內容的感知位準包括決定使用者對虛擬內容的理解位準。成像系統被配置為並且能夠基於理解位準及/或感知位準來決定對顯示設定的修改。在一些實例中,決定使用者對虛擬內容的理解位準基於使用者的一或多個感知相關屬性、虛擬內容的一或多個特性、情境資料、與使用者相關聯的歷史資訊、使用者的使用者簡檔、對虛擬內容的複雜性的評估、對虛擬內容的獨特性的評估或其組合。在一些實例中,成像系統被配置為並且能夠接收與使用者相關聯的歷史資訊。在一些實例中,決定使用者對虛擬內容的理解位準基於關於使用者的歷史資訊。在一些實例中,使用者簡檔包括與使用者相關聯的歷史資料。在一些實例中,情境資料包括使用者對虛擬內容的一或多個回應。在一些實例中,情境資料包括XR系統的定位。
在一些實例中,成像系統可以使用成像系統的感知引擎235、成像系統的理解引擎240、成像系統的虛擬內容評估引擎245、成像系統的第二經訓練ML模型835、成像系統的第三經訓練ML模型865、神經網路900或其組合來決定理解位準。理解位準的實例包括使用理解引擎240決定的理解位準、理解位準870、使用NN 900決定的理解位準或其組合。
在一些實例中,成像系統被配置為並且能夠(例如使用虛擬內容評估引擎245)決定虛擬內容的特性,其中決定使用者對虛擬內容的感知位準及/或理解位準基於虛擬內容的特性。特性的實例包括虛擬內容評估引擎245的(一或多個)評估、與虛擬內容840相關聯的(一或多個)評估860或其組合。在一些實例中,成像系統被配置為並且能夠決定虛擬內容的複雜性位準。在一些態樣,決定使用者對虛擬內容的感知位準及/或理解位準基於虛擬內容的複雜性位準。在一些實例中,成像系統被配置為並且能夠決定虛擬內容的獨特性位準。在一些態樣,決定使用者對虛擬內容的感知位準及/或理解位準基於虛擬內容的獨特性位準。在一些實例中,成像系統被配置為並且能夠決定虛擬內容相對於環境的區別性位準。在一些態樣,決定使用者對虛擬內容的感知位準及/或理解位準基於虛擬內容相對於環境的區別性位準。
在一些實例中,決定使用者對虛擬內容的感知位準包括決定使用者已經感知到虛擬內容。在一些實例中,決定使用者對虛擬內容的感知位準包括決定使用者沒有感知到虛擬內容。在一些實例中,決定使用者對虛擬內容的感知位準包括決定使用者已經將虛擬內容感知到複數個感知位準中的第一感知位準。在一些實例中,決定使用者對虛擬內容的感知位準包括決定使用者已經將虛擬內容感知到複數個感知位準中的第二感知位準。在一些態樣,第一感知位準大於第二感知位準,並且第二感知位準小於第一感知位準。在一些態樣,第二感知位準大於第一感知位準,並且第一感知位準小於第二感知位準。
在一些實例中,決定使用者對虛擬內容的感知位準包括決定與使用者對虛擬內容的感知位準相對應的置信度位準。在一些態樣,對顯示設定的修改基於置信度位準。置信度可以由機器學習系統(諸如屬性引擎230、感知引擎235、理解引擎240、第一經訓練ML模型825、第二經訓練ML模型835、第三經訓練ML模型865、NN 900或其組合)提供。
在一些實例中,決定使用者對虛擬內容的感知位準包括,例如,使用一或多個感測器(例如影像感測器、相機、聚焦使用者的感測器205、聚焦環境的感測器210)辨識使用者的一或多個手勢。成像系統可以使用來自聚焦環境的感測器210的感測器資料來追蹤使用者的手。例如,成像系統可以決定使用者的手是否正指向虛擬內容及/或向虛擬內容做手勢,從而將感知位準提高到高感知位準。成像系統可以決定使用者的手是否正背向虛擬內容及/或背離虛擬內容做手勢,從而將感知位準降低到低感知位準。
在一些實例中,虛擬內容包括字串。成像系統被配置為並且能夠基於虛擬內容的感知位準、字串的長度、字串的複雜性及/或字串的獨特性來決定使用者對字串的閱讀程度。字串的複雜性及/或獨特性可以是成像系統的虛擬內容評估引擎245的評估(例如,評估860)。例如,若感知位準指示使用者已經快速瀏覽了虛擬內容,但是字串是短的、不複雜的及/或非獨特的,則對字串的閱讀程度可能仍然很高。另一態樣,若感知位準指示使用者已經快速瀏覽了虛擬內容,但是字串是長的、複雜的及/或獨特的,則對字串的閱讀程度可能很低。若感知位準指示使用者已經看了虛擬內容非常長時間,則即使字串是長的、複雜的及/或獨特的,對字串的閱讀程度亦可能很高。
在操作1015處,成像系統被配置為並且能夠基於使用者對虛擬內容的感知位準來決定對與虛擬內容相對應的顯示設定的修改。對顯示設定的修改的實例包括圖2中的從第一顯示設定250到第二顯示設定255的修改、圖5A-圖5B的從顯示設定520到顯示設定555的修改、對顯示設定837的修改875或其組合。
在一些實例中,對與虛擬內容相對應的顯示設定的修改包括使得顯示器停止顯示虛擬內容的至少一部分。這種情況的實例在圖5B中示出,從顯示設定520到顯示設定555的修改使得虛擬內容535不再覆蓋在影像505上,如圖5B所示。在一些實例中,對與虛擬內容相對應的顯示設定的修改包括使得顯示器比修改之前更突出地顯示虛擬內容的至少一部分。這種情況的實例在圖5B中示出,從顯示設定520到顯示設定555的修改使得虛擬內容525在大小、字體大小和細節位準(資訊量)態樣增加,如圖5B所示。在一些實例中,對與虛擬內容相對應的顯示設定的修改包括對虛擬內容的一或多個特性的修改,其中一或多個特性包括位置、方位、深度、大小、顏色、字體大小、字體顏色、字體、語言、佈局或其組合中的至少一個。這種情況的實例在圖5B中示出,從顯示設定520到顯示設定555的修改使得虛擬內容525在大小、字體大小和細節位準(資訊量)態樣增加,並且使得虛擬內容530改變位置和深度以部分出現在裡德•奧爾巴赫雕像後面,如圖5B所示。
在一些實例中,對顯示設定的修改基於使用者將在閾值時間量內查看虛擬內容的可能性。例如,在圖7的虛擬內容730的實例中,閾值時間量可以很短,因為汽車正在快速接近使用者,並且修改可以快速增加虛擬內容730的大小,以確保在使用者看起來不太可能(例如,基於感知位準及/或理解位準)在閾值時間內查看虛擬內容的情況下警告使用者。
在一些實例中,成像系統可以包括:用於使得根據與虛擬內容相關聯的顯示設定使用顯示器來顯示虛擬內容的部件,其中當顯示器顯示虛擬內容時,使用顯示器可觀看環境;用於基於使用者的一或多個感知相關屬性來決定使用者對使用顯示器顯示的虛擬內容的感知位準的部件;及用於基於使用者對虛擬內容的感知位準來決定對與虛擬內容相對應的顯示設定的修改的部件。
在一些實例中,用於使得顯示虛擬內容的部件包括影像擷取和處理系統100、影像擷取裝置105A、影像處理設備105B、影像處理器150、ISP 154、主處理器152、XR系統200、虛擬內容產生器215、(一或多個)面向環境的感測器210、合成器220、顯示器225、(一或多個)顯示器340、第一相機330A、第二相機330B、顯示器440、第三相機430C、第四相機430D、虛擬內容525、虛擬內容530、虛擬內容535、虛擬內容630、虛擬內容730、計算系統1100或其組合。在一些實例中,用於決定感知位準的部件包括影像擷取和處理系統100、影像擷取裝置105A、影像處理設備105B、影像處理器150、ISP 154、主處理器152、XR系統200、(一或多個)面向使用者的感測器205、屬性引擎230、感知引擎235、理解引擎240、虛擬內容評分引擎245、回饋引擎260、第一經訓練ML模型825、第二經訓練ML模型835、第三經訓練ML模型865、NN 900、計算系統1100或其組合。在一些實例中,用於決定對顯示設定的修改的部件包括XR系統200、合成器220、屬性引擎230、感知引擎235、理解引擎240、虛擬內容評分引擎245、回饋引擎260、第一經訓練ML模型825、第二經訓練ML模型835、第三經訓練ML模型865、NN 900、計算系統1100或其組合。
在一些實例中,本文描述的程序(例如,圖1、圖2、圖8、圖9、圖10的程序及/或本文描述的其他程序)可以由計算設備或裝置來執行。在一些實例中,圖1、圖2、圖8、圖9及/或圖10的程序可以由影像擷取和處理系統100、影像擷取裝置105A、影像處理設備105B、影像處理器150、ISP 154、主處理器152、XR系統200、HMD 310、行動手機410、擷取影像505並覆蓋虛擬內容525-535的成像設備、擷取影像605並覆蓋虛擬內容630的成像設備、擷取影像705並覆蓋虛擬內容730的成像設備、圖8的成像設備、第一經訓練ML模型825、第二經訓練ML模型835、第三經訓練ML模型865、神經網路900、計算系統1100、處理器1110或其組合來執行。
計算設備可以包括任何合適的設備,諸如行動設備(例如,行動電話)、桌面計算設備、平板計算設備、可佩戴設備(例如,VR頭戴式設備、AR頭戴式設備、AR眼鏡、聯網手錶或智慧手錶或其他可佩戴設備)、伺服器電腦、自主交通工具或自主交通工具的計算設備、機器人設備、電視及/或具有執行本文描述的程序(包括圖1、圖2、圖8、圖9及/或圖10的程序)的資源能力的任何其他計算設備。在一些情況下,計算設備或裝置可以包括各種部件,諸如一或多個輸入設備、一或多個輸出設備、一或多個處理器、一或多個微型處理器、一或多個微型電腦、一或多個相機、一或多個感測器及/或被配置為執行本文描述的程序的步驟的(一或多個)其他部件。在一些實例中,計算設備可以包括顯示器、被配置為傳送及/或接收資料的網路介面、其任何組合及/或(一或多個)其他部件。網路介面可以被配置為傳送及/或接收基於網際網路協定(IP)的資料或其他類型的資料。
計算設備的部件可以在電路中實施。例如,部件可以包括電子電路或其他電子硬體及/或可以使用電子電路或其他電子硬體來實施,電子電路或其他電子硬體可以包括一或多個可程式設計電子電路(例如,微型處理器、圖形處理單元(GPU)、數位訊號處理器(DSP)、中央處理單元(CPU)及/或其他合適的電子電路),及/或可以包括電腦軟體、韌體或其任何組合及/或使用電腦軟體、韌體或其任何組合來實施,以執行本文描述的各種操作。
圖1、圖2、圖8、圖9及/或圖10的程序被示為邏輯流程圖、方塊圖或概念圖,其動作表示可以用硬體、電腦指令或其組合來實施的操作序列。在電腦指令的情境中,動作表示儲存在一或多個電腦可讀取儲存媒體上的電腦可執行指令,當該指令由一或多個處理器執行時執行該操作。通常,電腦可執行指令包括執行特定功能或實施特定資料類型的常式、程式、物件、部件、資料結構等。描述操作的次序不意欲被解釋為限制,並且任何數量的所描述的操作可以以任何次序及/或並行地進行組合,以實施這些程序。
另外,圖1、圖2、圖8、圖9、圖10的程序及/或本文描述的其他程序可以在配置有可執行指令的一或多個電腦系統的控制下執行,並且可以被實施為在一或多個處理器上共同執行的代碼(例如,可執行指令、一或多個電腦程式或一或多個應用)、由硬體實施或其組合。如前述,代碼可以(例如,以包括可由一或多個處理器執行的複數個指令的電腦程式的形式)被儲存在電腦可讀或機器可讀儲存媒體上。電腦可讀或機器可讀儲存媒體可以是非暫時性的。
圖11是示出用於實施本技術的某些態樣的系統的實例的圖。具體地,圖11圖示計算系統1100的實例,計算系統1100可以是例如構成內部計算系統的任何計算設備、遠端計算系統、相機或其任何部件,其中系統的部件使用連接1105彼此通訊。連接1105可以是使用匯流排的實體連接,或者去往(諸如晶片組架構中的)處理器1110的直接連接。連接1105亦可以是虛擬連接、網路連接或邏輯連接。
在一些實施例中,計算系統1100是分散式系統,其中本案中描述的功能可以分佈在資料中心、多個資料中心、對等網路等內。在一些實施例中,一或多個所描述的系統部件表示許多此類部件,每個部件執行描述該部件的一些或所有功能。在一些實施例中,部件可以是實體設備或虛擬裝置。
實例系統1100包括至少一個處理單元(CPU或處理器)1110和連接1105,連接1105將包括系統記憶體1115(諸如唯讀記憶體(ROM)1120和隨機存取記憶體(RAM)1125)的各種系統部件耦合到處理器1110。計算系統1100可以包括高速記憶體的快取記憶體1112,快取記憶體1112與處理器1110直接連接、緊鄰處理器1110或整合為處理器1110的一部分。
處理器1110可以包括任何通用處理器以及被配置為控制處理器1110以及專用處理器(其中軟體指令被結合到實際的處理器設計中)的硬體服務或軟體服務(諸如儲存在存放裝置1130中的服務1132、1134和1136)。處理器1110本質上可以是包含多個核心或處理器、匯流排、記憶體控制器、快取記憶體等的完全自給式的計算系統。多核處理器可以是對稱的或非對稱的。
為了實現使用者互動,計算系統1100包括輸入設備1145,輸入設備1145可以表示任何數量的輸入機構,諸如用於語音的麥克風、用於手勢或圖形輸入的觸敏螢幕、鍵盤、滑鼠、運動輸入、語音等。計算系統1100亦可以包括輸出設備1135,輸出設備1135可以是多個輸出機構中的一或多個。在一些情況下,多模態系統可以使使用者能夠提供多種類型的輸入/輸出來與計算系統1100進行通訊。計算系統1100可以包括通訊介面1140,通訊介面1140通常可以控制和管理使用者輸入和系統輸出。通訊介面可以使用有線及/或無線收發器來執行或促進有線及/或無線通訊的接收及/或發送,包括利用音訊插孔/插頭、麥克風插孔/插頭、通用序列匯流排(USB)埠/插頭、Apple® Lightning®埠/插頭、乙太網路埠/插頭、光纖埠/插頭、專有有線埠/插頭、BLUETOOTH®無線訊號傳輸、BLUETOOTH®低能量(BLUETOOTH® low energy,BLE)無線訊號傳輸、IBEACON®無線訊號傳輸、射頻辨識(radio-frequency identification,RFID)無線訊號傳輸、近場通訊(near-field communication,NFC)無線訊號傳輸、專用短程通訊(dedicated short range communication,DSRC)無線訊號傳輸、802.11 Wi-Fi無線訊號傳輸、無線區域網路(WLAN)訊號傳輸、可見光通訊(Visible Light Communication,VLC)、全球互通微波存取(Worldwide Interoperability for Microwave Access,WiMAX)、紅外(Infrared,IR)通訊無線訊號傳輸、公用交換電話網(Public Switched Telephone Network,PSTN)訊號傳輸、整合式服務數位網路(Integrated Services Digital Network,ISDN)訊號傳輸、3G/4G/5G/LTE蜂巢資料網路無線訊號傳輸、自組織網路訊號傳輸、無線電波訊號傳輸、微波訊號傳輸、紅外訊號傳輸、可見光訊號傳輸、紫外光訊號傳輸、沿著電磁頻譜的無線訊號傳輸或其某種組合。通訊介面1140亦可以包括一或多個全球導航衛星系統(GNSS)接收器或收發器,其用於基於從與一或多個GNSS系統相關聯的一或多個衛星接收到一或多個訊號來決定計算系統1100的定位。GNSS系統包括但不限於基於美國的全球定位系統(GPS)、基於俄羅斯的全球導航衛星系統(Global Navigation Satellite System,GLONASS)、基於中國的北斗導航衛星系統(BeiDou Navigation Satellite System,BDS)和基於歐洲的伽利略GNSS。對於在任何特定硬體設定上的操作沒有限制,因此這裡的基本特徵可以很容易地在它們被開發時被改進的硬體或韌體佈置所替代。
存放裝置1130可以是非揮發性及/或非暫時性及/或電腦可讀存放裝置,並且可以是硬碟或能夠儲存電腦可存取的資料的其他類型的電腦可讀取媒體,諸如盒式磁帶、快閃記憶卡、固態記憶體設備、數位多功能光碟、儲存盒、軟碟、可折疊盤、硬碟、磁帶、磁碟/磁條、任何其他磁性儲存媒體、快閃記憶體、憶阻器記憶體、任何其他固態記憶體、壓縮光碟片唯讀記憶體(compact disc read only memory,CD-ROM)光碟、可重寫壓縮光碟片(compact disc,CD)光碟、數位視訊光碟(digital video disk,DVD)光碟、藍光光碟片(blu-ray disc,BDD)光碟、全息光碟、另一光學媒體、安全數位(secure digital,SD)卡、微型安全數位(microSD)卡、記憶棒(Memory Stick®)卡、智慧卡晶片、EMV晶片、用戶辨識模組(subscriber identity module,SIM)卡、迷你/微型/奈米/微微SIM卡、另一積體電路(integrated circuit,IC)晶片/卡、隨機存取記憶體(RAM)、靜態RAM(static RAM,SRAM)、動態RAM(dynamic RAM,DRAM)、唯讀記憶體(ROM)、可程式設計唯讀記憶體(programmable read-only memory,PROM)、可抹除可程式設計唯讀記憶體(erasable programmable read-only memory,EPROM)、電子可抹除可程式設計唯讀記憶體(electrically erasable programmable read-only memory,EEPROM)、快閃EPROM(FLASHEPROM)、快取緩衝記憶體(L1/L2/L3/L4/L5/L#)、電阻式隨機存取記憶體(resistive random-access memory,RRAM/ReRAM)、相變記憶體(phase change memory,PCM)、自旋轉移力矩RAM(spin transfer torque RAM,STT-RAM)、另一記憶體晶片或儲存盒及/或其組合。
存放裝置1130可以包括軟體服務、伺服器、服務等,當處理器1110執行定義這種軟體的代碼時,它使得系統執行功能。在一些實施例中,執行特定功能的硬體服務可以包括儲存在電腦可讀取媒體中的軟體元件連同必要的硬體元件(諸如處理器1110、連接1105、輸出設備1135等),以執行功能。
如本文所使用的,術語「電腦可讀取媒體」包括但不限於可攜式或非可攜式存放裝置、光學存放裝置以及能夠儲存、包含或攜帶(一或多個)指令及/或資料的各種其他媒體。電腦可讀取媒體可以包括其中能夠儲存資料的非暫時性媒體,並且不包括經由無線或有線連接傳播的載波及/或暫時性電子訊號。非暫時性媒體的實例可以包括但不限於磁碟或磁帶、光學儲存媒體(諸如壓縮光碟(CD)或數位多功能光碟(DVD))、快閃記憶體、記憶體或記憶體設備。電腦可讀取媒體可以在其上儲存有代碼及/或機器可執行指令,代碼及/或機器可執行指令可以表示程序、函數、副程式、程式、常式、子常式、模組、套裝軟體、類,或者指令、資料結構或程式語句的任何組合。經由傳遞及/或接收資訊、資料、引數、參數或記憶體內容,程式碼片段可以耦合到另一程式碼片段或硬體電路。資訊、引數、參數、資料等可以使用任何合適的手段(包括記憶體共享、訊息傳遞、符記傳遞、網路傳輸等)來傳遞、轉發或傳輸。
在一些實施例中,電腦可讀存放裝置、媒體和記憶體可以包括包含位元串流等的有線或無線訊號。然而,當被提及時,非暫時性電腦可讀取儲存媒體明確地排除諸如能量、載波訊號、電磁波和訊號本身之類的媒體。
在上面的描述中提供了具體的細節,以提供對本文提供的實施例和實例的全面理解。然而,本發明所屬領域中具有普通知識者將理解,可以在沒有這些具體細節的情況下實踐這些實施例。為瞭解釋清楚,在一些情況下,本技術可以被呈現為包括單獨的功能方塊,包括含有設備、設備部件、以軟體或硬體和軟體的組合體現的方法中的步驟或常式的功能方塊。可以使用除了圖中所示及/或本文所述之外的額外部件。例如,電路、系統、網路、程序和其他部件可以以方塊圖形式顯示為部件,以免不必要的細節模糊實施例。在其他情況下,公知的電路、程序、演算法、結構和技術可以在沒有不必要的細節的情況下示出,以便避免模糊實施例。
各個實施例可以在上面被描述為程序或方法,該程序或方法被圖示為流程圖、作業圖、資料流圖、結構圖或方塊圖。儘管流程圖可以將操作描述為順序的程序,但是許多操作可以並行或併發地執行。此外,可以重新佈置操作的次序。當程序的操作被完成時,該程序被終止,但是可能有未被包括在圖中的額外步驟。程序可以對應於方法、函數、程式、子常式、副程式等。當程序對應於函數時,它的終止可以對應於函數返回到調用函數或主函數。
根據上述實例的程序和方法可以使用儲存在電腦可讀取媒體中的或者以其他方式可從電腦可讀取媒體獲得的電腦可執行指令來實施。這種指令可以包括,例如,使得或以其他方式配置通用電腦、專用電腦或處理設備來執行特定功能或功能組的指令和資料。所使用的電腦資源的一部分可經由網路存取。電腦可執行指令可以是例如二進位、中間格式指令,諸如組合語言、韌體、原始程式碼等。可以用於儲存在根據該實例的方法期間使用的指令、資訊及/或建立的資訊的電腦可讀取媒體的實例包括磁碟或光碟、快閃記憶體、配備有非揮發性記憶體的USB設備、網路存放裝置等。
實施根據這些揭示內容的程序和方法的設備可以包括硬體、軟體、韌體、中介軟體、微代碼、硬體描述語言或其任何組合,並且可以採用各種外形因素中的任何一種。當在軟體、韌體、中介軟體或微代碼中實施時,執行必要任務的程式碼或程式碼片段(例如,電腦程式產品)可以被儲存在電腦可讀或機器可讀取媒體中。(一或多個)處理器可以執行必要的任務。外形因素的典型實例包括膝上型電腦、智慧型電話、行動電話、平板設備或其他小外形因素個人電腦、個人數位助理、機架安裝設備、獨立設備等。本文描述的功能亦可以體現在周邊設備或額外卡中。作為進一步的實例,這種功能亦可以在單個設備中執行的不同晶片或不同程序之間在電路板上實施。
指令、用於傳送這種指令的媒體、用於執行它們的計算資源以及用於支援這種計算資源的其他結構是用於提供本案中描述的功能的實例部件。
在前面的描述中,參考本案的特定實施例描述了本案的各態樣,但是本發明所屬領域中具有通常知識者將認識到本案不限於此。因此,儘管本文已經詳細描述了本案的說明性實施例,但是應當理解,本發明構思可以以其他方式不同地體現和採用,並且所附請求項意欲被解釋為包括此類變化,除了由現有技術限制的以外。上述申請的各種特徵和態樣可以單獨或聯合地使用。此外,在不脫離本說明書的更廣泛的精神和範疇的情況下,實施例可以用於本文描述之外的任何數量的環境和應用中。相應地,說明書和附圖應當被視為說明性的而非限制性的。出於說明的目的,以特定的次序描述了這些方法。應當理解,在替代實施例中,這些方法可以以與所描述的不同的次序來執行。
具有通常知識者將會理解,在不脫離本說明書的範疇的情況下,本文使用的小於(「<」)和大於(「>」)符號或術語可以分別用小於或等於(「≦」)和大於或等於(「≧」)符號來替換。
在部件被描述為「被配置為」執行某些操作的情況下,這種配置可以例如經由設計電子電路或其他硬體以執行該操作、經由對可程式設計電子電路(例如,微型處理器或其他合適的電子電路)進行程式設計以執行該操作或其任何組合來實施。
短語「耦合到」是指直接或間接地實體連接到另一部件的任何部件,及/或直接或間接地與另一部件進行通訊(例如,經由有線或無線連接及/或其他合適的通訊介面連接到另一部件)的任何部件。
請求項語言或敘述集合中的「至少一個」及/或集合中的「一或多個」的其他語言指示集合中的一個成員或集合中的多個成員(以任何組合的形式)滿足請求項。例如,敘述「A和B中的至少一個」的請求項語言意味著A、B或者A和B。在另一實例中,敘述「A、B和C中的至少一個」的請求項語言意味著A、B、C或者A和B或者A和C或者B和C或者A和B和C。例如,敘述「A和B中的至少一個」的請求項語言可以意味著A、B或者A和B,並且可以另外包括沒有在A和B的集合中列出的專案
結合本文揭示的實施例描述的各種說明性邏輯區塊、模組、電路和演算法步驟可以被實施為電子硬體、電腦軟體、韌體或其組合。為了清楚地說明硬體和軟體的這種可互換性,各種說明性的部件、方塊、模組、電路和步驟已經在上面根據它們的功能進行了一般描述。這種功能被實施為硬體還是軟體取決於特定的應用和對整個系統施加的設計約束。本發明所屬領域中具有通常知識者可以針對每個特定的應用以不同的方式實施所描述的功能,但是此類實施決策不應被解釋為使得脫離本案的範疇。
本文描述的技術亦可以在電子硬體、電腦軟體、韌體或其任何組合中實施。這種技術可以在各種設備中的任何一種中實施,諸如通用電腦、無線通訊設備手機或具有多種用途(包括在無線通訊設備手機和其他設備中的應用)的積體電路設備。被描述為模組或部件的任何特徵可以在整合邏輯裝置中一起實施,或者作為個別但可交互動操作的邏輯裝置單獨地實施。若在軟體中實施,則這些技術可以至少部分由包括程式碼的電腦可讀取資料儲存媒體來實施,該程式碼包括當被執行時執行一或多個上述方法的指令。電腦可讀取資料儲存媒體可以形成電腦程式產品的一部分,電腦程式產品可以包括包裝材料。電腦可讀取媒體可以包括記憶體或資料儲存媒體,諸如隨機存取記憶體(RAM)(諸如同步動態隨機存取記憶體(synchronous dynamic random access memory,SDRAM))、唯讀記憶體(ROM)、非揮發性隨機存取記憶體(non-volatile random access memory,NVRAM)、電子可抹除可程式設計唯讀記憶體(EEPROM)、快閃記憶體、磁性或光學資料儲存媒體等。補充地或替代地,這些技術可以至少部分由電腦可讀通訊媒體來實施,電腦可讀通訊媒體攜帶或傳送指令或資料結構形式的程式碼,並且可以由電腦存取、讀取及/或執行,諸如傳播的訊號或波。
程式碼可以由處理器執行,該處理器可以包括一或多個處理器,諸如一或多個數位訊號處理器(DSP)、通用微型處理器、特殊應用積體電路(application specific integrated circuit,ASIC)、現場可程式設計邏輯陣列(field programmable logic array,FPGA)或其他等效的整合或個別邏輯電路。這種處理器可以被配置為執行本案中描述的任何技術。通用處理器可以是微型處理器;但是替代地,處理器可以是任何習知的處理器、控制器、微型控制器或狀態機。處理器亦可以被實施為計算設備的組合,例如,DSP和微型處理器的組合、複數個微型處理器、一或多個微型處理器與DSP核心的結合或者任何其他此類配置。相應地,本文使用的術語「處理器」可以指任何前述結構、前述結構的任何組合或者適於實施本文描述的技術的任何其他結構或裝置。此外,在一些態樣,本文描述的功能可以在被配置用於編碼和解碼的專用軟體模組或硬體模組中提供,或者被結合在組合的視訊轉碼器-解碼器(encoder-decoder,CODEC)中。
本案的說明性態樣包括:
態樣1:一種擴展現實(XR)系統,該裝置包括:記憶體;及耦合到記憶體的一或多個處理器,該一或多個處理器被配置為:根據與虛擬內容相關聯的顯示設定使用顯示器來顯示虛擬內容,其中當顯示器顯示虛擬內容時,使用顯示器可觀看環境;基於使用者的一或多個感知相關屬性來決定使用者對使用顯示器顯示的虛擬內容的感知位準;及基於使用者對虛擬內容的感知位準來決定對與虛擬內容相對應的顯示設定的修改。
態樣2:根據態樣1之XR系統,其中使用者的一或多個感知相關屬性與使用者的一隻或更多只眼睛相關聯。
態樣3:根據態樣1至2中任一項所述的XR系統,其中至少部分基於來自環境的穿過顯示器的至少一部分的光,使用顯示器可觀看環境。
態樣4:根據態樣1至3中任一項所述的XR系統,其中至少部分基於一或多個處理器被配置為使得顯示器顯示環境的視圖,使用顯示器可觀看環境。
態樣5:根據態樣1至4中任一項所述的XR系統,其中為了決定使用者對虛擬內容的感知位準,一或多個處理器被配置為使用使用者的一或多個感知相關屬性作為對一或多個經訓練機器學習系統的輸入。
態樣6:根據態樣5之XR系統,其中一或多個處理器被配置為:經由使用者介面接收與使用者對虛擬內容的感知位準相對應的回饋;及基於回饋來更新一或多個經訓練機器學習系統。
態樣7:根據態樣1至6中任一項所述的XR系統,其中一或多個處理器被配置為:接收由一或多個感測器擷取的感測器資料,其中感測器資料指示使用者的一隻或更多只眼睛;及基於感測器資料來決定使用者的一或多個感知相關屬性。
態樣8:根據態樣7之XR系統,亦包括:一或多個感測器。
態樣9:根據態樣1至8中任一項所述的XR系統,其中一或多個處理器被配置為:基於由一或多個影像感測器擷取的感測器資料來決定使用者的一或多個感知相關屬性,其中感測器資料包括使用者的一隻或更多只眼睛的一或多個影像。
態樣10:根據態樣1至9中任一項所述的XR系統,其中一或多個處理器被配置為:基於使用者對虛擬內容的感知位準來決定使用者對虛擬內容的理解位準,其中為了基於感知位準來決定對顯示設定的修改,一或多個處理器被配置為基於理解位準來決定對顯示設定的修改。
態樣11:根據態樣10之XR系統,其中一或多個處理器被配置為:接收與使用者相關聯的歷史資訊,其中為了決定使用者對虛擬內容的理解位準,一或多個處理器被配置為基於關於使用者的歷史資訊來決定使用者對虛擬內容的理解位準。
態樣12:根據態樣1至11中任一項所述的XR系統,其中一或多個處理器被配置為:決定虛擬內容的特性,其中為了決定使用者對虛擬內容的感知位準,一或多個處理器被配置為進一步基於虛擬內容的特性來決定感知位準。
態樣13:根據態樣1至12中任一項所述的XR系統,其中一或多個處理器被配置為:決定虛擬內容的複雜性位準,其中為了決定使用者對虛擬內容的感知位準,一或多個處理器被配置為基於虛擬內容的複雜性位準來決定感知位準。
態樣14:根據態樣1至13中任一項所述的XR系統,其中一或多個處理器被配置為:決定虛擬內容的獨特性位準,其中為了決定使用者對虛擬內容的感知位準,一或多個處理器被配置為基於虛擬內容的獨特性位準來決定感知位準。
態樣15:根據態樣1至14中任一項所述的XR系統,其中對與虛擬內容相對應的顯示設定的修改包括使得顯示器停止顯示虛擬內容的至少一部分。
態樣16:根據態樣1至15中任一項所述的XR系統,其中對與虛擬內容相對應的顯示設定的修改包括使得顯示器比修改之前更突出地顯示虛擬內容的至少一部分。
態樣17:根據態樣1至16中任一項所述的XR系統,其中對與虛擬內容相對應的顯示設定的修改包括對虛擬內容的一或多個特性的修改,其中一或多個特性包括位置、方位、深度、大小、顏色、字體大小、字體顏色、字體、語言和佈局中的至少一個。
態樣18:根據態樣1至17中任一項所述的XR系統,其中為了決定使用者對虛擬內容的感知位準,一或多個處理器被配置為決定使用者已經感知到虛擬內容。
態樣19:根據態樣1至18中任一項所述的XR系統,其中為了決定使用者對虛擬內容的感知位準,一或多個處理器被配置為決定使用者沒有感知到虛擬內容。
態樣20:根據態樣1至19中任一項所述的XR系統,其中對顯示設定的修改基於使用者將在閾值時間量內查看虛擬內容的可能性。
態樣21:根據態樣1至20中任一項所述的XR系統,其中為了決定使用者對虛擬內容的感知位準,一或多個處理器被配置為決定與使用者對虛擬內容的感知位準相對應的置信度位準,其中對顯示設定的修改基於置信度位準。
態樣22:根據態樣1至21中任一項所述的XR系統,其中使用者的一或多個感知相關屬性包括使用者的一隻或更多只眼睛相對於虛擬內容的一或多個眼睛位置。
態樣23:根據態樣1至22中任一項所述的XR系統,其中使用者的一或多個感知相關屬性包括使用者的一隻或更多只眼睛的一次或多次迅速掃視的一或多個特性,其中一或多個特性包括頻率、持續時間、定時、迅速掃視速度、迅速掃視幅度、眼睛位置和眼睛運動中的至少一個。
態樣24:根據態樣1至23中任一項所述的XR系統,其中使用者的一或多個感知相關屬性包括使用者的一隻或更多只眼睛的一次或多次注視的一或多個特性,其中一或多個特性包括頻率、持續時間、定時、眼睛位置和眼睛運動中的至少一個。
態樣25:根據態樣1至24中任一項所述的XR系統,其中使用者的一或多個感知相關屬性包括使用者的一隻或更多只眼睛的一次或多次瞳孔擴張的一或多個特性,其中一或多個特性包括頻率、持續時間、定時、瞳孔擴張位準、眼睛位置和眼睛運動中的至少一個。
態樣26:根據態樣1至25中任一項所述的XR系統,其中使用者的一或多個感知相關屬性包括使用者的一或多個眼瞼的一次或多次眨眼的一或多個特性,其中一或多個特性包括頻率、持續時間、定時、眨眼速度、眼睛位置和眼睛運動中的至少一個。
態樣27:根據態樣1至26中任一項所述的XR系統,其中使用者的一或多個感知相關屬性包括使用者的一或多個眼瞼的一次或多次眯眼的一或多個特性,其中一或多個特性包括頻率、持續時間、定時、眯眼位準、眼睛位置和眼睛運動中的至少一個。
態樣28:根據態樣1至27中任一項所述的XR系統,其中一或多個處理器被配置為:基於虛擬內容的感知位準和字串的長度來決定使用者對字串的閱讀程度,其中虛擬內容包括字串。
態樣29:根據態樣1至28中任一項所述的XR系統,亦包括:顯示器。
態樣30:根據態樣1至29中任一項所述的XR系統,其中XR系統包括行動手機、無線通訊設備和頭戴式顯示器中的至少一個。
態樣31:根據態樣1至30中任一項所述的XR系統,其中一或多個處理器被配置為:決定虛擬內容相對於環境的區別性位準,其中為了決定使用者對虛擬內容的感知位準,一或多個處理器被配置為基於虛擬內容相對於環境的區別性位準來決定感知位準。
態樣32:根據態樣1至31中任一項所述的XR系統,其中一或多個處理器被配置為:至少部分基於包括使用者的一隻或更多只眼睛的表示的感測器資料來決定使用者的一或多個感知相關屬性中的至少一個,其中一或多個感測器被配置為擷取感測器資料。
態樣33:根據態樣1至32中任一項所述的XR系統,其中使用者的一或多個感知相關屬性包括以下至少一項:使用者的一隻或更多只眼睛的一或多個屬性、使用者的一或多個面部表情的一或多個屬性以及使用者的一或多個手勢。
態樣34:根據態樣1至33中任一項所述的XR系統,其中為了決定使用者對虛擬內容的感知位準,一或多個處理器被配置為基於使用者的一或多個感知相關屬性來決定使用者對虛擬內容的理解位準。
態樣35:根據態樣34之XR系統,其中為了決定使用者對虛擬內容的理解位準,一或多個處理器被配置為基於使用者的一或多個感知相關屬性以及以下至少一項來決定使用者對虛擬內容的理解位準:虛擬內容的一或多個特性、情境資料和使用者的使用者簡檔。
態樣36:根據態樣35之XR系統,其中使用者簡檔包括與使用者相關聯的歷史資料。
態樣37:根據態樣35或36中任一項所述的XR系統,其中情境資料包括使用者對虛擬內容的一或多個回應。
態樣38:根據態樣35至37中任一項所述的XR系統,其中情境資料包括XR系統的定位。
態樣39:根據態樣1至38中任一項所述的XR系統,其中為了決定使用者對虛擬內容的感知位準,一或多個處理器被配置為決定使用者已經將虛擬內容感知到複數個感知位準中的第一感知位準。
態樣40:根據態樣1至39中任一項所述的XR系統,其中為了決定使用者對虛擬內容的感知位準,一或多個處理器被配置為決定使用者已經將虛擬內容感知到複數個感知位準中的第二感知位準。
態樣41:一種擴展現實(XR)操作的方法,該方法包括:使得根據與虛擬內容相關聯的顯示設定使用顯示器來顯示虛擬內容,其中當顯示器顯示虛擬內容時,使用顯示器可觀看環境;基於使用者的一或多個感知相關屬性來決定使用者對使用顯示器顯示的虛擬內容的感知位準;及基於使用者對虛擬內容的感知位準來決定對與虛擬內容相對應的顯示設定的修改。
態樣42:根據態樣41之方法,其中使用者的一或多個感知相關屬性與使用者的一隻或更多只眼睛相關聯。
態樣43:根據態樣41至42中任一項所述的方法,其中至少部分基於來自環境的穿過顯示器的至少一部分的光,使用顯示器可觀看環境。
態樣44:根據態樣41至43中任一項所述的方法,其中至少部分基於使得顯示器顯示環境的視圖,使用顯示器可觀看環境。
態樣45:根據態樣41至44中任一項所述的方法,其中決定使用者對虛擬內容的感知位準包括使用使用者的一或多個感知相關屬性作為對一或多個經訓練機器學習系統的輸入。
態樣46:根據態樣45之方法,亦包括:經由使用者介面接收與使用者對虛擬內容的感知位準相對應的回饋;及基於回饋來更新一或多個經訓練機器學習系統。
態樣47:根據態樣41至46中任一項所述的方法,亦包括:接收由一或多個感測器擷取的感測器資料,其中感測器資料指示使用者的一隻或更多只眼睛;及基於感測器資料來決定使用者的一或多個感知相關屬性。
態樣48:根據態樣41至47中任一項所述的方法,其中該方法由包括一或多個感測器的XR系統來執行。
態樣49:根據態樣41至48中任一項所述的方法,亦包括:基於由一或多個影像感測器擷取的感測器資料來決定使用者的一或多個感知相關屬性,其中感測器資料包括使用者的一隻或更多只眼睛的一或多個影像。
態樣50:根據態樣41至49中任一項所述的方法,亦包括:基於使用者對虛擬內容的感知位準來決定使用者對虛擬內容的理解位準,其中基於感知位準決定對顯示設定的修改包括基於理解位準決定對顯示設定的修改。
態樣51:根據態樣50之方法,亦包括:接收與使用者相關聯的歷史資訊,其中決定使用者對虛擬內容的理解位準基於關於使用者的歷史資訊。
態樣52:根據態樣41至51中任一項所述的方法,亦包括:決定虛擬內容的特性,其中決定使用者對虛擬內容的感知位準基於虛擬內容的特性。
態樣53:根據態樣41至52中任一項所述的方法,亦包括:決定虛擬內容的複雜性位準,其中決定使用者對虛擬內容的感知位準基於虛擬內容的複雜性位準。
態樣54:根據態樣41至53中任一項所述的方法,亦包括:決定虛擬內容的獨特性位準,其中決定使用者對虛擬內容的感知位準基於虛擬內容的獨特性位準。
態樣55:根據態樣41至54中任一項所述的方法,其中對與虛擬內容相對應的顯示設定的修改包括使得顯示器停止顯示虛擬內容的至少一部分。
態樣56:根據態樣41至55中任一項所述的方法,其中對與虛擬內容相對應的顯示設定的修改包括使得顯示器比修改之前更突出地顯示虛擬內容的至少一部分。
態樣57:根據態樣41至56中任一項所述的方法,其中對與虛擬內容相對應的顯示設定的修改包括對虛擬內容的一或多個特性的修改,其中一或多個特性包括位置、方位、深度、大小、顏色、字體大小、字體顏色、字體、語言和佈局中的至少一個。
態樣58:根據態樣41至57中任一項所述的方法,其中決定使用者對虛擬內容的感知位準包括決定使用者已經感知到虛擬內容。
態樣59:根據態樣41至58中任一項所述的方法,其中決定使用者對虛擬內容的感知位準包括決定使用者沒有感知到虛擬內容。
態樣60:根據態樣41至59中任一項所述的方法,其中對顯示設定的修改基於使用者將在閾值時間量內查看虛擬內容的可能性。
態樣61:根據態樣41至60中任一項所述的方法,其中決定使用者對虛擬內容的感知位準包括決定與使用者對虛擬內容的感知位準相對應的置信度位準,其中對顯示設定的修改基於置信度位準。
態樣62:根據態樣41至61中任一項所述的方法,其中使用者的一或多個感知相關屬性包括使用者的一隻或更多只眼睛相對於虛擬內容的一或多個眼睛位置。
態樣63:根據態樣41至62中任一項所述的方法,其中使用者的一或多個感知相關屬性包括使用者的一隻或更多只眼睛的一次或多次迅速掃視的一或多個特性,其中一或多個特性包括頻率、持續時間、定時、迅速掃視速度、迅速掃視幅度、眼睛位置和眼睛運動中的至少一個。
態樣64:根據態樣41至63中任一項所述的方法,其中使用者的一或多個感知相關屬性包括使用者的一隻或更多只眼睛的一次或多次注視的一或多個特性,其中一或多個特性包括頻率、持續時間、定時、眼睛位置和眼睛運動中的至少一個。
態樣65:根據態樣41至64中任一項所述的方法,其中使用者的一或多個感知相關屬性包括使用者的一隻或更多只眼睛的一次或多次瞳孔擴張的一或多個特性,其中一或多個特性包括頻率、持續時間、定時、瞳孔擴張位準、眼睛位置和眼睛運動中的至少一個。
態樣66:根據態樣41至65中任一項所述的方法,其中使用者的一或多個感知相關屬性包括使用者的一或多個眼瞼的一次或多次眨眼的一或多個特性,其中一或多個特性包括頻率、持續時間、定時、眨眼速度、眼睛位置和眼睛運動中的至少一個。
態樣67:根據態樣41至66中任一項所述的方法,其中使用者的一或多個感知相關屬性包括使用者的一或多個眼瞼的一次或多次眯眼的一或多個特性,其中一或多個特性包括頻率、持續時間、定時、眯眼位準、眼睛位置和眼睛運動中的至少一個。
態樣68:根據態樣41至67中任一項所述的方法,亦包括:基於虛擬內容的感知位準和字串的長度來決定使用者對字串的閱讀程度,其中虛擬內容包括字串。
態樣69:根據態樣41至68中任一項所述的方法,其中該方法由包括顯示器的XR系統來執行。
態樣70:根據態樣41至69中任一項所述的方法,其中該方法由包括行動手機、無線通訊設備和頭戴式顯示器中的至少一個的XR系統來執行。
態樣71:根據態樣41至70中任一項所述的方法,亦包括:決定虛擬內容相對於環境的區別性位準,其中決定使用者對虛擬內容的感知位準基於虛擬內容相對於環境的區別性位準。
態樣72:根據態樣41至71中任一項所述的方法,亦包括:至少部分基於包括使用者的一隻或更多只眼睛的表示的感測器資料來決定使用者的一或多個感知相關屬性中的至少一個,其中一或多個感測器被配置為擷取感測器資料。
態樣73:根據態樣41至72中任一項所述的方法,其中使用者的一或多個感知相關屬性包括以下至少一項:使用者的一隻或更多只眼睛的一或多個屬性、使用者的一或多個面部表情的一或多個屬性以及使用者的一或多個手勢。
態樣74:根據態樣41至73中任一項所述的方法,其中決定使用者對虛擬內容的感知位準包括基於使用者的一或多個感知相關屬性來決定使用者對虛擬內容的理解位準。
態樣75:根據態樣74之方法,其中決定使用者對虛擬內容的理解位準基於使用者的一或多個感知相關屬性以及以下至少一項:虛擬內容的一或多個特性、情境資料和使用者的使用者簡檔。
態樣76:根據態樣75之方法,其中使用者簡檔包括與使用者相關聯的歷史資料。
態樣77:根據態樣75或76中任一項所述的方法,其中情境資料包括使用者對虛擬內容的一或多個回應。
態樣78:根據態樣75至77中任一項所述的方法,其中該方法由XR系統來執行,其中情境資料包括XR系統的定位。
態樣79:根據態樣41至78中任一項所述的方法,其中決定使用者對虛擬內容的感知位準包括決定使用者已經將虛擬內容感知到複數個感知位準中的第一感知位準。
態樣80:根據態樣41至79中任一項所述的方法,其中決定使用者對虛擬內容的感知位準包括決定使用者已經將虛擬內容感知到複數個感知位準中的第二感知位準。
態樣81:一種其上儲存有指令的非暫時性電腦可讀取媒體,當該指令由一或多個處理器執行時使得一或多個處理器:使得根據與虛擬內容相關聯的顯示設定使用顯示器來顯示虛擬內容,其中當顯示器顯示虛擬內容時,使用顯示器可觀看環境;基於使用者的一或多個感知相關屬性來決定使用者對使用顯示器顯示的虛擬內容的感知位準;及基於使用者對虛擬內容的感知位準來決定對與虛擬內容相對應的顯示設定的修改。
態樣82:根據態樣81之非暫時性電腦可讀取媒體,亦包括態樣2至40中任一項及/或態樣42至80中任一項。
態樣83:一種用於影像處理的裝置,該裝置包括:用於使得根據與虛擬內容相關聯的顯示設定使用顯示器來顯示虛擬內容的部件,其中當顯示器顯示虛擬內容時,使用顯示器可查看環境;用於基於使用者的一或多個感知相關屬性來決定使用者對使用顯示器顯示的虛擬內容的感知位準的部件;及用於基於使用者對虛擬內容的感知位準來決定對與虛擬內容相對應的顯示設定的修改的部件。
態樣84:根據態樣83之裝置,亦包括態樣2至40中任一項及/或態樣42至80中任一項。
100:影像擷取和處理系統
105A:影像擷取裝置
105B:影像處理設備
110:場景
115:透鏡
120:控制機構
125A:曝光控制機構
125B:聚焦控制機構
125C:縮放控制機構
130:影像感測器
140:隨機存取記憶體
145:唯讀記憶體
150:影像處理器
152:影像處理器
154:影像訊號處理器(ISP)
156:輸入/輸出(I/O)埠
160:I/O設備
200:擴展現實(XR)系統
205:感測器
208:額外感測器
210:感測器
215:視圖與虛擬內容產生器
220:合成器
225:顯示器
230:屬性引擎
235:感知引擎
240:理解引擎
245:虛擬內容評估引擎
250:第一顯示設定
255:第二顯示設定
260:回饋引擎
300:透視圖
310:頭戴式顯示器(HMD)
320:使用者
330A:第一相機
330B:第二相機
330C:第三相機
330D:第四相機
335:聽筒
340:顯示器
350:透視圖
400:透視圖
410:行動手機
420:前表面
430A:第一相機
430B:第二相機
430C:第三相機
430D:第四相機
435A:揚聲器
435B:揚聲器
440:顯示器
450:透視圖
460:後表面
500:概念圖
505:影像
510:環境
515:虛擬內容
520:顯示設定
525:虛擬內容
530:虛擬內容
535:虛擬內容
550:概念圖
555:顯示設定
600:概念圖
610:環境
615:虛擬內容
620:顯示設定
630:虛擬內容
700:概念圖
705:影像
710:環境
715:虛擬內容
720:顯示設定
730:虛擬內容
800:方塊圖
805:感測器資料
810:感測器
815:眼睛
820:使用者
825:第一經訓練ML模型
830:屬性資料
835:第二經訓練ML模型
837:顯示設定
840:虛擬內容
845:顯示器
850:感知位準
860:評估
865:第三經訓練ML模型
870:理解位準
875:修改
880:回饋
885:訓練
890:情境資訊
900:神經網路
910:輸入層
912A:隱藏層
912B:隱藏層
912C:隱藏層
914:輸出層
916:節點
1000:程序
1005:操作
1010:操作
1015:操作
1100:計算系統
1105:連接
1110:處理器
1112:快取記憶體
1115:系統記憶體
1120:唯讀記憶體(ROM)
1125:隨機存取記憶體(RAM)
1130:存放裝置
1132:服務
1134:服務
1135:輸出設備
1136:服務
1140:通訊介面
1145:輸入設備
下文參考以下附圖詳細描述本案的說明性實施例:
圖1是示出根據一些實例的影像擷取和處理系統的實例架構的方塊圖;
圖2是示出根據一些實例的執行用於決定觀看顯示器的使用者對使用顯示器顯示的虛擬內容的感知位準及/或理解位準的程序的擴展現實(XR)系統的實例架構的方塊圖;
圖3A是示出根據一些實例的用作擴展現實(XR)系統的頭戴式顯示器(HMD)的透視圖;
圖3B是示出根據一些實例的由使用者佩戴的圖3A的頭戴式顯示器(HMD)的透視圖;
圖4A是示出根據一些實例的包括前置相機並且可以被用作擴展現實(XR)系統的行動手機的前表面的透視圖;
圖4B是示出根據一些實例的包括後置相機並且可以被用作擴展現實(XR)系統的行動手機的後表面的透視圖;
圖5A是示出根據一些實例的在根據顯示設定顯示的虛擬內容的覆蓋之前和之後的波士頓環境的影像的概念圖;
圖5B是示出根據一些實例的在對顯示設定的修改之前和之後的覆蓋有虛擬內容的波士頓環境的影像的概念圖;
圖6是示出根據一些實例的在根據顯示設定顯示的虛擬內容的覆蓋之前和之後的具有書的環境的影像的概念圖;
圖7是示出根據一些實例的在根據顯示設定顯示的虛擬內容的覆蓋之前和之後的街道上的環境的影像的概念圖;
圖8是示出根據一些實例的用於基於一或多個經訓練機器學習(Machine Learning,ML)模型來決定對虛擬內容的感知位準和理解位準的程序的方塊圖;
圖9是示出根據一些實例的可以由經訓練機器學習系統用來分析觀看擴展現實內容的使用者的神經網路的實例的方塊圖;
圖10是示出根據一些實例的用於擴展現實(XR)顯示操作的程序的流程圖;及
圖11是示出用於實施本文描述的某些態樣的計算系統的實例的圖。
國內寄存資訊(請依寄存機構、日期、號碼順序註記)
無
國外寄存資訊(請依寄存國家、機構、日期、號碼順序註記)
無
200:擴展現實(XR)系統
205:感測器
208:額外感測器
210:感測器
215:視圖與虛擬內容產生器
220:合成器
225:顯示器
230:屬性引擎
235:感知引擎
240:理解引擎
245:虛擬內容評估引擎
250:第一顯示設定
255:第二顯示設定
260:回饋引擎
Claims (35)
- 一種擴展現實(XR)系統,包括: 至少一個記憶體;及 耦合到該至少一個記憶體的一或多個處理器,該一或多個處理器被配置為: 使得根據與一虛擬內容相關聯的一顯示設定使用一顯示器來顯示該虛擬內容,其中當該顯示器顯示該虛擬內容時,使用該顯示器可觀看一環境; 基於一使用者的一或多個感知相關屬性來決定該使用者對使用該顯示器顯示的該虛擬內容的一感知位準;及 基於該使用者對該虛擬內容的該感知位準來決定對與該虛擬內容相對應的該顯示設定的一修改。
- 根據請求項1之XR系統,其中該使用者的該一或多個感知相關屬性與該使用者的一隻或更多只眼睛相關聯。
- 根據請求項1之XR系統,其中至少部分基於來自該環境的穿過該顯示器的至少一部分的光,使用該顯示器可觀看該環境。
- 根據請求項1之XR系統,其中至少部分基於該一或多個處理器被配置為使得該顯示器顯示該環境的一視圖,使用該顯示器可觀看該環境。
- 根據請求項1之XR系統,其中為了決定該使用者對該虛擬內容的該感知位準,該一或多個處理器被配置為使用該使用者的該一或多個感知相關屬性作為對一或多個經訓練機器學習系統的輸入。
- 根據請求項5之XR系統,其中該一或多個處理器被配置為: 經由一使用者介面接收與該使用者對該虛擬內容的該感知位準相對應的一回饋;及 基於該回饋來更新該一或多個經訓練機器學習系統。
- 根據請求項1之XR系統,其中該一或多個處理器被配置為: 接收由一或多個感測器擷取的一感測器資料,其中該感測器資料指示該使用者的一隻或更多只眼睛;及 基於該感測器資料來決定該使用者的該一或多個感知相關屬性。
- 根據請求項7之XR系統,亦包括: 該一或多個感測器。
- 根據請求項1之XR系統,其中該一或多個處理器被配置為: 基於由一或多個影像感測器擷取的一感測器資料來決定該使用者的該一或多個感知相關屬性,其中該感測器資料包括該使用者的一隻或更多只眼睛的一或多個影像。
- 根據請求項1之XR系統,其中該一或多個處理器被配置為: 基於該使用者對該虛擬內容的感知位準來決定該使用者對該虛擬內容的一理解位準,其中為了基於該感知位準來決定對該顯示設定的該修改,該一或多個處理器被配置為基於該理解位準來決定對該顯示設定的該修改。
- 根據請求項10之XR系統,其中該一或多個處理器被配置為: 接收與該使用者相關聯的一歷史資訊,其中為了決定該使用者對該虛擬內容的該理解位準,該一或多個處理器被配置為基於關於該使用者的該歷史資訊來決定該使用者對該虛擬內容的該理解位準。
- 根據請求項1之XR系統,其中該一或多個處理器被配置為: 決定該虛擬內容的一特性,其中為了決定該使用者對該虛擬內容的該感知位準,該一或多個處理器被配置為進一步基於該虛擬內容的該特性來決定該感知位準。
- 根據請求項1之XR系統,其中該一或多個處理器被配置為: 決定該虛擬內容的一複雜性位準,其中為了決定該使用者對該虛擬內容的該感知位準,該一或多個處理器被配置為基於該虛擬內容的該複雜性位準來決定該感知位準。
- 根據請求項1之XR系統,其中該一或多個處理器被配置為: 決定該虛擬內容的一獨特性位準,其中為了決定該使用者對該虛擬內容的該感知位準,該一或多個處理器被配置為基於該虛擬內容的該獨特性位準來決定該感知位準。
- 根據請求項1之XR系統,其中對與該虛擬內容相對應的該顯示設定的該修改包括使得該顯示器停止顯示該虛擬內容的至少一部分。
- 根據請求項1之XR系統,其中對與該虛擬內容相對應的該顯示設定的該修改包括使得該顯示器比該修改之前更突出地顯示該虛擬內容的至少一部分。
- 根據請求項1之XR系統,其中對與該虛擬內容相對應的該顯示設定的該修改包括對該虛擬內容的一或多個特性的一修改,其中該一或多個特性包括一位置、一方位、一深度、一大小、一顏色、一字體大小、一字體顏色、一字體、一語言和一佈局中的至少一個。
- 根據請求項1之XR系統,其中為了決定該使用者對該虛擬內容的該感知位準,該一或多個處理器被配置為決定該使用者已經感知到該虛擬內容。
- 根據請求項1之XR系統,其中為了決定該使用者對該虛擬內容的該感知位準,該一或多個處理器被配置為決定該使用者沒有感知到該虛擬內容。
- 根據請求項1之XR系統,其中對該顯示設定的該修改基於該虛擬內容將被該使用者在一定時間量內查看的可能性的一置信度位準。
- 根據請求項1之XR系統,其中為了決定該使用者對該虛擬內容的該感知位準,該一或多個處理器被配置為決定與該使用者對該虛擬內容的該感知位準相對應的一置信度位準,其中對該顯示設定的該修改基於該置信度位準。
- 根據請求項1之XR系統,其中該使用者的該一或多個感知相關屬性包括該使用者的一隻或更多只眼睛相對於該虛擬內容的一或多個眼睛位置。
- 根據請求項1之XR系統,其中該使用者的該一或多個感知相關屬性包括該使用者的一隻或更多只眼睛的一次或多次迅速掃視的一或多個特性,其中該一或多個特性包括一頻率、一持續時間、一定時、一迅速掃視速度、一迅速掃視幅度、一眼睛位置和一眼睛運動中的至少一個。
- 根據請求項1之XR系統,其中該使用者的該一或多個感知相關屬性包括該使用者的一隻或更多只眼睛的一次或多次注視的一或多個特性,其中該一或多個特性包括一頻率、一持續時間、一定時、一眼睛位置和一眼睛運動中的至少一個。
- 根據請求項1之XR系統,其中該使用者的該一或多個感知相關屬性包括該使用者的一隻或更多只眼睛的一次或多次瞳孔擴張的一或多個特性,其中該一或多個特性包括一頻率、一持續時間、一定時、一瞳孔擴張位準、一眼睛位置和一眼睛運動中的至少一個。
- 根據請求項1之XR系統,其中該使用者的該一或多個感知相關屬性包括該使用者的一或多個眼瞼的一次或多次眨眼的一或多個特性,其中該一或多個特性包括一頻率、一持續時間、一定時、一眨眼速度、一眼睛位置和一眼睛運動中的至少一個。
- 根據請求項1之XR系統,其中該使用者的該一或多個感知相關屬性包括該使用者的一或多個眼瞼的一次或多次眯眼的一或多個特性,其中該一或多個特性包括一頻率、一持續時間、一定時、一眯眼位準、一眼睛位置和一眼睛運動中的至少一個。
- 根據請求項1之XR系統,其中該一或多個處理器被配置為: 基於該虛擬內容的該感知位準和一字串的長度來決定該使用者對該字串的一閱讀程度,其中該虛擬內容包括該字串。
- 根據請求項1之XR系統,亦包括: 該顯示器。
- 一種擴展現實(XR)操作的方法,該方法包括以下步驟: 使得根據與一虛擬內容相關聯的一顯示設定使用一顯示器來顯示該虛擬內容,其中當該顯示器顯示該虛擬內容時,使用該顯示器可觀看一環境; 基於一使用者的一或多個感知相關屬性來決定該使用者對使用該顯示器顯示的該虛擬內容的一感知位準;及 基於該使用者對該虛擬內容的該感知位準來決定對與該虛擬內容相對應的該顯示設定的一修改。
- 根據請求項30之方法,其中決定該使用者對該虛擬內容的該感知位準包括使用該使用者的一或多個感知相關屬性作為對一或多個經訓練機器學習系統的輸入。
- 根據請求項30之方法,亦包括以下步驟: 基於由一或多個影像感測器擷取的一感測器資料來決定該使用者的該一或多個感知相關屬性,其中該感測器資料包括該使用者的一隻或更多只眼睛的一或多個影像。
- 根據請求項30之方法,亦包括以下步驟: 基於該使用者對該虛擬內容的該感知位準來決定該使用者對該虛擬內容的一理解位準,其中基於該感知位準來決定對該顯示設定的該修改包括基於該理解位準來決定對該顯示設定的該修改。
- 根據請求項30之方法,亦包括以下步驟: 決定該虛擬內容的一複雜性位準,其中決定該使用者對該虛擬內容的該感知位準基於該虛擬內容的該複雜性位準。
- 根據請求項30之方法,亦包括以下步驟: 決定該虛擬內容的一獨特性位準,其中決定該使用者對該虛擬內容的該感知位準基於該虛擬內容的該獨特性位準。
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US17/454,188 | 2021-11-09 | ||
US17/454,188 US11934572B2 (en) | 2021-11-09 | 2021-11-09 | Dynamic content presentation for extended reality systems |
Publications (1)
Publication Number | Publication Date |
---|---|
TW202328871A true TW202328871A (zh) | 2023-07-16 |
Family
ID=84358840
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
TW111139812A TW202328871A (zh) | 2021-11-09 | 2022-10-20 | 用於擴展現實系統的動態內容呈現 |
Country Status (3)
Country | Link |
---|---|
US (2) | US11934572B2 (zh) |
TW (1) | TW202328871A (zh) |
WO (1) | WO2023086728A1 (zh) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US11622100B2 (en) * | 2021-02-17 | 2023-04-04 | flexxCOACH VR | 360-degree virtual-reality system for dynamic events |
Family Cites Families (14)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5724987A (en) * | 1991-09-26 | 1998-03-10 | Sam Technology, Inc. | Neurocognitive adaptive computer-aided training method and system |
US6351273B1 (en) * | 1997-04-30 | 2002-02-26 | Jerome H. Lemelson | System and methods for controlling automatic scrolling of information on a display or screen |
AT505338B1 (de) * | 2007-06-12 | 2009-03-15 | Ernst Dipl Ing Dr Pfleger | Verfahren zur wahrnehmungsmessung |
US8758018B2 (en) * | 2009-12-31 | 2014-06-24 | Teledyne Scientific & Imaging, Llc | EEG-based acceleration of second language learning |
US9384678B2 (en) * | 2010-04-14 | 2016-07-05 | Thinkmap, Inc. | System and method for generating questions and multiple choice answers to adaptively aid in word comprehension |
US9478143B1 (en) * | 2011-03-25 | 2016-10-25 | Amazon Technologies, Inc. | Providing assistance to read electronic books |
AU2011204946C1 (en) * | 2011-07-22 | 2012-07-26 | Microsoft Technology Licensing, Llc | Automatic text scrolling on a head-mounted display |
US9778829B2 (en) * | 2012-02-17 | 2017-10-03 | Lenovo (Singapore) Pte. Ltd. | Magnification based on eye input |
US20150213634A1 (en) * | 2013-01-28 | 2015-07-30 | Amit V. KARMARKAR | Method and system of modifying text content presentation settings as determined by user states based on user eye metric data |
US20150331240A1 (en) * | 2014-05-15 | 2015-11-19 | Adam G. Poulos | Assisted Viewing Of Web-Based Resources |
KR101638095B1 (ko) * | 2015-01-16 | 2016-07-20 | 한국과학기술원 | 시선 인식 및 생체 신호를 이용한 헤드 마운트 디스플레이를 통해 사용자 인터페이스를 제공하는 방법, 이를 이용한 장치 및 컴퓨터 판독 가능한 기록 매체 |
US10319250B2 (en) * | 2016-12-29 | 2019-06-11 | Soundhound, Inc. | Pronunciation guided by automatic speech recognition |
US10660570B2 (en) * | 2016-12-31 | 2020-05-26 | Daqri, Llc | Attention, comprehension, and drowsiness monitoring via head mounted device supporting augmented and mixed reality experiences |
US11360554B2 (en) * | 2020-04-04 | 2022-06-14 | Lenovo (Singapore) Pte. Ltd. | Device action based on pupil dilation |
-
2021
- 2021-11-09 US US17/454,188 patent/US11934572B2/en active Active
-
2022
- 2022-10-19 WO PCT/US2022/078395 patent/WO2023086728A1/en active Application Filing
- 2022-10-20 TW TW111139812A patent/TW202328871A/zh unknown
-
2024
- 2024-01-23 US US18/420,577 patent/US20240168548A1/en active Pending
Also Published As
Publication number | Publication date |
---|---|
US11934572B2 (en) | 2024-03-19 |
WO2023086728A1 (en) | 2023-05-19 |
US20240168548A1 (en) | 2024-05-23 |
US20230144091A1 (en) | 2023-05-11 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US9838597B2 (en) | Imaging device, imaging method, and program | |
US9479736B1 (en) | Rendered audiovisual communication | |
US9035970B2 (en) | Constraint based information inference | |
US9105210B2 (en) | Multi-node poster location | |
US11487354B2 (en) | Information processing apparatus, information processing method, and program | |
JPWO2018155026A1 (ja) | 情報処理装置、情報処理方法、及びプログラム | |
JP2023529126A (ja) | 三次元環境におけるアバターの提示 | |
US20240168548A1 (en) | Dynamic content presentation for extended reality systems | |
EP2583131B1 (en) | Personal viewing devices | |
CN118176475A (zh) | 用于扩展现实系统的动态内容呈现 | |
US11798204B2 (en) | Systems and methods of image processing based on gaze detection | |
US20230342487A1 (en) | Systems and methods of image processing for privacy management | |
US20230401673A1 (en) | Systems and methods of automated imaging domain transfer | |
US20230410378A1 (en) | Systems and methods for user persona management in applications with virtual content | |
US20230222757A1 (en) | Systems and methods of media processing | |
US11889196B2 (en) | Systems and methods for determining image capture settings | |
TW202414341A (zh) | 自動成像域轉移的系統和方法 | |
US20240064417A1 (en) | Systems and methods for multi-context image capture | |
US20240107092A1 (en) | Video playing method and apparatus | |
US20240095997A1 (en) | Systems and methods of image reprojection | |
TW202405617A (zh) | 針對擴展現實的使用者注意力決定 | |
US20240087232A1 (en) | Systems and methods of three-dimensional modeling based on object tracking |