TW202316240A - 自動化化身 - Google Patents

自動化化身 Download PDF

Info

Publication number
TW202316240A
TW202316240A TW111133400A TW111133400A TW202316240A TW 202316240 A TW202316240 A TW 202316240A TW 111133400 A TW111133400 A TW 111133400A TW 111133400 A TW111133400 A TW 111133400A TW 202316240 A TW202316240 A TW 202316240A
Authority
TW
Taiwan
Prior art keywords
avatar
image
user
library
semantic
Prior art date
Application number
TW111133400A
Other languages
English (en)
Inventor
阿姆魯塔 哈卡雷 阿如納查拉
Original Assignee
美商元平台技術有限公司
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 美商元平台技術有限公司 filed Critical 美商元平台技術有限公司
Publication of TW202316240A publication Critical patent/TW202316240A/zh

Links

Images

Classifications

    • AHUMAN NECESSITIES
    • A63SPORTS; GAMES; AMUSEMENTS
    • A63FCARD, BOARD, OR ROULETTE GAMES; INDOOR GAMES USING SMALL MOVING PLAYING BODIES; VIDEO GAMES; GAMES NOT OTHERWISE PROVIDED FOR
    • A63F13/00Video games, i.e. games using an electronically generated display having two or more dimensions
    • A63F13/60Generating or modifying game content before or while executing the game program, e.g. authoring tools specially adapted for game development or game-integrated level editor
    • A63F13/63Generating or modifying game content before or while executing the game program, e.g. authoring tools specially adapted for game development or game-integrated level editor by the player, e.g. authoring using a level editor
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T11/002D [Two Dimensional] image generation
    • AHUMAN NECESSITIES
    • A63SPORTS; GAMES; AMUSEMENTS
    • A63FCARD, BOARD, OR ROULETTE GAMES; INDOOR GAMES USING SMALL MOVING PLAYING BODIES; VIDEO GAMES; GAMES NOT OTHERWISE PROVIDED FOR
    • A63F13/00Video games, i.e. games using an electronically generated display having two or more dimensions
    • A63F13/40Processing input control signals of video game devices, e.g. signals generated by the player or derived from the environment
    • AHUMAN NECESSITIES
    • A63SPORTS; GAMES; AMUSEMENTS
    • A63FCARD, BOARD, OR ROULETTE GAMES; INDOOR GAMES USING SMALL MOVING PLAYING BODIES; VIDEO GAMES; GAMES NOT OTHERWISE PROVIDED FOR
    • A63F13/00Video games, i.e. games using an electronically generated display having two or more dimensions
    • A63F13/55Controlling game characters or game objects based on the game progress
    • AHUMAN NECESSITIES
    • A63SPORTS; GAMES; AMUSEMENTS
    • A63FCARD, BOARD, OR ROULETTE GAMES; INDOOR GAMES USING SMALL MOVING PLAYING BODIES; VIDEO GAMES; GAMES NOT OTHERWISE PROVIDED FOR
    • A63F13/00Video games, i.e. games using an electronically generated display having two or more dimensions
    • A63F13/60Generating or modifying game content before or while executing the game program, e.g. authoring tools specially adapted for game development or game-integrated level editor
    • AHUMAN NECESSITIES
    • A63SPORTS; GAMES; AMUSEMENTS
    • A63FCARD, BOARD, OR ROULETTE GAMES; INDOOR GAMES USING SMALL MOVING PLAYING BODIES; VIDEO GAMES; GAMES NOT OTHERWISE PROVIDED FOR
    • A63F13/00Video games, i.e. games using an electronically generated display having two or more dimensions
    • A63F13/60Generating or modifying game content before or while executing the game program, e.g. authoring tools specially adapted for game development or game-integrated level editor
    • A63F13/65Generating or modifying game content before or while executing the game program, e.g. authoring tools specially adapted for game development or game-integrated level editor automatically by game devices or servers from real world data, e.g. measurement in live racing competition
    • A63F13/655Generating or modifying game content before or while executing the game program, e.g. authoring tools specially adapted for game development or game-integrated level editor automatically by game devices or servers from real world data, e.g. measurement in live racing competition by importing photos, e.g. of the player
    • AHUMAN NECESSITIES
    • A63SPORTS; GAMES; AMUSEMENTS
    • A63FCARD, BOARD, OR ROULETTE GAMES; INDOOR GAMES USING SMALL MOVING PLAYING BODIES; VIDEO GAMES; GAMES NOT OTHERWISE PROVIDED FOR
    • A63F13/00Video games, i.e. games using an electronically generated display having two or more dimensions
    • A63F13/60Generating or modifying game content before or while executing the game program, e.g. authoring tools specially adapted for game development or game-integrated level editor
    • A63F13/67Generating or modifying game content before or while executing the game program, e.g. authoring tools specially adapted for game development or game-integrated level editor adaptively or by learning from player actions, e.g. skill level adjustment or by storing successful combat sequences for re-use
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/23Updating
    • G06F16/2365Ensuring data consistency and integrity
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/25Determination of region of interest [ROI] or a volume of interest [VOI]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/70Labelling scene content, e.g. deriving syntactic or semantic representations
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • AHUMAN NECESSITIES
    • A63SPORTS; GAMES; AMUSEMENTS
    • A63FCARD, BOARD, OR ROULETTE GAMES; INDOOR GAMES USING SMALL MOVING PLAYING BODIES; VIDEO GAMES; GAMES NOT OTHERWISE PROVIDED FOR
    • A63F2300/00Features of games using an electronically generated display having two or more dimensions, e.g. on a television screen, showing representations related to the game
    • A63F2300/50Features of games using an electronically generated display having two or more dimensions, e.g. on a television screen, showing representations related to the game characterized by details of game servers
    • A63F2300/53Features of games using an electronically generated display having two or more dimensions, e.g. on a television screen, showing representations related to the game characterized by details of game servers details of basic data processing
    • A63F2300/535Features of games using an electronically generated display having two or more dimensions, e.g. on a television screen, showing representations related to the game characterized by details of game servers details of basic data processing for monitoring, e.g. of user parameters, terminal parameters, application parameters, network parameters
    • AHUMAN NECESSITIES
    • A63SPORTS; GAMES; AMUSEMENTS
    • A63FCARD, BOARD, OR ROULETTE GAMES; INDOOR GAMES USING SMALL MOVING PLAYING BODIES; VIDEO GAMES; GAMES NOT OTHERWISE PROVIDED FOR
    • A63F2300/00Features of games using an electronically generated display having two or more dimensions, e.g. on a television screen, showing representations related to the game
    • A63F2300/50Features of games using an electronically generated display having two or more dimensions, e.g. on a television screen, showing representations related to the game characterized by details of game servers
    • A63F2300/55Details of game data or player data management
    • A63F2300/5546Details of game data or player data management using player registration data, e.g. identification, account, preferences, game history
    • A63F2300/5553Details of game data or player data management using player registration data, e.g. identification, account, preferences, game history user representation in the game field, e.g. avatar
    • AHUMAN NECESSITIES
    • A63SPORTS; GAMES; AMUSEMENTS
    • A63FCARD, BOARD, OR ROULETTE GAMES; INDOOR GAMES USING SMALL MOVING PLAYING BODIES; VIDEO GAMES; GAMES NOT OTHERWISE PROVIDED FOR
    • A63F2300/00Features of games using an electronically generated display having two or more dimensions, e.g. on a television screen, showing representations related to the game
    • A63F2300/80Features of games using an electronically generated display having two or more dimensions, e.g. on a television screen, showing representations related to the game specially adapted for executing a specific type of game
    • A63F2300/8082Virtual reality

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Software Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Artificial Intelligence (AREA)
  • Computing Systems (AREA)
  • Computational Linguistics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Computation (AREA)
  • Medical Informatics (AREA)
  • Mathematical Physics (AREA)
  • Human Computer Interaction (AREA)
  • Computer Security & Cryptography (AREA)
  • Databases & Information Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • General Health & Medical Sciences (AREA)
  • Processing Or Creating Images (AREA)
  • User Interface Of Digital Computer (AREA)

Abstract

本發明提供一種自動化身系統,其可建立具有自一或多個來源提取之特徵的一定製化身。該自動化身系統可自一使用者之一線上情境來源(例如,購物活動、社交媒體活動、傳訊活動等)及/或自描述一或多個化身特徵之一使用者提供之文字描述來源識別該使用者之一來源影像中之此等特徵。該自動化身系統可查詢該等所識別化身特徵之一化身庫。在一些情況下,該自動化身系統可自各種來源識別相同化身特徵之多個選項,且該自動化身系統可基於在該等來源之間指定之一優先級次序或藉由向該使用者提供該等多個選項以供選擇來選擇待使用該等特徵中之哪一者。一旦獲得該等化身特徵,該自動化身系統便可將其組合以建立該定製化身。

Description

自動化化身
本發明係關於使用自諸如使用者之影像、使用者之線上情境及/或化身特徵之文字描述的來源自動選擇之化身特徵來產生化身。
化身為使用者之圖形表示,其可表示人工實境環境中、社交網路上、傳訊平台上、遊戲中、3D環境中等之使用者。在各種系統中,使用者可例如使用遊戲控制器、鍵盤等來控制化身,或計算系統可監視使用者之移動且可使化身模擬使用者之移動。通常,使用者可諸如藉由選擇身體及面部特徵、添加衣服及配件、設定髮型等來定製其化身。典型地,此等化身客制化係基於使用者查看化身庫中之化身特徵之類別,且針對一些其他可定製特徵,設定此等特徵之特性,諸如大小或顏色。接著將所選化身特徵拼湊在一起以創建使用者化身。
提供一種用於自動產生一化身之方法,該方法包含:藉由以下操作而基於一或多個來源自動獲得化身特徵:使用一影像來源,其包括:獲得一使用者之一影像;將一或多個機器學習模型應用於該使用者之該影像的一表示以產生對應於一化身庫中之化身特徵的影像語意識別符;及自該化身庫選擇匹配所產生的該等影像語意識別符之化身特徵;使用一線上情境來源,其包括:獲得指示該使用者之一或多個線上活動之資料;判定該一或多個線上活動中之一線上活動的一類型;判定映射至所判定的該類型之一情境語意識別符提取方法;將該情境語意識別符提取方法應用於該線上活動以獲得一或多個情境語意識別符;及自該化身庫選擇匹配該等情境語意識別符之化身特徵;或使用一文字描述來源,其包括:獲得一化身之一文字描述;藉由對該文字描述應用自然語言處理來識別一或多個文字語意識別符以提取對應於該化身庫中所定義之化身特徵之n元語法;及自該化身庫選擇匹配該等情境語意識別符之化身特徵;判定該等化身特徵中之兩者或更多者之間的一衝突,且作為回應,基於一所判定優先級排序而自所獲得的該等化身特徵移除該等化身特徵中之除該兩者或更多者中之一者以外的全部;及藉由所獲得的該等化身特徵來建構一化身。
提供一種電腦可讀儲存媒體,其儲存指令,該等指令在由一計算系統執行時使該計算系統執行用於自動產生一化身之一程序,該程序包含:使用一影像來源自動獲得化身特徵,其包括:獲得一使用者之一影像;將一或多個機器學習模型應用於該使用者之該影像的一表示以產生對應於一化身庫中之化身特徵的所產生的影像語意識別符;及自該化身庫選擇匹配所產生的該等影像語意識別符之化身特徵;及藉由所獲得的該等化身特徵來建構一化身。
提供一種用於自動產生一化身之計算系統,該計算系統包含:一或多個處理器;及一或多個記憶體,其儲存指令,該等指令在由該一或多個處理器執行時使該計算系統執行一程序,該程序包含:藉由以下操作而基於一或多個來源自動獲得化身特徵:使用一影像來源,其包括:獲得一使用者之一影像;將一或多個機器學習模型應用於該使用者之該影像的一表示以產生對應於一化身庫中之化身特徵的影像語意識別符;及自該化身庫選擇匹配所產生的該等影像語意識別符之化身特徵;使用一線上情境來源,其包括:獲得指示該使用者之一或多個線上活動之資料;判定該一或多個線上活動中之一線上活動的一類型;判定映射至所判定的該類型之一情境語意識別符提取方法;將該情境語意識別符提取方法應用於該線上活動以獲得一或多個情境語意識別符;及自該化身庫選擇匹配該等情境語意識別符之化身特徵;或使用一文字描述來源,其包括:獲得一化身之一文字描述;藉由對該文字描述應用自然語言處理來識別一或多個文字語意識別符以提取對應於該化身庫中所定義之化身特徵之n元語法;及自該化身庫選擇匹配該等情境語意識別符之化身特徵;及藉由所獲得的該等化身特徵來建構一化身。
本發明之態樣係關於一種自動化身系統,其可建立具有匹配一或多個來源中所識別之特徵的特徵之定製化身。自動化身系統可自使用者之線上情境(例如,購物活動、社交媒體活動、傳訊活動等)及/或由使用者提供之一或多個化身特徵的文字/音訊描述識別使用者之影像中之此等匹配特徵。自動化身系統可接著查詢所識別化身特徵之化身庫。在來自化身庫之結果中不包括所需化身特徵之情況下,自動化身系統可使用一般預設化身特徵或由使用者先前選擇之預設化身特徵。在一些情況下,自動化身系統可自各種來源識別相同化身特徵之多個選項,且自動化身系統可基於在來源之間指定之優先級次序或藉由向使用者提供多個選項以供選擇來選擇待使用特徵中之哪一者。一旦獲得化身特徵,自動化身系統便可將其組合以建立定製化身。下文關於圖5及圖12提供關於獲得化身特徵及建立化身之額外細節。
自動化身系統可藉由將一或多個機器學習模型應用於影像而自該影像識別化身特徵,該一或多個機器學習模型經訓練以產生化身特徵之語意識別符,諸如頭髮類型、面部特徵、身體特徵、衣服/配件識別符、特徵特性,諸如顏色、形狀、大小、品牌等。舉例而言,機器學習模型可經訓練以識別與所定義化身特徵庫中之化身特徵之類型匹配的化身特徵。在一些實施中,此等機器學習模型可為通用物件辨識模型,其中接著針對匹配化身特徵庫中所定義之化身特徵之辨識過濾結果,或可專門訓練機器學習模型來識別化身特徵庫中所定義之化身特徵。下文關於圖6及圖9提供關於自影像識別化身特徵之額外細節。
自動化身系統可藉由獲得使用者之線上活動的細節,諸如購物條目、社交媒體「點贊(likes)」及貼文、事件RSVP、位置簽到等而自使用者之線上情境識別化身特徵。此等類型之活動可各自映射至用以提取對應化身特徵之程序。舉例而言,可將購物條目映射至選擇所購買條目之圖像及尋找化身庫中之最接近匹配化身特徵;可將事件RSVP映射至選擇匹配事件之配件(例如,為體育事件之RSVP挑選匹配團隊之運動帽);可將社交媒體帖子上之點贊映射至提取所描繪之個人的特徵(例如,匹配化妝樣式)及/或提取所描繪之物件(例如,自化身庫選擇最佳匹配社交媒體帖子中所描繪的一雙鞋之化身特徵);等。下文關於圖7及圖10提供關於自線上情境識別化身特徵之額外細節。
自動化身系統可藉由將自然語言處理(natural language processing;NLP)模型及技術應用於一或多個化身特徵之使用者供應之文字描述(例如,以文字形式或口頭供應且接著轉錄)而自化身之使用者提供之描述識別化身特徵。此可包括應用經訓練之機器學習模型及/或演算法,該等演算法經組態以例如執行詞性標記及識別對應於化身庫中所定義之化身特徵的n元語法。舉例而言,自動化身系統可識別對應於化身特徵之某些名詞或名詞片語,諸如頭髮、襯衫、帽子等,且可識別修飾片語,諸如大、牛仔(cowboy)、藍色、捲曲等,且可選擇最佳匹配該片語之化身特徵,從而設定匹配修飾片語之特性。下文關於圖8及圖11提供關於自化身之使用者提供之描述識別化身特徵之額外細節。
所揭示技術之具體實例可包括人工實境系統或結合人工實境系統實施。人工實境或額外實境(extra reality;XR)為在向使用者呈現之前已以某一方式調整之實境形式,其可包括例如虛擬實境(virtual reality;VR)、擴增實境(augmented reality;AR)、混合實境(mixed reality;MR)、混雜實境或其某一組合及/或衍生物。人工實境內容可包括完全產生之內容或與所擷取內容(例如,真實世界相片)組合的所產生內容。人工實境內容可包括視訊、音訊、觸覺反饋或其某一組合,其中之任一者可在單一通道中或在多個通道中(諸如,對觀看者產生三維效應之立體視訊)呈現。另外,在一些具體實例中,人工實境可與例如用以在人工實境中創建內容及/或用於人工實境中(例如,在人工實境中執行活動)之應用、產品、配件、服務或其某一組合相關聯。提供人工實境內容之人工實境系統可實施於各種平台上,包括連接至主機電腦系統之頭戴式顯示器(head-mounted display;HMD)、獨立式HMD、行動裝置或計算系統、「洞穴式」環境或其他投影系統,或能夠將人工實境內容提供至一或多個觀看者之任何其他硬體平台。
如本文中所使用之「虛擬實境」或「VR」係指使用者之視覺輸入由計算系統控制的沉浸式體驗。「擴增實境」或「AR」係指使用者在真實世界之影像已傳遞經過計算系統之後觀看該等影像的系統。舉例而言,背面具有攝影機之平板電腦可擷取真實世界之影像,且接著在平板電腦的與攝影機的相對側上的螢幕上顯示影像。平板電腦可在影像穿過系統時諸如藉由添加虛擬物件處理及調整或「擴增」影像。「混合實境」或「MR」係指其中進入使用者之眼睛之光部分地由計算系統產生且部分地構成自真實世界中之物件反射之光的系統。舉例而言,MR耳機可經成形為具有透通顯示器之一副眼鏡,其允許來自真實世界之光穿過同時自MR耳機中之投影儀發射光的波導,從而允許MR耳機呈現與使用者可看見之真實物件互混的虛擬物件。如本文中所使用在之「人工實境」、「額外實境」或「XR」係指VR、AR、MR或其任何組合或混雜中之任一者。
提供系統之使用者之表示的典型系統為每個人提供單一化身,使用者可能夠手動地重新組態該單一化身。然而,人們非常頻繁地改變衣服、配件、樣式(例如,鬍鬚、無鬍鬚、髮色等)。然而,人們通常不想努力對其化身進行對應的改變,因為如此做會花費過多時間。因此,儘管存在供使用者選擇化身特徵從而產生「個人化」化身之現有系統,但由於使用者改變其樣式、衣服等,此等化身傾向於偏離準確地表示使用者。另外,現有個人化系統之操作很耗時,通常需要使用者通過許多選擇螢幕來操作。本文中所描述之自動化身系統及程序解決了與習知化身個人化技術相關聯之此等問題,且預期產生快速且易於創建同時準確地表示使用者或使用者之預期外觀之個人化化身。特定言之,自動化身系統可基於使用者供應之來源(諸如影像、線上情境及/或文字)自動識別化身特性。由此,自動化身系統可對結果進行排名且產生所推薦化身特徵,從而允許使用者保持其化身之新鮮感且與使用者之當前樣式一致,而無需使用者投入大量精力。另外,替代為手動創建化身之現有技術的模擬,本文中所描述之自動化身系統及程序植根於電腦化機器學習及人工實境技術。舉例而言,現有化身個人化技術依賴於使用者手動選擇以連續定製化身,而自動化身系統提供用於自動識別化身特徵之多個途徑(例如,使用者影像、線上情境及文字描述)。
下文參考圖式更詳細地論述若干實施。圖1為說明所揭示技術之一些實施可在其上操作之裝置之概觀的方塊圖。裝置可包含計算系統100之硬體組件,其使用基於諸如使用者之影像、使用者之線上情境及/或化身特徵之文字描述之來源自動選擇之化身特徵來產生化身。在各種實施中,計算系統100可包括經由有線或無線通道通信以分配處理及共用輸入資料之單個計算裝置103或多個計算裝置(例如,計算裝置101、計算裝置102及計算裝置103)。在一些實施中,計算系統100可包括能夠為使用者提供電腦創建或擴增體驗而無需外部處理或感測器之獨立式耳機。在其他實施中,計算系統100可包括多個計算裝置,諸如耳機及核心處理組件(諸如控制台、行動裝置或伺服器系統),其中對耳機執行一些處理操作且將其他處理操作卸載至核心處理組件。下文關於圖2A及圖2B描述實例耳機。在一些實施中,位置及環境資料可僅由併入於耳機裝置中之感測器來搜集,而在其他實施中,非耳機計算裝置中之一或多者可包括可追蹤環境或位置資料之感測器組件。
計算系統100可包括一或多個處理器110(例如,中央處理單元(central processing unit;CPU)、圖形處理單元(graphical processing unit;GPU)、全像處理單元(holographic processing unit;HPU)等)。處理器110可為裝置中之單個處理單元或多個處理單元或跨多個裝置分佈(例如,跨計算裝置101至103中之兩者或更多者分佈)。
計算系統100可包括將輸入提供至處理器110從而通知其動作之一或多個輸入裝置120。該等動作可由硬體控制器介導,該硬體控制器解譯自輸入裝置接收之信號且使用通信協定將資訊傳達至處理器110。各輸入裝置120可包括例如滑鼠、鍵盤、觸控螢幕、觸控板、穿戴式輸入裝置(例如,觸覺手套、手鐲、手環、耳環、項鏈、腕表等)、攝影機(或其他基於光之輸入裝置,例如,紅外線感測器)、麥克風或其他使用者輸入裝置。
處理器110可例如藉由使用諸如PCI匯流排、SCSI匯流排或無線連接之內部或外部匯流排耦接至其他硬體裝置。處理器110可與用於裝置(諸如用於顯示器130)之硬體控制器通信。顯示器130可用於顯示文字及圖形。在一些實施中,諸如當輸入裝置為觸控螢幕或配備有眼睛方向監視系統時,顯示器130包括輸入裝置作為顯示器之部分。在一些實施中,顯示器與輸入裝置分離。顯示裝置之實例為:LCD顯示螢幕、LED顯示螢幕、投影、全像或擴增實境顯示器(諸如,抬頭顯示裝置或頭戴式裝置)等。其他I/O裝置140亦可耦接至處理器,諸如網路晶片或卡、視訊晶片或卡、音訊晶片或卡、USB、火線或其他外部裝置、攝影機、印表機、揚聲器、CD-ROM驅動器、DVD驅動器、磁碟機等。
在一些實施中,來自I/O裝置140(諸如攝影機、深度感測器、IMU感測器、GPS單元、LiDAR或其他飛行時間感測器等)之輸入可由計算系統100用來識別及映射使用者之實體環境,同時追蹤彼環境內之使用者之位置。此即時定位與地圖建構(simultaneous localization and mapping;SLAM)系統可產生區域(其可為房間、建築物、室外空間等)之地圖(例如,拓樸、柵格(gird)等)及/或獲得先前由計算系統100或已映射該區域之另一計算系統產生的地圖。SLAM系統可基於諸如GPS資料、匹配所識別物件及結構與所映射物件及結構、監視加速度及其他位置變化等之因素追蹤區域內之使用者。
計算系統100可包括能夠與其他本端計算裝置或網路節點無線或有線地通信之通信裝置。通信裝置可使用例如TCP/IP協定經由網路與另一裝置或伺服器通信。計算系統100可利用通信裝置來跨多個網路裝置分佈操作。
處理器110可存取記憶體150,其可含於計算系統100之計算裝置中之一者上或可跨計算系統100之多個計算裝置或其他外部裝置分佈。記憶體包括用於揮發性或非揮發性儲存器之一或多個硬體裝置,且可包括唯讀記憶體及可寫記憶體兩者。舉例而言,記憶體可包括隨機存取記憶體(random access memory;RAM)、各種快取記憶體、CPU暫存器、唯讀記憶體(read-only memory;ROM)及可寫非揮發性記憶體(諸如快閃記憶體、硬碟機、軟碟、CD、DVD、磁性儲存裝置、磁帶機等)中之一或多者。記憶體不為自基礎硬體脫離之傳播信號;因此,記憶體為非暫時性的。記憶體150可包括儲存程式及軟體之程式記憶體160,諸如作業系統162、自動化身系統164及其他應用程式166。記憶體150亦可包括資料記憶體170,其可包括化身特徵庫、使用者影像、線上活動、文字化身描述、經訓練以自各種來源提取化身識別符之機器學習模型、用於識別與來自社交媒體來源之化身特徵匹配之特徵的映射、組態資料、設置、使用者選項或偏好等,其可提供至程式記憶體160或計算系統100之任何元件。
一些實施可與大量其他計算系統環境或組態一起操作。可適合與技術一起使用之計算系統、環境及/或組態之實例包括但不限於XR耳機、個人電腦、伺服器電腦、手持型或膝上型電腦裝置、蜂巢式電話、穿戴式電子器件、遊戲控制台、平板電腦裝置、多處理器系統、基於微處理器之系統、機上盒、可程式化消費型電子裝置、網路PC、微型電腦、大型主機電腦、包括以上系統或裝置中之任一者的分佈式計算環境或類似者。
圖2A為根據一些具體實例之虛擬實境頭戴式顯示器(HMD)200的導線圖。HMD 200包括前剛體205及帶210。前剛體205包括電子顯示器245之一或多個電子顯示元件、慣性運動單元(inertial motion unit;IMU)215、一或多個位置感測器220、定位器225及一或多個計算單元230。位置感測器220、IMU 215及計算單元230可在HMD 200內部且對於使用者可能並不可見。在各種實施中,IMU 215、位置感測器220及定位器225可以三自由度(three degrees of freedom;3DoF)或六自由度(six degrees of freedom;6DoF)追蹤HMD 200在真實世界及人工實境環境中之移動及位置。舉例而言,定位器225可發射在HMD 200周圍之真實物件上產生光點的紅外光光束。作為另一實例,IMU 215可包括例如一或多個加速度計、陀螺儀、磁力計、其他非基於攝影機之位置、力或位向感測器,或其組合。與HMD 200整合之一或多個攝影機(圖中未示)可偵測光點。HMD 200中之計算單元230可使用偵測到的光點外推HMD 200之位置及移動以及識別圍繞HMD 200之真實物件之形狀及位置。
電子顯示器245可與前剛體205整合,且可將影像光提供至使用者,如由計算單元230規定。在各種具體實例中,電子顯示器245可為單個電子顯示器或多個電子顯示器(例如,用於各使用者眼睛之顯示器)。電子顯示器245之實例包括:液晶顯示器(liquid crystal display;LCD)、有機發光二極體(organic light-emitting diode;OLED)顯示器、主動矩陣有機發光二極體顯示器(active-matrix organic light-emitting diode;AMOLED)、包括一或多個量子點發光二極體(quantum dot light-emitting diode;QOLED)子像素之顯示器、投影儀單元(例如,微型LED、LASER等)、某一其他顯示器或其某一組合。
在一些實施中,HMD 200可耦接至核心處理組件,諸如個人電腦(personal computer;PC)(圖中未示)及/或一或多個外部感測器(圖中未示)。外部感測器可監視HMD 200(例如,經由自HMD 200發射之光),PC可結合來自IMU 215及位置感測器220之輸出而使用HMD 200來判定HMD 200之位置及移動。
圖2B為包括混合實境HMD 252及核心處理組件254之混合實境HMD系統250的導線圖。混合實境HMD 252及核心處理組件254可經由如由鏈路256所指示之無線連接(例如,60吉赫鏈路)通信。在其他實施中,混合實境系統250僅包括耳機而無外部計算裝置,或包括混合實境HMD 252與核心處理組件254之間的其他有線或無線連接。混合實境HMD 252包括透通顯示器258及框架260。框架260可容納各種電子組件(圖中未示),諸如光投影儀(例如,LASER、LED等)、攝影機、眼睛追蹤感測器、MEMS組件、網路連接組件等。
投影儀可例如經由光學元件耦接至透通顯示器258以向使用者顯示媒體。光學元件可包括一或多個波導總成、反射器、透鏡、鏡面、準直器、光柵等,以用於將光自投影儀引導至使用者之眼睛。影像資料可經由鏈路256自核心處理組件254傳輸至HMD 252。HMD 252中之控制器可將影像資料轉換成來自投影儀之光脈衝,其可作為輸出光經由光學元件傳輸至使用者之眼睛。輸出光可與穿過顯示器258之光混合,從而允許輸出光呈現如同其存在於真實世界中一般出現之虛擬物件。
類似於HMD 200,HMD系統250亦可包括運動及位置追蹤單元、攝影機、光源等,其允許HMD系統250例如以3DoF或6DoF追蹤自身、追蹤使用者之部分(例如,手、腳、頭部或其他身體部位)、將虛擬物件映射成在HMD 252移動時看似靜止,且使虛擬物件對手勢及其他真實世界物件作出反應。
圖2C說明控制器270,在一些實施中,使用者可將控制器270握持在一隻或兩隻手中以與由HMD 200及/或HMD 250呈現之人工實境環境互動。控制器270可直接或經由外部裝置(例如,核心處理組件254)與HMD通信。控制器可具有其自身的IMU單元、位置感測器,及/或可發射其他光點。 HMD 200或250、外部感測器或控制器中之感測器可追蹤此等控制器光點以判定控制器位置及/或位向(例如,以3DoF或6DoF追蹤控制器)。HMD 200中之計算單元230或核心處理組件254可結合IMU及位置輸出而使用此追蹤來監視使用者之手位置及運動。控制器亦可包括各種按鈕(例如,按鈕272A-F)及/或操縱桿(例如,操縱桿274A-B),使用者可致動該等按鈕及/或操縱桿以提供輸入且與物件互動。
在各種實施中,HMD 200或250亦可包括額外子系統(諸如眼睛追蹤單元、音訊系統、各種網路組件等)以監視使用者互動及意圖之指示。舉例而言,在一些實施中,替代控制器或除控制器以外,包括於HMD 200或250中或來自外部攝影機之一或多個攝影機可監視使用者之手的位置及姿勢以判定手勢及其他手及身體動作。作為另一實例,一或多個光源可照射使用者之眼睛中之任一者或兩者,且HMD 200或250可使用面向眼睛之攝影機來擷取此光之反射以判定眼睛位置(例如,基於圍繞使用者之角膜的反射集合),從而模型化使用者之眼睛且判定凝視方向。
圖3為說明所揭示技術之一些實施可在其中操作之環境300之概觀的方塊圖。環境300可包括一或多個用戶端計算裝置305A-D,該等用戶端計算裝置之實例可包括計算系統100。在一些實施中,用戶端計算裝置中之一些(例如,用戶端計算裝置305B)可為HMD 200或HMD系統250。用戶端計算裝置305可使用自網路330至一或多個遠端電腦(諸如伺服器計算裝置)之邏輯連接在網路化環境中操作。
在一些實施中,伺服器310可為經由其他伺服器(諸如伺服器320A-C)接收用戶端請求且協調彼等請求之履行的邊緣伺服器。伺服器計算裝置310及320可包含計算系統,諸如計算系統100。儘管各伺服器計算裝置310及320邏輯地顯示為單一伺服器,但伺服器計算裝置可各自為涵蓋位於相同或地理上不同的實體位置處之多個計算裝置之分佈式計算環境。
用戶端計算裝置305及伺服器計算裝置310及320可各自充當至其他伺服器/用戶端裝置之伺服器或用戶端。伺服器310可連接至資料庫315。伺服器320A-C可各自連接至對應資料庫325A-C。如上文所論述,各伺服器310或320可對應於伺服器群組,且此等伺服器中之各者可共用資料庫或可具有其自身的資料庫。儘管資料庫315及325邏輯地顯示為單一單元,但資料庫315及325可各自為涵蓋多個計算裝置之分佈式計算環境,可位於其對應伺服器內,或可位於同一或地理上不同的實體位置處。
網路330可為區域網路(local area network;LAN)、廣域網路(wide area network;WAN)、網狀網路、混雜網路或其他有線或無線網路。網路330可為網際網路或某一其他公用或私人網路。用戶端計算裝置305可經由網路介面(諸如藉由有線或無線通信)連接至網路330。儘管伺服器310與伺服器320之間的連接展示為單獨連接,但此等連接可為任何種類之本端、廣域網路、有線或無線網路,包括網路330或單獨公用或私用網路。
圖4為說明組件400之方塊圖,在一些實施中,組件400可用於採用所揭示技術之系統中。組件400可包括於計算系統100之一個裝置中或可跨計算系統100之多個裝置分佈。組件400包括硬體410、介質420及專用組件430。如上文所論述,實施所揭示技術之系統可使用各種硬體,包括處理單元412、工作記憶體414、輸入及輸出裝置416(例如,攝影機、顯示器、IMU單元、網路連接等)及儲存記憶體418。在各種實施中,儲存記憶體418可為以下中之一或多者:本端裝置、至遠端儲存裝置之介面,或其組合。舉例而言,儲存記憶體418可為可經由系統匯流排存取之一或多個硬碟機或快閃驅動器,或可為雲端儲存器提供者(諸如在儲存器315或325中)或可經由一或多個通信網路存取的其他網路儲存器。在各種實施中,組件400可實施於諸如用戶端計算裝置305之用戶端計算裝置中或諸如伺服器計算裝置310或320之伺服器計算裝置上。
介質420可包括介導硬體410與專用組件430之間的資源的組件。舉例而言,介質420可包括作業系統、服務、驅動器、基本輸入輸出系統(basic input output system;BIOS)、控制器電路或其他硬體或軟體系統。
專用組件430可包括經組態以執行以下操作之軟體或硬體:用於使用基於諸如使用者之影像、使用者之情境及/或化身特徵之文字描述之來源自動選擇之化身特徵來產生化身。專用組件430可包括影像特徵提取器434、線上情境特徵提取器436、文字特徵提取器438、化身庫440、特徵排名模組442、化身建構器444及可用於提供使用者介面、傳送資料及控制專用組件(諸如介面432)之組件及API。在一些實施中,組件400可在跨多個計算裝置分佈之計算系統中,或可為至執行專用組件430中之一或多者之基於伺服器之應用的介面。儘管描繪為單獨組件,但專用組件430可為功能之邏輯或其他非實體區分,及/或可為一或多個應用之子模組或程式碼區塊。
影像特徵提取器434可接收使用者之影像,且可識別可用於自化身庫440選擇化身特徵之語意識別符。影像特徵提取器434可藉由將一或多個機器學習模組應用於使用者之影像來實現此操作,該一或多個機器學習模組經訓練以產生語意識別符。下文關於圖6提供關於自影像提取化身特徵之額外細節。
線上情境特徵提取器436可接收關於使用者之線上活動之資料(例如,藉由使用者授權此資料用於化身選擇),且可識別可用於自化身庫440選擇化身特徵之語意識別符。線上情境特徵提取器436可藉由應用針對線上活動之類型而定義的選擇標準來實現此操作,其中選擇標準定義獲取由彼類型之線上活動產生之資料並產生一或多個語意識別符的一或多個演算法、機器學習模型等。下文關於圖7提供關於自線上情境提取化身特徵之額外細節。
文字特徵提取器438可自使用者接收化身特徵之文字描述(其可作為轉錄的文字或音訊提供),且可識別可用於自化身庫440選擇化身特徵之語意識別符。文字特徵提取器438可藉由應用一或多種自然語言處理技術以識別某些類型之片語(例如,匹配化身特徵定義之彼等片語)及修改片語(例如,可用於指定所識別化身特徵片語之特性的彼等片語)從而產生語意識別符來實現此操作。下文關於圖8提供關於自文字描述提取化身特徵之額外細節。
化身庫440可包括可經組合以創建化身之化身特徵陣列。在一些實施中,化身庫440可將化身特徵映射至語意空間中,從而藉由將語意識別符映射至語意空間中且將語意空間中最接近之化身特徵返回至語意識別符之位置來提供對化身特徵之搜尋。在一些實施中,化身庫440可接收文字語意識別符,且可返回具有最佳匹配文字語意識別符之描述的化身特徵。下文關於圖5之區塊504提供關於化身庫及選擇化身特徵之額外細節。
特徵排名模組442可判定當兩個或更多個所選化身特徵不可均用於同一化身中時選擇哪一者。特徵排名模組442可基於例如化身特徵之來源之間的排名、經由使用者選擇、基於所選化身特徵之信賴因子等來實現此操作。下文關於圖5之區塊506提供關於對衝突化身特徵進行排名之額外細節。
化身建構器444可採用自化身庫440獲得之化身特徵,且使用其來建構化身。下文關於圖5之區塊508提供關於建構化身之額外細節。
所屬技術領域中具有通常知識者將瞭解,上文所描述之圖1至圖4中所說明之組件及下文所論述之流程圖中之各者可以各種方式改變。舉例而言,可重新配置邏輯之次序,可並行地執行子步驟,可省略所說明之邏輯,可包括其他邏輯等。在一些實施中,上文所描述之組件中之一或多者可執行下文所描述之程序中之一或多者。
圖5為說明在本發明技術之一些實施中用於基於自一或多個來源提取之特徵自動產生化身之程序500的流程圖。在一些實施中,可在XR裝置、行動裝置或其他系統經初始化時(例如,當使用者進入人工實境環境時)、在使用者首次週期性地(例如,每天或每週)設置裝置時、回應於使用者請求進入化身客制化程序等執行程序500。在各種情況下,可在支援使用者表示之裝置(例如,人工實境裝置、行動電話、膝上型電腦等)上或在支援此等用戶端裝置之伺服器系統上執行程序500。
在區塊502,程序500可基於一或多個來源(例如,基於使用者影像、線上情境及/或文字化身描述)獲得化身特徵。程序500可分析來自一或多個來源中之各者的資訊以尋找匹配化身庫中之化身特性之可用類型(例如,頭髮、附件、衣服選項等)之特徵(例如,語意識別符)。舉例而言,使用者可供應可針對諸如所描繪髮型、所描繪衣服、所描繪配件、所描繪面部或身體特徵等之特徵進行分析的影像。下文關於圖6提供關於基於使用者影像獲得化身特徵之額外細節。作為另一實例,使用者可授權審查她的線上活動(「線上情境」)以選擇對應化身特徵,諸如最接近她的所購買條目之彼等特徵、她發佈或「點贊」的社交媒體帖子中常見之特徵、對應於她表示她會/將參加之事件的條目、對應於位置簽到之條目等。下文關於圖7提供關於基於線上情境獲得化身特徵之額外細節。作為另一實例,使用者可供應一或多個化身特徵之自然語言描述(例如,語音或鍵打命令,諸如「將吾之化身戴上綠色帽子」),程序500可分析該自然語言描述以匹配化身庫中之化身特徵。下文關於圖8提供關於基於文字化身描述獲得化身特徵之額外細節。
在區塊504,程序500可自化身庫獲得在區塊502識別之化身特徵。在一些實施中,此可包括判定語意識別符(例如「捲髮」、「正方形眼鏡」、「紅色背心」)與化身庫中之化身特徵之間的最佳匹配。舉例而言,可將化身特徵映射至語意空間中,且藉由經訓練之機器學習模型,可將語意識別符映射至語意空間中以識別最接近匹配(例如,最小擔保距離)化身特徵。在一些情況下,匹配可藉由使用已知文字比較技術將作為文字描述之語意識別符與化身庫中之化身特徵之文字描述進行比較來執行。
在一些實施中,所選化身特徵可具有可基於來自在區塊502處識別之來源之定義設置的特性選項(例如大小、樣式、顏色等)。舉例而言,若來源經識別為包括「藍色背心」,則可自化身庫選擇背心化身特徵且可將其設置成顯示為藍色(例如,通用「藍色」或匹配使用者供應之影像或線上情境來源的色調之特定藍色)。在一些情況下,自一或多個來源指定之化身特徵可能不包括視為必需之化身之部分,在此情況下,程序500可對此等部分使用預設化身特徵(例如,通用特徵、已知匹配使用者所定義之類型(諸如,性別、種族、年齡等)的特徵或預設化身中由使用者指定之特徵)。在一些情況下,此可包括使用所選化身特徵替換使用者之現有化身中之特徵。
在區塊506處,程序500可判定在區塊502處獲得之衝突化身特徵之間的優先級。在一些情況下,在區塊504獲得之化身特徵無法均應用於單一化身。舉例而言,化身特徵可包括黑色圓形眼鏡及紅色正方形眼鏡,且兩者無法戴在同一化身上。對於此等衝突,程序500可應用排名系統來選擇使用哪一化身特徵。在各種實施中,此可包括向使用者建議多個選項以選擇將哪一者應用於化身,選擇對應於最高排名來源之化身特徵(例如,基於文字描述之化身特徵之排名可高於基於影像之化身特徵之排名,後者又可高於基於線上情境之化身特徵之排名)。在一些情況下,程序500可僅自單一來源選擇化身特徵(根據來源排名),或可提供對應於各來源之化身之版本以供使用者在當中進行選擇。舉例而言,使用者可提供程序500可用來建立第一化身之影像,且程序500可判定使用者之線上情境,程序500可使用該線上情境來建立第二化身。可接著向使用者提供兩者以選擇第一化身、第二化身或非該等兩個化身成為她的當前化身。
在區塊508處,程序500可根據所判定之優先權來建立具有所獲得化身特徵之化身。舉例而言,可針對化身模型上之特定位置來定義各化身特徵,且程序500可藉由將各化身特徵添加至其對應位置來建立化身。在建立化身(且在一些情況下為使用者客制化或批准提供額外選項)之後,程序500可結束。
圖6為說明在本發明技術之一些實施中用於基於影像來源提取化身特徵之程序600的流程圖。在一些實施中,程序600可作為程序500之子程序(例如在區塊502處)執行。在一些情況下,程序600可週期性地執行,諸如每天或當使用者在不活動之臨限值時段之後啟動其裝置時。
在區塊602處,程序600可獲得使用者之影像。在各種情況下,影像可由使用者在執行程序600之裝置上拍攝(例如,作為「自拍照」,可由使用者自另一裝置上傳至程序600,可由執行程序600之裝置自另一程序擷取-例如,自最近使用者互動(諸如社交媒體帖子、視訊通話、全像呼叫等)儲存之影像)。
在區塊604處,程序600可分析使用者之影像以識別匹配化身庫中之化身特性之可用類型的化身特徵。化身特徵可判定為具有化身(例如,頭髮、配件、衣服選項等)之特性的語意識別符,諸如「紅色襯衫」、「直金髮」、「道奇帽(Dodger's hat)」、「翹八字鬍」、「圓形眼鏡」、「盒式項鏈」等。語意識別符可藉由機器學習模型及使用化身庫中可用之化身特徵類型集合來識別。
作為一個實例,可將針對物件及特徵辨識訓練之機器學習模型應用於影像以識別特徵,且接著可過濾彼等特徵以選擇匹配化身庫中之條目類別的彼等特徵。作為此實例之更具體例子,機器學習模型可基於其對影像之分析執行物件辨識以返回「環形耳環」。此語意識別符可與化身庫中之「珠寶- >耳環」之化身特徵之類別匹配,且因此可用於自彼類別選擇最接近匹配化身特徵。若無類別匹配機器學習結果,則可捨棄結果。
作為第二實例,機器學習模型經訓練以識別化身庫內之物件及樣式。舉例而言,可藉由將影像輸入與來自化身庫之識別符配對的訓練項目來訓練模型。模型可接著經訓練以自新影像識別此等語意識別符。參見下文額外細節,遵循圖12之描述,說明可使用之機器學習模型及訓練程序之實例類型。因此,當機器學習模型接收影像時,其執行物件及樣式辨識以返回化身庫中之語意識別符。在一些情況下,機器學習模型可提供此等結果作為亦可用作結果之信賴因子的值,且若信賴因子低於臨限值,則可捨棄該結果。
在一些情況下,程序600可首先分析影像以辨識匹配化身庫中之類別(例如,襯衫、眼鏡、頭髮)的物件及/或樣式,且接著可分析影像之描繪各特徵之部分以判定彼特徵之特性(例如,顏色、大小/形狀、樣式、品牌等)。因此,程序600可識別影像之自其產生彼影像語意識別符之一部分,且分析影像之其中彼影像語意識別符經識別之部分以判定與彼影像語意識別符相關聯之一或多個特性。
在區塊606處,程序600可返回在區塊604中識別之化身特徵。程序600可接著結束。
圖7為說明在本發明技術之一些實施中用於基於線上情境來源提取化身特徵之程序700的流程圖。在一些實施中,程序700可作為程序500之子程序(例如在區塊502處)執行。在一些情況下,程序700可週期性地執行,諸如每天或當識別到針對化身更新定義之新線上活動時。
在區塊702處,程序700可獲得使用者之線上情境資訊。在各種實施中,線上情境資訊可包括使用者活動,諸如購買物品、執行社交媒體「點贊」、發佈至社交媒體、添加事件RSVP或位置簽到、加入興趣群組等。在一些實施中,此可僅為使用者已授權搜集之彼等線上活動。
在區塊704處,程序700可分析使用者之線上情境資訊以識別匹配化身庫中之化身特性之可用類型的化身特徵。在一些實施中,程序700可藉由判定情境中所定義之各種線上活動之類型(例如,購物條目、社交媒體「點贊」及帖子、事件RSVP、位置簽到等)而自使用者之線上情境識別化身特徵,且可使用用以提取映射至各類型之對應化身特徵之程序。舉例而言,可將購物條目映射至選擇所購買購物條目之圖像、識別所購買購物條目之對應文字描述、判定相關聯後設資料及尋找化身庫中之最接近匹配化身特徵(例如,藉由將如針對圖6所描述之機器學習模型應用於相關聯影像,或藉由對文字或後設資料應用針對圖8所描述之NLP分析);可將事件RSVP映射至選擇匹配事件之配件(例如,為體育事件之RSVP選擇匹配團隊之運動帽、為歌劇院之旅選擇觀劇眼鏡、為博覽會之旅選擇氣球等);可將社交媒體帖子上之點贊映射至提取所描繪之個人的特徵(例如,匹配化妝樣式)及/或提取所描繪之物件(例如,自化身庫選擇最佳匹配社交媒體帖子中所描繪之一雙鞋之化身特徵);等。
在區塊706處,程序700可返回在區塊704處識別之化身特徵。程序700可接著結束。
圖8為說明在本發明技術之一些實施中用於基於文字來源提取化身特徵之程序800的流程圖。在一些實施中,程序800可作為程序500之子程序(例如在區塊502處)執行。在一些情況下,可回應於至自動化代理之使用者命令(例如,進入用於鍵打化身描述之介面或說出諸如「將吾之化身更新為……」之片語)來執行程序800。在區塊802處,程序800可例如根據使用者鍵入輸入欄位或說出接著轉錄之片語來獲得化身特徵之文字描述。
在區塊804處,程序800可分析文字描述以識別匹配化身庫中之化身特性之可用類型的化身特徵。程序800可藉由將一或多個自然語言處理(NLP)模型及/或演算法應用於使用者供應之文字描述而自文字描述識別化身特徵。此可包括應用經訓練之機器學習模型及/或演算法,該等演算法經組態以例如執行詞性標記及識別對應於化身庫中所定義之化身特徵的n元語法。舉例而言,程序800可識別對應於化身特徵之某些名詞或名詞片語,諸如頭髮、襯衫、帽子等,且可識別對應於所識別名詞片語且匹配可應用於所識別化身特徵之特性的修飾片語,諸如大、牛仔、藍色、捲曲等。
在區塊806處,程序800可返回在區塊804處識別之化身特徵。程序800可接著結束。
圖9A至圖9C為說明使用者介面之實例900、940及970以及基於影像之自動化身創建之結果的概念圖。在實例900中,使用者已在她的智慧型手機902上啟動應用程式,其中使用者表示為化身。此係今天第一次執行該應用程式,因此該應用程式提供提示904,其具有拍攝自拍照以更新她的化身之選項。若使用者選擇控件906,則她將被帶至實例940。在實例940中,使用者已選擇控件906且正拍攝自拍照影像942(例如,藉由按壓智慧型手機902上之控件944)。一旦擷取此影像,自動化身系統便提取化身特徵,諸如捲曲黑髮、黑色眼鏡及背心襯衫。在實例970中,已使用自化身庫獲得之匹配化身特徵來創建具有此等化身特徵之化身972,包括捲曲黑髮974、已設置成黑色之眼鏡976及背心978。向使用者提供確認按鈕980,若選擇該確認按鈕,則將使用者之化身更新為化身972。
圖10為說明基於線上情境之自動化身創建之實例1000的概念圖。在實例1000中,已識別到已購買紅色露臍(crop-top)襯衫1002之使用者的線上情境。作為回應,自動化身系統將所購買之露臍襯衫1002之影像與襯衫1004匹配,且已將自影像識別到之類似紅色應用於襯衫1004。自動化身系統亦向使用者提供通知1006,從而告知她更新她的化身以符合她的購買之選項。若使用者選擇確認按鈕1008,則自動化身系統將會將使用者之化身更新為穿戴紅色襯衫1004。
圖11為說明基於文字之自動化身創建之實例1110的概念圖。在實例1100中,自動化身系統已判定使用者具有即將來臨之事件,其為用於提供更新使用者之化身之觸發事項。因此,自動化身系統提供具有該選項之通知1102。作為回應,使用者說出描述如何更新她的化身之片語1104,包括向化身添加「棒球帽」。自動化身系統已轉錄此輸入,識別「帽子」化身特徵及帽子之「棒球」特性,且將此等與來自化身庫之帽子1106匹配。自動化身系統亦已向使用者提供通知1108,從而告知她更新她的化身以具有她所請求的帽子之選項。若使用者選擇確認按鈕1110,則自動化身系統將會將使用者之化身更新為穿戴棒球帽1106。
圖12為說明用於自影像、情境及文字自動創建化身之實例系統1200的系統圖。在實例1200中,已搜集三個來源作為用於選擇化身特徵之基礎:線上情境1202、影像1204及文字1206(在其他實例中,在給定時間僅使用一或兩個來源)。線上情境1202包括關於使用者在諸如社交媒體網站上之線上活動(使用者已授權,用於選擇化身特徵)、線上購物、搜尋資料等之資料。影像1204為使用者之影像,諸如經拍攝以選擇化身特徵之自拍照,或來自使用者之使用者出於此目的已授權的先前所擷取影像。文字1206為由使用者提供之一或多個化身特徵之文字描述。
此等來源中之各者均被傳遞至提取特徵模組1208,其使用線上內容類型之所定義提取特徵自情境1202識別化身特徵,使用機器學習影像分析模型自影像1204提取化身特徵,且使用機器學習自然語言處理模型自文字1206提取化身特徵。此等特徵一起為所提取特徵1210。在所提取特徵1210之類型之間存在衝突之情況下,可對所提取特徵1210進行排名(例如,基於來源類型、經由使用者選擇及/或基於信賴因子)以選擇可全部應用於化身之化身特徵集合。
提取特徵模組1208亦提取所識別化身特徵1210之特性1212。此等可基於化身特徵可具有之所定義之特性集合。舉例而言,「襯衫」化身特徵可具有所定義特性「顏色」,且「頭髮」化身特徵可具有所定義特性「顏色」及「樣式」。
可將化身特徵1210及特性定義1212提供至建構化身模組1214,其可自化身庫1216選擇最佳匹配化身特徵。舉例而言,建構化身模組1214可使用經訓練模型將此等化身特徵映射至化身庫之語意空間中,且自該庫選擇亦映射至語意空間中之最接近(例如,最低餘弦距離)化身特徵。在各種情況下,建構化身模組1214可自利用對應特性1212創建之化身庫選擇化身特徵,或可根據特性1212設定所獲得化身特徵之參數。在獲得具有正確特性之正確化身特徵之情況下,建構化身模組1214可產生所得化身1218。
如本文中所使用,「機器學習模型」係指使用訓練資料訓練以進行預測或提供新資料項目之機率(不論新資料項目是否包括於訓練資料中)的構築。舉例而言,用於監督式學習之訓練資料可包括具有各種參數及指定分類之項目。新資料項目可具有模型可用於將分類指派至新資料項目之參數。作為另一實例,模型可為由對訓練資料之分析產生的機率分佈,諸如基於對來自彼語言之大型語料庫之分析而在給定語言中出現n元語法之似然性。模型之實例包括:神經網路、支援向量機、決策樹、帕爾森窗(Parzen window)、貝葉斯(Bayes)、簇聚(clustering)、加強學習、機率分佈、決策樹、決策樹森林及其他。模型可經組態以用於各種情形、資料類型、來源及輸出格式。作為實例,用以識別化身特徵之機器學習模型可為具有多個輸入節點之神經網路,該多個輸入節點接收例如影像(例如,直方圖)之表示。輸入節點可對應於接收輸入及產生結果之功能。此等結果可提供至各自基於較低層級節點結果之組合產生進一步結果的中間節點之一或多個層級。可在將結果傳遞至下一層節點之前將經訓練加權因子應用於各節點之輸出。在最終層(「輸出層」)處,一或多個節點可產生對輸入進行分類之值,一旦該模型經訓練,該輸入便可用作化身特徵。在一些實施中,稱為深度神經網路之此等神經網路可具有多層具有不同組態之多個中間節點,可為接收該輸入之不同部分及/或來自深度神經網路之其他部分之輸入的模型之組合,及/或為卷積或循環-部分地使用來自應用該模型之先前迭代之輸出作為進一步輸入以產生電流輸入之結果。在一些情況下,此機器學習模型可藉由監督式學習進行訓練,其中訓練資料包括影像、線上情境資料或化身特徵之文字描述作為輸入及所要輸出,諸如化身庫中可用之化身特徵。在訓練時,可將來自模型之輸出與彼影像、情境或文字描述之所要輸出進行比較,且基於該比較,可諸如藉由改變神經網路之節點之間的權重或神經網路中之各節點處所使用之函數(例如,應用損失函數)的參數來修改該模型。在訓練資料中應用化身來源輸入中之各者且以此方式修改模型之後,可訓練模型評估新影像、線上情境或文字描述以產生化身特徵識別符。
本說明書中對「實施」(例如,「一些實施」、「各種實施」、「一個實施」或「一實施」等)之提及意謂結合該實施描述之特定特徵、結構或特性包括於本發明之至少一個實施中。本說明書中之各處出現的此等片語未必皆參考同一實施,而獨立或替代實施亦不排斥其他實施。此外,描述各種特徵,其可藉由一些實施而非藉由其他實施來顯現。類似地,描述可為一些實施但並非其他實施之要求的各種要求。
如本文中所使用,高於臨限值意謂比較下之項目的值高於指定其他值,比較下之項目在具有最大值之某一指定數目個項目當中,或比較下之項目具有指定頂部百分比值內之值。如本文中所使用,低於臨限值意謂比較下之項目的值低於指定其他值,比較下之項目在具有最小值之某一指定數目個項目當中,或比較下之項目具有指定底部百分比值內之值。如本文中所使用,在臨限值內意謂比較中之項目之值在兩個指定其他值之間,比較中之項目在中等指定數目個項目當中,或比較中之項目具有在中等指定百分比範圍內之值。當並未另外界定時,諸如高或不重要之相對術語可被理解為指派值及判定彼值如何與已創建臨限值比較。舉例而言,片語「選擇快速連接」可理解為意謂選擇具有對應於超過臨限值之連接速度所指派之值的連接。
如本文中所使用,詞「或」指項目集合之任何可能排列。舉例而言,片語「A、B或C」係指A、B、C中之至少一者或其任何組合,諸如以下中之任一者:A;B;C;A及B;A及C;B及C;A、B及C;或多個任何項目,諸如A及A;B、B及C;A、B、C及C;等。
雖然已以具體針對結構特徵及/或方法動作之語言描述主題,但應理解,所附申請專利範圍中所定義之主題未必限於上文所描述之特定特徵或動作。出於說明之目的,本文中已描述特定具體實例及實施,但可在不偏離具體實例及實施之範疇的情況下進行各種修改。上文所描述之特定特徵及動作經揭露為實施以下申請專利範圍之實例形式。因此,除隨附申請專利範圍外,具體實例及實施不受限制。
上文提及之任何專利、專利申請案及其他參考文獻均以引用之方式併入本文中。在必要時,可修改態樣以採用上文所描述之各種參考之系統、功能及概念,從而提供其他實施。若以引用的方式併入之文獻中之陳述或主題與本申請案之陳述或主題衝突,則應控制本申請案。
100:計算系統 101:計算裝置 102:計算裝置 103:計算裝置 110:處理器 120:輸入裝置 130:顯示器 140:其他I/O裝置 150:記憶體 160:程式記憶體 162:作業系統 164:自動化身系統 166:其他應用程式 170:資料記憶體 200:頭戴式顯示器 205:前剛體 210:帶 215:慣性運動單元 220:位置感測器 225:定位器 230:計算單元 245:電子顯示器 250:混合實境HMD系統 252:混合實境HMD 254:核心處理組件 256:鏈路 258:透通顯示器 260:框架 270:控制器 272A:按鈕 272B:按鈕 272C:按鈕 272D:按鈕 272E:按鈕 272F:按鈕 274A:操縱桿 274B:操縱桿 300:環境 305A:用戶端計算裝置 305B:用戶端計算裝置 305C:用戶端計算裝置 305D:用戶端計算裝置 310:伺服器計算裝置 315:資料庫 320A:伺服器 320B:伺服器 320C:伺服器 325A:資料庫 325B:資料庫 325C:資料庫 330:網路 410:硬體 412:處理單元 414:工作記憶體 416:輸入及輸出裝置 418:儲存記憶體 420:介質 430:專用組件 434:影像特徵提取器 436:線上情境特徵提取器 438:文字特徵提取器 440:化身庫 442:特徵排名模組 444:化身建構器 500:程序 502:區塊 504:區塊 506:區塊 508:區塊 600:程序 602:區塊 604區塊 606:區塊 700:程序 702:區塊 704:區塊 706:區塊 800:程序 802:區塊 804:區塊 806:區塊 900:實例 902:智慧型手機 904:提示 906:控件 940:實例 942:自拍照影像 944:控件 970:實例 972:化身 974:捲曲黑髮 976:眼鏡 978:背心 980:確認按鈕 1000:實例 1002:露臍襯衫 1004:襯衫 1006:通知 1008:確認按鈕 1102:通知 1104:片語 1106:棒球帽 1106:帽子 1108:通知 1110:實例 1200:系統 1202:線上情境 1204:影像 1206:文字 1208:提取特徵模組 1210:所提取特徵 1212:特性 1214:建構化身模組 1216:化身庫 1218:所得化身
[圖1]為說明本技術之一些實施可在其上操作之裝置之概觀的方塊圖。 [圖2A]為說明可用於本技術之一些實施中之虛擬實境耳機的導線圖。 [圖2B]為說明可用於本發明技術之一些實施中之混合實境耳機的導線圖。 [圖2C]為說明控制器之導線圖,在一些實施中,使用者可將該等控制器握持在一隻或兩隻手中以與人工實境環境互動。 [圖3]為說明本技術之一些實施可在其中操作之環境之概觀的方塊圖。 [圖4]為說明組件之方塊圖,在一些實施中,該等組件可用於採用所揭示技術之系統中。 [圖5]為說明在本發明技術之一些實施中用於基於自一或多個來源提取之特徵自動產生化身之程序的流程圖。 [圖6]為說明在本發明技術之一些實施中用於基於影像來源提取化身特徵之程序的流程圖。 [圖7]為說明在本發明技術之一些實施中用於基於線上情境來源提取化身特徵之程序的流程圖。 [圖8]為說明在本發明技術之一些實施中用於基於文字來源提取化身特徵之程序的流程圖。 [圖9A]至[圖9C]為說明使用者介面之實例及基於影像之自動化身創建之結果的概念圖。 [圖10]為說明基於線上情境之自動化身創建之實例的概念圖。 [圖11]為說明基於文字之自動化身創建之實例的概念圖。 [圖12]為說明用於自影像、情境及文字自動創建化身之實例系統的系統圖。 此處介紹之技術可藉由參考以下實施方式結合隨附圖式更好地理解,其中相同附圖標號指示相同或功能上類似之元件。
500:程序
502:區塊
504:區塊
506:區塊
508:區塊

Claims (20)

  1. 一種用於自動產生一化身之方法,該方法包含: 藉由以下操作而基於一或多個來源自動獲得化身特徵: 使用一影像來源,其包括: 獲得一使用者之一影像; 將一或多個機器學習模型應用於該使用者之該影像的一表示以產生對應於一化身庫中之化身特徵的影像語意識別符;及 自該化身庫選擇匹配所產生的該等影像語意識別符之化身特徵; 使用一線上情境來源,其包括: 獲得指示該使用者之一或多個線上活動之資料; 判定該一或多個線上活動中之一線上活動的一類型; 判定映射至所判定的該類型之一情境語意識別符提取方法; 將該情境語意識別符提取方法應用於該線上活動以獲得一或多個情境語意識別符;及 自該化身庫選擇匹配該等情境語意識別符之化身特徵;或 使用一文字描述來源,其包括: 獲得一化身之一文字描述; 藉由對該文字描述應用自然語言處理來識別一或多個文字語意識別符以提取對應於該化身庫中所定義之化身特徵之n元語法;及 自該化身庫選擇匹配該等情境語意識別符之化身特徵; 判定該等化身特徵中之兩者或更多者之間的一衝突,且作為回應,基於一所判定優先級排序而自所獲得的該等化身特徵移除該等化身特徵中之除該兩者或更多者中之一者以外的全部;及 藉由所獲得的該等化身特徵來建構一化身。
  2. 如請求項1之方法,其中自動獲得該等化身特徵包括使用該影像來源。
  3. 如請求項2之方法,其進一步包含針對該等影像語意識別符中之一或多者,藉由以下操作來識別該等化身特徵中之一或多者的特性: 識別該影像之自其產生的該等影像語意識別符之一部分;及 分析該影像之其中該等影像語意識別符經識別之部分,以判定與該等影像語意識別符相關聯的一或多個特性。
  4. 如請求項1之方法,其中自動獲得該等化身特徵包括使用該線上情境來源。
  5. 如請求項4之方法, 其中該線上活動之該類型對應於一購物活動,且其中映射至該購物活動之方法包括基於與經由該購物活動購買之一物品相關聯的一圖像而選擇一語意識別符作為一情境語意識別符; 其中該線上活動之該類型對應於一事件RSVP活動,且其中映射至該事件RSVP活動之方法包括基於針對該事件定義之一或多個配件而選擇一語意識別符;或 其中該線上活動之該類型對應於一社交媒體活動,且其中映射至該社交媒體活動之方法包括將關於該社交媒體活動描繪之一或多個個人的特徵識別為一語意識別符,及/或將關於該社交媒體活動描繪之一或多個物件識別為一語意識別符。
  6. 如請求項1之方法,其中自動獲得該等化身特徵包括使用該文字描述來源。
  7. 如請求項6之方法,其中提取的該n元語法包括識別經判定以對應於該等化身特徵之名詞或名詞片語。
  8. 如請求項6之方法,其中應用自然語言處理包括應用一詞性標記器以對該化身之該文字描述的部分進行分類。
  9. 如請求項6之方法,其進一步包含識別對應於所提取的該n元語法且匹配可應用於對應的該等化身特徵之特性的修飾片語。
  10. 如請求項1之方法, 其中自動獲得該等化身特徵包括使用該影像來源;且 其中使用將基於影像之輸入與來自該化身庫之識別符配對的訓練項目來訓練該一或多個機器學習模型中之至少一者識別該化身庫內之物件及樣式。
  11. 如請求項1之方法,其中根據自其獲得各化身特徵之該一或多個來源之間的一排名來判定該所判定優先級排序。
  12. 如請求項1之方法,其中自動獲得之該等化身特徵不包括識別為用於建構該化身所必需之至少一個化身特徵,且作為回應,建構該化身包含從由該使用者指定之一預設化身特徵集合選擇該至少一個化身特徵。
  13. 一種電腦可讀儲存媒體,其儲存指令,該等指令在由一計算系統執行時使該計算系統執行用於自動產生一化身之一程序,該程序包含: 使用一影像來源自動獲得化身特徵,其包括: 獲得一使用者之一影像; 將一或多個機器學習模型應用於該使用者之該影像的一表示以產生對應於一化身庫中之化身特徵的所產生的影像語意識別符;及 自該化身庫選擇匹配所產生的該等影像語意識別符之化身特徵;及 藉由所獲得的該等化身特徵來建構一化身。
  14. 如請求項13之電腦可讀儲存媒體,其中該程序進一步包含針對該等影像語意識別符中之一或多者,藉由以下操作來識別該等化身特徵中之一或多者的特性: 識別該影像之自其產生的該等影像語意識別符之一部分;及 分析該影像之其中該等影像語意識別符經識別之部分,以判定與該等影像語意識別符相關聯的一或多個特性。
  15. 如請求項13之電腦可讀儲存媒體,其中使用將基於影像之輸入與來自該化身庫之識別符配對的訓練項目來訓練該一或多個機器學習模型中之至少一者識別該化身庫內之物件及/或樣式。
  16. 如請求項13之電腦可讀儲存媒體,其中自動獲得之該等化身特徵不包括識別為用於建構該化身所必需之至少一個化身特徵,且作為回應,建構該化身包含從由該使用者指定之一預設化身特徵集合選擇該至少一個化身特徵。
  17. 一種用於自動產生一化身之計算系統,該計算系統包含: 一或多個處理器;及 一或多個記憶體,其儲存指令,該等指令在由該一或多個處理器執行時使該計算系統執行一程序,該程序包含: 藉由以下操作而基於一或多個來源自動獲得化身特徵: 使用一影像來源,其包括: 獲得一使用者之一影像; 將一或多個機器學習模型應用於該使用者之該影像的一表示以產生對應於一化身庫中之化身特徵的影像語意識別符;及 自該化身庫選擇匹配所產生的該等影像語意識別符之化身特徵; 使用一線上情境來源,其包括: 獲得指示該使用者之一或多個線上活動之資料; 判定該一或多個線上活動中之一線上活動的一類型; 判定映射至所判定的該類型之一情境語意識別符提取方法; 將該情境語意識別符提取方法應用於該線上活動以獲得一或多個情境語意識別符;及 自該化身庫選擇匹配該等情境語意識別符之化身特徵;或 使用一文字描述來源,其包括: 獲得一化身之一文字描述; 藉由對該文字描述應用自然語言處理來識別一或多個文字語意識別符以提取對應於該化身庫中所定義之化身特徵之n元語法;及 自該化身庫選擇匹配該等情境語意識別符之化身特徵;及 藉由所獲得的該等化身特徵來建構一化身。
  18. 如請求項17之計算系統,其中自動獲得該等化身特徵包括使用該影像來源。
  19. 如請求項17之計算系統,其中自動獲得該等化身特徵包括使用該線上情境來源。
  20. 如請求項17之計算系統,其中自動獲得該等化身特徵包括使用該文字描述來源。
TW111133400A 2021-10-11 2022-09-02 自動化化身 TW202316240A (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US17/498,261 US20230115028A1 (en) 2021-10-11 2021-10-11 Automated Avatars
US17/498,261 2021-10-11

Publications (1)

Publication Number Publication Date
TW202316240A true TW202316240A (zh) 2023-04-16

Family

ID=84053384

Family Applications (1)

Application Number Title Priority Date Filing Date
TW111133400A TW202316240A (zh) 2021-10-11 2022-09-02 自動化化身

Country Status (3)

Country Link
US (1) US20230115028A1 (zh)
TW (1) TW202316240A (zh)
WO (1) WO2023064224A1 (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20240096033A1 (en) * 2021-10-11 2024-03-21 Meta Platforms Technologies, Llc Technology for creating, replicating and/or controlling avatars in extended reality

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7908554B1 (en) * 2003-03-03 2011-03-15 Aol Inc. Modifying avatar behavior based on user action or mood
EP3408836A1 (en) * 2016-01-29 2018-12-05 Max-Planck-Gesellschaft zur Förderung der Wissenschaften e.V. Crowdshaping realistic 3d avatars with words
US10607065B2 (en) * 2018-05-03 2020-03-31 Adobe Inc. Generation of parameterized avatars
CN113050795A (zh) * 2021-03-24 2021-06-29 北京百度网讯科技有限公司 虚拟形象的生成方法及装置

Also Published As

Publication number Publication date
US20230115028A1 (en) 2023-04-13
WO2023064224A9 (en) 2024-05-30
WO2023064224A1 (en) 2023-04-20

Similar Documents

Publication Publication Date Title
KR102552551B1 (ko) 가상, 증강 및 혼합 현실 디스플레이 시스템들을 위한 키보드들
US20230315250A1 (en) Virtual user input controls in a mixed reality environment
US20220180658A1 (en) Augmented reality identity verification
US20210097875A1 (en) Individual viewing in a shared space
US9183676B2 (en) Displaying a collision between real and virtual objects
EP3997554A1 (en) Semantically tagged virtual and physical objects
US20210191523A1 (en) Artificial reality notification triggers
US11966055B2 (en) Content interaction driven by eye metrics
US11636655B2 (en) Artificial reality environment with glints displayed by an extra reality device
US11217036B1 (en) Avatar fidelity and personalization
US20210397328A1 (en) Real-time preview of connectable objects in a physically-modeled virtual space
US11783548B2 (en) Method and device for presenting an audio and synthesized reality experience
TW202316240A (zh) 自動化化身
WO2022140127A1 (en) Virtual reality locomotion via hand gestures
US20230419618A1 (en) Virtual Personal Interface for Control and Travel Between Virtual Worlds
JP2023554671A (ja) 仮想現実における部分パススルー
US12039793B2 (en) Automatic artificial reality world creation
US20230144893A1 (en) Automatic Artificial Reality World Creation
TW202324172A (zh) 自動建立人工實境世界
US11755180B1 (en) Browser enabled switching between virtual worlds in artificial reality
WO2024085998A1 (en) Activation of partial pass-through on an artificial reality device
US20230011453A1 (en) Artificial Reality Teleportation Via Hand Gestures
US20230324997A1 (en) Virtual Keyboard Selections Using Multiple Input Modalities
WO2024145065A1 (en) Personalized three-dimensional (3d) metaverse map
WO2023249918A1 (en) Virtual personal interface for control and travel between virtual worlds