JPWO2020247590A5 - - Google Patents

Download PDF

Info

Publication number
JPWO2020247590A5
JPWO2020247590A5 JP2021569969A JP2021569969A JPWO2020247590A5 JP WO2020247590 A5 JPWO2020247590 A5 JP WO2020247590A5 JP 2021569969 A JP2021569969 A JP 2021569969A JP 2021569969 A JP2021569969 A JP 2021569969A JP WO2020247590 A5 JPWO2020247590 A5 JP WO2020247590A5
Authority
JP
Japan
Prior art keywords
virtual character
user device
information
characteristic
data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2021569969A
Other languages
English (en)
Other versions
JP2022534708A (ja
Publication date
Application filed filed Critical
Priority claimed from PCT/US2020/036068 external-priority patent/WO2020247590A1/en
Publication of JP2022534708A publication Critical patent/JP2022534708A/ja
Publication of JPWO2020247590A5 publication Critical patent/JPWO2020247590A5/ja
Pending legal-status Critical Current

Links

Claims (17)

  1. 仮想キャラクターを制御するための方法であって、
    アプリケーションサーバによって、現実世界の環境を表す環境情報、発話情報、及び、顔面表情情報のいずれかを含むマルチモーダル入力情報をユーザデバイスから受信するステップと
    複数のモデルにおける第1の内部モデルと、前記複数のモデルにおける第2の内部モデルとを実装するステップであって、それによって、前記第1の内部モデルによって前記マルチモーダル入力情報の第1の特性を識別すると共に、前記第2の内部モデルによって前記マルチモーダル入力情報の第2の特性を識別する、ステップと
    前記第1の特性が、前記第2の特との似閾度の範囲内にあるかどうかを決定するステップと
    記第1の特性が前記第2の特との似閾度の範囲内にあるかどうか定に基づいて、選択された特性を選択するステップと、
    前記仮想キャラクターに関連付けられたアクションのライブラリにアクセスするステップであって、それによって、前記選択された特性に整合するアクションを選択し、前記アクションは、前記仮想キャラクターによって実行されることとなるアニメーションと、該アニメーションに関連付けられたオーディオとが含まれる、ステップと、
    前記仮想キャラクターを前記ユーザデバイスに表示させるステップであって、前記仮想キャラクターは、前記現実世界の環境の表示に拡張されて前記ユーザデバイスに表示されて、前記仮想キャラクターが、前記アクションを実行すると共に前記関連付けられたオーディオを出力する、ステップと
    を含む、方法。
  2. 前記ユーザデバイスのウェブブラウザにリンクを表示させるステップと、
    前記ユーザデバイスから、前記リンクが選択されたという通知を受信するステップと、
    前記リンクが選択されたことに応答して、前記ユーザデバイスへとデータのストリームを送信するステップであって、前記データのストリームは、前記アニメーションを実行するための、又は、前記関連付けられたオーディオを出力するためのメディアファイルを含む、ステップと
    をさらに含み、
    前記仮想キャラクターは、前記ユーザデバイスの前記ウェブブラウザ内に表示される、請求項1に記載の方法。
  3. 前記データのストリームは、データの第2のバッチであり、
    前記方法は、前記リンクが選択されたという前記通知を受信するステップの前に、データの第1のバッチを送信するステップであって、前記第1のバッチは、前記ユーザデバイスに前記仮想キャラクターを最初に生成するための情報を含む、ステップをさらに含み、
    前記仮想キャラクターは、前記ユーザデバイスから前記リンクが選択されたという前記通知を受信して1秒以内に、前記ユーザデバイスの前記ウェブブラウザ内に表示される、請求項2に記載の方法。
  4. 前記環境情報に基づいて、床に対応する現実世界の環境の部分を識別するステップと、
    前記仮想キャラクターを、前記現実世界の環境の表示内における前記床上に配置されたものとして、前記ユーザデバイスに表示させるステップと
    をさらに含む、請求項1に記載の方法。
  5. 複数のユーザについての一連の選択された特性及びアクションを集約するステップと、
    前記複数のユーザについての前記一連の選択された特性及びアクションを処理するステップであって、それによって、前記仮想キャラクターと前記複数のユーザとのエンゲージメントに関連する分析のセットを導出するステップと、
    前記仮想キャラクターと前記複数のユーザとのエンゲージメントに関連する分析の前記セットを含む分析ダッシュボードを表示させるステップと
    をさらに含む、請求項1に記載の方法。
  6. 仮想キャラクターを制御するための方法であって、
    ユーザデバイスによって、現実世界の環境を表す環境情報、発話情報、及び、顔面表情情報のいずれかを含むマルチモーダル入力情報を、アプリケーションサーバへと送信するステップであって、前記アプリケーションサーバは、複数のモデルにおける第1の内部モデルと、前記複数のモデルにおける第2の内部モデルとを実装し、それによって、前記第1の内部モデルによって前記マルチモーダル入力情報の第1の特性を識別すると共に、前記第2の内部モデルによって前記マルチモーダル入力情報の第2の特性を識別するように構成される、ステップと、
    前記アプリケーションサーバから、アニメーションと、該アニメーションに関連付けられたオーディオが含まれるアクションであって、前記仮想キャラクターに関連付けられたアクションのライブラリ内に含まれるアクションを受信するステップであって、前記アクションは、選択された特性に整合し、該選択された特性は、第1の識別された特性が、第2の識別された特性との閾値類似度の範囲内にあるかどうかの決定に基づいて選択される、ステップと、
    前記仮想キャラクターを前記ユーザデバイスに表示するステップであって、前記仮想キャラクターは、前記現実世界の環境の表示内に拡張されて前記ユーザデバイスに表示されて、前記仮想キャラクターが、前記アニメーションを実行すると共に前記関連付けられたオーディオを出力する、ステップと
    を含む、方法。
  7. 前記ユーザデバイスのウェブブラウザにリンクを表示するステップと、
    前記アプリケーションサーバへと、前記リンクが選択されたという通知を前記ユーザデバイスから送信するステップと、
    前記ユーザデバイスにてデータのストリームを受信するステップであって、前記データのストリームは、前記アクションを実行するための、かつ、前記関連付けられたオーディオを出力するためのメディアファイルを含む、ステップと
    をさらに含み、
    前記仮想キャラクターは、前記ユーザデバイスの前記ウェブブラウザ内に表示される、請求項6に記載の方法。
  8. 前記データのストリームは、データの第2のバッチであり、
    前記方法は、前記リンクが選択されたという前記通知を送信するステップの前に、データの第1のバッチを受信するステップであって、前記第1のバッチは、前記ユーザデバイスに前記仮想キャラクターを最初に生成するための情報を含む、ステップをさらに含み、
    前記仮想キャラクターは、前記ユーザデバイスから前記リンクが選択されたという前記通知を受信して1秒以内に、前記ユーザデバイスの前記ウェブブラウザ内に表示される、請求項7に記載の方法。
  9. 前記環境情報に基づいて、床に対応する現実世界の環境の部分を識別する情報を受信するステップと、
    前記仮想キャラクターを、前記現実世界の環境の表示内における前記床上に配置されたものとして、前記ユーザデバイスに表示するステップと
    をさらに含む、請求項6に記載の方法。
  10. 前記仮想キャラクターと前記複数のユーザとのエンゲージメントに関連する分析のセットを含む分析ダッシュボードを表示するステップであって、前記分析のセットは、複数のユーザについての集約された一連の選択された特性及びアクションに基づいて導出される、ステップ
    をさらに含む、請求項6に記載の方法。
  11. 前記第1の内部モデルは、前記発話情報から発話感情を解析するように構成された発話認識モデルであり、前記第2の内部モデルは、前記顔面表情情報に基づいて顔面特徴感情を検出するように構成された顔面特徴認識モデルであり、前記選択された特性は、前記発話感情と前記顔面特徴感情との間で共通の感情であり、前記アクションは、前記共通の感情に基づいて決定される、請求項1又は6に記載の方法。
  12. 前記複数のモデルは、聴覚情報からコンテキスト及び意味を導出するように構成された自然言語理解モデル、環境情報を識別するように構成された認識モデル、及び、ユーザ及び他の仮想キャラクターに関連するデータを識別するように構成されたソーシャルシミュレーションモデルを含む、請求項1又は6に記載の方法。
  13. 前記選択された特性の選択が、前記仮想キャラクターのペルソナを含む前記仮想キャラクターの知識モデルに基づいてさらに選択される、請求項1又は6に記載の方法。
  14. 前記知識モデルは、スクリプト、本又は漫画本からの前記仮想キャラクターに関連する情報、又は、前記ユーザデバイスと前記仮想キャラクターとの間における以前の対話を示す情報のうち少なくとも1つを含む、請求項13に記載の方法。
  15. プロセッサと、複数の命令を格納するメモリとを含んでいるコンピューティングシステムであって、前記複数の命令が実行されると、前記プロセッサが前記コンピューティングシステムに請求項1~5のいずれか1項に記載の方法を実行させる、コンピューティングシステム。
  16. 複数のセンサと、プロセッサと、複数の命令を格納するメモリとを含んでいるコンピューティングデバイスであって、前記複数の命令が実行されると、前記プロセッサが前記コンピューティングデバイスに請求項6~10のいずれか1項に記載の方法を実行させる、コンピューティングデバイス。
  17. 前記複数のセンサには、画像センサ、聴覚センサ及び嗅覚センサが含まれる、請求項16に記載のコンピューティングデバイス。
JP2021569969A 2019-06-06 2020-06-04 動的に反応する仮想キャラクターのためのマルチモーダルモデル Pending JP2022534708A (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US201962858234P 2019-06-06 2019-06-06
US62/858,234 2019-06-06
PCT/US2020/036068 WO2020247590A1 (en) 2019-06-06 2020-06-04 Multi-modal model for dynamically responsive virtual characters

Publications (2)

Publication Number Publication Date
JP2022534708A JP2022534708A (ja) 2022-08-03
JPWO2020247590A5 true JPWO2020247590A5 (ja) 2023-06-13

Family

ID=73652134

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2021569969A Pending JP2022534708A (ja) 2019-06-06 2020-06-04 動的に反応する仮想キャラクターのためのマルチモーダルモデル

Country Status (8)

Country Link
US (2) US11501480B2 (ja)
EP (1) EP3980865A4 (ja)
JP (1) JP2022534708A (ja)
KR (1) KR20220039702A (ja)
CN (1) CN114303116A (ja)
AU (1) AU2020287622A1 (ja)
CA (1) CA3137927A1 (ja)
WO (1) WO2020247590A1 (ja)

Families Citing this family (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP7142315B2 (ja) * 2018-09-27 2022-09-27 パナソニックIpマネジメント株式会社 説明支援装置および説明支援方法
KR20210014909A (ko) * 2019-07-31 2021-02-10 삼성전자주식회사 대상의 언어 수준을 식별하는 전자 장치 및 방법
US20210375023A1 (en) * 2020-06-01 2021-12-02 Nvidia Corporation Content animation using one or more neural networks
WO2022046674A1 (en) * 2020-08-24 2022-03-03 Sterling Labs Llc Devices and methods for motion planning of computer characters
US11756251B2 (en) * 2020-09-03 2023-09-12 Sony Interactive Entertainment Inc. Facial animation control by automatic generation of facial action units using text and speech
US20230009454A1 (en) * 2021-07-12 2023-01-12 Keith Paciello Digital character with dynamic interactive behavior
CN114201042B (zh) * 2021-11-09 2023-09-15 北京电子工程总体研究所 分布式综合集成研讨厅装置、系统、构建方法及交互方法
US20230230293A1 (en) * 2022-01-11 2023-07-20 MeetKai, Inc. Method and system for virtual intelligence user interaction
KR20230164954A (ko) * 2022-05-26 2023-12-05 한국전자기술연구원 대화형 가상 아바타의 구현 방법
JP2024028023A (ja) * 2022-08-19 2024-03-01 ソニーセミコンダクタソリューションズ株式会社 表情加工装置、表情加工方法および表情加工プログラム
US12002470B1 (en) * 2022-12-31 2024-06-04 Theai, Inc. Multi-source based knowledge data for artificial intelligence characters
KR102644550B1 (ko) * 2023-09-27 2024-03-07 셀렉트스타 주식회사 자연어처리모델을 이용한 캐릭터 영상통화 제공방법, 이를 수행하는 컴퓨팅시스템, 및 이를 구현하기 위한 컴퓨터-판독가능 기록매체
CN118135068A (zh) * 2024-05-07 2024-06-04 深圳威尔视觉科技有限公司 基于虚拟数字人的云互动方法、装置及计算机设备

Family Cites Families (18)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6570555B1 (en) * 1998-12-30 2003-05-27 Fuji Xerox Co., Ltd. Method and apparatus for embodied conversational characters with multimodal input/output in an interface device
US6964023B2 (en) * 2001-02-05 2005-11-08 International Business Machines Corporation System and method for multi-modal focus detection, referential ambiguity resolution and mood classification using multi-modal input
US20070015121A1 (en) * 2005-06-02 2007-01-18 University Of Southern California Interactive Foreign Language Teaching
US20070111795A1 (en) * 2005-11-15 2007-05-17 Joon-Hyuk Choi Virtual entity on a network
US8224652B2 (en) * 2008-09-26 2012-07-17 Microsoft Corporation Speech and text driven HMM-based body animation synthesis
US9796095B1 (en) * 2012-08-15 2017-10-24 Hanson Robokind And Intelligent Bots, Llc System and method for controlling intelligent animated characters
US20140212854A1 (en) 2013-01-31 2014-07-31 Sri International Multi-modal modeling of temporal interaction sequences
US9378576B2 (en) * 2013-06-07 2016-06-28 Faceshift Ag Online modeling for real-time facial animation
EP3275122A4 (en) * 2015-03-27 2018-11-21 Intel Corporation Avatar facial expression and/or speech driven animations
WO2017137947A1 (en) * 2016-02-10 2017-08-17 Vats Nitin Producing realistic talking face with expression using images text and voice
WO2019023397A1 (en) * 2017-07-28 2019-01-31 Baobab Studios Inc. SYSTEMS AND METHODS FOR ANIMATIONS AND INTERACTIVITY OF REAL-TIME COMPLEX CHARACTERS
CN107765852A (zh) * 2017-10-11 2018-03-06 北京光年无限科技有限公司 基于虚拟人的多模态交互处理方法及系统
CN107797663A (zh) * 2017-10-26 2018-03-13 北京光年无限科技有限公司 基于虚拟人的多模态交互处理方法及系统
WO2019161198A1 (en) * 2018-02-15 2019-08-22 DMAI, Inc. System and method for speech understanding via integrated audio and visual based speech recognition
WO2019173108A1 (en) * 2018-03-06 2019-09-12 Didimo, Inc. Electronic messaging utilizing animatable 3d models
CN108646918A (zh) * 2018-05-10 2018-10-12 北京光年无限科技有限公司 基于虚拟人的视觉交互方法及系统
US20210166461A1 (en) * 2018-07-04 2021-06-03 Web Assistants Gmbh Avatar animation
US11315325B2 (en) * 2018-10-09 2022-04-26 Magic Leap, Inc. Systems and methods for artificial intelligence-based virtual and augmented reality

Similar Documents

Publication Publication Date Title
CN110188194B (zh) 一种基于多任务学习模型的假新闻检测方法及系统
CN107481720B (zh) 一种显式声纹识别方法及装置
CN107391760A (zh) 用户兴趣识别方法、装置及计算机可读存储介质
US20130262114A1 (en) Crowdsourced, Grounded Language for Intent Modeling in Conversational Interfaces
CN112396182B (zh) 脸部驱动模型的训练和脸部口型动画的生成方法
CN109801349B (zh) 一种声音驱动的三维动画角色实时表情生成方法和系统
JPWO2020247590A5 (ja)
US11231971B2 (en) Data engine
US10692498B2 (en) Question urgency in QA system with visual representation in three dimensional space
WO2022242706A1 (zh) 基于多模态的反应式响应生成
CN116704085B (zh) 虚拟形象生成方法、装置、电子设备和存储介质
KR20190118108A (ko) 전자 장치 및 그의 제어방법
CN114913590B (zh) 一种数据的情感识别方法、装置、设备及可读存储介质
US20130339849A1 (en) Digital content preparation and presentation
CN117529773A (zh) 用户自主个性化文本转语音的声音生成
JP2020529680A (ja) 通話中の感情を認識し、認識された感情を活用する方法およびシステム
CN109408175B (zh) 通用高性能深度学习计算引擎中的实时交互方法及系统
CN114694224A (zh) 客服问答方法、装置、设备、存储介质和计算机程序产品
CN113573128B (zh) 一种音频处理方法、装置、终端以及存储介质
US11625880B2 (en) Machine-learning models for tagging video frames
CN114138960A (zh) 用户意图识别方法、装置、设备及介质
CN113038053A (zh) 一种数据合成方法、装置、电子设备以及存储介质
CN113033191A (zh) 语音数据处理方法、电子设备及计算机可读存储介质
CN112951013B (zh) 一种学习交互方法、装置、电子设备以及存储介质
JP2021012660A (ja) 情報処理装置、情報処理方法および情報処理プログラム