WO2017129149A1 - 基于多模态输入进行交互的方法和设备 - Google Patents

基于多模态输入进行交互的方法和设备 Download PDF

Info

Publication number
WO2017129149A1
WO2017129149A1 PCT/CN2017/078225 CN2017078225W WO2017129149A1 WO 2017129149 A1 WO2017129149 A1 WO 2017129149A1 CN 2017078225 W CN2017078225 W CN 2017078225W WO 2017129149 A1 WO2017129149 A1 WO 2017129149A1
Authority
WO
WIPO (PCT)
Prior art keywords
information
input
structured data
smart glasses
element information
Prior art date
Application number
PCT/CN2017/078225
Other languages
English (en)
French (fr)
Inventor
廖春元
唐荣兴
凌海滨
黄玫
Original Assignee
亮风台(上海)信息科技有限公司
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 亮风台(上海)信息科技有限公司 filed Critical 亮风台(上海)信息科技有限公司
Publication of WO2017129149A1 publication Critical patent/WO2017129149A1/zh
Priority to US16/044,335 priority Critical patent/US10664060B2/en

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • G06F3/011Arrangements for interaction with the human body, e.g. for user immersion in virtual reality
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2413Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on distances to training or reference patterns
    • G06F18/24133Distances to prototypes
    • G06F18/24137Distances to cluster centroïds
    • G06F18/2414Smoothing the distance, e.g. radial basis function networks [RBFN]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/25Fusion techniques
    • G06F18/251Fusion techniques of input or preprocessed data
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/40Software arrangements specially adapted for pattern recognition, e.g. user interfaces or toolboxes therefor
    • G06F18/41Interactive pattern learning with a human teacher
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • G06F3/011Arrangements for interaction with the human body, e.g. for user immersion in virtual reality
    • G06F3/012Head tracking input arrangements
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • G06F3/017Gesture based interaction, e.g. based on a set of recognized hand gestures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • G06F3/03Arrangements for converting the position or the displacement of a member into a coded form
    • G06F3/033Pointing devices displaced or positioned by the user, e.g. mice, trackballs, pens or joysticks; Accessories therefor
    • G06F3/038Control and interface arrangements therefor, e.g. drivers or device-embedded control circuitry
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • G06F3/048Interaction techniques based on graphical user interfaces [GUI]
    • G06F3/0487Interaction techniques based on graphical user interfaces [GUI] using specific features provided by the input device, e.g. functions controlled by the rotation of a mouse with dual sensing arrangements, or of the nature of the input device, e.g. tap gestures based on pressure sensed by a digitiser
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • G06F3/048Interaction techniques based on graphical user interfaces [GUI]
    • G06F3/0487Interaction techniques based on graphical user interfaces [GUI] using specific features provided by the input device, e.g. functions controlled by the rotation of a mouse with dual sensing arrangements, or of the nature of the input device, e.g. tap gestures based on pressure sensed by a digitiser
    • G06F3/0488Interaction techniques based on graphical user interfaces [GUI] using specific features provided by the input device, e.g. functions controlled by the rotation of a mouse with dual sensing arrangements, or of the nature of the input device, e.g. tap gestures based on pressure sensed by a digitiser using a touch-screen or digitiser, e.g. input of commands through traced gestures
    • G06F3/04883Interaction techniques based on graphical user interfaces [GUI] using specific features provided by the input device, e.g. functions controlled by the rotation of a mouse with dual sensing arrangements, or of the nature of the input device, e.g. tap gestures based on pressure sensed by a digitiser using a touch-screen or digitiser, e.g. input of commands through traced gestures for inputting data by handwriting, e.g. gesture or text
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/16Sound input; Sound output
    • G06F3/167Audio in a user interface, e.g. using voice commands for navigating, audio feedback
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/764Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/80Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
    • G06V10/803Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level of input or preprocessed data
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/20Movements or behaviour, e.g. gesture recognition
    • G06V40/28Recognition of hand or arm movements, e.g. recognition of deaf sign language
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F2203/00Indexing scheme relating to G06F3/00 - G06F3/048
    • G06F2203/038Indexing scheme relating to G06F3/038
    • G06F2203/0381Multimodal input, i.e. interface arrangements enabling the user to issue commands by simultaneous use of input devices of different nature, e.g. voice plus gesture on digitizer

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Human Computer Interaction (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Computation (AREA)
  • Multimedia (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • General Health & Medical Sciences (AREA)
  • Data Mining & Analysis (AREA)
  • Computing Systems (AREA)
  • Medical Informatics (AREA)
  • Software Systems (AREA)
  • Databases & Information Systems (AREA)
  • Evolutionary Biology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Psychiatry (AREA)
  • Social Psychology (AREA)
  • Computational Linguistics (AREA)
  • Acoustics & Sound (AREA)
  • User Interface Of Digital Computer (AREA)

Abstract

本发明的目的是提供一种能够更接近用户自然交互的基于多模态输入进行交互的智能眼镜设备和方法,包括:从多个输入模块的至少一个中获取若干输入信息;对若干所述输入信息进行综合逻辑分析,以生成操作命令,其中,所述操作命令具有操作元素,所述操作元素至少包括操作对象、操作动作和操作参数;基于所述操作命令对所述操作对象执行相应操作。本申请所述用于智能眼镜设备及方法通过多个输入模块获取多通道的输入信息,并对所述输入信息进行综合逻辑分析后确定操作对象、操作动作和操作动作的操作元素,以生成操作命令,再基于操作命令执行相应操作,从而实时地将信息融合处理,使用户更接近自然语言的交互方式,从而提高提供用户的交互体验。

Description

基于多模态输入进行交互的方法和设备 技术领域
本发明涉及计算机领域增强现实技术,尤其涉及一种增强现实智能眼镜技术。
背景技术
增强现实(Augmented Reality,增强现实)是在自然图片识别技术的一个子领域,将虚拟三维模型动画、视频、文字、图片等数字信息实时叠加显示到真实场景中,并与现实物体或者使用者实现自然互动的创新的人机交互技术,强调虚实融合的自然人机视觉交互。增强现实技术包含了多媒体、三维建模、实时视频显示及控制、多传感器溶合、实时跟踪及注册、场景融合等新技术与新手段。由于该技术的先进性和新颖性,增强现实技术的应用和推广也曾一度处于停滞不前的状态。
在移动互联网时代,人机交互的一个非常核心的技术问题是如何高效、简便、自然地连接用户的线下当前真实场景和线上虚拟的信息和交互。
在现有技术中,实现连接技术核心是计算机对线下物品的感知,包括检测、识别与跟踪。实现这种感知的手段大致有两种:用人工方式给线下物品打标签、用计算机自动识别线下物品。前者例如二维码、NFC、WiFi定位等技术,需要对每个目标物体进行修改,因此存在功能单一、部署和维护成本高、交互不自然、不直观、缺少美感等缺点。后者以自然图片识别技术为基础,对摄像头采集的图像数据进行智能分析,自动判断物体身份、类别和空间姿态等信息,对目标物体不需要任何改变,也更接近人的自然交互。
因此,如何更好地实现用户线上线下信息链接和虚实融合的交互体验成为业界主流课题。
发明内容
本发明的一个目的是提供一种能够更接近用户自然交互的智能眼镜设备和方法。
根据本申请一方面提供了一种用于智能眼镜设备基于多模态输入进行交互的方法,其中,所述方法包括:
A从多个输入模块的至少一个中获取若干输入信息,多个所述输入模块包括:图像输入模块、声音输入模块、触控输入模块和传感输入模块,若干所述输入信息包括至少以下任一种:现实场景信息、虚拟场景信息、手势信息、声音信息、触控信息、传感信息;
B对若干所述输入信息进行综合逻辑分析,以生成操作命令,其中,所述操作命令具有操作元素,所述操作元素至少包括操作对象、操作动作和操作参数;
C基于所述操作命令对所述操作对象执行相应操作。
进一步地,所述方法还包括:
D获取用户待设定操作命令的相关信息,基于所述待设定操作命令的相关信息更新所述操作命令。
进一步地,所述步骤B包括:将若干所述输入信息发送至分体控制装置进行综合逻辑分析,以生成所述操作命令,其中,所述分体控制装置与所述智能眼镜设备本体物理分离,并通过有线或无线方式与所述智能眼镜设备通信连接。
根据本发明的另一个方面提供了一种多模态输入进行交互的智能眼镜设备,其中,所述智能眼镜设备包括:
第一装置,用于从多个输入模块的至少一个中获取若干输入信息,多个所述输入模块包括:图像输入模块、声音输入模块、触控输入模块和传感输入模块,若干所述输入信息包括至少以下任一种:现实场景信息、虚拟场景信息、手势信息、声音信息、触控信息、传感信息;
第二装置,用于对若干所述输入信息进行综合逻辑分析,以生成操作命令,其中,所述操作命令具有操作元素,所述操作元素至少包括操作对象、操作动作和操作参数;
第三装置,用于基于所述操作命令对所述操作对象执行相应操作。
进一步地,所述智能眼镜设备还包括:分体控制装置,用于获取若干所述输入信息,并进行综合逻辑分析,以生成所述操作命令,其中,所述 分体控制装置与所述智能眼镜设备本体物理分离,并通过有线或无线方式与所述智能眼镜设备通信连接。
相比于现有技术,本申请所述用于智能眼镜设备基于多模态输入进行交互的方法和智能眼镜设备通过多个输入模块获取多通道的输入信息,并对所述输入信息进行综合逻辑分析后确定操作对象、操作动作和操作动作的操作元素,以生成操作命令,再基于操作命令执行相应操作,从而实时地将现实场景信息、虚拟场景信息、手势信息、声音信息、触控信息、传感信息融合处理,使用户更接近自然语言的交互方式,从而提高提供用户的交互体验。
进一步地,通过获取用户待设定操作命令的相关信息,基于所述待设定操作命令的相关信息更新所述操作命令,使用户可以自行定义交互操作,提高用户使用的灵活性。
进一步地,所述智能眼镜设备通过设置物理分离的分体控制装置,并以有线或无线的方式通信连接,将所述智能眼镜设备的处理核心业务逻辑交由分体控制装置,能够降低智能眼镜设备本身体积和重量,并避免智能眼镜设备过度散热导致用户使用不适。
附图说明
通过阅读参照以下附图所作的对非限制性实施例所作的详细描述,本发明的其它特征、目的和优点将会变得更明显:
图1示出根据本申请一方面提供的智能眼镜设备的功能示意图;
图2示出根据本申请一方面提供的一种多模态输入进行交互的智能眼镜设备的设备示意图;
图3示出根据本申请优选实施例提供的一种多模态输入进行交互的智能眼镜设备的设备示意图;
图4示出根据本申请一优选的实施例所示的智能眼镜设备基于多模态输入进行交互的流程示意图;
图5示出根据本申请一优选实施例提供的所述智能眼镜设备基于用户操作定义交互操作的过程示意图;
图6示出根据本申请一方面提供的一种在智能眼镜设备端用于多模态输入进行交互的流程示意图;
图7示出根据本申请优选实施例提供的一种智能眼镜设备端用于多模态输入进行交互的方法流程示意图;
图8示出根据本申请优选实施例提供的一种智能眼镜设备端利用深度学习网络法进行综合逻辑分析的示意图。
附图中相同或相似的附图标记代表相同或相似的部件。
具体实施方式
下面结合附图对本发明作进一步详细描述。
结合图1,本申请主旨在于,提供一种智能眼镜设备对多模态输入,例如语音、触摸、手势、场景等输入信息进行综合处理,包括基于输入信息确定交互操作的操作命令对操作对象(包括电视、灯、洗衣机等具有实体的物体,眼镜投影显示的无实体物体等)进行相应操作,此外,还可以为用户提供定义交互操作的功能。
基于以上,图2示出根据本申请一方面提供的一种多模态输入进行交互的智能眼镜设备的设备示意图,其中,所述智能眼镜设备1包括:第一装置11、第二装置12和第三装置13。
其中,所述第一装置11从多个输入模块的至少一个中获取若干输入信息,多个所述输入模块包括:图像输入模块、声音输入模块、触控输入模块和传感输入模块,若干所述输入信息包括至少以下任一种:现实场景信息、虚拟场景信息、手势信息、声音信息、触控信息、传感信息;所述第二装置12对若干所述输入信息进行综合逻辑分析,以生成操作命令,其中,所述操作命令具有操作元素,所述操作元素至少包括操作对象、操作动作和操作参数;所述第三装置13基于所述操作命令对所述操作对象执行相应操作。
在此,所述智能眼镜设备1是一种可穿戴智能设备,以眼镜的硬件载体形式、融合AR(Augmented Reality,增强现实)的软件交互方式,以实现用户线上线下的信息链接和虚实融合的交互体验。所述智能眼镜设备 1可以采用任意操作系统,如android操作系统、iOS操作系统等。如android操作系统、iOS操作系统等。所述智能眼镜设备1的硬件设备可以包括摄像输入模块(例如RGB摄像头、三维摄像头等)、传感输入模块(例如惯性测量单元IMU,包括电子罗盘、加速度、角速度、陀螺仪等)、语音输入模块(例如话筒等)、显示屏、语音播放设备、触觉输出设备以及数据处理模块等。当然,以上对智能眼镜设备1所包括硬件设备的描述仅为举例,今后可能出现的智能眼镜设备1,如适用本申请,仍可以以引用的方式包含于此。
在此,所述现实场景信息可以是图片、照片、场景图像、实物图像、或有特定形状物体等。所述增强现实效果可以包括相关联的增强现实内容(包括但不限于视频、语音、链接、二维动画和三维动画等)和对应的增强现实显示效果。所述虚拟场景信息可以是在智能眼镜设备1的所显示的虚拟图像。
本申请所述智能眼镜设备1通过多个输入模块获取多通道的输入信息,并对所述输入信息进行综合逻辑分析后确定操作对象、操作动作和操作动作的操作元素,以生成操作命令,再基于操作命令执行相应操作,从而实时地将现实场景信息、虚拟场景信息、手势信息、声音信息、触控信息、传感信息融合处理,使用户更接近自然语言的交互方式,从而提高提供用户的交互体验。
图3示出根据本申请优选实施例提供的一种多模态输入进行交互的智能眼镜设备的设备示意图,首先,所述第一装置11从多个输入模块的至少一个中获取若干输入信息。在此,所述智能眼镜设备1通过利用不同通道(即各种输入模块)接收用户的各种自然语言交互方式的输入信息,以分析用户行为信息确定操作目标、操作动作和操作参数,操作目标可以是实体,也可以是智能眼镜设备1的显示屏上显示的虚拟物体。
其中,用户使用的自然语言交互方式通常可以包括:场景,包括当前视野范围内的背景、实体以及眼镜投影的用户界面或物体;手势,包括手的位置、朝向以及动作;声音,包括文字信息代表的语义;以及触摸:包括手指的力度以及操作动作。
其中,多模态各个通道的输入信息主要由以下硬件采集,例如RGB摄像头获取场景图像信息,深度摄像头获取手势信息,麦克风获取语音信息,触控板获取触控信息等,当然,所述智能眼镜设备1获取的输入信息及使用的硬件设备并不被限定,今后可能出现的获取方式或获取设备都可以以引用的方式包含于此。
所述第二装置12对若干所述输入信息进行综合逻辑分析,以生成操作命令。
进一步地,所述智能眼镜设备1的第二装置12对各个通道锁获取的输入信息可以采用:对各个输入模块所采集到的输入信息,分别由对应的模块进行单独处理,生成格式化数据,然后,再统一交由多通道交互信息分析和融合模块处理;也可以创建深度学习模型,采用将各个输入模块所采集到的输入信息的原始数据直接利用深度学习模型进行融合处理和逻辑分析。
在一优选的实施例中,所述第二装置12包括:第一单元111和第二单元112。其中,所述第一单元111利用对应处理模块对所述输入模块的若干所述输入信息分别进行识别预处理,以生成若干所述结构化数据,其中,所述处理模块包括场景图像识别模块、手势识别模块、声音识别模块、触控识别模块和传感识别模块;所述第二单元112对若干所述结构化数据进行融合处理和仲裁分析,以生成操作命令。
进一步地,所述第一单元111可以利用对应识别模块处理每个通道的输入信息,包括提取特征和/或分析语义,输出成结构化数据,每一通道的输入信息对应的结构化数据的结构可以相同或不同,能够被第二单元112进行融合处理和仲裁分析即可。
其中,所述第一单元111所利用的不同处理模块可以对应用于识别场景图像的第一一子单元111a、用于识别手势信息的第一二子单元111b、用于获取触控信息的第一三子单元111c以及用于获取语言信息的第一四子单元111d。
其中,所述第一一子单元111a利用所述场景图像识别模块识别所述虚拟场景信息和/或所述图像输入模块输入的现实场景信息,以获取关于可 操作的目标集合的结构化数据;所述第一二子单元111b利用所述手势识别模块识别所述图像输入模块输入的手势信息,以获取关于可操作的目标集合的结构化数据和/或可操作的动作集合的结构化数据;所述第一三子单元111c利用所述触控识别模块识别所述触控输入模块输入的触控信息,以获取至少以下任一种结构化数据:关于光标在屏幕上位置的结构化数据、可操作的动作集合的结构化数据、输入参数的结构化数据;所述第一四子单元111d利用所述语音识别模块识别所述语音输入模块输入的语音信息,以获取至少以下任一种结构化数据:关于可操作的目标集合的结构化数据、可操作的动作集合的结构化数据、输入参数的结构化数据。
根据不同的输入信息采用不同的处理模块进行识别预处理,生成预处理后的结构化数据,并行处理能够加快数据处理速度,第二单元112的处理过程不依赖输入信息的原始数据,使第一单元111所包括的处理模块更为灵活。
所述第二单元112所进行的融合和仲裁规则或训练模型可以是已预先定义或预先训练的(包括由开发者定义初始规则集或训练初始模型,或由用户基于规则或模型进行更新的模型),规则可以是自然交互方式间的关系(比如手势与语音配合或竞争关系等),也可以是机器学习模型(如决策树、随机森林等)。
具体地,所述第二单元112可以采用类似填槽法进行融合,即槽为操作命令对应的操作多元组,例如,操作三元组<操作目标,操作动作,操作参数(可选)>,所述操作三元组中每一元槽为操作元素的操作类型;将结构化数据按照时序或者优先级竞争填槽,当槽填满并符合业务执行逻辑时,即生成相应操作命令,并进行执行。其中,时序与优先级的竞争逻辑可以由开发者定义,也可以由用户更新。
所述第二单元112利用填槽法进行融合处理时,首先在初始等待状态,当所述第一单元111将结构化数据输入至第二单元112时,则对相应所述结构化数据逻辑匹配,包括关键信息提取和关键信息之间的匹配,以确定所述结构化数据对应的元素类型和相应元素信息,当检测到至少一个元素信息时,则切入就绪状态,并根据元素类型将不同的元素信息填入各操作 元素的槽中,并继续获取其他元素类型和相应元素信息,在就绪状态中,时刻检测各操作元素的槽是否填满,如果填满则判断是否符合业务逻辑,当符合则生成相应操作命令,并清空槽,在交互过程中不断循环以上过程。
具体地,所述第二单元112包括:第二一子单元(未示出)、第二二子单元(未示出)、第二三子单元(未示出);其中,所述第二一子单元确定所述结构化数据所对应的元素类型;所述第二二子单元对具有相同所述元素类型的所述结构化数据进行逻辑匹配和/或仲裁选择,以确定相应所述元素类型所对应的所述操作元素的元素信息;第二三子单元当所确定的不同所述元素类型所对应的所述操作元素的元素信息组合后符合执行业务逻辑,则基于相应所述操作元素的元素信息生成操作命令。
进一步地,所述第二二子单元包括:第二四子单元、第二五子单元和第二六子单元,其中,所述第二四子单元对具有相同所述元素类型的所述结构化数据进行逻辑匹配,以确定至少一个待选元素信息;第二五子单元对所述待选元素信息进行仲裁选择,以选取其中一个作为选取元素信息;第二六子单元根据所述选取元素信息确定相应所述元素类型所对应的所述操作元素的元素信息。
所述第二二子单元还包括:第二七子单元,用于当所确定的不同所述元素类型所对应的所述操作元素的元素信息组合后不符合执行业务逻辑,则重新对其余所述待选元素信息进行仲裁选择,以重新选取其中一个作为选取元素信息;第二八子单元,用于当重新选取时间超出超时时间或所有所述待选元素信息所确定的元素信息的组合都不符合执行业务逻辑,则清空所有操作类型对应的操作元素的元素信息。所述第二七子单元和所述二八子单元用于在元素信息组合后不符合执行业务逻辑时,重新选取元素信息进行判断。
所述第二五子单元用于:根据所述待选元素信息的时序和/或优先级排序进行竞争选择;当所述待选元素信息的时序及优先级排序均相同时进行随机选择,以选取其中一个作为所述选取元素信息。
所述第二五子单元对所述待选元素信息进行仲裁选择,可以按照时间顺序竞争,例如,若先采集到手势信息,则手势识别模块分析得到的结构 化数据优先填入操作目标的槽中;若同时输入或输入时间差小于设定阈值,则按照已定义的优先级进行竞争,例如语音输入信息优先级高于手势输入信息,则语音识别模块提取的语音信息所生成的结构化数据优先填入相应槽中;此外,若如若输入时间相同,优先级相同,则随机选择某个填入相应槽中,未被选中的结构化数据进入缓冲队列中等待再次调取或直接丢弃。
所述第二六子单元将所述选取元素信息确定为相应所述元素信息过程需判断对应操作元素中是否已有元素信息,若已有需判断当前已有所述元素信息和所述选取元素信息的优先级,如果所述选取元素信息的优先级较高,则需替换掉已有所述元素信息,具体地,所述第二六子单元判断当前是否已有相应所述元素类型所对应的所述操作元素的元素信息;若已有,则判断所述选取元素信息的优先级是否高于所述已有的元素信息;若高于,则所述选取元素信息替代所述已有的元素信息,确定为相应所述元素类型所对应的所述操作元素的元素信息。例如,若语音信息的优先级较高,当根据图像识别已确定的操作目标为电视后(且还未确定输出操作命令前),根据语音信息识别到操作目标为手机,则所述第二六子单元根据语音信息的优先级较高的原则,将操作目标的元素信息由“电视”更改为“手机”。
图4示出根据本申请一优选的实施例所示的智能眼镜设备基于多模态输入进行交互的流程示意图,智能眼镜设备可以由其RGB摄像机采集场景图像,深度摄像机采集手势图像,麦克风采集语音信息、触控板采集触控信息,接着,从场景图像中识别出当前视角的场景图像中所有可操作的物体,例如客厅中的电视、窗帘、灯等,以物体名称组成物体库,作为可操作的目标集合;将用户所说的语音转换成文字,进行简单地语义分析,提取出动词、名词、代词等,动词可能为操作动作,名词和代词可能指向操作目标;实时跟踪手的位置,判断手的指向,分析手势对应的操作,触控识别出感应触摸操作,可以获取触控指向的光标的位置和相应的操作,例如分析用户滑动操作时,计算光标移动的位置,分析用户触摸到压力来判断单击或双击操作等。接着,当智能眼镜设备处于等待状态时,智能眼 镜设备将同时等待用户语音、手势和触摸等多个通道的信息输入;当只有一个通道输入时,例如语音信息输入时,智能眼镜设备直接根据语音内容做出决策;当这些通道同时有信息输入时,智能眼镜设备并行分析各个通道的信息,然后根据时序或者优先级做出决策。例如语音信息先输入且优先级最高,则首先分析语音的内容,如果语音内容对操作的理解不构成歧义,则直接根据语音内容进行操作。如果语音内容还需要其它通道信息作为补充才能构成完整的操作三元组,则需结合其它通道信息,根据信息互补模式下的工作方式进行综合判断。如:当用户说“请将这边的内容告诉我”时,智能眼镜设备会根据手势所指方向,来做出判断,并给出信息反馈;当没有语音信息输入,但是智能眼镜设备检测到触摸移动或手势变化时,根据这几个通道的信息判断用户的操作。如:用户举出“OK”手势时,表示同意;而“摆手”则表示不同意;用户触摸滑动,表示移动光标;而用户单击或双击触摸,表示选中或打开。在这种情况下,智能眼镜设备根据当前通道输入的信息进行操作分析。对应设备分别采集对应通道的数据,然后利用以训练好的模型将各个通道的信息转化成结构化数据;最后汇总每个通道的结构化数据,使用已训练好的操作模型进行判断,输出操作三元组,并按三元组执行相应操作。
此外,所述第二单元112还可以采用机器学习法对所有所述结构化数据进行逻辑匹配和仲裁选择,以确定每一所述元素类型所对应的所述操作元素的元素信息,其中,所述机器学习法包括至少以下任一项:决策树法、随机森林法、卷积神经网络法。
在另一优选的实施例中,所述第二装置包括第三单元(未示出)和第四单元(未示出),所述第三单元创建深度学习神经网络构架模型;所述第四单元将所述输入信息的原始数据输入所述深度学习神经网络构架模型中进行融合处理和模型运算,以生成操作命令。
其中,所述深度学习神经网络构架模型为卷积神经网络构架模型。
图8示出根据本申请优选实施例提供的一种智能眼镜设备端利用深度学习网络法进行综合逻辑分析的示意图,在此,所述卷积神经网络(Convolutional Neural Networks,CNN)是人工神经网络的一种,用于语 音分析和图像识别。它更类似于生物神经网络,降低了网络模型的复杂度,减少了权值的数量。在网络的输入是多维数据时表现的更为优越,使原始数据可以直接作为网络的输入,避免了传统识别算法中复杂的特征提取和数据重建的过程。
其中,CNN的基本结构包括两层,其一为特征提取层,每个神经元的输入与前一层的局部接受域相连,并提取该局部的特征。一旦该局部特征被提取后,它与其它特征间的位置关系也随之确定下来;其二是特征映射层,网络的每个计算层由多个特征映射组成,每个特征映射是一个平面,平面上所有神经元的权值相等。特征映射结构可以采用影响函数核小的sigmoid函数(S形生长曲线函数)作为卷积网络的激活函数,使得特征映射具有位移不变性。
此外,由于一个映射面上的神经元共享权值,因而减少了网络自由参数的个数。卷积神经网络中的每一个卷积层都紧跟着一个用来求局部平均与二次提取的计算层,这种特有的两次特征提取结构减小了特征分辨率。CNN主要用来识别位移、缩放及其他形式扭曲不变性的二维图形。由于CNN的特征检测层通过训练数据进行学习,所以在使用CNN时,避免了显示的特征抽取,而隐式地从训练数据中进行学习;再者由于同一特征映射面上的神经元权值相同,所以网络可以并行学习,这也是卷积网络相对于神经元彼此相连网络的一大优势。
卷积神经网络以其局部权值共享的特殊结构在语音识别和图像处理方面有着独特的优越性,其布局更接近于实际的生物神经网络,权值共享降低了网络的复杂性,特别是多维输入向量的图像可以直接输入网络这一特点避免了特征提取和分类过程中数据重建的复杂度。
在本申请一优选实施例中选取深度学习中的卷积神经网络来实现多模态交互数据的融合。具体实现步骤包括:
获取各个输入模块定期(按一定时间间隔)采集的输入信号的原始数据,并将所述原始数据转换为矩阵形式的数据;
将矩阵形式的数据输入已完成参数训练的卷积神经网络结构模型中,以生成相应操作命令。
在一优选的实施例中,鉴于训练数据集小,训练数据维度高,可以采用以下网络结构来完成多模态交互数据融合。卷积神经网络结构模型包含6个卷积层。每个卷积层后都接一个激活函数(rectified linear units,ReLU);在第2、4、6个卷积层后分别都接了一个降采样层,其中,降采样都使用平均降采样;在卷积神经网络结构模型的最后使用了两个全连接层,将数据拉成一个向量,以用于分类;在全连接层后输出是向量,包含了所有类别的评分,评分最高的类,即为所确定的操作命令(例如包括操作三元组)。
进一步地,所述智能眼镜设备1还包括:所述分体控制装置(未示出),用于获取若干所述输入信息,并进行综合逻辑分析,以生成所述操作命令,其中,所述分体控制装置与所述智能眼镜设备1本体物理分离,并通过有线或无线方式与所述智能眼镜设备1通信连接。
在此,所述分体控制装置对所述输入信息进行综合逻辑分析的内容可以与图3中第二装置12的内容相同或基本相同,为简明期间,不再赘述,并以引用的方式包含于此。
所述智能眼镜设备1通过设置物理分离的分体控制装置,并以有线或无线的方式通信连接,将所述智能眼镜设备1的处理核心业务逻辑交由分体控制装置,能够降低智能眼镜设备1本身体积和重量,并避免智能眼镜设备1过度散热导致用户使用不适。
所述智能眼镜设备1还包括:第四装置(未示出),其中,所述第四装置用于获取用户对所述操作命令的判断信息,基于所述操作命令及对应所述判断信息更新综合逻辑分析的训练相应模型。所述智能眼镜设备1提供定义交互操作的功能,即根据用户指定的操作命令对应的操作元素,对所获取的输入信息提取特征和/或分析语义,最后输出成结构化数据(所述结构化数据的结构可以相同或不同),建立所述数据化格式,建立分析获得的结构化数据与用户所指定的操作命令之间的关联关系,更新已有规则集或机器学习模型。
图5示出根据本申请一优选实施例提供的所述智能眼镜设备基于用户操作定义交互操作的过程示意图。
具体地,所述智能眼镜设备1根据用户的选定,进入定义交互操作状 态;
根据用户的选定,确定与待定义的操作命令相关的相应输入模块的输入信息,具体地:启动多个输入模块,获取用户对每一个操作元素的定义操作的输入信息,例如提示用户对操作目标的待选阶段,用户对着麦克风说“电视”语音、或手势指向当前视野范围内现实场景中的“电视”实体、或利用触控设备选定视野范围内现实场景中的“电视”实体等;再例如在用户对操作动作的待选阶段,根据语音输入“开”、开启含义的手势输入、及开启含义的触控输入等;
接着,分别使用各个通道技术(例如图像识别、手势识别、触控识别和语音识别等)提取用户对每一操作元素的定义操作的输入信息,进行特征提取和语义分析,并转化为结构化数据;
最后,将各个操作类型中操作元素所对应的结构化数据建立相应关联,并生成相应操作命令,并将相应操作命令对应的业务逻辑更新至已有规则或模型中。
通过获取用户待设定操作命令的相关信息,基于所述待设定操作命令的相关信息更新更新所述操作命令,使用户可以自行定义交互操作,提高用户使用的灵活性。
图6示出根据本申请一方面提供的一种在智能眼镜设备端用于多模态输入进行交互的流程示意图,其中,所述方法包括:步骤S11、步骤S12和步骤S13。
其中,所述步骤S11从多个输入模块的至少一个中获取若干输入信息,多个所述输入模块包括:图像输入模块、声音输入模块、触控输入模块和传感输入模块,若干所述输入信息包括至少以下任一种:现实场景信息、虚拟场景信息、手势信息、声音信息、触控信息、传感信息;所述步骤S12对若干所述输入信息进行综合逻辑分析,以生成操作命令,其中,所述操作命令具有操作元素,所述操作元素至少包括操作对象、操作动作和操作参数;所述步骤S13基于所述操作命令对所述操作对象执行相应操作。
在此,所述智能眼镜设备1是一种可穿戴智能设备,以眼镜的硬件载体形式、融合AR(Augmented Reality,增强现实)的软件交互方式,以 实现用户线上线下的信息链接和虚实融合的交互体验。所述智能眼镜设备1可以采用任意操作系统,如android操作系统、iOS操作系统等。如android操作系统、iOS操作系统等。所述智能眼镜设备1的硬件设备可以包括摄像输入模块(例如RGB摄像头、三维摄像头等)、传感输入模块(例如惯性测量单元IMU,包括电子罗盘、加速度、角速度、陀螺仪等)、语音输入模块(例如话筒等)、显示屏、语音播放设备、触觉输出设备以及数据处理模块等。当然,以上对智能眼镜设备1所包括硬件设备的描述仅为举例,今后可能出现的智能眼镜设备1,如适用本申请,仍可以以引用的方式包含于此。
在此,所述现实场景信息可以是图片、照片、场景图像、实物图像、或有特定形状物体等。所述增强现实效果可以包括相关联的增强现实内容(包括但不限于视频、语音、链接、二维动画和三维动画等)和对应的增强现实显示效果。所述虚拟场景信息可以是在智能眼镜设备1的所显示的虚拟图像。
本申请所述智能眼镜设备1通过多个输入模块获取多通道的输入信息,并对所述输入信息进行综合逻辑分析后确定操作对象、操作动作和操作动作的操作元素,以生成操作命令,再基于操作命令执行相应操作,从而实时地将现实场景信息、虚拟场景信息、手势信息、声音信息、触控信息、传感信息融合处理,使用户更接近自然语言的交互方式,从而提高提供用户的交互体验。
图7示出根据本申请优选实施例提供的一种智能眼镜设备端用于多模态输入进行交互的方法流程示意图,首先,所述步骤S11从多个输入模块的至少一个中获取若干输入信息。在此,所述智能眼镜设备1通过利用不同通道(即各种输入模块)接收用户的各种自然语言交互方式的输入信息,以分析用户行为信息确定操作目标、操作动作和操作参数,操作目标可以是实体,也可以是智能眼镜设备1的显示屏上显示的虚拟物体。
其中,用户使用的自然语言交互方式通常可以包括:场景,包括当前视野范围内的背景、实体以及眼镜投影的用户界面或物体;手势,包括手的位置、朝向以及动作;声音,包括文字信息代表的语义;以及触摸:包 括手指的力度以及操作动作。
其中,多模态各个通道的信息主要由以下硬件采集,例如RGB摄像头获取场景图像信息,深度摄像头获取手势信息,麦克风获取语音信息,触控板获取触控信息等,当然,所述智能眼镜设备1获取的输入信息及使用的硬件设备并不被限定,今后可能出现的获取方式或获取设备都可以以引用的方式包含于此。
所述步骤S12对若干所述输入信息进行综合逻辑分析,以生成操作命令。
进一步地,步骤S12中所述智能眼镜设备1对各个通道锁获取的输入信息可以采用对各个输入模块所采集到的输入信息,分别由对应的模块进行单独处理,生成格式化数据,然后,再统一交由多通道交互信息分析和融合模块处理;也可以创建深度学习模型,采用将各个输入模块所采集到的输入信息的原始数据直接利用深度学习模型进行融合处理和逻辑分析。
在一优选的实施例中,所述步骤S12包括:步骤S111:利用对应处理模块对所述输入模块的若干所述输入信息分别进行识别预处理,以生成若干所述结构化数据,其中,所述处理模块包括场景图像识别模块、手势识别模块、声音识别模块、触控识别模块和传感识别模块;步骤S112:对若干所述结构化数据进行融合处理和仲裁分析,以生成操作命令。
进一步地,在所述步骤S111中,所述智能眼镜设备1可以利用对应识别模块处理每个通道的输入信息,包括提取特征和/或分析语义,输出成结构化数据,每一通道的输入信息对应的结构化数据的结构可以相同或不同,以进行融合处理和仲裁分析即可。
其中,所述智能眼镜设备1所利用的不同处理模块处理输入信息,其中,所述步骤S111a利用所述场景图像识别模块识别所述虚拟场景信息和/或所述图像输入模块输入的现实场景信息,以获取关于可操作的目标集合的结构化数据;所述步骤S111b利用所述手势识别模块识别所述图像输入模块输入的手势信息,以获取关于可操作的目标集合的结构化数据和/或可操作的动作集合的结构化数据;所述步骤S111c利用所述触控识别模块识别所述触控输入模块输入的触控信息,以获取至少以下任一种结构化 数据:关于光标在屏幕上位置的结构化数据、可操作的动作集合的结构化数据、输入参数的结构化数据;所述步骤S111d利用所述语音识别模块识别所述语音输入模块输入的语音信息,以获取至少以下任一种结构化数据:关于可操作的目标集合的结构化数据、可操作的动作集合的结构化数据、输入参数的结构化数据。
根据不同的输入信息采用不同的处理模块进行识别预处理,生成预处理后的结构化数据,并行处理能够加快数据处理速度,步骤S112的处理过程不依赖输入信息的原始数据,使步骤S111所包括的处理模块更为灵活。
所述步骤S112所进行的融合模型和仲裁规则或模型可以是已预先定义或预先训练的(包括由开发者定义初始规则集或训练初始模型,或由用户基于规则或模型进行更新的模型),规则可以是自然交互方式间的关系(比如手势与语音配合或竞争关系等),也可以是机器学习模型(如决策树、随机森林等)。
具体地,所述步骤S112可以采用类似填槽法进行融合,即槽为操作命令对应的操作多元组,例如,操作三元组<操作目标,操作动作,操作参数(可选)>,所述操作三元组中每一元槽为操作元素的操作类型;将结构化数据按照时序或者优先级竞争填槽,当槽填满并符合业务执行逻辑时,即生成相应操作命令,并进行执行。其中,时序与优先级的竞争逻辑可以由开发者定义,也可以由用户更新。
所述步骤S112中,智能眼镜设备1利用填槽法进行融合处理时,首先在初始等待状态,当智能眼镜设备1生成结构化数据时,则对相应所述结构化数据逻辑匹配,包括关键信息提取和关键信息之间的匹配,以确定所述结构化数据对应的元素类型和相应元素信息,当检测到至少一个元素信息时,则切入就绪状态,并根据元素类型将不同的元素信息填入各操作元素的槽中,并继续获取其他元素类型和相应元素信息,在就绪状态中,时刻检测各操作元素的槽是否填满,如果填满则判断是否符合业务逻辑,当符合则生成相应操作命令,并清空槽,在交互过程中不断循环以上过程。
具体地,所述步骤S112包括:确定所述结构化数据所对应的元素类 型;对具有相同所述元素类型的所述结构化数据进行逻辑匹配和/或仲裁选择,以确定相应所述元素类型所对应的所述操作元素的元素信息;当所确定的不同所述元素类型所对应的所述操作元素的元素信息组合后符合执行业务逻辑,则基于相应所述操作元素的元素信息生成操作命令。
进一步地,对具有相同所述元素类型的所述结构化数据进行逻辑匹配和/或仲裁选择,以确定相应所述元素类型所对应的所述操作元素的元素信息包括:对具有相同所述元素类型的所述结构化数据进行逻辑匹配,以确定至少一个待选元素信息;对所述待选元素信息进行仲裁选择,以选取其中一个作为选取元素信息;根据所述选取元素信息确定相应所述元素类型所对应的所述操作元素的元素信息。
在对所述待选元素信息进行仲裁选择,以选取其中一个作为选取元素信息中:智能眼镜设备1根据所述待选元素信息的时序和/或优先级排序进行竞争选择;当所述待选元素信息的时序及优先级排序均相同时进行随机选择,以选取其中一个作为所述选取元素信息。
智能眼镜设备1对所述待选元素信息进行仲裁选择,可以按照时间顺序竞争,例如,若先采集到手势信息,则手势识别模块分析得到的结构化数据优先填入操作目标的槽中;若同时输入或输入时间差小于设定阈值,则按照已定义的优先级进行竞争,例如语音输入信息优先级高于手势输入信息,则语音识别模块提取的语音信息所生成的结构化数据优先填入相应槽中;此外,若如若输入时间相同,优先级相同,则随机选择某个填入相应槽中,未被选中的结构化数据进入缓冲队列中等待再次调取或直接丢弃。
智能眼镜设备1将所述选取元素信息确定为相应所述元素信息过程需判断对应操作元素中是否已有元素信息,若已有需判断当前已有所述元素信息和所述选取元素信息的优先级,如果所述选取元素信息的优先级较高,则需替换掉已有所述元素信息,具体地,所述第二六子单元判断当前是否已有相应所述元素类型所对应的所述操作元素的元素信息;若已有,则判断所述选取元素信息的优先级是否高于所述已有的元素信息;若高于,则所述选取元素信息替代所述已有的元素信息,确定为相应所述元素 类型所对应的所述操作元素的元素信息。例如,若语音信息的优先级较高,当根据图像识别已确定的操作目标为电视后(且还未确定输出操作命令前),根据语音信息识别到操作目标为手机,则根据语音信息的优先级较高的原则,将操作目标的元素信息由“电视”更改为“手机”。
智能眼镜设备1还可以当所确定的不同所述元素类型所对应的所述操作元素的元素信息组合后不符合执行业务逻辑,则重新对其余所述待选元素信息进行仲裁选择,以重新选取其中一个作为选取元素信息;当重新选取时间超出超时时间或所有所述待选元素信息所确定的元素信息的组合都不符合执行业务逻辑,则清空所有操作类型对应的操作元素的元素信息,以在元素信息组合后不符合执行业务逻辑时,重新选取元素信息进行判断。
结合图4,智能眼镜设备1由RGB摄像机采集场景图像,深度摄像机采集手势图像,麦克风采集语音信息、触控板采集触控信息,接着,从场景图像中识别出当前视角的场景图像中所有可操作的物体,例如客厅中的电视、窗帘、灯等,以物体名称组成物体库,作为可操作的目标集合;将用户所说的语音转换成文字,进行简单地语义分析,提取出动词、名词、代词等,动词可能为操作动作,名词和代词可能指向操作目标;实时跟踪手的位置,判断手的指向,分析手势对应的操作,触控识别出感应触摸操作,可以获取触控指向的光标的位置和相应的操作,例如分析用户滑动操作时,计算光标移动的位置,分析用户触摸到压力来判断单击或双击操作等。接着,当智能眼镜设备处于等待状态时,智能眼镜设备将同时等待用户语音、手势和触摸等多个通道的信息输入;当只有一个通道输入时,例如语音信息输入时,智能眼镜设备直接根据语音内容做出决策;当这些通道同时有信息输入时,智能眼镜设备并行分析各个通道的信息,然后根据时序或者优先级做出决策。例如语音信息先输入且优先级最高,则首先分析语音的内容,如果语音内容对操作的理解不构成歧义,则直接根据语音内容进行操作。如果语音内容还需要其它通道信息作为补充才能构成完整的操作三元组,则需结合其它通道信息,根据信息互补模式下的工作方式进行综合判断。如:当用户说“请将这边的内容告诉我”时,智能眼镜设 备会根据手势所指方向,来做出判断,并给出信息反馈;当没有语音信息输入,但是智能眼镜设备检测到触摸移动或手势变化时,根据这几个通道的信息判断用户的操作。如:用户举出“OK”手势时,表示同意;而“摆手”则表示不同意;用户触摸滑动,表示移动光标;而用户单击或双击触摸,表示选中或打开。在这种情况下,智能眼镜设备1根据当前通道输入的信息进行操作分析。对应设备分别采集对应通道的数据,然后利用以训练好的模型将各个通道的信息转化成结构化数据;最后汇总每个通道的结构化数据,使用已训练好的操作模型进行判断,输出操作三元组,并按三元组执行相应操作。
此外,所述步骤S112还可以采用机器学习法对所有所述结构化数据进行逻辑匹配和仲裁选择,以确定每一所述元素类型所对应的所述操作元素的元素信息,其中,所述机器学习法包括至少以下任一项:决策树法、随机森林法、卷积神经网络法。
在另一优选的实施例中,所述步骤S12包括:创建深度学习神经网络构架模型;将所述输入信息的原始数据输入所述深度学习神经网络构架模型中进行融合处理和模型运算,以生成操作命令。
其中,所述深度学习神经网络构架模型为卷积神经网络构架模型。
在此,所述卷积神经网络(Convolutional Neural Networks,CNN)是人工神经网络的一种,用于语音分析和图像识别。它更类似于生物神经网络,降低了网络模型的复杂度,减少了权值的数量。在网络的输入是多维数据时表现的更为优越,使原始数据可以直接作为网络的输入,避免了传统识别算法中复杂的特征提取和数据重建的过程。
其中,CNN的基本结构包括两层,其一为特征提取层,每个神经元的输入与前一层的局部接受域相连,并提取该局部的特征。一旦该局部特征被提取后,它与其它特征间的位置关系也随之确定下来;其二是特征映射层,网络的每个计算层由多个特征映射组成,每个特征映射是一个平面,平面上所有神经元的权值相等。特征映射结构可以采用影响函数核小的sigmoid函数(S形生长曲线函数)作为卷积网络的激活函数,使得特征映射具有位移不变性。
此外,由于一个映射面上的神经元共享权值,因而减少了网络自由参数的个数。卷积神经网络中的每一个卷积层都紧跟着一个用来求局部平均与二次提取的计算层,这种特有的两次特征提取结构减小了特征分辨率。CNN主要用来识别位移、缩放及其他形式扭曲不变性的二维图形。由于CNN的特征检测层通过训练数据进行学习,所以在使用CNN时,避免了显示的特征抽取,而隐式地从训练数据中进行学习;再者由于同一特征映射面上的神经元权值相同,所以网络可以并行学习,这也是卷积网络相对于神经元彼此相连网络的一大优势。
卷积神经网络以其局部权值共享的特殊结构在语音识别和图像处理方面有着独特的优越性,其布局更接近于实际的生物神经网络,权值共享降低了网络的复杂性,特别是多维输入向量的图像可以直接输入网络这一特点避免了特征提取和分类过程中数据重建的复杂度。
在本申请一优选实施例中选取深度学习中的卷积神经网络来实现多模态交互数据的融合。具体实现步骤包括:
获取各个输入模块定期(按一定时间间隔)采集的输入信号的原始数据,并将所述原始数据转换为矩阵形式的数据;
将矩阵形式的数据输入已完成参数训练的卷积神经网络结构模型中,以生成相应操作命令。
在一优选的实施例中,鉴于训练数据集小,训练数据维度高,可以采用以下网络结构来完成多模态交互数据融合。卷积神经网络结构模型包含6个卷积层。每个卷积层后都接一个激活函数(rectified linear units,ReLU);在第2、4、6个卷积层后分别都接了一个降采样层,其中,降采样都使用平均降采样;在卷积神经网络结构模型的最后使用了两个全连接层,将数据拉成一个向量,以用于分类;在全连接层后输出是向量,包含了所有类别的评分,评分最高的类,即为所确定的操作命令(例如包括操作三元组)。
进一步地,所述智能眼镜设备1具有所述分体控制装置(未示出),所述分体控制装置用于帮助获取若干所述输入信息,并进行综合逻辑分析,以生成所述操作命令,其中,所述分体控制装置与所述智能眼镜设备1本体物理分离,并通过有线或无线方式与所述智能眼镜设备1通信连接。 所述分体控制装置能够处理智能眼镜设备1的核心业务逻辑,并存储数据,能够大幅减轻所述智能眼镜设备1本身的设备重量,并降低所述智能眼镜设备1的散热等其他问题。
在此,所述分体控制装置对所述输入信息进行综合逻辑分析的内容可以与图3中步骤S12处理过程的内容相同或基本相同,为简明期间,不再赘述,并以引用的方式包含于此。
所述智能眼镜设备1通过设置物理分离的分体控制装置,并以有线或无线的方式通信连接,将所述智能眼镜设备1的处理核心业务逻辑交由分体控制装置,能够降低智能眼镜设备1本身体积和重量,并避免智能眼镜设备1过度散热导致用户使用不适。
所述智能眼镜设备1还包括:获取用户对所述操作命令的判断信息,基于所述操作命令及对应所述判断信息更新综合逻辑分析的训练相应模型。所述智能眼镜设备1提供定义交互操作的功能,即根据用户指定的操作命令对应的操作元素,对所获取的输入信息提取特征和/或分析语义,最后输出成结构化数据(所述结构化数据的结构可以相同或不同),建立所述数据化格式,建立分析获得的结构化数据与用户所指定的操作命令之间的关联关系,更新已有规则集或机器学习模型。
结合图5,具体地,所述智能眼镜设备1还具有定义用户交互操作的功能。
具体地,根据用户的选定,进入定义交互操作状态;
根据用户的选定,确定与待定义的操作命令相关的相应输入模块的输入信息,具体地:启动多个输入模块,获取用户对每一个操作元素的定义操作的输入信息,例如提示用户对操作目标的待选阶段,用户对着麦克风说“电视”语音、或手势指向当前视野范围内现实场景中的“电视”实体、或利用触控设备选定视野范围内现实场景中的“电视”实体等;再例如在用户对操作动作的待选阶段,根据语音输入“开”、开启含义的手势输入、及开启含义的触控输入等;
接着,分别使用各个通道技术(例如图像识别、手势识别、触控识别和语音识别等)提取用户对每一操作元素的定义操作的输入信息,进行特 征提取和语义分析,并转化为结构化数据;
最后,将各个操作类型中操作元素所对应的结构化数据建立相应关联,并生成相应操作命令,并将相应操作命令对应的业务逻辑更新至已有规则或模型中。
通过获取用户待设定操作命令的相关信息,基于所述待设定操作命令的相关信息更新所述操作命令,使用户可以自行定义交互操作,提高用户使用的灵活性。
所述智能眼镜设备1通过获取用户待设定操作命令的相关信息,基于所述待设定操作命令的相关信息更新所述操作命令,使用户可以自行定义交互操作,提高用户使用的灵活性。
相比于现有技术,本申请所述用于智能眼镜设备1基于多模态输入进行交互的方法和智能眼镜设备1通过多个输入模块获取多通道的输入信息,并对所述输入信息进行综合逻辑分析后确定操作对象、操作动作和操作动作的操作元素,以生成操作命令,再基于操作命令执行相应操作,从而实时地将现实场景信息、虚拟场景信息、手势信息、声音信息、触控信息、传感信息融合处理,使用户更接近自然语言的交互方式,从而提高提供用户的交互体验。
进一步地,通过获取用户待设定操作命令的相关信息,基于所述待设定操作命令的相关信息更新所述操作命令,使用户可以自行定义交互操作,提高用户使用的灵活性。
进一步地,所述智能眼镜设备1通过设置物理分离的分体控制装置,并以有线或无线的方式通信连接,将所述智能眼镜设备1的处理核心业务逻辑交由分体控制装置,能够降低智能眼镜设备1本身体积和重量,并避免智能眼镜设备1过度散热导致用户使用不适。
需要注意的是,本发明可在软件和/或软件与硬件的组合体中被实施,例如,可采用专用集成电路(ASIC)、通用目的计算机或任何其他类似硬件设备来实现。在一个实施例中,本发明的软件程序可以通过处理器执行以实现上文所述步骤或功能。同样地,本发明的软件程序(包括相关的数据结构)可以被存储到计算机可读记录介质中,例如,RAM存储器,磁或光驱动器或 软磁盘及类似设备。另外,本发明的一些步骤或功能可采用硬件来实现,例如,作为与处理器配合从而执行各个步骤或功能的电路。
另外,本发明的一部分可被应用为计算机程序产品,例如计算机程序指令,当其被计算机执行时,通过该计算机的操作,可以调用或提供根据本发明的方法和/或技术方案。而调用本发明的方法的程序指令,可能被存储在固定的或可移动的记录介质中,和/或通过广播或其他信号承载媒体中的数据流而被传输,和/或被存储在根据所述程序指令运行的计算机设备的工作存储器中。在此,根据本发明的一个实施例包括一个装置,该装置包括用于存储计算机程序指令的存储器和用于执行程序指令的处理器,其中,当该计算机程序指令被该处理器执行时,触发该装置运行基于前述根据本发明的多个实施例的方法和/或技术方案。
对于本领域技术人员而言,显然本发明不限于上述示范性实施例的细节,而且在不背离本发明的精神或基本特征的情况下,能够以其他的具体形式实现本发明。因此,无论从哪一点来看,均应将实施例看作是示范性的,而且是非限制性的,本发明的范围由所附权利要求而不是上述说明限定,因此旨在将落在权利要求的等同要件的含义和范围内的所有变化涵括在本发明内。不应将权利要求中的任何附图标记视为限制所涉及的权利要求。此外,显然“包括”一词不排除其他单元或步骤,单数不排除复数。装置权利要求中陈述的多个单元或装置也可以由一个单元或装置通过软件或者硬件来实现。第一,第二等词语用来表示名称,而并不表示任何特定的顺序。

Claims (26)

  1. 一种用于智能眼镜设备基于多模态输入进行交互的方法,其中,所述方法包括:
    A从多个输入模块的至少一个中获取若干输入信息,多个所述输入模块包括:图像输入模块、声音输入模块、触控输入模块和传感输入模块,若干所述输入信息包括至少以下任一种:现实场景信息、虚拟场景信息、手势信息、声音信息、触控信息、传感信息;
    B对若干所述输入信息进行分析,以生成操作命令,其中,所述操作命令具有操作元素,所述操作元素至少包括操作对象、操作动作和操作参数;
    C基于所述操作命令对所述操作对象执行相应操作。
  2. 根据权利要求1所述的方法,其中,所述步骤B包括:
    B1利用对应处理模块对所述输入模块的若干所述输入信息分别进行识别预处理,以生成若干所述结构化数据,其中,所述处理模块包括场景图像识别模块、手势识别模块、声音识别模块、触控识别模块或传感识别模块;
    B2对若干所述结构化数据进行融合处理和仲裁分析,以生成操作命令。
  3. 根据权利要求2所述的方法,其中,所述步骤B1包括至少以下任一项:
    利用所述场景图像识别模块识别所述虚拟场景信息和/或所述图像输入模块输入的现实场景信息,以获取关于可操作的目标集合的结构化数据;
    利用所述手势识别模块识别所述图像输入模块输入的手势信息,以获取关于可操作的目标集合的结构化数据和/或可操作的动作集合的结构化数据;
    利用所述触控识别模块识别所述触控输入模块输入的触控信息,以获取至少以下任一种结构化数据:关于光标在屏幕上位置的结构化数据、 可操作的动作集合的结构化数据、输入参数的结构化数据;
    利用所述语音识别模块识别所述语音输入模块输入的语音信息,以获取至少以下任一种结构化数据:关于可操作的目标集合的结构化数据、可操作的动作集合的结构化数据、输入参数的结构化数据。
  4. 根据权利要求2或3所述的方法,其中,所述步骤B2包括:
    B21确定所述结构化数据所对应的元素类型;
    B22对具有相同所述元素类型的所述结构化数据进行逻辑匹配和/或仲裁选择,以确定相应所述元素类型所对应的所述操作元素的元素信息;
    B23当所确定的不同所述元素类型所对应的所述操作元素的元素信息组合后符合执行业务逻辑,则基于相应所述操作元素的元素信息生成操作命令。
  5. 根据权利要求4所述的方法,其中,所述步骤B22包括:
    B211对具有相同所述元素类型的所述结构化数据进行逻辑匹配,以确定至少一个待选元素信息;
    B222对所述待选元素信息进行仲裁选择,以选取其中一个作为选取元素信息;
    B223根据所述选取元素信息确定相应所述元素类型所对应的所述操作元素的元素信息。
  6. 根据权利要求5所述的方法,其中,所述步骤B2还包括:
    B24当所确定的不同所述元素类型所对应的所述操作元素的元素信息组合后不符合执行业务逻辑,则重新对其余所述待选元素信息进行仲裁选择,以重新选取其中一个作为选取元素信息;
    B25当重新选取时间超出超时时间或所有所述待选元素信息所确定的元素信息的组合都不符合执行业务逻辑,则清空所有操作类型对应的操作元素的元素信息。
  7. 根据权利要求5或6所述的方法,其中,所述步骤B222包括:
    根据所述待选元素信息的时序和/或优先级排序进行竞争选择,当所述待选元素信息的时序及优先级排序均相同时进行随机选择,以选取其 中一个作为所述选取元素信息。
  8. 根据权利要求5至7中任一项所述的方法,其中,所述步骤B223包括:
    判断当前是否已有相应所述元素类型所对应的所述操作元素的元素信息;
    若已有,则判断所述选取元素信息的优先级是否高于所述已有的元素信息;
    若高于,则所述选取元素信息替代所述已有的元素信息,确定为相应所述元素类型所对应的所述操作元素的元素信息。
  9. 根据权利要求2所述的方法,其中,所述步骤B2还包括:
    采用机器学习法对所有所述结构化数据进行逻辑匹配和仲裁选择,以确定每一所述元素类型所对应的所述操作元素的元素信息,其中,所述机器学习法包括至少以下任一项:决策树法、随机森林法、卷积神经网络法。
  10. 根据权利要求1所述的方法,其中,所述步骤B还包括:
    创建深度学习神经网络构架模型;
    将所述输入信息的原始数据输入所述深度学习神经网络构架模型中进行融合处理和模型运算,以生成操作命令。
  11. 根据权利要求10所述的方法,其中,所述深度学习神经网络构架模型为卷积神经网络构架模型。
  12. 根据权利要求1至11中任一项所述的方法,其中,所述步骤B包括:
    将若干所述输入信息发送至分体控制装置进行综合逻辑分析,以生成所述操作命令,其中,所述分体控制装置与所述智能眼镜设备本体物理分离,并通过有线或无线方式与所述智能眼镜设备通信连接。
  13. 根据权利要求1至12中任一项所述的方法,其中,所述方法还包括:
    D获取用户待设定操作命令的相关信息,基于所述待设定操作命令的相关信息更新所述操作命令。
  14. 一种多模态输入进行交互的智能眼镜设备,其中,所述智能眼镜设备包括:
    第一装置,用于从多个输入模块的至少一个中获取若干输入信息,多个所述输入模块包括:图像输入模块、声音输入模块、触控输入模块和传感输入模块,若干所述输入信息包括至少以下任一种:现实场景信息、虚拟场景信息、手势信息、声音信息、触控信息、传感信息;
    第二装置,用于对若干所述输入信息进行综合逻辑分析,以生成操作命令,其中,所述操作命令具有操作元素,所述操作元素至少包括操作对象、操作动作和操作参数;
    第三装置,用于基于所述操作命令对所述操作对象执行相应操作。
  15. 根据权利要求14所述的智能眼镜设备,其中,所述第二装置包括:
    第一单元,用于利用对应处理模块对所述输入模块的若干所述输入信息分别进行识别预处理,以生成若干所述结构化数据,其中,所述处理模块包括场景图像识别模块、手势识别模块、声音识别模块、触控识别模块和传感识别模块;
    第二单元,用于对若干所述结构化数据进行融合处理和仲裁分析,以生成操作命令。
  16. 根据权利要求15所述的智能眼镜设备,其中,所述第一单元包括至少以下任一项:
    第一一子单元,用于利用所述场景图像识别模块识别所述虚拟场景信息和/或所述图像输入模块输入的现实场景信息,以获取关于可操作的目标集合的结构化数据;
    第一二子单元,用于利用所述手势识别模块识别所述图像输入模块输入的手势信息,以获取关于可操作的目标集合的结构化数据和/或可操作的动作集合的结构化数据;
    第一三子单元,用于利用所述触控识别模块识别所述触控输入模块输入的触控信息,以获取至少以下任一种结构化数据:关于光标在屏幕上位置的结构化数据、可操作的动作集合的结构化数据、输入参数的结 构化数据;
    第一四子单元,用于利用所述语音识别模块识别所述语音输入模块输入的语音信息,以获取至少以下任一种结构化数据:关于可操作的目标集合的结构化数据、可操作的动作集合的结构化数据、输入参数的结构化数据。
  17. 根据权利要求15或16所述的智能眼镜设备,其中,所述第二单元包括:
    第二一子单元,用于确定所述结构化数据所对应的元素类型;
    第二二子单元,用于对具有相同所述元素类型的所述结构化数据进行逻辑匹配和/或仲裁选择,以确定相应所述元素类型所对应的所述操作元素的元素信息;
    第二三子单元,用于当所确定的不同所述元素类型所对应的所述操作元素的元素信息组合后符合执行业务逻辑,则基于相应所述操作元素的元素信息生成操作命令。
  18. 根据权利要求17所述的智能眼镜设备,其中,所述第二二子单元包括:
    第二四子单元,用于对具有相同所述元素类型的所述结构化数据进行逻辑匹配,以确定至少一个待选元素信息;
    第二五子单元,用于对所述待选元素信息进行仲裁选择,以选取其中一个作为选取元素信息;
    第二六子单元,用于根据所述选取元素信息确定相应所述元素类型所对应的所述操作元素的元素信息。
  19. 根据权利要求18所述的智能眼镜设备,其中,所述第二二子单元还包括:
    第二七子单元,用于当所确定的不同所述元素类型所对应的所述操作元素的元素信息组合后不符合执行业务逻辑,则重新对其余所述待选元素信息进行仲裁选择,以重新选取其中一个作为选取元素信息;
    第二八子单元,用于当重新选取时间超出超时时间或所有所述待选元素信息所确定的元素信息的组合都不符合执行业务逻辑,则清空所有 操作类型对应的操作元素的元素信息。
  20. 根据权利要求18或19所述的智能眼镜设备,其中,所述第二五子单元用于:
    根据所述待选元素信息的时序和/或优先级排序进行竞争选择;
    当所述待选元素信息的时序及优先级排序均相同时进行随机选择,以选取其中一个作为所述选取元素信息。
  21. 根据权利要求18至20中任一项所述的智能眼镜设备,其中,所述第二六子单元用于:
    判断当前是否已有相应所述元素类型所对应的所述操作元素的元素信息;
    若已有,则判断所述选取元素信息的优先级是否高于所述已有的元素信息;
    若高于,则所述选取元素信息替代所述已有的元素信息,确定为相应所述元素类型所对应的所述操作元素的元素信息。
  22. 根据权利要求14所述的方法,其中,所述第二单元还用于:
    采用机器学习法对所有所述结构化数据进行逻辑匹配和仲裁选择,以确定每一所述元素类型所对应的所述操作元素的元素信息,其中,所述机器学习法包括至少以下任一项:决策树法、随机森林法、卷积神经网络法。
  23. 根据权利要求14所述的智能眼镜设备,其中,所述第二装置还包括:
    第三单元,用于创建深度学习神经网络构架模型;
    第四单元,用于将所述输入信息的原始数据输入所述深度学习神经网络构架模型中进行融合处理和模型运算,以生成操作命令。
  24. 根据权利要求23所述的智能眼镜设备,其中,所述深度学习神经网络构架模型为卷积神经网络构架模型。
  25. 根据权利要求14至24中任一项所述的智能眼镜设备,其中,所述智能眼镜设备还包括:
    分体控制装置,用于获取若干所述输入信息,并进行综合逻辑分析, 以生成所述操作命令,其中,所述分体控制装置与所述智能眼镜设备本体物理分离,并通过有线或无线方式与所述智能眼镜设备通信连接。
  26. 根据权利要求14至25中任一项所述的智能眼镜设备,其中,所述智能眼镜设备还包括:
    第四装置,用于获取用户待设定操作命令的相关信息,基于所述待设定操作命令的相关信息更新所述操作命令。
PCT/CN2017/078225 2016-01-25 2017-03-25 基于多模态输入进行交互的方法和设备 WO2017129149A1 (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
US16/044,335 US10664060B2 (en) 2016-01-25 2018-07-24 Multimodal input-based interaction method and device

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
CN201610049586.X 2016-01-25
CN201610049586.XA CN106997236B (zh) 2016-01-25 2016-01-25 基于多模态输入进行交互的方法和设备

Related Child Applications (1)

Application Number Title Priority Date Filing Date
US16/044,335 Continuation US10664060B2 (en) 2016-01-25 2018-07-24 Multimodal input-based interaction method and device

Publications (1)

Publication Number Publication Date
WO2017129149A1 true WO2017129149A1 (zh) 2017-08-03

Family

ID=59397459

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/CN2017/078225 WO2017129149A1 (zh) 2016-01-25 2017-03-25 基于多模态输入进行交互的方法和设备

Country Status (3)

Country Link
US (1) US10664060B2 (zh)
CN (1) CN106997236B (zh)
WO (1) WO2017129149A1 (zh)

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20180329512A1 (en) * 2016-01-25 2018-11-15 Hiscene Information Technology Co., Ltd Multimodal input-based interaction method and device
CN110109541A (zh) * 2019-04-25 2019-08-09 广州智伴人工智能科技有限公司 一种多模态交互的方法
WO2019204651A1 (en) * 2018-04-20 2019-10-24 Facebook Technologies, Llc Personalized gesture recognition for user interaction with assistant systems
US11307880B2 (en) 2018-04-20 2022-04-19 Meta Platforms, Inc. Assisting users with personalized and contextual communication content
US11676220B2 (en) 2018-04-20 2023-06-13 Meta Platforms, Inc. Processing multimodal user input for assistant systems
US11715042B1 (en) 2018-04-20 2023-08-01 Meta Platforms Technologies, Llc Interpretability of deep reinforcement learning models in assistant systems
CN116994069A (zh) * 2023-09-22 2023-11-03 武汉纺织大学 一种基于多模态信息的图像解析方法及系统
US11886473B2 (en) 2018-04-20 2024-01-30 Meta Platforms, Inc. Intent identification for agent matching by assistant systems

Families Citing this family (65)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8977255B2 (en) 2007-04-03 2015-03-10 Apple Inc. Method and system for operating a multi-function portable electronic device using voice-activation
CN107479706B (zh) * 2017-08-14 2020-06-16 中国电子科技集团公司第二十八研究所 一种基于HoloLens的战场态势信息构建与交互实现方法
CN107608799B (zh) * 2017-08-15 2019-03-22 北京小蓦机器人技术有限公司 一种用于执行交互指令的方法、设备及存储介质
CN109426860A (zh) * 2017-08-23 2019-03-05 幻视互动(北京)科技有限公司 一种基于神经网络的mr混合现实信息处理方法及装置
CN109583462A (zh) * 2017-09-28 2019-04-05 幻视互动(北京)科技有限公司 基于深度神经网络的数据流处理方法、装置及系统
US11437032B2 (en) 2017-09-29 2022-09-06 Shanghai Cambricon Information Technology Co., Ltd Image processing apparatus and method
CN107831890A (zh) * 2017-10-11 2018-03-23 北京华捷艾米科技有限公司 基于ar的人机交互方法、装置及设备
CN109725699B (zh) * 2017-10-20 2022-05-20 荣耀终端有限公司 识别码的识别方法、装置和设备
CN107784355A (zh) * 2017-10-26 2018-03-09 北京光年无限科技有限公司 虚拟人多模态交互数据处理方法和系统
US10732937B2 (en) * 2017-10-31 2020-08-04 Fujitsu Limited Programming by voice
US10394958B2 (en) * 2017-11-09 2019-08-27 Conduent Business Services, Llc Performing semantic analyses of user-generated text content using a lexicon
US10867054B2 (en) 2017-11-14 2020-12-15 Thomas STACHURA Information security/privacy via a decoupled security accessory to an always listening assistant device
US10872607B2 (en) 2017-11-14 2020-12-22 Thomas STACHURA Information choice and security via a decoupled router with an always listening assistant device
US10867623B2 (en) 2017-11-14 2020-12-15 Thomas STACHURA Secure and private processing of gestures via video input
US11100913B2 (en) 2017-11-14 2021-08-24 Thomas STACHURA Information security/privacy via a decoupled security cap to an always listening assistant device
US10999733B2 (en) 2017-11-14 2021-05-04 Thomas STACHURA Information security/privacy via a decoupled security accessory to an always listening device
CN110018979A (zh) * 2018-01-09 2019-07-16 幻视互动(北京)科技有限公司 一种基于重构算法集并加速处理混合现实数据流的mr智能眼镜及方法
CN108334199A (zh) * 2018-02-12 2018-07-27 华南理工大学 基于增强现实的移动式多模态交互方法及装置
US11630666B2 (en) 2018-02-13 2023-04-18 Shanghai Cambricon Information Technology Co., Ltd Computing device and method
US11620130B2 (en) 2018-02-13 2023-04-04 Shanghai Cambricon Information Technology Co., Ltd Computing device and method
EP3640863B1 (en) 2018-02-13 2021-10-27 Shanghai Cambricon Information Technology Co., Ltd Computation device and method
CN116991225A (zh) 2018-02-14 2023-11-03 上海寒武纪信息科技有限公司 处理器的控制装置、方法及设备
US10839214B2 (en) * 2018-03-13 2020-11-17 International Business Machines Corporation Automated intent to action mapping in augmented reality environments
CN108406848A (zh) * 2018-03-14 2018-08-17 安徽果力智能科技有限公司 一种基于场景分析的智能机器人及其运动控制方法
EP3624020A4 (en) 2018-05-18 2021-05-05 Shanghai Cambricon Information Technology Co., Ltd CALCULATION PROCEDURES AND RELATED PRODUCTS
CN108874126B (zh) * 2018-05-30 2021-08-31 北京致臻智造科技有限公司 基于虚拟现实设备的交互方法及系统
CN108921081B (zh) * 2018-06-27 2020-10-09 百度在线网络技术(北京)有限公司 用户操作的检测方法和装置
JP7053891B2 (ja) 2018-06-27 2022-04-12 シャンハイ カンブリコン インフォメーション テクノロジー カンパニー リミテッド オンチップコードのブレークポイントによるデバッグ方法、オンチッププロセッサ及びブレークポイントによるチップデバッグシステム
JP6867518B2 (ja) 2018-08-28 2021-04-28 カンブリコン テクノロジーズ コーポレイション リミティド データ前処理方法、装置、コンピュータ機器及び記憶媒体
US11703939B2 (en) 2018-09-28 2023-07-18 Shanghai Cambricon Information Technology Co., Ltd Signal processing device and related products
CN111383638A (zh) 2018-12-28 2020-07-07 上海寒武纪信息科技有限公司 信号处理装置、信号处理方法及相关产品
CN109858524B (zh) * 2019-01-04 2020-10-16 北京达佳互联信息技术有限公司 手势识别方法、装置、电子设备及存储介质
CA3129378A1 (en) 2019-02-07 2020-08-13 Thomas Stachura Privacy device for smart speakers
US11176935B2 (en) * 2019-02-15 2021-11-16 Wipro Limited System and method for controlling devices through voice interaction
US11741951B2 (en) * 2019-02-22 2023-08-29 Lenovo (Singapore) Pte. Ltd. Context enabled voice commands
CN109814726B (zh) * 2019-02-28 2022-07-01 亮风台(上海)信息科技有限公司 一种执行智能交互处理模块的方法与设备
US11847554B2 (en) 2019-04-18 2023-12-19 Cambricon Technologies Corporation Limited Data processing method and related products
CN111832739B (zh) 2019-04-18 2024-01-09 中科寒武纪科技股份有限公司 一种数据处理方法及相关产品
US11676029B2 (en) 2019-06-12 2023-06-13 Shanghai Cambricon Information Technology Co., Ltd Neural network quantization parameter determination method and related products
CN112085189B (zh) 2019-06-12 2024-03-29 上海寒武纪信息科技有限公司 一种神经网络的量化参数确定方法及相关产品
CN110196642B (zh) * 2019-06-21 2022-05-17 济南大学 一种基于意图理解模型的导航式虚拟显微镜
CN110288016B (zh) * 2019-06-21 2021-09-28 济南大学 一种多模态意图融合方法及应用
CN110597382B (zh) * 2019-08-08 2023-03-17 中广核工程有限公司 一种核电站控制室多通道融合人机交互方法以及系统
TWI731442B (zh) * 2019-10-18 2021-06-21 宏碁股份有限公司 電子裝置及其利用觸控資料的物件資訊辨識方法
CN111177346B (zh) * 2019-12-19 2022-10-14 爱驰汽车有限公司 人机交互方法、装置、电子设备、存储介质
CN111143539B (zh) * 2019-12-31 2023-06-23 重庆和贯科技有限公司 基于知识图谱的教学领域问答方法
CN111274910B (zh) 2020-01-16 2024-01-30 腾讯科技(深圳)有限公司 场景互动方法、装置及电子设备
CN112306352A (zh) * 2020-02-24 2021-02-02 北京字节跳动网络技术有限公司 用于处理信息的系统、方法和装置
CN113917687A (zh) * 2020-07-08 2022-01-11 佐臻股份有限公司 智能眼镜轻量化装置
US11495226B2 (en) * 2020-07-14 2022-11-08 Disney Enterprises, Inc. System and method for configurable control of voice command systems
CN111857370B (zh) * 2020-07-27 2022-03-15 吉林大学 一种多通道交互设备研发平台
CN111736709A (zh) * 2020-08-25 2020-10-02 北京深光科技有限公司 Ar眼镜控制方法、设备、存储介质及装置
CN111968470B (zh) * 2020-09-02 2022-05-17 济南大学 一种面向虚实融合的闯关交互式实验方法和系统
CN112099630B (zh) * 2020-09-11 2024-04-05 济南大学 一种多模态意图逆向主动融合的人机交互方法
CN112099633A (zh) * 2020-09-16 2020-12-18 济南大学 一种多模态感知的智能实验方法及装置
CN112506125A (zh) * 2020-11-19 2021-03-16 北京蓦然认知科技有限公司 一种多模态控制方法、装置和系统
CN112835447A (zh) * 2021-01-22 2021-05-25 哈尔滨工业大学 穿戴式计算机多通道人机交互方法、装置、设备及系统
CN113656546A (zh) * 2021-08-17 2021-11-16 百度在线网络技术(北京)有限公司 多模态搜索方法、装置、设备、存储介质以及程序产品
US20230076716A1 (en) * 2021-09-03 2023-03-09 Apple Inc. Multi-device gesture control
CN113806609B (zh) * 2021-09-26 2022-07-12 郑州轻工业大学 一种基于mit和fsm的多模态情感分析方法
CN116522947A (zh) * 2022-01-20 2023-08-01 北京邮电大学 基于智简网络的信息发送方法、装置、电子设备及介质
CN114881179B (zh) * 2022-07-08 2022-09-06 济南大学 一种基于意图理解的智能实验方法
CN115329578A (zh) * 2022-08-19 2022-11-11 南京邮电大学 基于多模态融合的三维建模系统及建模方法
CN115756161B (zh) * 2022-11-15 2023-09-26 华南理工大学 多模态交互结构力学分析方法、系统、计算机设备及介质
CN115797655B (zh) * 2022-12-13 2023-11-07 南京恩博科技有限公司 一种人物交互检测模型、方法、系统及装置

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103412640A (zh) * 2013-05-16 2013-11-27 胡三清 牙齿控制的字符或命令输入的装置及方法
CN103793060A (zh) * 2014-02-14 2014-05-14 杨智 一种用户交互系统和方法

Family Cites Families (19)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5712658A (en) * 1993-12-28 1998-01-27 Hitachi, Ltd. Information presentation apparatus and information display apparatus
JP2000132305A (ja) * 1998-10-23 2000-05-12 Olympus Optical Co Ltd 操作入力装置
US7148879B2 (en) * 2000-07-06 2006-12-12 At&T Corp. Bioacoustic control system, method and apparatus
US8313380B2 (en) * 2002-07-27 2012-11-20 Sony Computer Entertainment America Llc Scheme for translating movements of a hand-held controller into inputs for a system
US8570378B2 (en) * 2002-07-27 2013-10-29 Sony Computer Entertainment Inc. Method and apparatus for tracking three-dimensional movements of an object using a depth sensing camera
US20100194694A1 (en) * 2009-01-30 2010-08-05 Nokia Corporation Method and Apparatus for Continuous Stroke Input
JP5617246B2 (ja) * 2010-01-12 2014-11-05 ソニー株式会社 画像処理装置、物体選択方法及びプログラム
TWI590133B (zh) * 2010-12-31 2017-07-01 樂金顯示科技股份有限公司 驅動觸控感測器之設備及方法
CN102298694A (zh) * 2011-06-21 2011-12-28 广东爱科数字科技有限公司 一种应用于远程信息服务的人机交互识别系统
CN102824092A (zh) * 2012-08-31 2012-12-19 华南理工大学 一种窗帘的智能手势和语音控制系统及其控制方法
CN104238726B (zh) * 2013-06-17 2017-07-18 腾讯科技(深圳)有限公司 智能眼镜控制方法、装置及一种智能眼镜
EP3043037B1 (en) * 2013-09-05 2018-08-29 Doosan Infracore Co., Ltd. Exhaust gas post-processing apparatus and method for sulfur oxide removal
US9405415B2 (en) * 2013-10-01 2016-08-02 Synaptics Incorporated Targeted transcapacitance sensing for a matrix sensor
US9594433B2 (en) * 2013-11-05 2017-03-14 At&T Intellectual Property I, L.P. Gesture-based controls via bone conduction
US10338678B2 (en) * 2014-01-07 2019-07-02 Nod, Inc. Methods and apparatus for recognition of start and/or stop portions of a gesture using an auxiliary sensor
CN104965592A (zh) * 2015-07-08 2015-10-07 苏州思必驰信息科技有限公司 基于语音和手势识别的多模态非触摸人机交互方法及系统
KR101749070B1 (ko) * 2015-11-02 2017-06-20 현대자동차주식회사 사용자 인터페이스 평가 장치 및 그 평가 방법
CN106997236B (zh) * 2016-01-25 2018-07-13 亮风台(上海)信息科技有限公司 基于多模态输入进行交互的方法和设备
CN106997235B (zh) * 2016-01-25 2018-07-13 亮风台(上海)信息科技有限公司 用于实现增强现实交互和展示的方法、设备

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103412640A (zh) * 2013-05-16 2013-11-27 胡三清 牙齿控制的字符或命令输入的装置及方法
CN103793060A (zh) * 2014-02-14 2014-05-14 杨智 一种用户交互系统和方法

Cited By (33)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10664060B2 (en) * 2016-01-25 2020-05-26 Hiscene Information Technology Co., Ltd. Multimodal input-based interaction method and device
US20180329512A1 (en) * 2016-01-25 2018-11-15 Hiscene Information Technology Co., Ltd Multimodal input-based interaction method and device
US11544305B2 (en) 2018-04-20 2023-01-03 Meta Platforms, Inc. Intent identification for agent matching by assistant systems
US11721093B2 (en) 2018-04-20 2023-08-08 Meta Platforms, Inc. Content summarization for assistant systems
US11676220B2 (en) 2018-04-20 2023-06-13 Meta Platforms, Inc. Processing multimodal user input for assistant systems
US20210224346A1 (en) 2018-04-20 2021-07-22 Facebook, Inc. Engaging Users by Personalized Composing-Content Recommendation
JP2021522561A (ja) * 2018-04-20 2021-08-30 フェイスブック・テクノロジーズ・リミテッド・ライアビリティ・カンパニーFacebook Technologies, Llc 補助システムとのユーザ対話のための個人化されたジェスチャー認識
US11245646B1 (en) 2018-04-20 2022-02-08 Facebook, Inc. Predictive injection of conversation fillers for assistant systems
US11249773B2 (en) 2018-04-20 2022-02-15 Facebook Technologies, Llc. Auto-completion for gesture-input in assistant systems
US11249774B2 (en) 2018-04-20 2022-02-15 Facebook, Inc. Realtime bandwidth-based communication for assistant systems
US11908179B2 (en) 2018-04-20 2024-02-20 Meta Platforms, Inc. Suggestions for fallback social contacts for assistant systems
US11301521B1 (en) 2018-04-20 2022-04-12 Meta Platforms, Inc. Suggestions for fallback social contacts for assistant systems
US11307880B2 (en) 2018-04-20 2022-04-19 Meta Platforms, Inc. Assisting users with personalized and contextual communication content
US11308169B1 (en) 2018-04-20 2022-04-19 Meta Platforms, Inc. Generating multi-perspective responses by assistant systems
US11368420B1 (en) 2018-04-20 2022-06-21 Facebook Technologies, Llc. Dialog state tracking for assistant systems
US11429649B2 (en) 2018-04-20 2022-08-30 Meta Platforms, Inc. Assisting users with efficient information sharing among social connections
US10802848B2 (en) 2018-04-20 2020-10-13 Facebook Technologies, Llc Personalized gesture recognition for user interaction with assistant systems
US11908181B2 (en) 2018-04-20 2024-02-20 Meta Platforms, Inc. Generating multi-perspective responses by assistant systems
WO2019204651A1 (en) * 2018-04-20 2019-10-24 Facebook Technologies, Llc Personalized gesture recognition for user interaction with assistant systems
US11688159B2 (en) 2018-04-20 2023-06-27 Meta Platforms, Inc. Engaging users by personalized composing-content recommendation
US11704899B2 (en) 2018-04-20 2023-07-18 Meta Platforms, Inc. Resolving entities from multiple data sources for assistant systems
US11704900B2 (en) 2018-04-20 2023-07-18 Meta Platforms, Inc. Predictive injection of conversation fillers for assistant systems
US11715042B1 (en) 2018-04-20 2023-08-01 Meta Platforms Technologies, Llc Interpretability of deep reinforcement learning models in assistant systems
US11715289B2 (en) 2018-04-20 2023-08-01 Meta Platforms, Inc. Generating multi-perspective responses by assistant systems
US20230186618A1 (en) 2018-04-20 2023-06-15 Meta Platforms, Inc. Generating Multi-Perspective Responses by Assistant Systems
JP7324772B2 (ja) 2018-04-20 2023-08-10 メタ プラットフォームズ テクノロジーズ, リミテッド ライアビリティ カンパニー 補助システムとのユーザ対話のための個人化されたジェスチャー認識
US11727677B2 (en) 2018-04-20 2023-08-15 Meta Platforms Technologies, Llc Personalized gesture recognition for user interaction with assistant systems
US11887359B2 (en) 2018-04-20 2024-01-30 Meta Platforms, Inc. Content suggestions for content digests for assistant systems
US11886473B2 (en) 2018-04-20 2024-01-30 Meta Platforms, Inc. Intent identification for agent matching by assistant systems
CN110109541B (zh) * 2019-04-25 2022-04-05 广州智伴人工智能科技有限公司 一种多模态交互的方法
CN110109541A (zh) * 2019-04-25 2019-08-09 广州智伴人工智能科技有限公司 一种多模态交互的方法
CN116994069B (zh) * 2023-09-22 2023-12-22 武汉纺织大学 一种基于多模态信息的图像解析方法及系统
CN116994069A (zh) * 2023-09-22 2023-11-03 武汉纺织大学 一种基于多模态信息的图像解析方法及系统

Also Published As

Publication number Publication date
CN106997236A (zh) 2017-08-01
US20180329512A1 (en) 2018-11-15
US10664060B2 (en) 2020-05-26
CN106997236B (zh) 2018-07-13

Similar Documents

Publication Publication Date Title
WO2017129149A1 (zh) 基于多模态输入进行交互的方法和设备
US11080520B2 (en) Automatic machine recognition of sign language gestures
US11526713B2 (en) Embedding human labeler influences in machine learning interfaces in computing environments
EP3398034B1 (en) Electrical device for hand gestures detection
KR20200046117A (ko) 공동 오디오-비디오 얼굴 애니메이션 시스템
WO2021158692A1 (en) Using text for avatar animation
Rossi et al. An extensible architecture for robust multimodal human-robot communication
EP3899696B1 (en) Voice command execution from auxiliary input
WO2017161233A1 (en) Deep multi-task representation learning
US11126140B2 (en) Electronic device, external device capable of being combined with the electronic device, and a display method thereof
KR102448382B1 (ko) 텍스트와 연관된 이미지를 제공하는 전자 장치 및 그 동작 방법
CN112633208A (zh) 一种唇语识别方法、服务设备及存储介质
WO2017116922A1 (en) Detection of hand gestures using gesture language discrete values
CN111967334A (zh) 一种人体意图识别方法、系统以及存储介质
US11978248B1 (en) Scene graph-based scene re-identification
CN113377193A (zh) 一种基于可靠手势识别的自动售货机交互方法及系统
CN108628454B (zh) 基于虚拟人的视觉交互方法及系统
Dhamanskar et al. Human computer interaction using hand gestures and voice
US11308150B2 (en) Mobile device event control with topographical analysis of digital images inventors
JP2021114313A (ja) 顔合成画像検出方法、顔合成画像検出装置、電子機器、記憶媒体及びコンピュータプログラム
CN112668464A (zh) 一种融合场景匹配的中文手语翻译模型构建方法及装置
US20240112383A1 (en) Generating user interfaces in augmented reality environments
Kajonpong Recognizing American Sign Language Using Deep Learning
US20230341948A1 (en) Multimodal ui with semantic events
US20230377223A1 (en) Hand-tracked text selection and modification

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 17743764

Country of ref document: EP

Kind code of ref document: A1

NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 17743764

Country of ref document: EP

Kind code of ref document: A1