WO2018006375A1 - 一种虚拟机器人的交互方法、系统及机器人 - Google Patents

一种虚拟机器人的交互方法、系统及机器人 Download PDF

Info

Publication number
WO2018006375A1
WO2018006375A1 PCT/CN2016/089219 CN2016089219W WO2018006375A1 WO 2018006375 A1 WO2018006375 A1 WO 2018006375A1 CN 2016089219 W CN2016089219 W CN 2016089219W WO 2018006375 A1 WO2018006375 A1 WO 2018006375A1
Authority
WO
WIPO (PCT)
Prior art keywords
content
information
user
interactive content
robot
Prior art date
Application number
PCT/CN2016/089219
Other languages
English (en)
French (fr)
Inventor
杨新宇
王昊奋
邱楠
Original Assignee
深圳狗尾草智能科技有限公司
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 深圳狗尾草智能科技有限公司 filed Critical 深圳狗尾草智能科技有限公司
Priority to CN201680001715.6A priority Critical patent/CN106663127A/zh
Priority to PCT/CN2016/089219 priority patent/WO2018006375A1/zh
Priority to JP2017133166A priority patent/JP2018014094A/ja
Publication of WO2018006375A1 publication Critical patent/WO2018006375A1/zh

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/332Query formulation
    • G06F16/3329Natural language query formulation or dialogue systems
    • BPERFORMING OPERATIONS; TRANSPORTING
    • B25HAND TOOLS; PORTABLE POWER-DRIVEN TOOLS; MANIPULATORS
    • B25JMANIPULATORS; CHAMBERS PROVIDED WITH MANIPULATION DEVICES
    • B25J11/00Manipulators not otherwise provided for
    • B25J11/0005Manipulators having means for high-level communication with users, e.g. speech generator, face recognition means
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2455Query execution
    • G06F16/24564Applying rules; Deductive queries
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/60Information retrieval; Database structures therefor; File system structures therefor of audio data

Definitions

  • the invention relates to the field of robot interaction technology, and in particular relates to a virtual robot interaction method, system and robot.
  • robots are used more and more. For example, some elderly people and children can interact with robots, including dialogue and entertainment.
  • more functions, such as painting, Writing poems, composing, etc. allows the robot to interact with each other according to the user's meaning, increasing the functionality of the robot.
  • how to implement these functions becomes a technical problem that needs to be solved in the technical field.
  • the object of the present invention is to provide a virtual robot interaction method, system and robot, so that the robot can provide more and more anthropomorphic interactions and enhance the user experience.
  • a method for interacting with a virtual robot comprising:
  • Preprocessing the multimodal information to identify user intent Preprocessing the multimodal information to identify user intent
  • Transmitting interactive content to an imaging system the imaging system generating a virtual 3D image according to the interactive content
  • the robot generates evaluation information based on the interactive content.
  • the invention discloses an interactive system of a virtual robot, comprising:
  • An obtaining module configured to acquire multi-modal information of the user
  • An intent identification module configured to preprocess the multimodal information to identify a user intent
  • a processing module configured to generate content information and selection according to the multimodal information and user intention Generate a template
  • a generating module configured to combine the content information and the generated template by using a preset rule to generate an interactive content
  • a sending module configured to send the interactive content to the imaging system, and the imaging system generates a virtual 3D image according to the interactive content
  • An evaluation module the robot generates evaluation information according to the interactive content.
  • the invention discloses a robot, characterized in that it comprises an interactive system of a virtual robot as described above.
  • the interaction method of the virtual robot of the present invention includes: acquiring multi-modal information of the user; pre-processing the multi-modal information to identify the user's intention; according to the multi-mode State information and user intent to generate content information and select a generated template; combine the content information and the generated template by a preset rule to generate interactive content; send the interactive content to the imaging system, and the imaging system generates a virtual 3D image according to the interactive content; The robot generates evaluation information based on the interactive content.
  • the user's intention can be determined according to the user's multi-modal information, what kind of reply the user wants, and then the details of the reply content, including the content information and the generated template, according to the multi-modal information and the user's intention,
  • the content information and the generated template are combined to generate the interactive content, and then sent to the imaging system, and the imaging system generates a virtual 3D image according to the interactive content, thereby displaying and responding to the user, so that the robot can be more anthropomorphic when interacting with the human.
  • the method can improve the anthropomorphicity of the robot interactive content generation, enhance the human-computer interaction experience, improve the intelligence, and the robot can also evaluate the generated interactive content, such as scoring, to increase entertainment and user experience.
  • FIG. 1 is a flowchart of a method for interacting a virtual robot according to Embodiment 1 of the present invention
  • FIG. 2 is a schematic diagram of an interactive system of a virtual robot according to a second embodiment of the present invention.
  • Computer devices include user devices and network devices.
  • the user equipment or client includes However, it is not limited to computers, smart phones, PDAs, etc.; network devices include, but are not limited to, a single network server, a server group composed of a plurality of network servers, or a cloud-based cloud composed of a large number of computers or network servers.
  • the computer device can operate alone to carry out the invention, and can also access the network and implement the invention through interoperation with other computer devices in the network.
  • the network in which the computer device is located includes, but is not limited to, the Internet, a wide area network, a metropolitan area network, a local area network, a VPN network, and the like.
  • first means “first,” “second,” and the like may be used herein to describe the various elements, but the elements should not be limited by these terms, and the terms are used only to distinguish one element from another.
  • the term “and/or” used herein includes any and all combinations of one or more of the associated listed items. When a unit is referred to as being “connected” or “coupled” to another unit, it can be directly connected or coupled to the other unit, or an intermediate unit can be present.
  • an interaction method of a virtual robot including:
  • S105 Send the interactive content to the imaging system, and the imaging system generates the virtual 3D image according to the interaction content.
  • the robot generates evaluation information according to the interactive content.
  • the user's intention can be determined according to the user's multi-modal information (such as image, voice, text, mobile phone, etc.), what kind of reply the user wants, and then the reply content is queried according to the multi-modal information and the user's intention.
  • the details in the content, including the content information and the generated template, after the collection is completed, the content information and the generated template are combined to generate the interactive content, and then sent to the imaging system.
  • the imaging system generates virtual 3D images according to the interactive content, so as to display and respond to the user, so that the robot can be more anthropomorphized when interacting with the human.
  • This method can enhance the anthropomorphicity of the robot interactive content generation and enhance the human-computer interaction experience.
  • the robot can also evaluate the generated interactive content, such as ratings, to increase entertainment and user experience.
  • the multimodal information in this embodiment may be one of user expression, voice information, gesture information, scene information, image information, video information, face information, pupil iris information, light sense information, and fingerprint information.
  • the method in this embodiment can be applied to different functions, such as painting, composing, poetry, reading aloud, reading a novel, and the like.
  • the method further comprises: transmitting the interactive content to the mobile terminal, and the mobile terminal generates one or more of the image, the sound, the text according to the interactive content, and displays the content.
  • the method further comprises: obtaining the user's evaluation of the interactive content, and storing the user's evaluation in a directory of the corresponding interactive content.
  • the step of pre-processing the multi-modal information to identify the user's intention specifically includes: pre-processing the multi-modal information, and identifying the intention of the user to control the robot to draw;
  • the step of generating content information and selecting a generated template according to the multimodal information and the user intention includes: generating image information and selecting an image style template according to the multimodal information and the user intention;
  • the step of combining the content information and the generated template by using a preset rule to generate the interactive content includes: combining the selected image style template and the image information to generate the interactive content;
  • the step of the imaging system generating the virtual 3D image according to the interactive content includes: the imaging system generates a 3D image of the drawing action according to the interactive content, and is matched with the corresponding voice.
  • the robot can draw and display actions and images to increase the user experience.
  • the image information is obtained through a robot database or a user library. Then the user You can send your own pictures or self-portrait pictures to the robot, and let the robot map according to the pictures.
  • the multi-modal information is preprocessed, and the step of identifying the user intention includes: preprocessing the multi-modal information to identify the intention of the user to control the robot composition;
  • the step of generating content information and selecting a generated template according to the multimodal information and the user intention includes: selecting a composition style template and a composition content according to the multimodal information and the user intention;
  • the step of combining the content information and the generated template by using a preset rule to generate the interactive content includes: generating the interactive content according to the composition style template and the composition content;
  • the step of the imaging system generating the virtual 3D image according to the interactive content includes: the imaging system generates a 3D image of the composition action according to the interaction content, and is matched with the corresponding voice.
  • the robot can compose. For example, if the user clicks on a small song, then the robot can perform a combination match according to the template of the song and the composition style, thereby generating a new song to connect the user with a small song. .
  • the multi-modal information is pre-processed, and the step of identifying the user's intention includes: pre-processing the multi-modal information, and identifying the intention of the user to control the robot to make a poem ;
  • the step of generating content information and selecting a generated template according to the multimodal information and the user intention includes: selecting a poetic style template and a poem content according to the multimodal information and the user intention;
  • the step of combining the content information and the generated template by using a preset rule to generate the interactive content includes: generating the interactive content according to the poetry style template and the poem content;
  • the step of the imaging system generating the virtual 3D image according to the interactive content comprises: the imaging system generating the poetry voice according to the interactive content, and matching the 3D image of the poetry action.
  • the robot can make poems. For example, if the user reads a poem, the robot can use the template of the poem, the template of the cooperative poem, the other poem, the user, and the action when reading the poem. More anthropomorphic and image.
  • the step of pre-processing the multi-modal information to identify the user's intention includes: pre-processing the multi-modal information, and identifying the user-controlled robot reading intention;
  • the step of generating content information and selecting a generated template according to the multimodal information and the user intention includes: selecting aloud content and reading the background according to the multimodal information and the user intention;
  • the steps include: generating interactive content according to reading the content and reading the background;
  • the step of the imaging system generating the virtual 3D image according to the interactive content includes: the imaging system generates the spoken speech according to the interactive content, and is matched with the 3D image of the reading action.
  • an interactive system of a virtual robot including:
  • the obtaining module 201 is configured to acquire multi-modal information of the user
  • the intent identification module 202 is configured to preprocess the multimodal information to identify a user intent
  • the processing module 203 is configured to generate content information and select a generated template according to the multimodal information and the user intention;
  • the generating module 204 is configured to combine the content information and the generated template by using a preset rule to generate the interactive content.
  • the sending module 205 is configured to send the interactive content to the imaging system, and the imaging system generates the virtual 3D image according to the interactive content;
  • the evaluation module 206 generates a rating information based on the interactive content.
  • the user's intention can be determined according to the user's multi-modal information, what kind of reply the user wants, and then the details of the reply content, including the content information and the generated template, according to the multi-modal information and the user's intention,
  • the content information and the generated template are combined to generate the interactive content, and then sent to the imaging system, and the imaging system generates a virtual 3D image according to the interactive content, thereby displaying and responding to the user, so that the robot can be more anthropomorphic when interacting with the human.
  • the method can improve the anthropomorphicity of the robot interactive content generation, enhance the human-computer interaction experience, improve the intelligence, and the robot can also evaluate the generated interactive content, such as scoring, to increase entertainment and user experience.
  • the multimodal information in this embodiment may be one of user expression, voice information, gesture information, scene information, image information, video information, face information, pupil iris information, light sense information, and fingerprint information.
  • the method in this embodiment can be applied to different functions, such as painting, composing, poetry, reading aloud, reading a novel, and the like.
  • the sending module is further configured to: send the interactive content to the mobile terminal
  • the mobile terminal generates one or more of an image, a sound, and a text according to the interactive content, and displays the image.
  • the evaluation module is further configured to: obtain a user's evaluation of the interactive content, and store the user's evaluation in a directory of the corresponding interactive content.
  • the intent recognition module is configured to: preprocess the multimodal information, and identify the intention of the user to control the robot to draw;
  • the processing module is configured to: generate image information according to multimodal information and user intentions, and select an image style template;
  • the generating module is configured to: generate an interactive content according to the selected image style template and the image information;
  • the sending module is configured to: the imaging system generates a 3D image of the drawing action according to the interactive content, and is matched with the corresponding voice.
  • the robot can draw and display actions and images to increase the user experience.
  • the image information is obtained through a robot database or a user library. In this way, the user can send a picture taken by himself or a self-portrait picture to the robot, and let the robot perform mapping according to the picture.
  • the intent recognition module is configured to: preprocess the multimodal information, and identify the intention of the user to control the composition of the robot;
  • the processing module is configured to: select a composition style template and a composition content according to the multimodal information and the user intention;
  • the generating module is configured to: generate interactive content according to a composition style template and a composition content;
  • the sending module is configured to: generate, by the imaging system, a 3D image of a composing action according to the interactive content, and match the corresponding voice.
  • the robot can compose. For example, if the user clicks on a small song, then the robot can perform a combination match according to the template of the song and the composition style, thereby generating a new song to connect the user with a small song. .
  • the intent recognition module is further described in detail in the interaction mode of the robot. Used to: preprocess multi-modal information, and identify the intention of the user to control the robot to make a poem;
  • the processing module is configured to: select a poetic style template and a poem content according to the multimodal information and the user intention;
  • the generating module is configured to: generate an interactive content according to the poetry style template and the poem content;
  • the sending module is configured to: the imaging system generates a poetry voice according to the interactive content, and is matched with the 3D image of the poetry action.
  • the robot can make poems. For example, if the user reads a poem, the robot can use the template of the poem, the template of the cooperative poem, the other poem, the user, and the action when reading the poem. More anthropomorphic and image.
  • the intent recognition module is configured to: preprocess the multimodal information, and identify an intention of the user to control the reading of the robot;
  • the processing module is configured to: select aloud content and read a background according to multimodal information and user intentions;
  • the generating module is configured to: generate interactive content according to the reading content and the reading background;
  • the sending module is configured to: generate, by the imaging system, the spoken speech according to the interactive content, and match the 3D image of the reading action.
  • a robot comprising an interactive system of a virtual robot as described in any of the above.

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Human Computer Interaction (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Computational Linguistics (AREA)
  • Mathematical Physics (AREA)
  • Artificial Intelligence (AREA)
  • Multimedia (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • General Health & Medical Sciences (AREA)
  • Robotics (AREA)
  • Mechanical Engineering (AREA)
  • Processing Or Creating Images (AREA)
  • Manipulator (AREA)
  • User Interface Of Digital Computer (AREA)

Abstract

本发明提供一种虚拟机器人的交互方法,包括:获取用户的多模态信息;对所述多模态信息进行预处理,识别用户意图;根据所述多模态信息和用户意图生成内容信息和选择生成模板;将所述内容信息与生成模板通过预设规则进行组合后生成交互内容;将交互内容发送到成像系统,成像系统根据交互内容生成虚拟3D影像;机器人根据所述交互内容生成评价信息。这样就可以使机器人与人交互时更加拟人化,该方法能够提升机器人交互内容生成的拟人性,提升人机交互体验,提高智能性,并且机器人还可以对生成的交互内容进行评价,例如评分等,以增加娱乐性和用户体验感。

Description

一种虚拟机器人的交互方法、系统及机器人 技术领域
本发明涉及机器人交互技术领域,尤其涉及一种虚拟机器人的交互方法、系统及机器人。
背景技术
机器人作为与人类的交互工具,使用的场合越来越多,例如一些老人、小孩较孤独时,就可以与机器人交互,包括对话、娱乐等。为了让用户使用机器人的体验感更好,就需要将机器人设计的更加智能,而不仅仅是对话这种简单的功能,为了增加机器人的智能交互体验,需要加入到更多的功能,例如作画、作诗、作曲等,让机器人可以根据用户的意思进行对应的交互,增加机器人的功能。然而,如何实现这些功能成为本技术领域亟需解决的技术问题。
发明内容
本发明的目的是提供一种虚拟机器人的交互方法、系统及机器人,使机器人能够提供更多、更拟人化的交互,提升用户的使用体验。
本发明的目的是通过以下技术方案来实现的:
一种虚拟机器人的交互方法,包括:
获取用户的多模态信息;
对所述多模态信息进行预处理,识别用户意图;
根据所述多模态信息和用户意图生成内容信息和选择生成模板;
将所述内容信息与生成模板通过预设规则进行组合后生成交互内容;
将交互内容发送到成像系统,成像系统根据交互内容生成虚拟3D影像;
机器人根据所述交互内容生成评价信息。
本发明公开一种虚拟机器人的交互系统,包括:
获取模块,用于获取用户的多模态信息;
意图识别模块,用于对所述多模态信息进行预处理,识别用户意图;
处理模块,用于根据所述多模态信息和用户意图生成内容信息和选择 生成模板;
生成模块,用于将所述内容信息与生成模板通过预设规则进行组合后生成交互内容;
发送模块,用于将交互内容发送到成像系统,成像系统根据交互内容生成虚拟3D影像;
评价模块,机器人根据所述交互内容生成评价信息。
本发明公开一种机器人,其特征在于,包括如上述任一所述的一种虚拟机器人的交互系统。
相比现有技术,本发明具有以下优点:本发明的虚拟机器人的交互方法包括:获取用户的多模态信息;对所述多模态信息进行预处理,识别用户意图;根据所述多模态信息和用户意图生成内容信息和选择生成模板;将所述内容信息与生成模板通过预设规则进行组合后生成交互内容;将交互内容发送到成像系统,成像系统根据交互内容生成虚拟3D影像;机器人根据所述交互内容生成评价信息。这样就可以根据用户的多模态信息确定用户的意图,用户想要得到什么样的回复,然后根据多模态信息和用户的意图查询回复内容的中的细节,包括内容信息和生成模板,在收集完毕后,将内容信息和生成模板组合生成交互内容,然后发送到成像系统,成像系统根据交互内容生成虚拟3D影像,从而进行展示,向用户回应,这样就可以使机器人与人交互时更加拟人化,该方法能够提升机器人交互内容生成的拟人性,提升人机交互体验,提高智能性,并且机器人还可以对生成的交互内容进行评价,例如评分等,以增加娱乐性和用户体验感。
附图说明
图1是本发明实施例一的一种虚拟机器人的交互方法的流程图;
图2是本发明实施例二的一种虚拟机器人的交互系统的示意图。
具体实施方式
虽然流程图将各项操作描述成顺序的处理,但是其中的许多操作可以被并行地、并发地或者同时实施。各项操作的顺序可以被重新安排。当其操作完成时处理可以被终止,但是还可以具有未包括在附图中的附加步骤。处理可以对应于方法、函数、规程、子例程、子程序等等。
计算机设备包括用户设备与网络设备。其中,用户设备或客户端包括 但不限于电脑、智能手机、PDA等;网络设备包括但不限于单个网络服务器、多个网络服务器组成的服务器组或基于云计算的由大量计算机或网络服务器构成的云。计算机设备可单独运行来实现本发明,也可接入网络并通过与网络中的其他计算机设备的交互操作来实现本发明。计算机设备所处的网络包括但不限于互联网、广域网、城域网、局域网、VPN网络等。
在这里可能使用了术语“第一”、“第二”等等来描述各个单元,但是这些单元不应当受这些术语限制,使用这些术语仅仅是为了将一个单元与另一个单元进行区分。这里所使用的术语“和/或”包括其中一个或更多所列出的相关联项目的任意和所有组合。当一个单元被称为“连接”或“耦合”到另一单元时,其可以直接连接或耦合到所述另一单元,或者可以存在中间单元。
这里所使用的术语仅仅是为了描述具体实施例而不意图限制示例性实施例。除非上下文明确地另有所指,否则这里所使用的单数形式“一个”、“一项”还意图包括复数。还应当理解的是,这里所使用的术语“包括”和/或“包含”规定所陈述的特征、整数、步骤、操作、单元和/或组件的存在,而不排除存在或添加一个或更多其他特征、整数、步骤、操作、单元、组件和/或其组合。
下面结合附图和较佳的实施例对本发明作进一步说明。
实施例一
如图1所示,本实施例中公开一种虚拟机器人的交互方法,包括:
S101、获取用户的多模态信息;
S102、对所述多模态信息进行预处理,识别用户意图;
S103、根据所述多模态信息和用户意图生成内容信息和选择生成模板;
S104、将所述内容信息与生成模板通过预设规则进行组合后生成交互内容;
S105、将交互内容发送到成像系统,成像系统根据交互内容生成虚拟3D影像;
S106、机器人根据所述交互内容生成评价信息。
这样就可以根据用户的多模态信息(例如图像、语音、文字、手机端等)确定用户的意图,用户想要得到什么样的回复,然后根据多模态信息和用户的意图查询回复内容的中的细节,包括内容信息和生成模板,在收集完毕后,将内容信息和生成模板组合生成交互内容,然后发送到成像系 统,成像系统根据交互内容生成虚拟3D影像,从而进行展示,向用户回应,这样就可以使机器人与人交互时更加拟人化,该方法能够提升机器人交互内容生成的拟人性,提升人机交互体验,提高智能性,并且机器人还可以对生成的交互内容进行评价,例如评分等,以增加娱乐性和用户体验感。
本实施例中的多模态信息可以是用户表情、语音信息、手势信息、场景信息、图像信息、视频信息、人脸信息、瞳孔虹膜信息、光感信息和指纹信息等其中的其中一种或几种。
本实施例中方法可以应用在不同的功能上,例如作画,作曲,作诗,朗读故事,朗读小说等等。
根据其中一个示例,在生成交互内容的步骤之后还包括:将交互内容发送到移动终端,所述移动终端根据交互内容生成图像、声音、文字中的一种或几种,并显示。
这样就让用户在移动终端上也可以查看到交互内容,让用户可以以更多方式接收到机器人的反馈和回复。
根据其中一个示例,在将交互内容发送到成像系统和移动终端的步骤之后还包括:获取用户对交互内容的评价,并将用户的评价存储在相应的交互内容的目录中。
这样就可以方便用户查看对该功能的评价例如使用感受,评分等,从而方便用户去选取适合自己的功能进行使用。
本实施例中,为了更加详细的说明机器人的交互,对所述多模态信息进行预处理,识别用户意图的步骤具体包括:对多模态信息进行预处理,识别用户控制机器人作画的意图;
所述根据所述多模态信息和用户意图生成内容信息和选择生成模板的步骤包括:根据多模态信息和用户意图生成图像信息和选择图像风格模板;
所述将所述内容信息与生成模板通过预设规则进行组合后生成交互内容的步骤包括:根据选择的图像风格模板与图像信息进行组合后生成交互内容;
所述成像系统根据交互内容生成虚拟3D影像的步骤包括:成像系统根据交互内容生成作画动作的3D影像,并配上对应的语音。
这样就可以机器人进行作画,并展示出来动作和图像,增加用户的使用体验。
其中,所述图像信息通过机器人数据库或用户图库获取。这样用户就 可以将自己拍照的图片或者自拍的图片发送给机器人,让机器人按照图片进行作图。
本实施例中,进一步详细的说明机器人的交互方式中,对所述多模态信息进行预处理,识别用户意图的步骤包括:对多模态信息进行预处理,识别用户控制机器人作曲的意图;
所述根据所述多模态信息和用户意图生成内容信息和选择生成模板的步骤包括:根据多模态信息和用户意图选择作曲风格模板和作曲内容;
所述将所述内容信息与生成模板通过预设规则进行组合后生成交互内容的步骤包括:根据作曲风格模板和作曲内容生成交互内容;
所述成像系统根据交互内容生成虚拟3D影像的步骤包括:成像系统根据交互内容生成作曲动作的3D影像,并配上对应的语音。
这样就可以让机器人进行作曲,例如,用户哼了一段小曲,然后机器人就可以根据这段小曲和作曲风格的模板,进行组合匹配等,从而生成一段新的小曲,来接上用户哼的一段小曲。
本实施例中,进一步详细的说明机器人的交互方式中,对所述多模态信息进行预处理,识别用户意图的步骤包括:对多模态信息进行预处理,识别用户控制机器人作诗的意图;
所述根据所述多模态信息和用户意图生成内容信息和选择生成模板的步骤包括:根据多模态信息和用户意图选择作诗风格模板和作诗内容;
所述将所述内容信息与生成模板通过预设规则进行组合后生成交互内容的步骤包括:根据作诗风格模板和作诗内容生成交互内容;
所述成像系统根据交互内容生成虚拟3D影像的步骤包括:成像系统根据交互内容生成作诗语音,并配上作诗动作的3D影像。
这样就可以让机器人作诗,例如用户读出一句诗,机器人就可以根据这句诗,结合作诗的模板,对出另一句诗,回复用户,而且还可以配上读出诗句时的动作,更加拟人化和形象。
本实施例中,进一步详细的说明机器人的交互方式中,所述对所述多模态信息进行预处理,识别用户意图的步骤包括:对多模态信息进行预处理,识别用户控制机器人朗读的意图;
所述根据所述多模态信息和用户意图生成内容信息和选择生成模板的步骤包括:根据多模态信息和用户意图选择朗读内容和朗读背景;
所述将所述内容信息与生成模板通过预设规则进行组合后生成交互内 容的步骤包括:根据朗读内容和朗读背景生成交互内容;
所述成像系统根据交互内容生成虚拟3D影像的步骤包括:成像系统根据交互内容生成朗读语音,并配上朗读动作的3D影像。
这样就可以让机器人根据用户的意图选择一本小说或故事或杂志进行朗读,从而让机器人与用户交互时更加智能化,提高用户使用的体验度。
实施例二
如图2所示,本实施中公开一种虚拟机器人的交互系统,包括:
获取模块201,用于获取用户的多模态信息;
意图识别模块202,用于对所述多模态信息进行预处理,识别用户意图;
处理模块203,用于根据所述多模态信息和用户意图生成内容信息和选择生成模板;
生成模块204,用于将所述内容信息与生成模板通过预设规则进行组合后生成交互内容;
发送模块205,用于将交互内容发送到成像系统,成像系统根据交互内容生成虚拟3D影像;
评价模块206,机器人根据所述交互内容生成评价信息。
这样就可以根据用户的多模态信息确定用户的意图,用户想要得到什么样的回复,然后根据多模态信息和用户的意图查询回复内容的中的细节,包括内容信息和生成模板,在收集完毕后,将内容信息和生成模板组合生成交互内容,然后发送到成像系统,成像系统根据交互内容生成虚拟3D影像,从而进行展示,向用户回应,这样就可以使机器人与人交互时更加拟人化,该方法能够提升机器人交互内容生成的拟人性,提升人机交互体验,提高智能性,并且机器人还可以对生成的交互内容进行评价,例如评分等,以增加娱乐性和用户体验感。
本实施例中的多模态信息可以是用户表情、语音信息、手势信息、场景信息、图像信息、视频信息、人脸信息、瞳孔虹膜信息、光感信息和指纹信息等其中的其中一种或几种。
本实施例中方法可以应用在不同的功能上,例如作画,作曲,作诗,朗读故事,朗读小说等等。
根据其中一个示例,所述发送模块还用于:将交互内容发送到移动终 端,所述移动终端根据交互内容生成图像、声音、文字中的一种或几种,并显示。
这样就让用户在移动终端上也可以查看到交互内容,让用户可以以更多方式接收到机器人的反馈和回复。
根据其中一个示例,所述评价模块还用于:获取用户对交互内容的评价,并将用户的评价存储在相应的交互内容的目录中。
这样就可以方便用户查看对该功能的评价例如使用感受,评分等,从而方便用户去选取适合自己的功能进行使用。
本实施例中,为了更加详细的说明机器人的交互,意图识别模块用于:对多模态信息进行预处理,识别用户控制机器人作画的意图;
所述处理模块用于:根据多模态信息和用户意图生成图像信息和选择图像风格模板;
所述生成模块用于:根据选择的图像风格模板与图像信息进行组合后生成交互内容;
所述发送模块用于:成像系统根据交互内容生成作画动作的3D影像,并配上对应的语音。
这样就可以机器人进行作画,并展示出来动作和图像,增加用户的使用体验。
其中,所述图像信息通过机器人数据库或用户图库获取。这样用户就可以将自己拍照的图片或者自拍的图片发送给机器人,让机器人按照图片进行作图。
本实施例中,进一步详细的说明机器人的交互方式中,意图识别模块用于:对多模态信息进行预处理,识别用户控制机器人作曲的意图;
所述处理模块用于:根据多模态信息和用户意图选择作曲风格模板和作曲内容;
所述生成模块用于:根据作曲风格模板和作曲内容生成交互内容;
所述发送模块用于:成像系统根据交互内容生成作曲动作的3D影像,并配上对应的语音。
这样就可以让机器人进行作曲,例如,用户哼了一段小曲,然后机器人就可以根据这段小曲和作曲风格的模板,进行组合匹配等,从而生成一段新的小曲,来接上用户哼的一段小曲。
本实施例中,进一步详细的说明机器人的交互方式中,意图识别模块 用于:对多模态信息进行预处理,识别用户控制机器人作诗的意图;
所述处理模块用于:根据多模态信息和用户意图选择作诗风格模板和作诗内容;
所述生成模块用于:根据作诗风格模板和作诗内容生成交互内容;
所述发送模块用于:成像系统根据交互内容生成作诗语音,并配上作诗动作的3D影像。
这样就可以让机器人作诗,例如用户读出一句诗,机器人就可以根据这句诗,结合作诗的模板,对出另一句诗,回复用户,而且还可以配上读出诗句时的动作,更加拟人化和形象。
本实施例中,进一步详细的说明机器人的交互方式中,所述意图识别模块用于:对多模态信息进行预处理,识别用户控制机器人朗读的意图;
所述处理模块用于:根据多模态信息和用户意图选择朗读内容和朗读背景;
所述生成模块用于:根据朗读内容和朗读背景生成交互内容;
所述发送模块用于:成像系统根据交互内容生成朗读语音,并配上朗读动作的3D影像。
这样就可以让机器人根据用户的意图选择一本小说或故事或杂志进行朗读,从而让机器人与用户交互时更加智能化,提高用户使用的体验度。
本实施例中公开一种机器人,包括如上述任一所述的一种虚拟机器人的交互系统。
以上内容是结合具体的优选实施方式对本发明所作的进一步详细说明,不能认定本发明的具体实施只局限于这些说明。对于本发明所属技术领域的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干简单推演或替换,都应当视为属于本发明的保护范围。

Claims (17)

  1. 一种虚拟机器人的交互方法,其特征在于,包括:
    获取用户的多模态信息;
    对所述多模态信息进行预处理,识别用户意图;
    根据所述多模态信息和用户意图生成内容信息和选择生成模板;
    将所述内容信息与生成模板通过预设规则进行组合后生成交互内容;
    将交互内容发送到成像系统,成像系统根据交互内容生成虚拟3D影像;
    机器人根据所述交互内容生成评价信息。
  2. 根据权利要求1所述的交互方法,其特征在于,在生成交互内容的步骤之后还包括:将交互内容发送到移动终端,所述移动终端根据交互内容生成图像、声音、文字中的一种或几种,并显示。
  3. 根据权利要求2所述的交互方法,其特征在于,在将交互内容发送到成像系统和移动终端的步骤之后还包括:获取用户对交互内容的评价,并将用户的评价存储在相应的交互内容的目录中。
  4. 根据权利要求1所述的交互方法,其特征在于,对所述多模态信息进行预处理,识别用户意图的步骤具体包括:对多模态信息进行预处理,识别用户控制机器人作画的意图;
    所述根据所述多模态信息和用户意图生成内容信息和选择生成模板的步骤包括:根据多模态信息和用户意图生成图像信息和选择图像风格模板;
    所述将所述内容信息与生成模板通过预设规则进行组合后生成交互内容的步骤包括:根据选择的图像风格模板与图像信息进行组合后生成交互内容;
    所述成像系统根据交互内容生成虚拟3D影像的步骤包括:成像系统根据交互内容生成作画动作的3D影像,并配上对应的语音。
  5. 根据权利要求4所述的交互方法,其特征在于,所述图像信息通过机器人数据库或用户图库获取。
  6. 根据权利要求1所述的交互方法,其特征在于,对所述多模态信息进行预处理,识别用户意图的步骤包括:对多模态信息进行预处理,识别用户控制机器人作曲的意图;
    所述根据所述多模态信息和用户意图生成内容信息和选择生成模板的步骤包括:根据多模态信息和用户意图选择作曲风格模板和作曲内容;
    所述将所述内容信息与生成模板通过预设规则进行组合后生成交互内容的步骤包括:根据作曲风格模板和作曲内容生成交互内容;
    所述成像系统根据交互内容生成虚拟3D影像的步骤包括:成像系统根据交互内容生成作曲动作的3D影像,并配上对应的语音。
  7. 根据权利要求1所述的交互方法,其特征在于,对所述多模态信息进行预处理,识别用户意图的步骤包括:对多模态信息进行预处理,识别用户控制机器人作诗的意图;
    所述根据所述多模态信息和用户意图生成内容信息和选择生成模板的步骤包括:根据多模态信息和用户意图选择作诗风格模板和作诗内容;
    所述将所述内容信息与生成模板通过预设规则进行组合后生成交互内容的步骤包括:根据作诗风格模板和作诗内容生成交互内容;
    所述成像系统根据交互内容生成虚拟3D影像的步骤包括:成像系统根据交互内容生成作诗语音,并配上作诗动作的3D影像。
  8. 根据权利要求1所述的交互方法,其特征在于,对所述多模态信息进行预处理,识别用户意图的步骤包括:对多模态信息进行预处理,识别用户控制机器人朗读的意图;
    所述根据所述多模态信息和用户意图生成内容信息和选择生成模板的步骤包括:根据多模态信息和用户意图选择朗读内容和朗读背景;
    所述将所述内容信息与生成模板通过预设规则进行组合后生成交互内容的步骤包括:根据朗读内容和朗读背景生成交互内容;
    所述成像系统根据交互内容生成虚拟3D影像的步骤包括:成像系统根据交互内容生成朗读语音,并配上朗读动作的3D影像。
  9. 一种虚拟机器人的交互系统,其特征在于,包括:
    获取模块,用于获取用户的多模态信息;
    意图识别模块,用于对所述多模态信息进行预处理,识别用户意图;
    处理模块,用于根据所述多模态信息和用户意图生成内容信息和选择生成模板;
    生成模块,用于将所述内容信息与生成模板通过预设规则进行组合后生成交互内容;
    发送模块,用于将交互内容发送到成像系统,成像系统根据交互内容生成虚拟3D影像;
    评价模块,机器人根据所述交互内容生成评价信息。
  10. 根据权利要求9所述的交互系统,其特征在于,所述发送模块还用于:将交互内容发送到移动终端,所述移动终端根据交互内容生成图像、声音、文字中的一种或几种,并显示。
  11. 根据权利要求11所述的交互系统,其特征在于,所述评价模块还用于:获取用户对交互内容的评价,并将用户的评价存储在相应的交互内容的目录中。
  12. 根据权利要求9所述的交互系统,其特征在于,所述意图识别模块用于:对多模态信息进行预处理,识别用户控制机器人作画的意图;
    所述处理模块用于:根据多模态信息和用户意图生成图像信息和选择图像风格模板;
    所述生成模块用于:根据选择的图像风格模板与图像信息进行组合后生成交互内容;
    所述发送模块用于:成像系统根据交互内容生成作画动作的3D影像,并配上对应的语音。
  13. 根据权利要求12所述的交互系统,其特征在于,所述图像信息通过机器人数据库或用户图库获取。
  14. 根据权利要求9所述的交互系统,其特征在于,所述意图识别模块用于:对多模态信息进行预处理,识别用户控制机器人作曲的意图;
    所述处理模块用于:根据多模态信息和用户意图选择作曲风格模板和作曲内容;
    所述生成模块用于:根据作曲风格模板和作曲内容生成交互内容;
    所述发送模块用于:成像系统根据交互内容生成作曲动作的3D影像,并配上对应的语音。
  15. 根据权利要求9所述的交互系统,其特征在于,所述意图识别模块用于:对多模态信息进行预处理,识别用户控制机器人作诗的意图;
    所述处理模块用于:根据多模态信息和用户意图选择作诗风格模板和作诗内容;
    所述生成模块用于:根据作诗风格模板和作诗内容生成交互内容;
    所述发送模块用于:成像系统根据交互内容生成作诗语音,并配上作诗动作的3D影像。
  16. 根据权利要求9所述的交互系统,其特征在于,所述意图识别模块用于:对多模态信息进行预处理,识别用户控制机器人朗读的意图;
    所述处理模块用于:根据多模态信息和用户意图选择朗读内容和朗读背景;
    所述生成模块用于:根据朗读内容和朗读背景生成交互内容;
    所述发送模块用于:成像系统根据交互内容生成朗读语音,并配上朗读动作的3D影像。
  17. 一种机器人,其特征在于,包括如权利要求9至16任一所述的一种虚拟机器人的交互系统。
PCT/CN2016/089219 2016-07-07 2016-07-07 一种虚拟机器人的交互方法、系统及机器人 WO2018006375A1 (zh)

Priority Applications (3)

Application Number Priority Date Filing Date Title
CN201680001715.6A CN106663127A (zh) 2016-07-07 2016-07-07 一种虚拟机器人的交互方法、系统及机器人
PCT/CN2016/089219 WO2018006375A1 (zh) 2016-07-07 2016-07-07 一种虚拟机器人的交互方法、系统及机器人
JP2017133166A JP2018014094A (ja) 2016-07-07 2017-07-06 仮想ロボットのインタラクション方法、システム及びロボット

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/CN2016/089219 WO2018006375A1 (zh) 2016-07-07 2016-07-07 一种虚拟机器人的交互方法、系统及机器人

Publications (1)

Publication Number Publication Date
WO2018006375A1 true WO2018006375A1 (zh) 2018-01-11

Family

ID=58838971

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/CN2016/089219 WO2018006375A1 (zh) 2016-07-07 2016-07-07 一种虚拟机器人的交互方法、系统及机器人

Country Status (3)

Country Link
JP (1) JP2018014094A (zh)
CN (1) CN106663127A (zh)
WO (1) WO2018006375A1 (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113012300A (zh) * 2021-04-02 2021-06-22 北京隐虚等贤科技有限公司 沉浸式互动内容的创建方法、装置以及存储介质

Families Citing this family (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107678617A (zh) * 2017-09-14 2018-02-09 北京光年无限科技有限公司 面向虚拟机器人的数据交互方法和系统
CN107728780B (zh) * 2017-09-18 2021-04-27 北京光年无限科技有限公司 一种基于虚拟机器人的人机交互方法及装置
CN107748621A (zh) * 2017-11-06 2018-03-02 潘柏霖 一种智能交互机器人
CN108133259A (zh) * 2017-12-14 2018-06-08 深圳狗尾草智能科技有限公司 人工虚拟生命与外界交互的系统及方法
CN108043025A (zh) * 2017-12-29 2018-05-18 江苏名通信息科技有限公司 一种用于网络游戏的人机交互方法
CN108356832B (zh) * 2018-03-07 2021-04-20 佛山融芯智感科技有限公司 一种室内机器人人机互动系统
CN110576433B (zh) * 2018-06-08 2021-05-18 香港商女娲创造股份有限公司 机器人动作生成方法
CN108958050A (zh) * 2018-07-12 2018-12-07 李星仪 用于智能生活应用的展示平台系统
CN109379350A (zh) * 2018-09-30 2019-02-22 北京猎户星空科技有限公司 日程表生成方法、装置、设备及计算机可读存储介质
JP7259030B2 (ja) 2018-11-16 2023-04-17 ライブパーソン, インコーポレイテッド スクリプトに基づく自動ボット作成
CN112529992B (zh) * 2019-08-30 2022-08-19 阿里巴巴集团控股有限公司 虚拟形象的对话处理方法、装置、设备及存储介质
CN110868635B (zh) * 2019-12-04 2021-01-12 深圳追一科技有限公司 视频处理方法、装置、电子设备及存储介质
CN111327772B (zh) * 2020-02-25 2021-09-17 广州腾讯科技有限公司 进行自动语音应答处理的方法、装置、设备及存储介质
JP7469211B2 (ja) 2020-10-21 2024-04-16 東京瓦斯株式会社 対話型コミュニケーション装置、コミュニケーションシステム及びプログラム

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104951077A (zh) * 2015-06-24 2015-09-30 百度在线网络技术(北京)有限公司 基于人工智能的人机交互方法、装置和终端设备
CN104965592A (zh) * 2015-07-08 2015-10-07 苏州思必驰信息科技有限公司 基于语音和手势识别的多模态非触摸人机交互方法及系统
EP3001286A1 (en) * 2014-09-24 2016-03-30 Sony Computer Entertainment Europe Ltd. Apparatus and method for automated adaptation of a user interface

Family Cites Families (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH11219195A (ja) * 1998-02-04 1999-08-10 Atr Chino Eizo Tsushin Kenkyusho:Kk 対話型詩朗読システム
JP2003296604A (ja) * 2002-04-03 2003-10-17 Yozo Watanabe 曲提供装置、方法及びコンピュータプログラム
JP2006123136A (ja) * 2004-11-01 2006-05-18 Advanced Telecommunication Research Institute International コミュニケーションロボット
JP4738203B2 (ja) * 2006-02-20 2011-08-03 学校法人同志社 画像から音楽を生成する音楽生成装置
JP2007241764A (ja) * 2006-03-09 2007-09-20 Fujitsu Ltd 構文解析プログラム、構文解析方法、構文解析装置、及び構文解析プログラムが記録されたコンピュータ読み取り可能な記録媒体
US20140191939A1 (en) * 2013-01-09 2014-07-10 Microsoft Corporation Using nonverbal communication in determining actions
JP2015138147A (ja) * 2014-01-22 2015-07-30 シャープ株式会社 サーバ、対話装置、対話システム、対話方法および対話プログラム
JP2015206878A (ja) * 2014-04-18 2015-11-19 ソニー株式会社 情報処理装置および情報処理方法
JP6438674B2 (ja) * 2014-04-28 2018-12-19 エヌ・ティ・ティ・コミュニケーションズ株式会社 応答システム、応答方法及びコンピュータプログラム
JP6160598B2 (ja) * 2014-11-20 2017-07-12 カシオ計算機株式会社 自動作曲装置、方法、およびプログラム

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP3001286A1 (en) * 2014-09-24 2016-03-30 Sony Computer Entertainment Europe Ltd. Apparatus and method for automated adaptation of a user interface
CN104951077A (zh) * 2015-06-24 2015-09-30 百度在线网络技术(北京)有限公司 基于人工智能的人机交互方法、装置和终端设备
CN104965592A (zh) * 2015-07-08 2015-10-07 苏州思必驰信息科技有限公司 基于语音和手势识别的多模态非触摸人机交互方法及系统

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113012300A (zh) * 2021-04-02 2021-06-22 北京隐虚等贤科技有限公司 沉浸式互动内容的创建方法、装置以及存储介质

Also Published As

Publication number Publication date
JP2018014094A (ja) 2018-01-25
CN106663127A (zh) 2017-05-10

Similar Documents

Publication Publication Date Title
WO2018006375A1 (zh) 一种虚拟机器人的交互方法、系统及机器人
WO2022048403A1 (zh) 基于虚拟角色的多模态交互方法、装置及系统、存储介质、终端
US10817760B2 (en) Associating semantic identifiers with objects
US20220150285A1 (en) Communication assistance system, communication assistance method, communication assistance program, and image control program
JP2019531538A (ja) ワードフロー注釈
CN110400251A (zh) 视频处理方法、装置、终端设备及存储介质
WO2022227408A1 (zh) 一种虚拟现实交互方法、设备及系统
KR101887637B1 (ko) 로봇 시스템
US11948256B2 (en) Systems and methods for artificial intelligence-based virtual and augmented reality
CN110598576A (zh) 一种手语交互方法、装置及计算机介质
US20240153186A1 (en) Sentiment-based interactive avatar system for sign language
US11036285B2 (en) Systems and methods for mixed reality interactions with avatar
KR102174922B1 (ko) 사용자의 감정 또는 의도를 반영한 대화형 수어-음성 번역 장치 및 음성-수어 번역 장치
Pandey et al. Acceptability of speech and silent speech input methods in private and public
CN112204565A (zh) 用于基于视觉背景无关语法模型推断场景的系统和方法
CN113703585A (zh) 交互方法、装置、电子设备及存储介质
CN112990043A (zh) 一种服务交互方法、装置、电子设备及存储介质
CN111274489B (zh) 信息处理方法、装置、设备及存储介质
CN113205569A (zh) 图像绘制方法及装置、计算机可读介质和电子设备
CN112637692B (zh) 互动方法、装置、设备
Miyake et al. A spoken dialogue system using virtual conversational agent with augmented reality
JP2023120130A (ja) 抽出質問応答を利用する会話型aiプラットフォーム
JP2019086858A (ja) 顧客応対システム及び顧客応対方法
CN113379879A (zh) 交互方法、装置、设备、存储介质以及计算机程序产品
CN114979789A (zh) 一种视频展示方法、装置以及可读存储介质

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 16907880

Country of ref document: EP

Kind code of ref document: A1

NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 16907880

Country of ref document: EP

Kind code of ref document: A1