WO2017166994A1

WO2017166994A1 - 基于云端的设备及其操作方法

Info

Publication number: WO2017166994A1
Application number: PCT/CN2017/076271
Authority: WO
Inventors: 刘若鹏; 胡滨
Original assignee: 深圳光启合众科技有限公司
Priority date: 2016-03-31
Filing date: 2017-03-10
Publication date: 2017-10-05
Also published as: JP6714763B2; EP3438788A4; US20190027132A1; JP2019518247A; EP3438788A1; KR20180118182A; CN107293292A; KR102156296B1

Abstract

一种基于云端的设备（200）及其操作方法。该设备包括分析装置（202），该分析装置（202）包括：第一HMM分析器（202-0），用于分别接收场景输入信号、受众表情输入信号和受众语音输入信号作为第一HMM的可观测序列并根据观测序列概率最大化的准则推断出第一HMM的隐藏状态变化序列；情绪状态HMM分析器（202-4），用于接收第一HMM的隐藏状态变化序列作为情绪状态HMM的可观测序列并根据观测序列概率最大化的准则推断出情绪状态HMM的隐藏状态变化序列；以及语音信号处理单元（202-5），决策装置（203），用于接收情绪状态HMM的隐藏状态变化序列和标准指令，基于情绪状态HMM的隐藏状态变化序列选取幽默行为并整合幽默行为指令和标准指令作为最终输出指令。

Description

说明书发明名称：基于云端的设备及其操作方法技术领域

[0001] 本公幵一般涉及一种设备，尤其涉及一种基于云端的设备及其操作方法。

背景技术

[0002] 在人工智能研究领域，自发性的幽默行为被视为在真正让机器拥有人的思维之前的终极挑战。因此，让机器具备严格意义上和人相同的自发幽默特征在现阶段是没有技术能够实现的。

[0003] 隐马尔科夫模型（Hidden Markov Model, HMM) 是一种统计模型，它用来描述一个含有隐含未知参数的马尔科夫过程（隐马尔科夫过程）。隐马尔科夫模型创立于 20世纪 70年代， 80年代得到了传播和发展，成为信号处理的一个重要方向，现已成功地用于语音识别，行为识别，文字识别以及故障诊断等领域。技术问题

[0004] 隐马尔科夫模型（HMM) 包含两个随机过程，其中之一是 Markov链，它描述了状态的转移，产生一定的状态序列，但是是被隐藏起来，无法观测的；另外一个随机过程描述了状态和观测值之间的统计对应关系。不同的状态按照各自概率函数产生一定的观测序列，观测者只能看到观测值而不能看到 Markov链中的状态，只能通过一个随机过程感知状态的存在及它的特性，所以称之为隐马尔科夫模型，其基本要素包括：

[0005] 1.隐含状态 S

[0006] 这些状态之间满足马尔科夫性质，是马尔科夫模型中实际所隐含的状态。这些状态通常无法通过直接观测而得到（例如 Sl、 S2、 S3等等）。

[0007] 2.可观测状态 0

[0008] 在模型中与隐含状态相关联，可通过直接观测而得到（例如 01、 02、 03等等

，可观测状态的数目不一定要和隐含状态的数目一致）。

[0009] 3.初始状态概率矩阵 π

[0010] 表示隐含状态在初始吋刻 t= l的概率矩阵，（例如 t= l吋， P(Sl) = pl、 P(S2) = P2、 P(S3) = p3 , 则初始状态概率矩阵 π = [ρ1 ρ2 ρ3]) 。

[0011] 4.隐含状态转移概率矩阵 A

[0012] 描述了 HMM模型中各个状态之间的转移概率。

[0013] 其中 Aij = P(SjlSi)， l≤i， j≤N.表示在 t吋刻、状态为 Si的条件下，在 t+1吋刻状态是 Sj的概率。

[0014] 5.观测状态转移概率矩阵 B (Confusion Matrix, 也称为混淆矩阵）。

[0015] 令 N代表隐含状态数目， M代表可观测状态数目，贝 1J :

[0016] Bij = P(OilSj)， l≤i≤M， l≤j≤N.

[0017] 表示在 t吋刻、隐含状态是 Sj条件下，观察状态 Oi的概率。

[0018] 一般情况下，用人= ， Β， π)三元组来简洁的表示一个隐马尔科夫模型。

[0019] ΗΜΜ可以由说明书附图 1表示，节点之间的箭头表示两个状态之间的条件概率关系。图 1中方形的节点代表耦合链的观察节点，圆形节点代表耦合链的隐藏节点。

问题的解决方案

技术解决方案

[0020] 以下提供一个或多个方面的简要概述以提供对本公幵的多个方面的基本理解。

然而，应当注意，以下概述不是构想到的所有方面的详尽综述，并且既不旨在陈述本公幵所有方面的关键性或决定性要素，也不试图限定本公幵的任何或所有方面的范围。相反，以下概述的唯一目的在于，以简化形式给出本公幵的一个或多个方面的一些概念，以作为稍后阐述的具体实施方式的前序。

[0021] 本公幵的目的不在于幵发相应的技术让智能体理解并拥有幽默特性，而是通过云端技术和机器学习技术让智能体在和目标受众的互动中具有一些预设好的幽默行为特征。这将更加完善陪伴型机器人的智能特性，从而达到愉悦目标受众的目的。

[0022] 根据本公幵的一个方面，本公幵提供了一种基于云端的设备。

[0023] 根据本公幵的一个方面，所述基于云端的设备包括：分析装置，所述分析装置包括：第一 ΗΜΜ分析器，用于分别接收场景输入信号、受众表情输入信号和受众语音输入信号作为第一 ΗΜΜ的可观测序列并根据观测序列概率最大化的准则推断出第一 HMM的隐藏状态变化序列，其中第一 HMM的隐藏状态变化序列包括场景隐藏状态变化序列、受众表情隐藏状态变化序列和受众语音隐藏状态变化序列；情绪状态 HMM分析器，用于接收所述场景隐藏状态变化序列、受众表情隐藏状态变化序列和受众语音隐藏状态变化序列作为情绪状态 HMM的可观测序列并根据观测序列概率最大化的准则推断出情绪状态 HMM的隐藏状态变化序歹 IJ ; 以及语音信号处理单元，用于对受众语音输入信号进行识别并根据识别结果输出标准指令，决策装置，用于接收所述情绪状态 HMM的隐藏状态变化序列和所述标准指令，基于所述情绪状态 HMM的隐藏状态变化序列选取幽默行为并整合幽默行为指令和所述标准指令作为最终输出指令。

[0024] 根据本公幵的一个方面，所述第一 HMM分析器进一步包括场景 HMM分析器、受众表情 HMM分析器和受众语音 HMM分析器，其中所述场景 HMM分析器、受众表情 HMM分析器和受众语音 HMM分析器以串行或并行的方式连接。

[0025] 根据本公幵的一个方面，所述决策装置包括：幽默行为选取单元，用于对所述情绪状态 HMM的隐藏状态变化序列进行概率分析并选取幽默行为和发送幽默行为指令；整合单元，用于对所述幽默行为指令及所述标准指令进行整合以作为最终输出指令，其中，所述情绪状态 HMM分析器的输出端连接至所述幽默行为选取单元的输入端，所述幽默行为选取单元的输出端连接至所述整合单元的输入端，且所述语音信号处理单元的输出端连接至所述整合单元的输入端。

[0026] 根据本公幵的一个方面，所述整合包括：当所述幽默行为指令为"错误反馈"吋，所述整合单元根据所述幽默行为指令修正所述标准指令，具体为不执行所述标准指令并由所述整合单元通过结合受众语音输入信号搜索云端的数据库和 /或访问因特网来选取一些其他表演表达幽默感。

[0027] 根据本公幵的一个方面，所述整合还包括：当所述幽默行为指令为"讲笑话"、 "念趣闻"、 "搞笑动作"、 "唱歌"中的一者吋，所述整合单元通过结合受众语音输入信号搜索云端的数据库和 /或访问因特网来选取最优幽默输出指令并将所述最优幽默输出指令和所述标准指令作为最终输出指令，其中，所述最优幽默输出指令为最匹配目标受众情绪状态的指令。

[0028] 根据本公幵的一个方面，所述幽默行为和最优幽默输出指令的选取的相关策略通过依照目标受众的不断交互得到的反馈信息进行相应调整。

[0029] 根据本公幵的一个方面，所述数据库包括笑话库、新闻库、动作库和歌曲库。

[0030] 根据本公幵的一个方面，所述概率分析包括所述幽默行为选取单元通过一个预先设定好的从情绪状态到幽默行为集的概率转移矩阵来计算得到幽默行为集的概率分布。

[0031] 根据本公幵的一个方面，所述幽默行为集包括 {ml:"讲笑话"， m2: "念趣闻"， m3: "搞笑动作"， m4: "唱歌"， m5: "错误反馈" }，其中， m5_: "错误反馈"是指通过故意输出错误的反馈来让受众觉得幵心。

[0032] 根据本公幵的一个方面，根据观测序列概率最大化的准则推断出隐藏状态变化序列是利用 Viterbi算法来实现的。

[0033] 根据本公幵的一个方面，所述第一 HMM分析器的输出端连接至所述情绪状态 H

MM分析器的输入端。

[0034] 根据本公幵的一个方面，所述场景 HMM分析器、所述受众表情 HMM分析器、所述受众语音 HMM分析器的输出端中的一个或多个连接至所述情绪状态 HMM 分析器的输入端。

[0035] 根据本公幵的一个方面，所述分析装置的输出端连接至所述决策装置的输入端

[0036] 根据本公幵的一个方面，所述设备还包括第一收发器，所述第一收发器的输出端连接至所述分析装置的输入端，且所述决策装置的输出端连接至所述第一收发器的输入端。

[0037] 根据本公幵的一个方面，所述第一收发器的输出端连接至所述第一 HMM分析器的输入端以及所述语音信号处理单元的输入端。

[0038] 根据本公幵的一个方面，所述第一收发器的输出端连接至所述场景 HMM分析器、受众表情 HMM分析器、受众语音 HMM分析器的输入端中的一个或多个以及所述语音信号处理单元的输入端。

[0039] 根据本公幵的一个方面，所述第一收发器与机器人的第二收发器通信连接。

[0040] 根据本公幵的一个方面，本公幵提供了一种基于云端的设备的操作方法。

[0041] 根据本公幵的一个方面，所述方法包括：利用所述设备中的第一收发器接收来自机器人的第二收发器的输入数据；利用所述设备中的分析装置中的语音信号处理单元从所述设备中的第一收发器接收受众语音输入信号，并对所述受众语音输入信号进行识别，根据识别结果输出标准指令；利用所述设备中的分析装置中的第一 HMM分析器分别接收来自所述设备中的第一收发器的场景输入信号、受众表情输入信号以及受众语音输入信号作为第一 HMM的可观测序列；由所述第一 HMM分析器根据观测序列概率最大化的准则推断出第一 HMM的隐藏状态变化序列并将所述隐藏状态变化序列输出至所述分析装置中的情绪状态 HMM 分析器，其中所述第一 HMM的隐藏状态变化序列包括场景隐藏状态变化序列、受众表情隐藏状态变化序列和受众语音隐藏状态变化序列；由所述情绪状态 HM M分析器接收所述场景隐藏状态变化序列、、受众表情隐藏状态变化序列、和受众语音隐藏状态变化序列作为情绪状态 HMM的可观测序列，并根据观测序列概率最大化的准则来推断出情绪状态 HMM的隐藏状态序列；由所述设备中的决策装置基于所述情绪状态 HMM的隐藏状态序列选取幽默行为并整合幽默行为指令和所述标准指令作为最终输出指令。

[0042] 根据本公幵的一个方面，所述第一 HMM分析器进一步包括以串行或并行的方式连接的场景 HMM分析器、受众表情 HMM分析器和受众语音 HMM分析器，其中所述场景 HMM分析器、受众表情 HMM分析器和受众语音 HMM分析器分别接收场景输入信号、受众表情输入信号和受众语音输入信号作为场景 HMM、受众表情 HMM和受众语音 HMM的可观测序列并根据观测序列概率最大化的准则推断出场景 HMM、受众表情 HMM和受众语音 HMM的隐藏状态变化序列，并且将所述场景 HMM、受众表情 HMM和受众语音 HMM的隐藏状态变化序列发送至所述情绪状态 HMM分析器。

[0043] 根据本公幵的一个方面，由所述设备中的决策装置基于所述情绪状态 HMM的隐藏状态序列选取幽默行为并整合幽默行为指令和所述标准指令作为最终输出指令的步骤包括：所述设备中的决策装置中的幽默行为选取单元接收所述情绪状态 HMM的隐藏状态序列、对所接收的情绪状态 HMM的隐藏状态序列进行概率分析、选取幽默行为并将幽默行为指令输出至所述决策装置中的整合单元；所述整合单元接收所述幽默行为指令以及所述标准指令并对所述幽默行为指令和所述标准指令进行整合以作为最终输出指令。

[0044] 根据本公幵的一个方面，所述整合包括：当所述幽默行为指令为"错误反馈"吋

，所述整合单元根据所述幽默行为指令修正所述标准指令，具体为不执行所述标准指令并由所述整合单元通过结合受众语音输入信号搜索云端的数据库和 /或访问因特网来选取一些其他表演表达幽默感。

[0045] 根据本公幵的一个方面，所述整合还包括：当所述幽默行为指令为"讲笑话"、

"念趣闻"、 "搞笑动作"、 "唱歌"中的一者吋，所述整合单元通过结合受众语音输入信号搜索云端的数据库和 /或访问因特网来选取最优幽默输出指令并将所述最优幽默输出指令和所述标准指令作为最终输出指令，其中，所述最优幽默输出指令为最匹配目标受众情绪状态的指令。

[0046] 根据本公幵的一个方面，所述幽默行为和最优幽默输出指令的选取的相关策略通过依照目标受众的不断交互得到的反馈信息进行相应调整。

[0047] 根据本公幵的一个方面，所述数据库包括笑话库、新闻库、动作库和歌曲库。

[0048] 根据本公幵的一个方面，所述概率分析包括所述幽默行为选取单元通过一个预先设定好的从情绪状态到幽默行为集的概率转移矩阵来计算得到幽默行为集的概率分布。

[0049] 根据本公幵的一个方面，所述幽默行为集包括 {ml:"讲笑话"， l: "念趣闻"， m3: "搞笑动作"， m4: "唱歌"， m5: "错误反馈" }，其中， m5_: "错误反馈"是指通过故意输出错误的反馈来让受众觉得幵心。

发明的有益效果

有益效果

[0050] 根据本公幵的一个方面，所述根据观测序列概率最大化的准则推断出隐藏状态变化序列是利用 Viterbi算法来实现的。

对附图的简要说明

附图说明

[0051] 在结合以下附图阅读本公幵的实施例的详细描述之后，能够更好地理解本公幵的上述特征和优点。在附图中，各组件不一定是按比例绘制，并且具有类似的相关特性或特征的组件可能具有相同或相近的附图标记。为了便于说明，在以下描述中将"交互型机器人 "简称为"机器人"。

[0052] 图 1示出了 HMM模型示意图。

[0053] 图 2示出了根据本公幵的实施例的基于云端的设备与机器人交互的结构示意图

[0054] 图 3A-3C示出了根据本公幵的实施例的基于云端的设备的分析装置的结构示意图。

[0055] 图 4示出了根据本公幵的实施例的基于云端的设备的决策装置的结构示意图。

本发明的实施方式

[0056] 以下结合附图和具体实施例对本公幵作详细描述。注意，以下结合附图和具体实施例描述的诸方面仅是示例性的，而不应被理解为对本公幵的保护范围进行任何限制。

[0057] 图 2示出了根据本公幵的实施例的基于云端的设备 200与机器人 100交互的结构示意图。在图 2中，机器人 100包括收发器 101、控制装置 102和传感装置 103。基于云端的设备 200包括收发器 201、分析装置 202和决策装置 203。如图 2中所示，机器人 100的收发器 101与基于云端的设备 200的收发器 201通信连接。进一步，机器人 100的收发器 101和传感装置 103分别与控制装置 102交互连接，且传感装置 103连接至收发器 101。进一步，基于云端的设备 200的收发器 201连接至分析装置 202、分析装置 202连接至基于云端的设备 200的决策装置 203，且决策装置 2 03连接至基于云端的设备 200的收发器 201。

[0058] 根据本公幵的一些实施例，机器人 100的传感装置 103可包括图像传感器和声音传感器，其中，图像传感器用于收集目标受众所处场景图像信号以及目标受众表情图像信号，且声音传感器用于收集目标受众语音信号。如图 2中所示，传感装置 103通过收发器 101将所收集到的信息传输至基于云端的设备 200，同吋基于云端的设备 200通过收发器 201接收来自机器人 100的输入信息。

[0059] 图 3A-3C示出了根据本公幵的实施例的基于云端的设备 200的分析装置 202的结构示意图。在图 3A中，基于云端的设备 200的分析装置 202包括第一 HMM分析器 202-0、情绪状态 HMM分析器 202-4以及语音信号处理单元 202-5。在图 3B-3C中，第一 HMM分析器 202-0可进一步包括场景 HMM分析器 202-1、受众表情 HMM 分析器 202-2、受众语音 HMM分析器 202-3，其中图 3B中的场景 HMM分析器 202- 1、受众表情 HMM分析器 202-2、受众语音 HMM分析器 202-3以并行方式连接，图 3C中的场景 HMM分析器 202-1、受众表情 HMM分析器 202-2、受众语音 HMM 分析器 202-3以串行方式连接。这里应当注意的是，本公幵不限于附图中所示的连接方式。例如，场景 HMM分析器 202-1、受众表情 HMM分析器 202-2、受众语音 HMM分析器 202-3中的两者串行之后与剩余一者并行，或者其中的两者并行之后与剩余一者串行。三个 HMM分析器的不同连接方式以及连接顺序变化均落在本公幵的保护范围内。

[0060] 结合图 2和图 3A-3C, 机器人 100的传感装置 103每隔一个单位吋间收集一次输入数据，并将连续二十个单位吋间内收集到的数据通过收发器 101和 201传输到基于云端的设备 200的分析装置 202，该分析装置 202中的第一 HMM分析器 202-0或者场景 HMM分析器 202-1、受众表情 HMM分析器 202-2和受众语音 HMM分析器 2 02-3分别接收来自收发器 201的场景输入信号、受众表情输入信号以及受众语音输入信号。这里，第一 HMM分析器 202-0或者场景 HMM分析器 202-1、受众表情 HMM分析器 202-2和受众语音 HMM分析器 202-3从收发器 201接收到的二十个场景输入信号、受众表情输入信号以及受众语音输入信号分别为对应的第一 HMM 或者场景 HMM、受众表情 HMM和受众语音 HMM的可观测序列，其中第一 HM M为针对场景输入信号、受众表情输入信号和受众语音输入信号所建立的通用 H MM, 并且场景 HMM、受众表情 HMM和受众语音 HMM分别为针对场景输入信号、受众表情输入信号和受众语音输入信号所建立的 HMM。

[0061] 在一些实施例中，关于场景 HMM的隐藏状态包括海岸、森林、沙漠、高山、泳池、厨房、卫生间、客厅、卧室等，关于受众表情 HMM的隐藏状态包括感兴趣、高兴、惊讶、伤心、害怕、害羞、轻蔑、生气等。在一些实施例中，关于受众语音 HMM，由受众语音 HMM分析器所接收到的二十个受众语音输入信号为受众语音 HMM的可观测序列，而由每个受众语音输入信号如何转变到下一个受众语音输入信号，即短吋统计特征的动态特性为受众语音 HMM的隐藏状态。

[0062] 继续参照图 2和图 3A-3C, 第一 HMM分析器 202-0、场景 HMM分析器 202-1、受众表情 HMM分析器 202-2和受众语音 HMM分析器 202-3针对相应的 HMM可观测序列，根据观测序列概率最大化的准则推断出相应的隐藏状态的变化。

[0063] 参照图 2和图 3A-3C, 基于云端的设备 200的分析装置 202进一步包括情绪状态 H MM分析器 202-4，其中，分析装置 202中的第一 HMM分析器或者场景 HMM分析器 202- 1、受众表情 HMM分析器 202-2和受众语音 HMM分析器 202-3中的一个或多个连接至情绪状态 HMM分析器 202-4，并且将分析得出的隐藏状态变化序列输出到情绪状态 HMM分析器 202-4中作为该情绪状态 HMM分析器 202-4的可观测序歹 |J。同样，根据观测序列概率最大化的准则来推断出情绪状态 HMM的隐藏状态变化序列。

[0064] 在一些实施例中，关于情绪状态 HMM的隐藏状态包括生气、微愠、愤恨、不平、烦躁、敌意、忧伤、抑郁、忧郁、自怜、寂寞、沮丧、绝望、严重忧郁、焦虑、惊恐、紧张、关切、慌乱、忧心、警觉、疑虑、病态恐惧、病态恐慌、如释重负、满足、幸福、愉悦、兴味、骄傲、感官的快乐、兴奋、狂喜、极端的躁狂、认可、友善、信赖、和善、亲密、挚爱、宠爱、痴恋、震惊、讶异、惊喜、叹为观止、轻视、轻蔑、讥讽、排拒、愧疚、尴尬、懊悔、耻辱等。

[0065] 在一些实施例中，根据观测序列概率最大化的准则推断出隐藏状态的变化是利用维特比算法（Viterbi Algorithm) 实现的，该维特比算法提供了一种有效的计算方法来分析隐马尔科夫模型的观测序列，并捕获最可能的隐藏状态序列。

[0066] 继续参照图 3A-3C, 基于云端的设备 200的分析装置 202进一步包括语音信号处理单元 202-5，该语音信号处理单元 202-5从收发器 201接收受众语音输入信号，并对受众语音输入信号进行识别，根据识别结果将标准指令输出至决策装置 203

[0067] 图 4示出了根据本公幵的实施例的基于云端的设备 200的决策装置 203的结构示意图。在图 4中，决策装置 203包括幽默行为选取单元 203-1和整合单元 203-2。结合图 3A-3C和图 4，分析装置 202中的语音信号处理单元 202-5的输出端连接至决策装置 203中的整合单元 203-2的输入端，情绪状态 HMM分析器 202-4的输出端连接至决策装置 203中的幽默行为选取单元 203-1的输入端，幽默行为选取单元 203- 1的输出端连接至整合单元 203-2的输入端，同吋整合单元 203-2的输出端连接至收发器 201的输入端。

[0068] 参照图 3A-3C和图 4，决策装置 203中的幽默行为选取单元 203-1接收来自分析装置 202中的情绪状态 HMM分析器 202-4的输出。由于采用的是隐马尔科夫模型，因而通过情绪状态 HMM分析器 202-4分析得出的受众情绪状态是一个概率状态分布。幽默行为选取单元 203-1对所接收的受众情绪状态概率分布进行概率分析。具体地，通过一个预先设定好的从情绪状态到输出幽默行为集的概率转移矩阵来计算得到幽默行为集的概率分布，并针对该概率分布对输出指令进行随机取样以作为最终的幽默指令类型。在一个实施例中，可采用蒙特卡洛（Monte Carlo) 方法进行随机取样。蒙特卡洛方法是一种根据生成分布进行取样以让取样结果符合该分布的方法，由此，采用蒙特卡洛方法进行取样可保证输出的可变性。考虑到实用场景中机器人行为的实现难易程度，最终的输出指令分为标准反馈指令加上附加幽默行为。这里，幽默行为集可包括 {ml:"讲笑话"， ml: " 念趣闻"， m3: "搞笑动作"， m4: "唱歌"， m5: "错误反馈" }。幽默行为选取单元 203-1将所选取的幽默行为指令发送至整合单元 203-2，在整合单元 203-2中，对从幽默行为选取单元 203-1接收的幽默行为指令与从语音信号处理单元 202-5接收的标准指令进行整合，随后通过收发器 201将最终输出指令输出至机器人 100

[0069] 其中，幽默行为集中的 m5_: "错误反馈"是指通过故意输出错误的反馈来让受众觉得幵心。例如，当受众向机器人发出 "过来 "的指令吋，标准的反馈指令是命令机器人往目标受众靠拢，如果幽默行为选取单元 203-1所选取的幽默行为是 "错误反馈"，则可以考虑不执行标准反馈并由整合单元 203-2通过结合受众语音输入信号搜索云端的数据库和 /或访问因特网来选取一些其他表演表达幽默感，比如假装很生气地说 "像我这种贵族可不是能随便使唤的"。对于其他的幽默行为，整合单元 203-2通过结合受众语音输入信号搜索云端的数据库来选取最匹配当前受众所处的情绪状态下的最优幽默输出指令，同吋，由于一些具体内容上的选取，还需要访问因特网来获取所需的信息。举例来说，如果幽默行为是"讲笑话"，则需要结合受众所处情绪状态选取最为匹配的笑话库里的笑话。这里，可通过语音信号处理单元 202-5向整合单元 203-2发送受众语音输入信号。此外，整合单元 203-2也可从收发器 201直接接收受众语音输入信号。

[0070] 在一些实施例中，所有这些幽默行为类型选取和内容匹配的相关策略可以通过依照目标受众的不断交互得到的反馈信息进行相应调整，从而实现"增强学习"的效果，从而达到最终实现一个和目标受众配合"默契"的有一定幽默特性的交互性机器人。

[0071] 根据本公幵的一个方面，本公幵提供了一种基于云端的设备，其操作方法如下

[0072] 第一步，基于云端的设备的收发器接收来自机器人的收发器的输入数据，所述来自机器人的收发器的输入数据是由机器人的传感装置在连续二十个单位吋间内收集到的；

[0073] 第二步，基于云端的设备的分析装置中的语音信号处理单元从基于云端的设备的收发器接收受众语音输入信号，并对受众语音输入信号进行识别，根据识别结果将标准指令输出至基于云端的设备的决策装置中的整合单元；

[0074] 第三步，基于云端的设备的分析装置中的第一 HMM分析器分别接收来自所述设备中的收发器的场景输入信号、受众表情输入信号以及受众语音输入信号作为第一 HMM的可观测序列，由所述第一 HMM分析器根据观测序列概率最大化的准则推断出第一 HMM的的隐藏状态变化序列并将所述隐藏状态变化序列输出至基于云端的设备的分析装置中的情绪状态 HMM分析器，其中所述第一 HMM 的隐藏状态变化序列包括场景隐藏状态变化序列、受众表情隐藏状态变化序列和受众语音隐藏状态变化序列；

[0075] 其中当所述第一 HMM分析器包括以串行或并行的方式连接的场景 HMM分析器、受众表情 HMM分析器和受众语音 HMM分析器吋，所述场景 HMM分析器、受众表情 HMM分析器和受众语音 HMM分析器分别接收来自基于云端的设备的收发器的场景输入信号、受众表情输入信号以及受众语音输入信号，这些输入信号分别为对应的 HMM的可观测序列；场景 HMM分析器、受众表情 HMM分析器和受众语音 HMM分析器针对相应的 HMM的可观测序列，根据观测序列概率最大化的准则推断出相应的隐藏状态变化序列并将这些隐藏状态变化序列输出至基于云端的设备的分析装置中的情绪状态 HMM分析器中； [0076] 第四步，基于云端的设备的分析装置中的情绪状态 HMM分析器接收来自第一 H MM分析器或者场景 HMM分析器、受众表情 HMM分析器和受众语音 HMM分析器的隐藏状态变化序列作为其可观测序列，同吋根据观测序列概率最大化的准则来推断出情绪状态 HMM的隐藏状态序列；

[0077] 第五步，基于云端的设备的决策装置中的幽默行为选取单元接收来自分析装置中的情绪状态 HMM分析器的输出、通过一个预先设定好的从情绪状态到幽默行为集的概率转移矩阵来计算得到幽默行为集的概率分布、针对该概率分布对输出指令进行随机取样以作为最终的幽默指令类型并将所选取的幽默行为指令发送至整合单元；

[0078] 第六步，整合单元对从幽默行为选取单元接收的幽默行为指令与从语音信号处理单元接收的标准指令进行整合，并通过收发器将最终输出指令输出至机器人；其中，对于"错误反馈"的幽默行为指令，整合单元根据该幽默行为指令修正标准指令，具体为不执行标准指令并由整合单元通过结合受众语音输入信号搜索云端的数据库和 /或访问因特网来选取一些其他表演表达幽默感；对于"讲笑话" 、 "念趣闻"、 "搞笑动作"、 "唱歌 "的幽默行为指令，整合单元通过结合受众语音输入信号搜索云端的数据库和 /或访问因特网来选取最优幽默输出指令并将该最优幽默输出指令和标准指令作为最终输出指令通过收发器输出至机器人，其中，所述最优幽默输出指令为最匹配目标受众情绪状态的指令，所述数据库包括笑话库、新闻库、动作库和歌曲库；

[0079] 这里要注意的是，以上第二步和第三步是同步进行，不存在先后之分。

[0080] 上文中已针对根据本公幵的各实施例描述了本公幵的多个方面，应当理解，以上各实施例仅是示例性而非限制性的，并且可组合以上多个实施例以形成新的替代实施例，或者可仅执行一个实施例的子集来实践本公幵。

[0081] 本领域技术人员将进一步领会，结合本文中所公幵的实施例来描述的各种说明性逻辑块、模块、电路和算法步骤可实现为电子硬件、计算机软件、或这两者的组合。为清楚地说明硬件与软件的可互换性，各种说明性组件、框、模块、电路和步骤在上文中是以其功能性的形式来作出一般化描述的。此类功能性是被实现为硬件还是软件取决于具体应用和施加于整体系统的设计约束。本领域技术人员对于每种特定应用可以用不同的方式来实现所描述的功能性，但是此类实现决策不应被视为背离本公幵的范围。

[0082] 结合本文所公幵的实施例描述的各种说明性逻辑模块和电路可以用通用处理器、数字信号处理器（DSP) 、专用集成电路（ASIC) 、现场可编程门阵列（FPG A) 或其他可编程逻辑器件、分立的门或晶体管逻辑、分立的硬件组件、或其设计成执行本文所描述功能的任何组合来实现或执行。通用处理器可以是微处理器，但在替换方案中，该处理器可以是任何常规的处理器、控制器、微控制器、或状态机。处理器还可以被实现为计算设备的组合，例如 DSP与微处理器的组合、多个微处理器、与 DSP核心协作的一个或多个微处理器、或任何其他此类配置。

[0083] 结合本文中公幵的实施例描述的方法或算法的步骤可直接在硬件中、在由处理器执行的软件模块中、或在这两者的组合中具体化。软件模块可驻留在 RAM存储器、闪存、 ROM存储器、 EPROM存储器、 EEPROM存储器、寄存器、硬盘、可移动盘、 CD-ROM、或本领域中所知的任何其他形式的存储介质中。示例性存储介质耦合到处理器以使得该处理器能从 /向该存储介质读取和写入信息。在替换方案中，存储介质可以被整合到处理器。处理器和存储介质可驻留在 ASIC 中。 ASIC可驻留在用户终端中。在替换方案中，处理器和存储介质可作为分立组件驻留在用户终端中。

[0084] 在一个或多个示例性实施例中，所描述的功能可在硬件、软件、固件或其任何组合中实现。如果在软件中实现为计算机程序产品，则各功能可以作为一条或更多条指令或代码存储在计算机可读介质上或经由其进行传送。计算机可读介质包括计算机存储介质和通信介质两者，其包括促成计算机程序从一地向另一地转移的任何介质。存储介质可以是能被计算机访问的任何可用介质。作为示例而非限定，此类计算机可读介质可包括 RAM、 ROM. EEPROM、 CD-ROM或其他光盘存储、磁盘存储或其他磁存储设备、或能被用来携带或存储指令或数据结构形式的合意程序代码且能被计算机访问的任何其他介质。任何连接也被正当地称为计算机可读介质。

[0085] 提供对本公幵的先前描述是为使得本领域任何技术人员都能够制作或使用本公幵。对本公幵的各种修改对本领域技术人员来说都将是显而易见的，且本文中所定义的普适原理可被应用到其他变体而不会脱离本公幵的精神或范围。由此，本公幵并非旨在被限定于本文中所描述的示例和设计，而是应被授予与本文中所公幵的原理和新颖性特征相一致的最广范围。

Claims

权利要求书

[权利要求 1] 一种基于云端的设备，包括：

分析装置，所述分析装置包括：

第一 HMM分析器，用于分别接收场景输入信号、受众表情输入信号和受众语音输入信号作为第一 HMM的可观测序列并根据观测序列概率最大化的准则推断出第一 HMM的隐藏状态变化序列，其中第一 H MM的隐藏状态变化序列包括场景隐藏状态变化序列、受众表情隐藏状态变化序列和受众语音隐藏状态变化序列；

情绪状态 HMM分析器，用于接收所述场景隐藏状态变化序列、受众表情隐藏状态变化序列和受众语音隐藏状态变化序列作为情绪状态 H MM的可观测序列并根据观测序列概率最大化的准则推断出情绪状态 HMM的隐藏状态变化序列；以及

语音信号处理单元，用于对受众语音输入信号进行识别并根据识别结果输出标准指令，

决策装置，用于接收所述情绪状态 HMM的隐藏状态变化序列和所述标准指令，基于所述情绪状态 HMM的隐藏状态变化序列选取幽默行为并整合幽默行为指令和所述标准指令作为最终输出指令。

[权利要求 2] 根据权利要求 1所述的基于云端的设备，其特征在于，所述第一 HMM 分析器进一步包括场景 HMM分析器、受众表情 HMM分析器和受众语音 HMM分析器，其中所述场景 HMM分析器、受众表情 HMM分析器和受众语音 HMM分析器以串行或并行的方式连接。

[权利要求 3] 根据权利要求 1-2中任一项所述的基于云端的设备，其特征在于，所述决策装置包括：

幽默行为选取单元，用于对所述情绪状态 HMM的隐藏状态变化序列进行概率分析并选取幽默行为和发送幽默行为指令；

整合单元，用于对所述幽默行为指令及所述标准指令进行整合以作为最终输出指令，

其中，所述情绪状态 HMM分析器的输出端连接至所述幽默行为选取单元的输入端，所述幽默行为选取单元的输出端连接至所述整合单元的输入端，且所述语音信号处理单元的输出端连接至所述整合单元的输入端。

[权利要求 4] 根据权利要求 3所述的基于云端的设备，其特征在于，所述整合包括当所述幽默行为指令为"错误反馈"吋，所述整合单元根据所述幽默行为指令修正所述标准指令，具体为不执行所述标准指令并由所述整合单元通过结合受众语音输入信号搜索云端的数据库和 /或访问因特网来选取一些其他表演表达幽默感。

[权利要求 5] 根据权利要求 3所述的基于云端的设备，其特征在于，所述整合还包括：

当所述幽默行为指令为"讲笑话"、 "念趣闻"、 "搞笑动作"、 "唱歌 "中的一者吋，所述整合单元通过结合受众语音输入信号搜索云端的数据库和 /或访问因特网来选取最优幽默输出指令并将所述最优幽默输出指令和所述标准指令作为最终输出指令，其中，所述最优幽默输出指令为最匹配目标受众情绪状态的指令。

[权利要求 6] 根据权利要求 5所述的基于云端的设备，其特征在于，所述幽默行为和最优幽默输出指令的选取的相关策略通过依照目标受众的不断交互得到的反馈信息进行相应调整。

[权利要求 7] 根据权利要求 4或权利要求 5所述的基于云端的设备，其特征在于，所述数据库包括笑话库、新闻库、动作库和歌曲库。

[权利要求 8] 根据权利要求 3所述的基于云端的设备，其特征在于，所述概率分析包括所述幽默行为选取单元通过一个预先设定好的从情绪状态到幽默行为集的概率转移矩阵来计算得到幽默行为集的概率分布。

[权利要求 9] 根据权利要求 8所述的基于云端的设备，其特征在于，所述幽默行为集包括 {ml:"讲笑话"， l: "念趣闻"， m3: "搞笑动作"， m4_: "唱歌

"， m5: "错误反馈" }，其中， m5: "错误反馈"是指通过故意输出错误的反馈来让受众觉得幵心。

[权利要求 10] 根据权利要求 1-2所述的基于云端的设备，其特征在于，根据观测序列概率最大化的准则推断出隐藏状态变化序列是利用 Viterbi算法来实现的。

[权利要求 11] 根据权利要求 1所述的基于云端的设备，其特征在于，所述第一 HMM 分析器的输出端连接至所述情绪状态 HMM分析器的输入端。

[权利要求 12] 根据权利要求 2所述的基于云端的设备，其特征在于，所述场景 HMM 分析器、所述受众表情 HMM分析器、所述受众语音 HMM分析器的输出端中的一个或多个连接至所述情绪状态 HMM分析器的输入端。

[权利要求 13] 根据权利要求 1-2所述的基于云端的设备，其特征在于，所述分析装置的输出端连接至所述决策装置的输入端。

[权利要求 14] 根据权利要求 1-2中任一项所述的基于云端的设备，其特征在于，所述设备还包括第一收发器，所述第一收发器的输出端连接至所述分析装置的输入端，且所述决策装置的输出端连接至所述第一收发器的输入端。

[权利要求 15] 根据权利要求 14所述的基于云端的设备，其特征在于，所述第一收发器的输出端连接至所述第一 HMM分析器的输入端以及所述语音信号处理单元的输入端。

[权利要求 16] 在权利要求 14引用权利要求 2吋根据权利要求 14所述的基于云端的设备，其特征在于，所述第一收发器的输出端连接至所述场景 HMM分析器、受众表情 HMM分析器、受众语音 HMM分析器的输入端中的一个或多个以及所述语音信号处理单元的输入端。

[权利要求 17] 根据权利要求 14所述的基于云端的设备，其特征在于，所述第一收发器与机器人的第二收发器通信连接。

[权利要求 18] —种基于云端的设备的操作方法，包括：

利用所述设备中的第一收发器接收来自机器人的第二收发器的输入数据；

利用所述设备中的分析装置中的语音信号处理单元从所述设备中的第一收发器接收受众语音输入信号，并对所述受众语音输入信号进行识另 lj，根据识别结果输出标准指令；

利用所述设备中的分析装置中的第一 HMM分析器分别接收来自所述设备中的第一收发器的场景输入信号、受众表情输入信号以及受众语音输入信号作为第一 HMM的可观测序列；

由所述第一 HMM分析器根据观测序列概率最大化的准则推断出第一 HMM的隐藏状态变化序列并将所述隐藏状态变化序列输出至所述分析装置中的情绪状态 HMM分析器，其中所述第一 HMM的隐藏状态变化序列包括场景隐藏状态变化序列、受众表情隐藏状态变化序列和受众语音隐藏状态变化序列；

由所述情绪状态 HMM分析器接收所述场景隐藏状态变化序列、、受众表情隐藏状态变化序列、和受众语音隐藏状态变化序列作为情绪状态 HMM的可观测序列，并根据观测序列概率最大化的准则来推断出情绪状态 HMM的隐藏状态序列；

由所述设备中的决策装置基于所述情绪状态 HMM的隐藏状态序列选取幽默行为并整合幽默行为指令和所述标准指令作为最终输出指令。

[权利要求 19] 根据权利要求 18所述的方法，其特征在于，所述第一 HMM分析器进一步包括以串行或并行的方式连接的场景 HMM分析器、受众表情 H MM分析器和受众语音 HMM分析器，其中所述场景 HMM分析器、受众表情 HMM分析器和受众语音 HMM分析器分别接收场景输入信号、受众表情输入信号和受众语音输入信号作为场景 HMM、受众表情 H MM和受众语音 HMM的可观测序列并根据观测序列概率最大化的准则推断出场景 HMM、受众表情 HMM和受众语音 HMM的隐藏状态变化序列，并且将所述场景 HMM、受众表情 HMM和受众语音 HMM的隐藏状态变化序列发送至所述情绪状态 HMM分析器。

[权利要求 20] 根据权利要求 18所述的方法，其特征在于，由所述设备中的决策装置基于所述情绪状态 HMM的隐藏状态序列选取幽默行为并整合幽默行为指令和所述标准指令作为最终输出指令的步骤包括：

所述设备中的决策装置中的幽默行为选取单元接收所述情绪状态 HM M的隐藏状态序列、对所接收的情绪状态 HMM的隐藏状态序列进行概率分析、选取幽默行为并将幽默行为指令输出至所述决策装置中的整合单元；

所述整合单元接收所述幽默行为指令以及所述标准指令并对所述幽默行为指令和所述标准指令进行整合以作为最终输出指令。

根据权利要求 20所述的方法，其特征在于，所述整合包括：当所述幽默行为指令为"错误反馈"吋，所述整合单元根据所述幽默行为指令修正所述标准指令，具体为不执行所述标准指令并由所述整合单元通过结合受众语音输入信号搜索云端的数据库和 /或访问因特网来选取一些其他表演表达幽默感。

根据权利要求 20所述的方法，其特征在于，所述整合还包括：当所述幽默行为指令为"讲笑话"、 "念趣闻"、 "搞笑动作"、 "唱歌 "中的一者吋，所述整合单元通过结合受众语音输入信号搜索云端的数据库和 /或访问因特网来选取最优幽默输出指令并将所述最优幽默输出指令和所述标准指令作为最终输出指令，其中，所述最优幽默输出指令为最匹配目标受众情绪状态的指令。

根据权利要求 22所述的方法，其特征在于，所述幽默行为和最优幽默输出指令的选取的相关策略通过依照目标受众的不断交互得到的反馈信息进行相应调整。

根据权利要求 21或权利要求 22所述的方法，其特征在于，所述数据库包括笑话库、新闻库、动作库和歌曲库。

根据权利要求 20所述的方法，其特征在于，所述概率分析包括所述幽默行为选取单元通过一个预先设定好的从情绪状态到幽默行为集的概率转移矩阵来计算得到幽默行为集的概率分布。

根据权利要求 25所述的方法，其特征在于，所述幽默行为集包括 {ml: "讲笑话"， m2: "念趣闻"， m3: "搞笑动作"， m4_: "唱歌"， m5: " 错误反馈" }，其中， m5: "错误反馈"是指通过故意输出错误的反馈来让受众觉得幵心。 [权利要求 27] 根据权利要求 18所述的方法，其特征在于，所述根据观测序列概率最大化的准则推断出隐藏状态变化序列是利用 Viterbi算法来实现的。