WO2019114015A1

WO2019114015A1 - 一种机器人的演奏控制方法及机器人

Info

Publication number: WO2019114015A1
Application number: PCT/CN2017/117681
Authority: WO
Inventors: 蔡任轩
Original assignee: 广州德科投资咨询有限公司
Priority date: 2017-12-12
Filing date: 2017-12-21
Publication date: 2019-06-20
Also published as: CN108053815A

Abstract

本发明涉及人工智能技术领域，具体涉及一种机器人的演奏控制方法及机器人，包括：机器人接收演奏指令，该演奏指令至少包括目标乐曲的乐曲名称，获取并解析与该乐曲名称相匹配的原始MIDI文件，得到目标乐曲的演奏控制参数，以及控制机器人的内置摄像头拍摄图像，并根据图像识别机器人当前所处的环境，然后将演奏控制参数调整为与机器人当前所处的环境相匹配的目标演奏控制参数，根据目标演奏控制参数控制机器人演奏目标乐曲。可见，本发明实施例，能够使机器人在不同的演奏场合下采用不同的演奏方式，从而提高聆听者的用户体验。

Description

一种机器人的演奏控制方法及机器人

技术领域

本发明涉及人工智能技术领域，具体涉及一种机器人的演奏控制方法及机器人。

背景技术

日新月异的科技发展给音乐领域注入了许多新鲜元素，逐渐改变了人们编写、表演、制作甚至欣赏音乐的方式，其中，得益于人工智能技术的飞速发展，机器人也可以像演奏家一样，为人们演奏乐曲，给人们带来不一样的听觉体验。对于机器人来说，可以通过机器学习的方法学习不同的演奏家演奏同一乐曲的版本，由此获得演奏该乐曲的演奏方式，演奏方式包括演奏该乐曲的演奏速度、演奏力度等。然而，相比起演奏家可以在不同的演奏场合采用不同的演奏方式演奏同一首乐曲，机器人在演奏同一首乐曲时只能通过固定的演奏方式进行演奏，机器人的演奏方式过于单一。

发明内容

本发明实施例公开一种机器人的演奏控制方法及机器人，能够使机器人在不同的演奏场合下采用不同的演奏方式，从而提高聆听者的用户体验。

所述机器人接收演奏指令，所述演奏指令至少包括目标乐曲的乐曲名称；

所述机器人获取与所述乐曲名称相匹配的原始MIDI文件；

所述机器人解析所述原始MIDI文件，得到所述目标乐曲的演奏控制参数；

所述机器人控制所述机器人的内置摄像头拍摄图像，并根据所述图像识别所述机器人当前所处的环境；

所述机器人将所述演奏控制参数调整为与所述机器人当前所处的环境相匹配的目标演奏控制参数，并根据所述目标演奏控制参数控制所述机器人演奏所述目标乐曲。

作为一种可选的实施方式，在本发明实施例第一方面中，所述机器人根据所述目标演奏控制参数控制所述机器人演奏所述目标乐曲之后，所述方法还包括：

所述机器人检测预设时间段内是否接收到新的演奏指令，所述预设时间段的起始时刻是所述目标乐曲演奏结束的时刻；

如果否，则所述机器人获取与所述目标乐曲相似度高于预设阈值的至少一首待演奏乐曲；

所述机器人通过语音输出至少一首所述待演奏乐曲的乐曲名称，以使用户根据至少一首所述待演奏乐曲的乐曲名称选择目标待演奏乐曲。

作为一种可选的实施方式，在本发明实施例第一方面中，所述方法还包括：

所述机器人构建卷积神经网络模型，所述卷积神经网络模型用于识别所述机器人所处的环境；

所述机器人获取海量样本图像，并根据所述海量样本图像形成训练样本集；

所述机器人根据所述训练样本集对所述卷积神经网络模型进行训练，得到训练好的卷积神经网络模型；

所述机器人根据所述图像识别所述机器人当前所处的环境，包括：

所述机器人使用所述训练好的卷积神经网络模型对所述图像进行识别，以识别出所述机器人当前所处的环境。

在演奏所述目标乐曲的过程中，所述机器人控制拾音器记录所述机器人演奏所述目标乐曲时的音频信号；

所述机器人从所述音频信号中确定出噪声信号，获取所述噪声信号的特征参数，并根据所述特征参数对所述音频信号进行降噪处理，得到音频文件；

所述机器人检测是否存在与所述机器人建立通信连接的移动终端；

如果存在，则所述机器人向所述移动终端发送分享信息，所述分享信息包括所述音频文件。

所述机器人获取当前所处的环境对应的位置坐标；

所述机器人将所述音频文件与所述位置坐标进行关联，得到所述音频文件与所述位置坐标的关联关系；

所述机器人将所述关联关系分享至互联网终端，以使所述互联网终端在检测到所述位置坐标处存在其它用户的移动终端时，向所述其它用户的移动终端推荐所述音频文件。

本发明实施例第二方面公开了一种机器人，所述机器人包括：

接收单元，用于接收演奏指令，所述演奏指令至少包括目标乐曲的乐曲名称；

第一获取单元，用于获取与所述乐曲名称相匹配的原始MIDI文件；

解析单元，用于解析所述原始MIDI文件，得到所述目标乐曲的演奏控制参数；

识别单元，用于控制所述机器人的内置摄像头拍摄图像，并根据所述图像识别所述机器人当前所处的环境；

调整单元，用于将所述演奏控制参数调整为与所述机器人当前所处的环境相匹配的目标演奏控制参数；

演奏单元，用于根据所述目标演奏控制参数控制所述机器人演奏所述目标乐曲。

作为一种可选的实施方式，在本发明实施例第二方面中，所述机器人还包括：

第一检测单元，用于在所述演奏单元根据所述目标演奏控制参数控制所述机器人演奏所述目标乐曲之后，检测预设时间段内是否接收到新的演奏指令，所述预设时间段的起始时刻是所述目标乐曲演奏结束的时刻；

第二获取单元，用于在所述第一检测单元检测出所述预设时间段内没有接收到所述新的演奏指令时，获取与所述目标乐曲相似度高于预设阈值的至少一首待演奏乐曲；

输出单元，用于通过语音输出至少一首所述待演奏乐曲的乐曲名称，以使用户根据至少一首所述待演奏乐曲的乐曲名称选择目标待演奏乐曲。

构建单元，用于构建卷积神经网络模型，所述卷积神经网络模型用于识别所述机器人所处的环境；

形成单元，用于获取海量样本图像，并根据所述海量样本图像形成训练样本集；

训练单元，用于根据所述训练样本集对所述卷积神经网络模型进行训练，得到训练好的卷积神经网络模型；

所述识别单元，具体用于使用所述训练单元得到的所述训练好的卷积神经网络模型对所述图像进行识别，以识别出所述机器人当前所处的环境。

记录单元，用于在所述演奏单元演奏所述目标乐曲的过程中，控制拾音器记录所述机器人演奏所述目标乐曲时的音频信号；

处理单元，用于从所述音频信号中确定出噪声信号，获取所述噪声信号的特征参数，并根据所述特征参数对所述音频信号进行降噪处理，得到音频文件；

第二检测单元，用于检测是否存在与所述机器人建立通信连接的移动终端；

发送单元，用于在所述第二检测单元检测出存在与所述机器人建立通信连接的移动终端时，向所述移动终端发送分享信息，所述分享信息包括所述音频文件。

作为一种可选的实施方式，在本发明实施例第二方面中，所述第一获取单元，还用于获取当前所处的环境对应的位置坐标；

所述机器人还包括：

关联单元，用于将所述音频文件与所述位置坐标进行关联，得到所述音频文件与所述位置坐标的关联关系；

分享单元，用于将所述关联关系分享至互联网终端，以使所述互联网终端在检测到所述位置坐标处存在其它用户的移动终端时，向所述其它用户的移动终端推荐所述音频文件。

本发明实施例第三方面公开另一种机器人，包括：

存储有可执行程序代码的存储器；

与所述存储器耦合的处理器；

所述处理器调用所述存储器中存储的所述可执行程序代码，执行本发明实施例第一方面公开的一种机器人的演奏控制方法。

本发明实施例第四方面公开一种计算机可读存储介质，其存储计算机程序，其中，所述计算机程序使得计算机执行本发明实施例第一方面公开的一种机器人的演奏控制方法。

本发明实施例第五方面公开一种计算机程序产品，当所述计算机程序产品在计算机上运行时，使得所述计算机执行第一方面的任意一种方法的部分或全部步骤。

本发明实施例第六方面公开一种应用发布平台，所述应用发布平台用于发布计算机程序产品，其中，当所述计算机程序产品在计算机上运行时，使得所述计算机执行第一方面的任意一种方法的部分或全部步骤。

与现有技术相比，本发明实施例具有以下有益效果：

本发明实施例中，机器人接收演奏指令，该演奏指令至少包括目标乐曲的乐曲名称，获取并解析与该乐曲名称相匹配的原始MIDI文件，得到目标乐曲的演奏控制参数，以及控制机器人的内置摄像头拍摄图像，并根据图像识别机器人当前所处的环境，然后将演奏控制参数调整为与机器人当前所处的环境相匹配的目标演奏控制参数，根据目标演奏控制参数控制机器人演奏目标乐曲。可见，实施本发明实施例，能够根据周围环境的不同调整演奏控制参数，以使机器人在不同的演奏场合下采用不同的演奏方式演奏乐曲，从而提高了聆听者的用户体验。

附图说明

为了更清楚地说明本发明实施例中的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明实施例公开的一种机器人的演奏控制方法的流程示意图；

图2是本发明实施例公开的另一种机器人的演奏控制方法的流程示意图；

图3是本发明实施例公开的又一种机器人的演奏控制方法的流程示意图；

图4是本发明实施例公开的一种机器人的结构示意图；

图5是本发明实施例公开的另一种机器人的结构示意图；

图6是本发明实施例公开的又一种机器人的结构示意图；

图7是本发明实施例公开的又一种机器人的结构示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

需要说明的是，本发明实施例及附图中的术语“包括”和“具有”以及它们任何变形，意图在于覆盖不排他的包含。例如包含了一系列步骤或单元的过程、方法、系统、产品或设备没有限定于已列出的步骤或单元，而是可选地还包括没有列出的步骤或单元，或可选地还包括对于这些过程、方法、产品或设备固有的其它步骤或单元。

本发明实施例公开一种机器人的演奏控制方法及机器人，能够使机器人在不同的演奏场合下采用不同的演奏方式，从而提高聆听者的用户体验。以下分别进行详细说明。

实施例一

请参阅图1，图1是本发明实施例公开的一种机器人的演奏控制方法的流程示意图。如图1所示，该机器人的演奏控制方法可以包括以下操作：

101、机器人接收演奏指令，该演奏指令至少包括目标乐曲的乐曲名称。

本发明实施例中，该演奏指令可以是用户通过与该机器人预先绑定的移动终端发送的，该演奏指令的形式可以是文本也可以是语音，本发明实施例不做限定。举例来说，用户可以是家长，与该机器人预先绑定的移动终端可以是家长的手机，那么，当家长外出而孩子独自在家时，家长希望机器人能够为孩子演奏钢琴曲，以此陶冶孩子的情操、培养孩子对音乐的兴趣，所以家长可以通过手机向机器人发送语音信息，该语音信息包括家长希望机器人演奏的目标乐曲的乐曲名称。机器人接收到家长发送的语音信息之后，对该语音信息进行识别，并根据识别出的目标乐曲的乐曲名称为孩子演奏该乐曲名称对应的钢琴曲。可见，本发明实施例，可以实现家长外出时远程控制机器人为孩子演奏乐曲，为孩子带来真实的钢琴演奏欣赏，提高了用户体验。

102、机器人获取与上述乐曲名称相匹配的原始MIDI文件。

本发明实施例中，MIDI(Musical Instrument Digital Interface)，也称作乐器数字接口，是一个工业标准的电子通信协议，为电子乐器等演奏设备(如合成器)定义各种音符或弹奏码，容许电子乐器、电脑、手机或其它的舞台演出配备彼此连接，调整和同步，得以即时交换演奏数据。对于MIDI文件来说，MIDI文件主要分为为文件头信息(Header Chunk)以及音轨信息(Track Chunk)两个部分，文件头信息主要储存MIDI文件中的基本信息，如：每个四分音符被切割为多少点数(Tick)、音轨信息区块数、文件格式代号等等，而音轨信息则用来储存一连串的MIDI信息，依照不同的文件格式代号，MIDI信息可以用来表示单一音轨(文件格式代号0)或者是多个音轨(文件格式代号1)的MIDI信息，本发明实施例不做限定。

作为一种可选的实施方式，在获取与上述乐曲名称相匹配的原始MIDI文件之前，机器人可以通过处理上述乐曲名称相匹配的音频文件，生成与上述乐曲名称相匹配的原始MIDI文件，具体来说，机器人可以对与上述乐曲名称相匹配的音频文件进行处理，得到该音频文件的时间属性描述信息，该时间属性描述信息是音频文件中每一个音符对应的时间属性；然后按照预设时间长度对该音频文件进行分帧处理，得到该音频文件中各个音频帧的频谱重心，并根据该频谱重心计算音频文件的频谱均值，以及对该频谱均值进行归一化处理，得到MIDI文件参数，该MIDI参数可用于描述该音频文件的音准信息；机器人可以根据该音频文件中每一个音符对应的时间属性以及该音频文件的音准信息生成与上述乐曲名称相匹配的原始MIDI文件。可见，本发明实施例，可以通过音频文件计算并生成与该音频文件对应的MIDI文件，提高了音频处理的效率，进而也提升了音频处理的智能性。

103、机器人解析原始MIDI文件，得到上述目标乐曲的演奏控制参数。

本发明实施例中，机器人解析原始MIDI文件，可以得到MIDI文件参数，其中，该MIDI文件参数可以包括上述目标乐曲的所有音符以及所有音符中每个音符与目标乐曲起始处的间隔时间(偏移量)、音高(频率)、时值(持续时长)以及力度等音符数据，该MIDI文件参数即为上述目标乐曲的演奏控制参数。

本发明实施例中，可选的，机器人解析原始MIDI文件，还可以得到上述目标乐曲的整体音色。机器人可以依照用户选择的任意音色来调整该目标乐曲的整体音色，然后对调整后的整体音色进行对应参数的适应化处理。

104、机器人控制该机器人的内置摄像头拍摄图像，并根据该图像识别机器人当前所处的环境。

本发明实施例中，机器人可以控制内置摄像头拍摄图像，优选的，机器人可以控制内置摄像头拍摄全景图像，即机器人可以预设拍摄范围以及设置多个全景对焦位置，并通过内置摄像头拍摄与上述多个全景对焦位置对应的多个对焦图像，并由这多个对焦图像生成全景图像与预设拍摄范围相对应的全景图像。

105、机器人将上述演奏控制参数调整为与该机器人当前所处的环境相匹配的目标演奏控制参数，并根据目标演奏控制参数控制该机器人演奏上述目标乐曲。

本发明实施例中，根据目标演奏控制参数控制该机器人演奏上述目标乐曲，具体来说，机器人演奏目标乐曲时，可以将目标演奏控制参数转换成脉冲输出信号，即读入目标演奏控制参数中的音符数据，该音符数据即目标乐曲中每个音符与目标乐曲起始处的间隔时间(偏移量)、音高(频率)、时值(持续时长)以及力度等，并根据该音符数据形成每个音符对应的脉冲信号，并将不同的音符的脉冲信号对应不同的信号输出通道，而信号输出通道与机器人的电机建立关联关系。举例来说，在机器人通过钢琴演奏乐曲时，机器人可以按照每个音符的时间顺序输出脉冲信号，可以驱动电机启动，即机器人开始演奏目标乐曲。

可见，通过图1所描述的方法，能够根据周围环境的不同智能的调整演奏控制参数，以使机器人在不同的演奏场合下采用不同的演奏方式演奏乐曲，从而提高了聆听者的用户体验；

此外，可以实现家长外出时远程控制机器人为孩子演奏乐曲，为孩子带来真实的钢琴演奏欣赏，提高了用户体验；以及，可以通过音频文件计算并生成与该音频文件对应的MIDI文件，提高了音频处理的效率，进而也提升了音频处理的智能性。

实施例二

请参阅图2，图2是本发明实施例公开的另一种机器人的演奏控制方法的流程示意图。如图2所示，该机器人的演奏控制方法可以包括以下步骤：

本发明实施例中，该机器人的演奏控制方法还包括步骤201～205，针对步骤201～205的描述，请参照实施例一中针对步骤101～105的详细描述，本发明实施例不再赘述。

206、机器人检测预设时间段内是否接收到新的演奏指令，如果是，则根据新的演奏指令演奏一首新的乐曲，反之，如果否，则执行步骤207。

本发明实施例中，上述预设时间段的起始时刻是目标乐曲演奏结束的时刻。

作为一种可选的实施方式，机器人预设有用户信息库，该用户信息库中预存有至少一个合法用户的合法人脸图像和/或合法声纹资料，以及每个合法用户的喜爱乐曲类型资料，其中，每个合法用户的合法人脸图像和/或合法声纹资料与喜爱乐曲类型资料相绑定。举例来说，机器人当前所处的环境是家里，当机器人检测预设时间段内未接收到新的演奏指令时，机器人可以启动人脸识别功能和/或声纹识别功能，获取用户的照片和/或声纹，并将该用户的照片和/或声纹与用户信息库中所有合法用户的合法人脸图像和/或合法声纹资料进行匹配，如果该用户的照片和/或声纹与用户信息库中任意一位合法用户的合法人脸图像和/或合法声纹资料相匹配，那么，机器人可以调取用户信息库中该匹配成功的合法用户的喜爱乐曲类型资料，并分析该喜爱乐曲类型资料，向用户推送与该喜爱乐曲类型资料相匹配的乐曲。特别的，当机器人启动人脸识别功能和/或声纹识别功能识别出的、并且与用户信息库中合法用户匹配成功的用户数量大于一位时，机器人可以通过计算这些用户的喜爱乐曲类型资料的重合度来选择推送乐曲。可见，本发明实施例，可以在通过人脸和/或声纹识别出合法用户之后，根据合法用户预存的乐曲风格资料，为用户提供个性化的乐曲推荐，提高了用户的体验度。

207、机器人获取与上述目标乐曲相似度高于预设阈值的至少一首待演奏乐曲。

208、机器人通过语音输出至少一首待演奏乐曲的乐曲名称，以使用户根据至少一首待演奏乐曲的乐曲名称选择目标待演奏乐曲。

针对步骤206～步骤208，机器人可以预先设置预设时间段，该预设时间段的起始时刻是上一首乐曲演奏结束的结束时刻。那么，在一首乐曲演奏完毕之后，如果机器人在预设时间段内接收到新的演奏指令，机器人可以根据新的演奏指令中包括的新的乐曲名称演奏该新的乐曲；如果机器人在预设时间段内未接收到新的演奏指令，机器人可以通过分析上述目标乐曲，向用户推送与上述目标乐曲相似度极高的待演奏乐曲供用户选择。可见，本发明实施例，可以在用户没有选择下一首待演奏乐曲情况下，智能的向用户推送与用户之前选择的目标乐曲音乐风格相似的乐曲供用户选择，即可以根据用户喜好智能的推送该用户感兴趣的乐曲，同时提高了用户体验度。

可见，通过图2所描述的方法，能够根据周围环境的不同智能的调整演奏控制参数，以使机器人在不同的演奏场合下采用不同的演奏方式演奏乐曲，从而提高了聆听者的用户体验；

此外，可以实现家长外出时远程控制机器人为孩子演奏乐曲，为孩子带来真实的钢琴演奏欣赏，提高了用户体验；以及，可以通过音频文件计算并生成与该音频文件对应的MIDI文件，提高了音频处理的效率，进而也提升了音频处理的智能性；

此外，可以在通过人脸和/或声纹识别出合法用户之后，根据合法用户预存的乐曲风格资料，为用户提供个性化的乐曲推荐，提高了用户的体验度；

此外，可以在用户没有选择下一首待演奏乐曲情况下，智能的向用户推送与用户之前选择的目标乐曲音乐风格相似的乐曲供用户选择，即可以根据用户喜好智能的推送该用户感兴趣的乐曲，同时提高了用户体验度。

实施例三

请参阅图3，图3是本发明实施例公开的又一种机器人的演奏控制方法的流程示意图。如图3所示，该机器人的演奏控制方法可以包括以下步骤：

301、机器人构建卷积神经网络模型，该卷积神经网络模型用于识别机器人所处的环境。

本发明实施例中，机器人构建卷积神经网络模型，具体来说，机器人可以设计由输入层、三个隐层和输出层这五层神经网络构成的卷积神经网络模型，并且每一层神经网络对应不同的权重参数值。举例来说，机器人在通过该卷积神经网络模型识别图像的内容时，卷积神经网络的第一层可以寻找该图像中的边缘；第二层可以寻找第一层找到的边缘所组成的图形，例如长方形或者圆形；第三层可以寻找特定特征，例如图像中具有标志性特征的物品；每一层在寻找到该层的目标之后将图像传递至下一层，直至最后一层，而最终的输出结果由神经网络中所有的权重参数值共同决定。

302、机器人获取海量样本图像，并根据海量样本图像形成训练样本集。

本发明实施例中，训练样本集中的样本可以用于训练神经网络模型。

303、机器人根据训练样本集对上述卷积神经网络模型进行训练，得到训练好的卷积神经网络模型。

本发明实施例中，卷积神经网络是一种前馈神经网络，它的人工神经元可以响应一部分覆盖范围内的周围单元，主要用于图像的识别、处理方面。

本发明实施例中，该机器人的演奏控制方法还包括步骤304～306，针对步骤304～306的描述，请参照实施例一中针对步骤101～103的详细描述，本发明实施例不再赘述。

307、机器人控制该机器人的内置摄像头拍摄图像，并使用上述训练好的卷积神经网络模型对该图像进行识别，以识别出机器人当前所处的环境。

本发明实施例中，机器人使用上述训练好的卷积神经网络模型对该图像进行识别的具体方式可以为：机器人控制该机器人的内置摄像头拍摄图像，优选的，该内置摄像头可以拍摄机器人周围环境的360°的全景图像，然后机器人可以对该全景图像进行预处理，即对该全景图像进行灰度化处理，处理后得到灰度图像，然后将该灰度图像输入训练好的卷积神经网络模型，使该灰度图像依次经过输入层、三个隐层和输出层这五层神经网络的识别，由该卷积神经网络模型识别之后输出识别结果。举例来说，机器人当前所处的环境是演奏厅，那么，机器人可以通过内置摄像头拍摄周围环境的全景图像，并使用训练好的卷积神经网络模型对该全景图像进行识别，该卷积神经网络模型通过分层依次识别出该环境是演奏厅，那么输出识别结果即为该机器人当前所处的环境是演奏厅。可见，本发明实施例，可以通过训练好的卷积神经网络模型对图像进行识别，以识别出机器人当前所处的环境，相比起传统图像识别方式对图像的复杂的特征提取过程，简化了图像识别过程，从而也提高了识别环境的效率和准确性。

308、机器人将上述演奏控制参数调整为与该机器人当前所处的环境相匹配的目标演奏控制参数，并根据目标演奏控制参数控制该机器人演奏上述目标乐曲。

本发明实施例中，由于不同的环境的空间位置环境、噪音强度、听众人数等因素不同，机器人可以设置数据库，该数据库预存有多个用于演奏乐曲的演奏控制参数，并且演奏控制参数与环境场景进行关联，即不同的环境场景匹配不同的演奏控制参数。举例来说，环境场景有演奏厅、教室以及家等，那么，数据库中可以预存有与演奏厅相匹配的演奏控制参数、与教室相匹配的演奏控制参数以及与家相匹配的演奏控制参数，当机器人根据步骤308识别出机器人当前所处的环境是演奏厅时，可以从数据库中获取该演奏厅相匹配演奏控制参数，并将该演奏控制参数确定为目标演奏控制参数，并根据目标演奏控制参数控制该机器人演奏上述目标乐曲。可见，本发明实施例，可以针对不同的环境适应性调整乐曲的演奏控制参数，使得机器人获得对同一首乐曲的不同演绎方式，提高了演奏乐曲的智能性，使乐曲的演奏更贴合环境。

309、在演奏上述目标乐曲的过程中，机器人控制拾音器记录该机器人演奏上述目标乐曲时的音频信号。

本发明实施例中，机器人可以在演奏目标乐曲的过程中，控制拾音器记录该机器人演奏上述目标乐曲时的音频信号，拾音器记录该音频信号的起始时刻是机器人演奏目标乐曲的起始时刻，拾音器记录该音频信号的终止时刻是机器人演奏目标乐曲的终止时刻，其中，拾音器是用来采集现场环境声音再传送到后端设备的一个器件，它是由咪头(麦克风)和音频放大电路构成。

310、机器人从上述音频信号中确定出噪声信号，获取噪声信号的特征参数，并根据特征参数对该音频信号进行降噪处理，得到音频文件。

本发明实施例中，在获取到拾音器记录的音频信号之后，机器人对该音频信号进行信号预处理，具体来说，就是机器人可以对该音频信号进行频谱分析，以确定出该音频信号中的噪声信号，并获取噪声信号的特征参数，根据该特征参数对该音频信号进行降噪处理，得到音频文件。可选的，机器人确定出音频信号中的噪声信号之后，也可以根据噪声信号相位，对噪声信号进行反相抑制处理，得到音频文件。可见，本发明实施例，可以从音频信号中分离出噪声信号，实现对音频信号的降噪，从而获得音质较为纯净的音频文件。

311、机器人检测是否存在与该机器人建立通信连接的移动终端，如果存在，则执行步骤312，反之，如果不存在，结束本流程。

312、机器人向移动终端发送分享信息，该分享信息包括上述音频文件。

针对步骤309～步骤312，举例来说，机器人当前所处的环境是高级演奏厅，移动终端是听众的手机。当听众在高级演奏厅聆听机器人演奏的目标乐曲之后，对此次目标乐曲的演奏版本十分满意，希望能够将该演奏版本保留在自己的手机里以便闲暇时间欣赏，那么，听众可以在进入高级演奏厅之前通过手机与机器人建立通信连接；机器人可以在演奏目标乐曲的同时对演奏该目标乐曲时的音频信号进行记录以及降噪处理得到音频文件，并将该音频文件发送到该听众的手机上。可见，本发明实施例，可以将演奏目标乐曲的音频文件进行降噪处理之后分享给与机器人建立通信连接的移动终端，使移动终端的用户可以随时聆听该音频文件，实现了机器人与移动终端的用户之间的交互，提高了用户的体验度。

313、机器人获取当前所处的环境对应的位置坐标。

314、机器人将上述音频文件与上述位置坐标进行关联，得到音频文件与位置坐标的关联关系。

本发明实施例中，机器人将上述音频文件与上述位置坐标进行关联，得到音频文件与位置坐标的关联关系，即建立音频文件与位置坐标之间的对应关系。

315、机器人将上述关联关系分享至互联网终端，以使互联网终端在检测到位置坐标处存在其它用户的移动终端时，向其它用户的移动终端推荐上述音频文件。

针对步骤313～步骤315，可以通过音频文件与位置坐标之间形成的关联关系，使得一旦检测到该位置坐标处存在其他用户的移动终端时，立即向该移动终端推荐上述的音频文件，从而实现音频文件的共享。

其中，该机器人的演奏控制方法还包括步骤316～318，针对步骤316～318的描述，请参照实施例一中针对步骤206～208的详细描述，本发明实施例不再赘述。

可见，通过图3所描述的方法，能够根据周围环境的不同智能的调整演奏控制参数，以使机器人在不同的演奏场合下采用不同的演奏方式演奏乐曲，从而提高了聆听者的用户体验；

此外，可以在用户没有选择下一首待演奏乐曲情况下，智能的向用户推送与用户之前选择的目标乐曲音乐风格相似的乐曲供用户选择，即可以根据用户喜好智能的推送该用户感兴趣的乐曲，同时提高了用户体验度；

此外，可以通过训练好的卷积神经网络模型对图像进行识别，以识别出机器人当前所处的环境，相比起传统图像识别方式对图像的复杂的特征提取过程，简化了图像识别过程，从而也提高了识别环境的效率和准确性；

此外，可以针对不同的环境适应性调整乐曲的演奏控制参数，使得机器人获得对同一首乐曲的不同演绎方式，提高了演奏乐曲的智能性，使乐曲的演奏更贴合环境；

此外，可以从音频信号中分离出噪声信号，实现对音频信号的降噪，从而获得音质较为纯净的音频文件；

此外，可以将演奏目标乐曲的音频文件进行降噪处理之后分享给与机器人建立通信连接的移动终端，使移动终端的用户可以随时聆听该音频文件，实现了机器人与移动终端的用户之间的交互，提高了用户的体验度；以及，可以通过音频文件与位置坐标之间形成的关联关系，使得一旦检测到该位置坐标处存在其他用户的移动终端时，立即向该移动终端推荐上述的音频文件，从而实现音频文件的共享。

实施例四

请参阅图4，图4是本发明实施例公开的一种机器人的结构示意图。如图4所示，该机器人可以包括：

接收单元401，用于接收演奏指令，该演奏指令至少包括目标乐曲的乐曲名称，并将该乐曲名称提供给第一获取单元402。

本发明实施例中，接收单元401接收的演奏指令可以是用户通过与该机器人预先绑定的移动终端发送的，该演奏指令的形式可以是文本也可以是语音，本发明实施例不做限定。举例来说，用户可以是家长，与该机器人预先绑定的移动终端可以是家长的手机，那么，当家长外出而孩子独自在家时，家长希望机器人能够为孩子演奏钢琴曲，以此陶冶孩子的情操、培养孩子对音乐的兴趣，所以家长可以通过手机向机器人发送语音信息，该语音信息包括家长希望机器人演奏的目标乐曲的乐曲名称。机器人接收到家长发送的语音信息之后，对该语音信息进行识别，并根据识别出的目标乐曲的乐曲名称为孩子演奏该乐曲名称对应的钢琴曲。可见，本发明实施例，可以实现家长外出时远程控制机器人为孩子演奏乐曲，为孩子带来真实的钢琴演奏欣赏，提高了用户体验。

第一获取单元402，用于获取与上述乐曲名称相匹配的原始MIDI文件。

作为一种可选的实施方式，第一获取单元402在获取与上述乐曲名称相匹配的原始MIDI文件之前，还可以通过处理上述乐曲名称相匹配的音频文件，生成与上述乐曲名称相匹配的原始MIDI文件，具体来说，机器人可以对与上述乐曲名称相匹配的音频文件进行处理，得到该音频文件的时间属性描述信息，该时间属性描述信息是音频文件中每一个音符对应的时间属性；然后按照预设时间长度对该音频文件进行分帧处理，得到该音频文件中各个音频帧的频谱重心，并根据该频谱重心计算音频文件的频谱均值，以及对该频谱均值进行归一化处理，得到MIDI文件参数，该MIDI文件参数可用于描述该音频文件的音准信息；机器人可以根据该音频文件中每一个音符对应的时间属性以及该音频文件的音准信息生成与上述乐曲名称相匹配的原始MIDI文件。可见，本发明实施例，可以通过音频文件计算并生成与该音频文件对应的MIDI文件，提高了音频处理的效率，进而也提升了音频处理的智能性。

解析单元403，用于解析上述第一获取单元402获取到的原始MIDI文件，得到上述目标乐曲的演奏控制参数，并触发识别单元404启动。

本发明实施例中，解析单元403解析原始MIDI文件，可以得到MIDI文件参数，其中，该MIDI文件参数可以包括上述目标乐曲的所有音符以及所有音符中每个音符与目标乐曲起始处的间隔时间(偏移量)、音高(频率)、时值(持续时长)以及力度等音符数据，该MIDI文件参数即为上述目标乐曲的演奏控制参数。

本发明实施例中，可选的，解析单元403解析原始MIDI文件，还可以得到上述目标乐曲的整体音色。机器人可以依照用户选择的任意音色来调整该目标乐曲的整体音色，然后对调整后的整体音色进行对应参数的适应化处理。

识别单元404，用于控制机器人的内置摄像头拍摄图像，并根据该图像识别机器人当前所处的环境，并触发启动调整单元405。

调整单元405，用于将上述解析单元403得到的演奏控制参数调整为与该机器人当前所处的环境相匹配的目标演奏控制参数。

演奏单元406，用于根据上述调整单元405的目标演奏控制参数控制该机器人演奏目标乐曲。

本发明实施例中，演奏单元406根据目标演奏控制参数控制该机器人演奏上述目标乐曲，具体来说，演奏单元406演奏目标乐曲时，可以将目标演奏控制参数转换成脉冲输出信号，即读入目标演奏控制参数中的音符数据，该音符数据即目标乐曲中每个音符与目标乐曲起始处的间隔时间(偏移量)、音高(频率)、时值(持续时长)以及力度等，并根据该音符数据形成每个音符对应的脉冲信号，并将不同的音符的脉冲信号对应不同的信号输出通道，而信号输出通道与机器人的电机建立关联关系。举例来说，在机器人通过钢琴演奏乐曲时，演奏单元406可以按照每个音符的时间顺序输出脉冲信号，可以驱动电机启动，即机器人开始演奏目标乐曲。

可见，通过图4所描述的机器人，能够根据周围环境的不同智能的调整演奏控制参数，以使机器人在不同的演奏场合下采用不同的演奏方式演奏乐曲，从而提高了聆听者的用户体验；

实施例五

请参阅图5，图5是本发明实施例提供的另一种机器人的结构示意图，其中，图5所示的机器人是由图4所示的机器人进一步进行优化得到的。与图4所示的机器人相比较，图5所示的机器人还可以包括：

第一检测单元407，用于在上述演奏单元406根据目标演奏控制参数控制机器人演奏目标乐曲之后，检测预设时间段内是否接收到新的演奏指令，该预设时间段的起始时刻是目标乐曲演奏结束的时刻。

作为一种可选的实施方式，第一检测单元407预设有用户信息库，该用户信息库中预存有至少一个合法用户的合法人脸图像和/或合法声纹资料，以及每个合法用户的喜爱乐曲类型资料，其中，每个合法用户的合法人脸图像和/或合法声纹资料与喜爱乐曲类型资料相绑定。举例来说，机器人当前所处的环境是家里，当机器人检测预设时间段内未接收到新的演奏指令时，第一检测单元407可以启动人脸识别功能和/或声纹识别功能，获取用户的照片和/或声纹，并将该用户的照片和/或声纹与用户信息库中所有合法用户的合法人脸图像和/或合法声纹资料进行匹配，如果该用户的照片和/或声纹与用户信息库中任意一位合法用户的合法人脸图像和/或合法声纹资料相匹配，那么，第一检测单元407可以调取用户信息库中该匹配成功的合法用户的喜爱乐曲类型资料，并触发第二获取单元408启动，由第二获取单元408分析该喜爱乐曲类型资料，向用户推送与该喜爱乐曲类型资料相匹配的乐曲。特别的，当机器人启动人脸识别功能和/或声纹识别功能识别出的、并且与用户信息库中合法用户匹配成功的用户数量大于一位时，机器人可以通过计算这些用户的喜爱乐曲类型资料的重合度来选择推送乐曲。可见，本发明实施例，可以在通过人脸和/或声纹识别出合法用户之后，根据合法用户预存的乐曲风格资料，为用户提供个性化的乐曲推荐，提高了用户的体验度。

第二获取单元408，用于在上述第一检测单元407检测出预设时间段内没有接收到新的演奏指令时，获取与目标乐曲相似度高于预设阈值的至少一首待演奏乐曲，并触发输出单元409启动。

输出单元409，用于通过语音输出至少一首待演奏乐曲的乐曲名称，以使用户根据至少一首待演奏乐曲的乐曲名称选择目标待演奏乐曲。

可见，通过图5所描述的机器人，能够根据周围环境的不同智能的调整演奏控制参数，以使机器人在不同的演奏场合下采用不同的演奏方式演奏乐曲，从而提高了聆听者的用户体验；

实施例六

请参阅图6，图6是本发明实施例公开的又一种机器人的结构示意图。其中，图6所示的机器人是由图5所示的机器人进行优化得到的。与图5所示的机器人相比较，图6所示的机器人还包括：

构建单元410，用于构建卷积神经网络模型，该卷积神经网络模型用于识别机器人所处的环境，并触发形成单元411启动。

本发明实施例中，构建单元410构建卷积神经网络模型，具体来说，机器人可以设计由输入层、三个隐层和输出层这五层神经网络构成的卷积神经网络模型，并且每一层神经网络对应不同的权重参数值。举例来说，机器人在通过该卷积神经网络模型识别图像的内容时，卷积神经网络的第一层可以寻找该图像中的边缘；第二层可以寻找第一层找到的边缘所组成的图形，例如长方形或者圆形；第三层可以寻找特定特征，例如图像中具有标志性特征的物品；每一层在寻找到该层的目标之后将图像传递至下一层，直至最后一层，而最终的输出由神经网络中所有的权重参数值共同决定。

形成单元411，用于获取海量样本图像，并根据海量样本图像形成训练样本集。

训练单元412，用于根据上述形成单元411形成的训练样本集对上述构建单元410构建的卷积神经网络模型进行训练，得到训练好的卷积神经网络模型。

上述识别单元404，具体用于使用上述训练单元412训练好的卷积神经网络模型对图像进行识别，以识别出该机器人当前所处的环境。

本发明实施例中，识别单元404使用上述训练单元412训练好的卷积神经网络模型对该图像进行识别的具体方式可以为：控制该机器人的内置摄像头拍摄图像，优选的，该内置摄像头可以拍摄机器人周围环境的360°的全景图像，然后对该全景图像进行预处理，即对该全景图像进行灰度化处理，处理后得到灰度图像，然后将该灰度图像输入训练好的卷积神经网络模型，使该灰度图像依次经过输入层、三个隐层和输出层这五层神经网络的识别，由该卷积神经网络模型识别之后输出识别结果。举例来说，机器人当前所处的环境是演奏厅，那么，识别单元404可以通过内置摄像头拍摄周围环境的全景图像，并通过识别单元404使用训练好的卷积神经网络模型对该全景图像进行识别，该卷积神经网络模型通过分层依次识别出该环境是演奏厅，那么识别单元404输出识别结果即为该机器人当前所处的环境是演奏厅。可见，本发明实施例，可以通过训练好的卷积神经网络模型对图像进行识别，以识别出机器人当前所处的环境，相比起传统图像识别方式对图像的复杂的特征提取过程，简化了图像识别过程，从而也提高了识别环境的效率和准确性。

作为一种可选的实施方式，图6所示的机器人还可以包括：

记录单元413，用于在上述演奏单元406演奏目标乐曲的过程中，控制拾音器记录机器人演奏目标乐曲时的音频信号，并将该音频信号提供给处理单元414。

处理单元414，用于从上述音频信号中确定出噪声信号，获取该噪声信号的特征参数，并根据特征参数对上述音频信号进行降噪处理，得到音频文件，并触发第二检测单元415启动。

本发明实施例中，在获取记录单元413记录的音频信号之后，处理单元414对该音频信号进行信号预处理，具体来说，就是处理单元414可以对该音频信号进行频谱分析，以确定出该音频信号中的噪声信号，并获取噪声信号的特征参数，根据该特征参数对该音频信号进行降噪处理，得到音频文件。可选的，处理单元 414在确定出音频信号中的噪声信号之后，也可以根据噪声信号相位，对噪声信号进行反相抑制处理，得到音频文件。可见，本发明实施例，可以从音频信号中分离出噪声信号，实现对音频信号的降噪，从而获得音质较为纯净的音频文件。

第二检测单元415，用于检测是否存在与该机器人建立通信连接的移动终端。

发送单元416，用于在上述第二检测单元415检测出存在与机器人建立通信连接的移动终端时，向移动终端发送分享信息，该分享信息包括上述处理单元414得到的音频文件。

上述第一获取单元402，还用于获取当前所处的环境对应的位置坐标。

可选的，图6所示的机器人还包括：

关联单元417，用于将上述处理单元414得到的音频文件与上述第一获取单元402获取到的位置坐标进行关联，得到该音频文件与该位置坐标的关联关系，并将该关联关系提供给分享单元418。

分享单元418，用于将关联关系分享至互联网终端，以使互联网终端在检测到该位置坐标处存在其它用户的移动终端时，向其它用户的移动终端推荐上述音频文件。

可见，通过图6所描述的机器人，能够根据周围环境的不同智能的调整演奏控制参数，以使机器人在不同的演奏场合下采用不同的演奏方式演奏乐曲，从而提高了聆听者的用户体验；

请参阅图7，图7是本发明实施例公开的另一种机器人的结构示意图。如图7所示，该机器人可以包括：

存储有可执行程序代码的存储器701；

与存储器701耦合的处理器702；

其中，处理器702调用存储器701中存储的可执行程序代码，执行图1～图3任意一种机器人的演奏控制方法。

本发明实施例公开一种计算机可读存储介质，其存储计算机程序，其中，该计算机程序使得计算机执行图1～图3任意一种机器人的演奏控制方法。

应理解，说明书通篇中提到的“一个实施例”或“一实施例”意味着与实施例有关的特定特征、结构或特性包括在本发明的至少一个实施例中。因此，在整个说明书各处出现的“在一个实施例中”或“在一实施例中”未必一定指相同的实施例。此外，这些特定特征、结构或特性可以以任意适合的方式结合在一个或多个实施例中。本领域技术人员也应该知悉，说明书中所描述的实施例均属于可选实施例，所涉及的动作和模块并不一定是本发明所必须的。

在本发明的各种实施例中，应理解，上述各过程的序号的大小并不意味着执行顺序的必然先后，各过程的执行顺序应以其功能和内在逻辑确定，而不应对本发明实施例的实施过程构成任何限定。

在本发明的各种实施例中，应理解，本文中术语“和/或”，仅仅是一种描述关联对象的关联关系，表示可以存在三种关系，例如A和/或B，可以表示：单独存在A，同时存在A和B，单独存在B这三种情况。另外，本文中字符“/”，一般表示前后关联对象是一种“或”的关系。

在本发明所提供的实施例中，应理解，“与A相应的B”表示B与A相关联，根据A可以确定B。但还应理解，根据A确定B并不意味着仅仅根据A确定B，还可以根据A和/或其他信息确定B。

上述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可位于一个地方，或者也可以分布到多个网络单元上。可根据实际的需要选择其中的部分或全部单元来实现本实施例方案的目的。

另外，在本发明各实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

上述集成的单元若以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可获取的存储器中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或者部分，可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储器中，包括若干请求用以使得一台计算机设备(可以为个人计算机、服务器或者网络设备等，具体可以是计算机设备中的处理器)执行本发明的各个实施例上述方法的部分或全部步骤。

本领域普通技术人员可以理解上述实施例的各种方法中的全部或部分步骤是可以通过程序来指令相关的硬件来完成，该程序可以存储于一计算机可读存储介质中，存储介质包括只读存储器(Read-Only Memory，ROM)、随机存储器(Random Access Memory，RAM)、可编程只读存储器(Programmable Read-only Memory，PROM)、可擦除可编程只读存储器(Erasable Programmable Read Only Memory，EPROM)、一次可编程只读存储器(One-time Programmable Read-Only Memory，OTPROM)、电子抹除式可复写只读存储器(Electrically-Erasable Programmable Read-Only Memory，EEPROM)、只读光盘(Compact Disc Read-Only Memory，CD-ROM)或其他光盘存储器、磁盘存储器、磁带存储器、或者能够用于携带或存储数据的计算机可读的任何其他介质。

以上对本发明实施例公开的一种机器人的演奏控制方法及机器人进行了详细介绍，本文中应用了具体个例对本发明的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本发明的方法及其核心思想；同时，对于本领域的一般技术人员，依据本发明的思想，在具体实施方式及应用范围上均会有改变之处，综上所述，本说明书内容不应理解为对本发明的限制。

Claims

一种机器人的演奏控制方法，其特征在于，所述方法包括：

所述机器人接收演奏指令，所述演奏指令至少包括目标乐曲的乐曲名称；

所述机器人获取与所述乐曲名称相匹配的原始MIDI文件；

所述机器人解析所述原始MIDI文件，得到所述目标乐曲的演奏控制参数；

所述机器人控制所述机器人的内置摄像头拍摄图像，并根据所述图像识别所述机器人当前所处的环境；

所述机器人将所述演奏控制参数调整为与所述机器人当前所处的环境相匹配的目标演奏控制参数，并根据所述目标演奏控制参数控制所述机器人演奏所述目标乐曲。
根据权利要求1所述的方法，其特征在于，所述机器人根据所述目标演奏控制参数控制所述机器人演奏所述目标乐曲之后，所述方法还包括：

所述机器人检测预设时间段内是否接收到新的演奏指令，所述预设时间段的起始时刻是所述目标乐曲演奏结束的时刻；

如果否，则所述机器人获取与所述目标乐曲相似度高于预设阈值的至少一首待演奏乐曲；

所述机器人通过语音输出至少一首所述待演奏乐曲的乐曲名称，以使用户根据至少一首所述待演奏乐曲的乐曲名称选择目标待演奏乐曲。
根据权利要求1或2所述的方法，其特征在于，所述方法还包括：

所述机器人构建卷积神经网络模型，所述卷积神经网络模型用于识别所述机器人所处的环境；

所述机器人获取海量样本图像，并根据所述海量样本图像形成训练样本集；

所述机器人根据所述训练样本集对所述卷积神经网络模型进行训练，得到训练好的卷积神经网络模型；

所述机器人根据所述图像识别所述机器人当前所处的环境，包括：

所述机器人使用所述训练好的卷积神经网络模型对所述图像进行识别，以识别出所述机器人当前所处的环境。
根据权利要求1-3任一项所述的方法，其特征在于，所述方法还包括：

在演奏所述目标乐曲的过程中，所述机器人控制拾音器记录所述机器人演奏所述目标乐曲时的音频信号；

所述机器人从所述音频信号中确定出噪声信号，获取所述噪声信号的特征参数，并根据所述特征参数对所述音频信号进行降噪处理，得到音频文件；

所述机器人检测是否存在与所述机器人建立通信连接的移动终端；

如果存在，则所述机器人向所述移动终端发送分享信息，所述分享信息包括所述音频文件。
根据权利要求4所述的方法，其特征在于，所述方法还包括：

所述机器人获取当前所处的环境对应的位置坐标；

所述机器人将所述音频文件与所述位置坐标进行关联，得到所述音频文件与所述位置坐标的关联关系；

所述机器人将所述关联关系分享至互联网终端，以使所述互联网终端在检测到所述位置坐标处存在其它用户的移动终端时，向所述其它用户的移动终端推荐所述音频文件。
一种机器人，其特征在于，包括：

接收单元，用于接收演奏指令，所述演奏指令至少包括目标乐曲的乐曲名称；

第一获取单元，用于获取与所述乐曲名称相匹配的原始MIDI文件；

解析单元，用于解析所述原始MIDI文件，得到所述目标乐曲的演奏控制参数；

识别单元，用于控制所述机器人的内置摄像头拍摄图像，并根据所述图像识别所述机器人当前所处的环境；

调整单元，用于将所述演奏控制参数调整为与所述机器人当前所处的环境相匹配的目标演奏控制参数；

演奏单元，用于根据所述目标演奏控制参数控制所述机器人演奏所述目标乐曲。
根据权利要求6所述的机器人，其特征在于，所述机器人还包括：

第一检测单元，用于在所述演奏单元根据所述目标演奏控制参数控制所述机器人演奏所述目标乐曲之后，检测预设时间段内是否接收到新的演奏指令，所述预设时间段的起始时刻是所述目标乐曲演奏结束的时刻；

第二获取单元，用于在所述第一检测单元检测出所述预设时间段内没有接收到所述新的演奏指令时，获取与所述目标乐曲相似度高于预设阈值的至少一首待演奏乐曲；

输出单元，用于通过语音输出至少一首所述待演奏乐曲的乐曲名称，以使用户根据至少一首所述待演奏乐曲的乐曲名称选择目标待演奏乐曲。
根据权利要求6或7所述的机器人，其特征在于，所述机器人还包括：

构建单元，用于构建卷积神经网络模型，所述卷积神经网络模型用于识别所述机器人所处的环境；

形成单元，用于获取海量样本图像，并根据所述海量样本图像形成训练样本集；

训练单元，用于根据所述训练样本集对所述卷积神经网络模型进行训练，得到训练好的卷积神经网络模型；

所述识别单元，具体用于使用所述训练单元得到的所述训练好的卷积神经网络模型对所述图像进行识别，以识别出所述机器人当前所处的环境。
根据权利要求6-8任一项所述的机器人，其特征在于，所述机器人还包括：

记录单元，用于在所述演奏单元演奏所述目标乐曲的过程中，控制拾音器记录所述机器人演奏所述目标乐曲时的音频信号；

处理单元，用于从所述音频信号中确定出噪声信号，获取所述噪声信号的特征参数，并根据所述特征参数对所述音频信号进行降噪处理，得到音频文件；

第二检测单元，用于检测是否存在与所述机器人建立通信连接的移动终端；

发送单元，用于在所述第二检测单元检测出存在与所述机器人建立通信连接的移动终端时，向所述移动终端发送分享信息，所述分享信息包括所述音频文件。
根据权利要求9所述的机器人，其特征在于，所述第一获取单元，还用于获取当前所处的环境对应的位置坐标；

所述机器人还包括：

关联单元，用于将所述音频文件与所述位置坐标进行关联，得到所述音频文件与所述位置坐标的关联关系；

分享单元，用于将所述关联关系分享至互联网终端，以使所述互联网终端在检测到所述位置坐标处存在其它用户的移动终端时，向所述其它用户的移动终端推荐所述音频文件。