WO2015169124A1

WO2015169124A1 - 终端混音系统和播放方法

Info

Publication number: WO2015169124A1
Application number: PCT/CN2015/074243
Authority: WO
Inventors: 黄伟明
Original assignee: 制约智能机械人(Sir)(香港)有限公司
Priority date: 2014-05-08
Filing date: 2015-03-13
Publication date: 2015-11-12
Also published as: DK3142383T3; JP2017520139A; HK1195445A2; EP3142383A1; CN106465008A; CN106465008B; EP3142383B1; JP6285574B2; US20170055100A1; EP3142383A4; US9986364B2

Abstract

提供了一种终端混音系统和播放方法，该终端混音的播放方法包括以下步骤：S0）提供与初始环境中多个发声体对应的多个麦克风；还提供类型和尺寸与初始环境对应的终端环境以及多个拟声设备；提供运动追踪设备；S1）多个麦克风分别同步地将对应的多个发声体的声音录制为音轨；运动追踪设备同步地将多个发声体的运动状态记录为运动状态文件；S2）多个拟声设备分别同步地以运动状态文件所记录的各自对应的发声体的运动状态进行运动，并分别同步地播放对应麦克风录制的音轨，从而播放出终端混音。可以再现发声体现场播放的声音，具有极高的音质效果。

Description

终端混音系统和播放方法

技术领域

本发明涉及一种用于捕捉、传输、储存和重现声音的终端混音系统，本发明还涉及一种终端混音播放方法。

背景技术

现有的录制音乐会的录音无法实现现场音乐会的立体声效果，聆听录音的聆听人也无法身临其境地享受现场音乐会的感觉。同时，录制音乐会所采用的麦克风也无法将音乐会中所有发声体的声音细节完全录制下来，音乐会的录音也并不能将现场音乐会的单一或众多声音的全部细节展现出来。

发明内容

本发明针对现有录制音乐会的录音无法实现现场音乐会的立体声效果，不能将现场音乐会的声音的全部细节尤其是发声源位置及运动轨迹在多声源记录和重放过程中呈现的细节充分展现出来的问题，提供了可以克服上述不足的一种终端混音系统及终端混音的播放方法。

本发明就其技术问题提供的技术方案如下：

本发明提供了一种终端混音的播放方法，该终端混音的播放方法包括以下步骤：

S0)、提供与初始环境中多个发声体对应的多个麦克风；还提供类型和尺寸与初始环境对应的终端环境以及与所述多个麦克风一一对应的、并与对应的麦克风通讯连接的多个拟声设备；每个拟声设备设置在终端环境中与初始环境中与该拟声设备对应的发声体所处位置对应的终端位置上；提供与多个拟声设备通讯连接的运动追踪设备；

S1)、多个麦克风分别同步地将对应的多个发声体的声音录制为音轨；运动追踪设备同步地将多个发声体的运动状态记录为运动状态文件；

S2)、多个拟声设备分别同步地以运动状态文件所记录的各自对应的发声体的运动状态进行运动，并分别同步地播放对应麦克风录制的音轨，从而播放出终端混音。

本发明上述的终端混音的播放方法中，麦克风与和该麦克风对应的发声体相对设置，且所述多个麦克风与对应的发声体之间的距离都相等。

本发明上述的终端混音的播放方法中，拟声设备包括扬声器。

本发明上述的终端混音的播放方法中，部分或全部拟声设备为扬声器机器人；该扬声器机器人包括设置在该扬声器机器人底部的机器人轮子、设置在该扬声器机器人顶部的机器人手臂；在该机器人手臂的手部上设置有所述扬声器；

所述步骤S2还包括：扬声器机器人以运动状态文件所记录的对应的发声体的运动轨迹进行运动。

本发明上述的终端混音的播放方法中，所有的拟声设备均为扬声器机器人；该扬声器机器人包括设置在该扬声器机器人底部的机器人轮子、设置在该扬声器机器人顶部的机器人手臂；在该机器人手臂的手部上设置有所述扬声器；

所述步骤S0还包括提供机器人家具；机器人家具包括可运动地、用于承载阅听人的机器人座椅和可运动地、托有用于播放视频的显示屏或投影屏幕的机器人站立架；

所述步骤S2还包括：同步地移动处于终端环境中的机器人座椅、机器人站立架以及扬声器机器人，并保持处于终端环境中的机器人座椅、机器人站立架以及扬声器机器人之间的相对位置。

本发明上述的终端混音的播放方法中，扬声器可滑动地设置于由电机控制的导轨上；

所述步骤S2还包括：扬声器以运动状态文件所记录的对应的发声体的运动轨迹在导轨上进行运动。

本发明上述的终端混音的播放方法中，所有扬声器通过WiFi连接在一起。

本发明上述的终端混音的播放方法中，所述步骤S1还包括：提供与所述多个麦克风中的部分或全部麦克风通讯连接，并与所述多个麦克风中的部分或全部麦克风对应的拟声装置通讯连接的声音修改设备；该声音修改设备修改所述多个麦克风中的部分或全部麦克风各自录制的音轨的声音质量或给所述多个麦克风中的部分或全部麦克风各自录制的音轨增加声音效果；

所述步骤S2还包括：与所述多个麦克风中的部分或全部麦克风对应的拟声装置同步地播放该声音修改设备修改过的对应的音轨。

本发明上述的终端混音的播放方法中，所述多个麦克风所录制的音轨以EMX文件格式保存。

本发明还提供了一种终端混音系统，该终端混音系统包括与处于初始环境中的多个发声体对应的、用于同步地将对应发声体声音录制为音轨的多个麦克风，用于同步地将多个发声体的运动状态记录为运动状态文件的运动追踪设备，类型和尺寸与初始环境对应的终端环境以及与所述多个麦克风一一对应的、与对应的麦克风通讯连接、并与运动追踪设备通讯连接、以同步地以运动状态文件所记录的对应的发声体的运动状态进行运动、并同步地播放该对应的麦克风录制的音轨，从而播放出终端混音的多个拟声设备；每个拟声设备设置在终端环境中与初始环境中与该拟声设备对应的发声体所处位置对应的终端位置上。

本发明终端混音系统和播放方法通过多个麦克风分别将多个发声体的声音录制为音轨，并通过多个与发声体位置对应的扬声器播放对应的音轨，可以重新再现发声体现场播放的声音，具有极高的音质效果。

附图说明

下面将结合附图及实施例对本发明作进一步说明，附图中：

图1为本发明终端混音系统实施例中的手掌扬声器的示意图；

图2为本发明实施例的集成终端混音主要产品的示意图；

图3为本发明实施例的第一种形式的集成终端混音产品的示意图；

图4为图3所示的第一种形式的集成终端混音产品的天花支架的示意图；

图5为本发明实施例的第二种形式的集成终端混音产品的示意图；

图6为本发明实施例的第二种形式的集成终端混音产品的另一示意图；

图7为本发明实施例的第三种形式的集成终端混音产品的示意图。

具体实施方式

定义：自然声音

上帝创造万物，很多物体或生物可以发出声音，每种声音在空间中都具有独特的3D位置。听觉位置(AuditionPosition)是一种用于设置接收装置(如人类的耳朵)的逻辑3D坐标。

阅听人具有一个或多个接收装置，还具有几种神经网络结构。被接收装置捕捉到的声音信号会被传输给神经网络结构。神经网络结构通常是生物的大脑，可形成认知和记忆。

假定存在一个阅听人，附近多个发声体的声音直接传输给该阅听人的接收装置，并同时使该阅听人具有认知和记忆的过程，被定义为第一顺序混音过程(FirstOrderMixingProcess)。听觉位置、声音的反射以及其他因素会在第一顺序混音过程发生的同时给最终成音(ResultingSound)添加额外的特征的过程，被定义为第二顺序混音过程(SecondOrderMixingProcess)。接收装置前的最终成音会被捕捉，并被传输给大脑，从而创建认知和记忆。

上述认知和记忆的形成过程可以概括为：

发声体发出的声波→混音过程(第一顺序混音过程和第二顺序混音过程)→接收装置前的最终成音→阅听人大脑中所形成的认知和记忆

定义：麦克风

麦克风是一种接收装置，并被设置在听觉位置处；这样，声音信号可被麦克风捕捉，并被转换成电子信号，然后被传送给计算机。

上述声音信号被麦克风捕捉，并被传送给计算机的过程可以概括为：

发声体发出的声波→混音过程(第一顺序混音过程和第二顺序混音过程)→接收装置前的最终成音→电子信号

根据上述自然声音和麦克风的原理，本发明提供了一种终端混音系统，该终端混音系统包括与处于初始环境中的多个发声体对应的、用于同步地将对应发声体声音录制为音轨的多个麦克风，用于同步地将多个发声体的运动状态记录为运动状态文件的运动追踪设备，类型和尺寸与初始环境对应的终端环境以及与所述多个麦克风一一对应的、与对应的麦克风通讯连接、并与运动追踪设备通讯连接、以同步地以运动状态文件所记录的对应的发声体的运动状态进行运动、并同步地播放该对应的麦克风录制的音轨，从而播放出终端混音的多个拟声设备；每个拟声设备设置在终端环境中与初始环境中与该拟声设备对应的发声体所处位置对应的终端位置上。

什么是终端混音(EndpointMixing,EM)

麦克风有两个主要用途：一个是用于录制单个发声体的声音；另一个是用于录制特定环境的声音。

对于每个音轨(AudioTrack)来说，终端混音用于录制单个发声体的声音，然后将电子信号转换成数字音频，并将该数字音频传输给远程环境，以便用于重放；或者将该数字音频保存在计算机中，以便在之后重放。

多个数字音轨能在一定环境中重放；原则上为了实现高保真度的声音重放，每个音轨只在一个扬声器中重放。

然而，现实中也存在以下的一些变形情况，如：

1、使用两个或两个以上的扬声器来播放一个音轨；

2、如果录制特定环境的声音或录制一个发声体的声音是立体声，或后期录制产品创建了立体声或环绕效果时，则需要使用两个或两个以上的扬声器来播放。当存在两个扬声器(即逻辑左扬声器和逻辑右扬声器)时，立体声音频数据能被自然地映像到逻辑左扬声器和逻辑右扬声器上；而当存在多于两个扬声器，且立体声音频数据可被分为左侧音频数据(LeftSideAudioData)和右侧音频数据(RightSideAudioData)时，则需要作出预设来决定哪个扬声器用来重放左侧音频数据，哪个扬声器用来重放右侧音频数据。重放环绕音数据的扬声器的安排由环绕音技术决定。

立体声录音的运用和用于重现发声体的多于一个扬声器能在很大程度上放大发声体的声像。在EM系统中，左声道被看作一个音轨，右声道被看作另一个音轨，在音频数据的传输和储存过程中，左声道和右声道保持独立。

终端指的是用于重放音轨的环境。

在终端处，EM引入了包括使用现有扬声器技术的新特点。

首先，我们介绍一下扬声器发展的频谱的两种不同尺度。

1、尺度一：扬声器在一定程度上从高度概括变化到高度专化；

2、尺度二：扬声器采用模拟特定发声体的方式从高度概括变化到高度专化。

我们现在使用的大多数扬声器都是通用扬声器。其中，高级高保真系统(Hi-endHiFiSystem)是高度概括的，能大量级高质量的播放一个非常宽的音域。另一方面，扬声器上存在大量的扬声器单元，来覆盖不同范围的音域。

然而，声音重放设备(或扬声器)模仿特定发声体，是EM介绍的一种新方法。

模仿发声体

我们不知道岩石自身是否能够发声，但我们知道自然中的多数客体能够发出声音，如鸟、叶子、风、水、雷等。我们人类自身也是发声体，并能创造乐器，并使用乐器来发出独特的声音。

贯穿人类历史，为了便于管理，发声体被进行分类。我们对每个类别的特征进行识别以命名，如铜管乐器、萨克斯管、中音萨克斯管、女歌手惠特尼•休斯顿、鸟、夜莺等。

本申请是为了制造一个发声设备，来模仿一类特定的发声体或单一的发声体。例如，本申请建议技术开发方向朝向模拟以下发声体：

鸟、夜莺、叶子、蜜蜂、鲸、瀑布、铜管乐器、弦乐器、钢琴、小提琴、电吉他、女声等。

进一步缩小技术开发方向，可以模拟以下发声体：

柳泽990型中音萨克斯管、个人声音，如惠特尼•休斯顿等。

本申请揭示了EM能实现的全部潜能，并指明其技术发展方向。

然而，本申请的范围也确定了EM系统和扬声器的分界。

录制单个发声体的声音

在录制以前或录制期间，捕捉以下实际(或虚拟)演出台的信息：

GPS位置；海拔高度；演出台朝向的罗盘方向和角度(该演出台的朝向是真实(或虚拟)阅听人朝向的反方向)。

在为单一目标发声体进行EM录音期间，消除之前提到的第二混音过程是关键点；听觉位置、声音的反射以及其他因素会使录制的声音完全区别于目标发生客体的声音。换句话说，为单一目标发声体进行EM录音是聚焦于以高分辨率地将初始声音所有细节录制下来。

现在的工作室的录音或者在使用个体舞台麦克风或电子乐器的线性信号的直播演出期间的多音轨录音能满足上述关键点。

除了声音之外，录制过程也将以下关于在整个录音期间发声体以合理的频率与音频捕捉活动同步的信息进行数据化，该数据包括但不限于：

3D空间中相对于固定参考点的听觉位置；每个发声体的朝向。

本实施例中，麦克风与该麦克风对应的发声体相对设置，且所述多个麦克风与对应的发声体之间的距离都相等。

可以理解，麦克风与该麦克风对应的发声体并不限于相对设置，还可以是麦克风的朝向与该麦克风对应的发声体朝向构成一定角度。

定义：实时vs时移

有以下两种主要方式将录制的音频数据传送给终端：

1、实时

2、时移

对于时移来说，有一些技术都运用了时移的概念，包括使用计算机文件、存储和转送和按需播放等。本申请中，我们在使用时移时，使用了所有这些技术。

四种不同形式的终端混音

第一种形式的终端混音：用于均处于固定位置的多个同步发声体的终端混音

假定在录音时间中，所有发声体在同一时间发出声音，每个发声体在3D空间中都具有固定位置；例如，在海滨举行的音乐会或在礼堂举行的管弦乐演出中，每个音乐人都处于固定位置上。这里，终端混音的目的是建立一个能够模拟初始环境和所有与该初始环境相关的声音的终端；具体地，终端混音重点放在在终端处精确地重放所有歌手和乐器的声音。重放过程可以是实时的，也可以是时移的。

第一种形式的终端有以下特征：

1、终端是一种类型和尺寸与初始环境对应的终端环境；

2、终端中包括有用于模拟初始发声体的拟声设备；例如，终端包括高级高保真系统和高级扬声器，或终端包括高保真系统(HiFiSystem)和用于适用于一定音域范围的专业扬声器；

3、每个拟声设备设置在终端环境中与初始环境中发声体所处固定位置对应的终端位置上。

例如，在海滨举行的现场音乐会中，发声体为乐队，该乐队包括多个吉他，如低音吉他、第一电吉他、第二电吉他、木吉他等。该乐队还包括键盘乐器、鼓和歌手。

用于模拟在海滨举行的现场音乐会的终端应该具有以下特征：

1、终端环境和初始环境是同一海滨，拟声设备相对于大海的方向与乐队相对于大海的方向相同；

2、拟声设备包括吉他音箱、立体声扬声器、鼓声模拟扬声器以及歌声模拟扬声器；

3、在终端环境中，通过多个吉他音箱一一对应地模拟多个吉他；

4、由于仿真键盘乐器的声音通常混杂有杂声，所以在终端环境中，通过立体声扬声器来仿真键盘乐器；

5、在终端环境中，通过鼓声模拟扬声器来模拟鼓；

6、在终端环境中，通过歌声模拟扬声器来模拟歌声；

7、每个拟声设备设置在与终端环境(即初始环境)中发声体所处固定位置相同的终端位置上。

另一实施例中，在礼堂举行的管弦乐演出中，发声体为多个乐器；

用于模拟在礼堂举行的管弦乐演出的终端应该具有以下特征：

1、终端环境是类型和尺寸与初始环境对应的礼堂；

2、拟声设备包括多个专业扬声器(或高级高保真系统)，该多个专业扬声器(或高级高保真系统)分别一一对应地模拟多个乐器；

3、每个专业扬声器(或高级高保真系统)设置在终端环境中与初始环境中多个乐器所处固定位置对应的终端位置上。

通过该第一种形式的终端混音，演出可用于在与初始环境不同的终端环境进行同步播出，或用于在相同环境中且在实时演出之后的任意时刻重放。

第二种形式的终端混音：用于部分或全部处于运动中的同步发声体的终端混音

基于上述第一种形式的终端混音，第二种形式的终端混音在现有的扬声器上使用了机器人技术，或者将现有扬声器可滑动地安装在由电机控制的导轨上。这样，扬声器可以运动状态文件所记录的对应的发声体的运动轨迹在导轨上进行运动。

例如，拟声设备为一种扬声器机器人；该扬声器机器人包括设置在该扬声器机器人底部的机器人轮子、设置在该扬声器机器人顶部的机器人手臂；在该机器人手臂的手部上设置有扬声器。在音频播放期间，该扬声器机器人向特定的3D位置移动，并根据存储有音轨的信息来调整扬声器的朝向。

这里，运动状态文件可以是视频文件，也可以是记载发声体在初始环境中的坐标。这里，运动状态文件由与多个拟声设备通讯连接的运动追踪设备记录下来；

采用导轨上运动的扬声器是一种低成本重放录音的方式，但重放录音的效果并不令人满意。

在重放过程中，这些扬声器机器人需要进行配合，以避免发生相互碰撞。而在考虑如何避免扬声器机器人发生碰撞时，每个扬声器机器人应当减小其对录音重放的整体效果的影响。另一种思路是使扬声器机器人之间发生啮合，以使扬声器机器人发生碰撞对录音重放的效果造成的影响减弱到最小。

在扬声器机器人的另一个实际运用中，扬声器机器人可以像歌手一样在舞台上运动，或者像歌手一样向粉丝挥手。

在扬声器机器人的另一个实际运用中，因为在音乐人表演时，音乐人通常会跳舞，或者轻微地摇动身体，扬声器机器人在录音过程中会跟着摇动，而在重放录音时，扬声器机器人也会做出相同的摇动。这种扬声器机器人也被称为「舞蹈扬声器机器人」(DancingRoboticSpeaker,DRS)。

扬声器机器人可以具有任何外形，扬声器机器人的外形可以是常用扬声器造型，也可以是动物造型，还可以是通用类人机器人造型等等。任何扬声器造型的组合也可以同时运用于该扬声器机器人的外形设计上。

第三种形式的终端混音：用于不同步发声体的终端混音

假定部分或全部发声体在录音过程的不同时间进行表演，现有的音乐产品工场将音轨转换成EMX文件；该音乐产品工场还设置虚构位置信息，并将该虚构位置信息发送给终端，音频就可以在终端中重放。只有时移传输才可能发生在这种形式的终端混音中。这里，EMX是一种仅包含终端混音音频数据的文件格式。

第三种形式的终端有以下特征：

1、终端是适于音频风格的终端环境；

2、终端包括用于模拟初始发声体的拟声设备；例如，终端包括高级高保真系统和高级扬声器，或终端包括高保真系统(HiFiSystem)和用于适用于一定音域范围的专业扬声器；

第四种形式的终端混音：用于多个自由的发声体的终端混音

基于上述第一种形式的终端混音、第二种形式的终端混音和第三种形式的终端混音，第四种形式的终端混音要求扬声器具有以下特征：

1、扬声器在能够运动(包括移动、快速移动、飞行)；扬声器在运动中会采用了安全预防措施，以防该扬声器伤害或损害任何物体、动物、植物或任何人。当音乐响起时，扬声器能跟着节拍进行舞蹈。只要扬声器的运动是安全的，扬声器在听觉范围内运动的速度没有限制，声波在空气中传播的时间延迟速度也会被补偿。

2、扬声器在预定物理边界内运动，如果作为扬声器使用的扬声器机器人是终端混音系统的一部分时，扬声器机器人总是会返回其运动的初始位置。这里，终端的物理边界的范围没有被限制。

3、重新配置终端混音系统，使一个扬声器中的音轨在另一个扬声器中进行重放。

4、每个音轨的音量大小可调，从0到最大音量。

5、采用终端混音系统或在线互联网服务来修改声音质量或增加声音效果，如在每个音轨的基础上进行混响和延迟。

6、扬声器的音轨配置、扬声器位置、扬声器朝向角度、扬声器的运动、扬声器跟着音乐节奏舞蹈、扬声器的音量以及扬声器的声音修改由下述因素决定：

a)物理限制--终端的类型、尺寸和空间；每个扬声器的类型和质量；

b)初始音乐的创建者的思考；

c)音乐风格和意境；

d)终端混音全球服务中心的推荐；

e)终端混音爱好者社交网络的推荐；

f)阅听人所处位置、朝向、心境、身体内部条件；

g)阅听人为立体声音轨和环绕音轨创建声像的欲望；

h)终端混音重放系统中软件的预定程序主题；

i)阅听人的深思或情绪化的决定。

7 、和其他终端混音系统同步重放--该终端混音系统和其他终端混音系统同步重放是基于同时服务器或通过计算机网络连接的终端混音系统之间的信息传输而实施的。

关于终端混音的进一步讨论

智能音量控制

通过采用扬声器的嵌入式Linux计算机传感器，终端混音系统能计算终端中的音量大小，当该音量太大时，终端混音系统能发出视觉警告，并以均衡方式自动地将所有扬声器的音量调低到安全音量水平。

阅听人位置

终端混音使用的场所没有限制，阅听终端混音重放的人数也没有限制；但只要人数不是太多，就存在有指南，以使每个阅听人都能很好地听终端混音；阅听人不会使其身体或其他物体阻挡其他越听人收听终端混音。

当两个或两个以上的音频在一终端混音系统中为不同阅听人同时重放时，分别播放该两个或两个以上的音频的扬声器会彼此分开。

当前技术(如环绕音系统)会要求阅听人处于特定的区域内；高级高保真系统更是要求阅听人处于特定的位置(即国王的座椅，KingSeat)上；不像这些技术，终端混音系统允许阅听人处于扬声器区域内部或外部的任何位置。当拟声设备为扬声器机器人时，扬声器机器人自身可以做调试，使阅听人听到最佳的声音，或者使该扬声器机器人具有宽的阅听角度，这样，阅听人可以坐着、站着或在扬声器之间行走。阅听人也能将耳朵靠近扬声器，从而听到音量大且更清晰的音轨，例如，可以听到歌声或小提琴音轨的详细细节。阅听人也能处在距离扬声器很远的位置，并听到高质量的声音。扬声器的设计迎合阅听人位置，使扬声器具有宽的阅听角度，扬声器的阅听角度可以是360°或球形的。

本申请并没有对听觉区域(即听觉位置的区域)应当如何建立做出限制，但是本申请列举了一个例子，在礼堂中，听觉区域是礼堂的公共区域或卧室，所有的阅听人都处于听觉区域中部，每个扬声器的阅听角度都是360°。在这种设置下，当扬声器播放录制的终端混音时，一个人在听觉区域中不同位置所听到的声音是不同的，这和阅听终端混音的经历和阅听人路过海滨或繁忙的商业中心的经历是相似的。进一步地，当管弦乐团演奏古典音乐的时候，终端混音也能允许阅听人穿过管弦乐团；或者终端混音也能允许阅听人将其耳朵靠近歌声模拟扬声器，从而使阅听人能试着去听歌手发声的全部细节。

然而，上述设置须假定阅听人都是处于能够阅听到最佳阅听效果的阅听人朝向上。而阅听人也能够通过专业设备听到最强音质。

编辑

EMX文件格式的最初版本和MIDI文件格式相似。EMX文件格式和MIDI文件格式的主要区别在于：EMX文件格式的设计目的具有宽广的范围，不仅迎合音乐创作者录音、编辑、阅听的需要和阅听人阅听的需要，还使阅听人也能具有录音和编辑的能力。EMX文件格式和MIDI文件格式另一个主要区别在于：EMX文件格式允许任何人修改一音轨，而与此同时其他音轨保持不变。

任何人能够采用EMX文件或EMVS文件来修改任何音轨，并将修改后的音轨结果保存为另外的EMX文件或EMVS文件，或将该修改后的音轨结果以如WAV或MP3的现有文件格式保存。EMVS是一种包含终端混音音频数据和视频数据的文件格式。该修改后的音轨结果可以是只读文件或可擦写文件。通过这种保存设计，任何人能够容易地添加、删除和修改EMX文件的音轨。因此，终端混音通过将音频编辑功能赋予给一般大众的方式开辟了一个音乐制作的新纪元。理论上，一个EMX文件中具有的音轨数目是没有限制的。然而，非常大的EMX文件仅能在设置于终端中的非常大的终端混音系统中进行重放，或者该非常大的EMX文件还可以利用运行于终端的云服务器来进行重放。

初始音乐创作者能利用终端混音工具、EMX文件格式、终端混音系统的版权保护特点来保护创作的部分或所有的音乐数据，使这些音乐数据在其发布后不能被修改。

并且，终端混音使音乐制作过程能够利用互联网的社交网络和虚拟团队工作特点，使具有不同天赋的音乐人能在一起工作，并以国际视角创作一个EMX文件。

根据EMX文件格式的特点，本实施例中，终端混音系统还包括与所述多个麦克风中的部分或全部麦克风通讯连接，用于修改所述多个麦克风中的部分或全部麦克风各自录制的音轨的声音质量或增加所述多个麦克风中的部分或全部麦克风各自录制的音轨的声音效果的声音修改设备；与所述多个麦克风中的部分或全部麦克风对应的拟声装置与该声音修改设备通讯连接，用于同步地播放该声音修改设备修改过的对应的音轨。

和现有的环绕音技术的比较

基于终端混音，在终端混音系统中，只要扬声器的位置设置符合环绕音扬声器位置要求，任何种类的扬声器能够用作环绕音扬声器，来播放环绕音(包括5.1环绕音，6.1环绕音和7.1环绕音)。然而，这里所使用的扬声器推荐选用通用扬声器，专用扬声器并不适合播放环绕音，而只能读运动数据的扬声器机器人也不能被使用。

终端混音系统具有预定义的环绕音重放模式，该环绕音重放模式用来根据环绕音技术的类型来制作每个扬声器上的声音。终端混音利用现有的环绕音技术来对环绕音音频数据进行译码和重放。

所有扬声器优选地通过WiFi连接在一起。

一种终端混音系统是利用了简单的扬声器机器人，通过按下一个按钮，如按下「建立处于5.1环绕音模式的扬声器」按钮，扬声器将会基于优选环绕音位置和实际终端结构而自动地进行物理移动。当所有扬声器的使用过程结束后，扬声器会返回初始位置。这里，一种具有机器人轮子和垂直轨道，并与终端混音系统WiFi连接，还内置软机器人音乐人软件的扬声器机器人-扬声器机器人模型A是一种适用于环绕音用途的扬声器机器人。然而，本申请并不将这种扬声器机器人模型A的用途局限于环绕音用途。

终端混音和MIDI的关系

MIDI被内置于EMX文件中，例如，音乐制作人或阅听人能将一种通用MIDI乐器映射到一种专业扬声器上。这种逻辑决定是根据乐器的使用效果来将乐器映射到扬声器上而做出的。将乐器映像到专业扬声器上是较合适的映像方式，例如，将MIDI三角大钢琴(#1)映射到一个自动钢琴上是最合适的。

EMX文件中有关使用运动数据的音轨的数据采用现有MIDI文件格式，而没有采用标准数字音频数据格式。换句话说，初始音频数据不能够在特定的声道中传输，但在输入设备的操作能够被捕捉，并以MIDI文件格式保存。

终端混音的重放可以通过以下两种途径实现：一种是通过利用终端混音系统的MIDI渲染模块将MIDI数据转换成音频数据，并利用通用扬声器来播放该音频数据；另一种是向扬声器机器人提供MIDI数据流，以使该扬声器机器人直接重放。自动钢琴的使用是一个很好地阐明扬声器机器人如何接收终端混音系统的MIDI运动数据，以及扬声器机器人如何将该MIDI运动数据转换成终端中播放的声音的例子。

另外，现有的MIDI乐器能够支持EMX文件格式，这样，终端用户能够利用该MIDI乐器来制作和阅听音乐。

广域媒体(WideAreaMedia,WAM)重放

广域媒体重放的主要目的是有选择地用于生动地重放终端混音的子设备。

下面描述了一个广域音频(WideAreaAudio,WAA)重放的主要形式：通过选择终端混音系统中的部分或所有扬声器，使用者能通过以下方式在这些扬声器上进行重放音频：

1、所有扬声器播放相同的音轨，即单声道。

2、只有在阅听人附近的扬声器播放声音，而所有这些播放声音的扬声器播放相同的音轨，或者这些播放声音的扬声器分别播放与该阅听人朝向相关的不同音轨。通过这种方式，终端混音系统能够在这些扬声器上播放EMX文件或现有立体声。同时，阅听人能够使用终端混音控制工具来播放EMX文件，使该EMX文件的每个音轨能在一个或多个扬声器上进行重放。

WAV文件以相似的方式进行播放。

音频和视频广播

终端混音广播是一种音频和视频广播的形式：

1、终端混音广播的范围覆盖地球以及其他适当的行星，如火星。

2、同一终端混音系统的任意两个扬声器之间的最大传输滞后时间为60s，其中，传输滞后时间是电子信号在录音设备上产生的时间和扬声器发出声波的时间之差。

3、安全广播：数据在终端中的录音设备和所有扬声器之间传输的过程中，数据修改是严格禁止的。只有一个例外，就是基于阅听人意愿的修改。例如，阅听人决定在广播馈送上采用由云服务器提供的修改后的租来的声音。安全广播要求就会被公用密钥加密模块数字化的标记出来。

本申请覆盖了广播的基本要素，然而本申请并不限于这里提到的广播特征；一个与广播相关的区域将会强化现有广播技术来提供终端混音音频，例如有线电视网络。

基于音频数据是连续地打入到终端混音数据主体中的设计，EMX文件是满足数据流的使用方式。因此，终端混音系统能一边下载终端混音数据主体，一边重放声音。这和大多数现有的互联网视频数据流技术相似，终端混音数据流的带宽要低于视频数据流的带宽，因此，这种具有EMX文件的音频数据流的播放可通过现有技术实现。

适于视频广播的EMVS文件的数据流的播放方式是和EMX文件的数据流播放方式相同的。

音频和视频广播能通过EMX文件/EMVS文件来替代视频文件的方式利用视频服务器来实现，并将客户软件模块添加入终端混音系统中，这样，该客户软件模块可接收终端混音数据主体，并将该终端混音数据主体译码、渲染、音轨分配并在扬声器上进行音频重放。

常规扬声器、扬声器机器人或通用机器人的视觉效果和实体

所有的扬声器都能与终端混音系统连接。

然而，本申请介绍的扬声器机器人具有更多的特点，但这些特点必须遵守下面的规则：

1、具有扬声器机器人能制作成任何形式。

2、为了避免扬声器机器人损坏、滥用或误用，在室外使用时和当扬声器机器人处于黑暗环境中时，扬声器机器人必须发出明显的视觉信号来标识该扬声器机器人的存在，例如，该扬声器机器人展示出标语「音频重放正在进行中」或者「第四种形式的终端混音」，以此来将该扬声器机器人的存在和位置告知周围的人们，并让这些人知道在什么地方和为什么能听到声音。在该扬声器机器人开始展示标语时，该标语要足够清晰，之后，该标语可以保持与该扬声器机器人开始展示标语时相同的亮度，或者，该标语可以暗淡一点，但每隔至少10min标语的亮度会改变成初始时的亮度。

机器人家具

终端混音系统还包括机器人家具。机器人座椅(ROBOCHAIR)是一种具有高容量电池，并在每个腿部上设置有机器人轮子的座椅；高容量电池用于为机器人座椅的运动提供电能；该机器人座椅和扬声器机器人相似；一个或多个阅听人可以坐在该机器人座椅上，该机器人座椅能根据终端混音系统的命令进行移动。

相似地，机器人站立架(ROBOSTAND)也是一种适于机器人通用目的的站立框架，该机器人站立架主要用于托住用于播放视频的显示屏(如55英吋LED电视显示屏)或投影屏幕。

终端混音系统将机器人座椅看作为中心，通过机器人座椅、机器人站立架、终端环境以及扬声器扬声器之间的相对位置来确定发送给机器人座椅、机器人站立架以及扬声器机器人的命令和控制信号。

具体地，本实施例中，机器人座椅、机器人站立架、终端环境以及扬声器扬声器之间的相对位置仅需要确定下列三项：

a)机器人座椅和终端环境之间的3D相对位置；

b)机器人座椅和机器人站立架之间的3D相对位置；

c)机器人座椅和扬声器机器人之间的3D相对位置。

通过同步地移动处于终端环境中的机器人座椅、机器人站立架以及扬声器机器人，并通过计算保持处于终端环境中的机器人座椅、机器人站立架以及扬声器机器人之间的相对位置可以创建一种虚拟的「房子移动效果」。该房子移动效果取决运动中的处于终端环境中的机器人座椅、机器人站立架以及扬声器机器人，地板类型，风以及机械精度等因素的稳定化；这些因素相互配合，使房子移动效果增加到最大的限度。

相同的方法也被采用于户外，例如，当终端混音系统缓慢地穿过森林时，用户可以体验到「森林移动」的效果。

在另一实施例中，处于终端环境中的机器人座椅、机器人站立架以及扬声器机器人可以自由移动；该自由移动必须遵循一基本原则：机器人站立架没有被使用，而用户想要获得「房子(或终端环境)移动效果」；机器人座椅和扬声器机器人必须遵守同一终端混音的扬声器定位和听觉规则。

在又一实施例中，通过采用阅听人运动阅听技术(WalkingAudienceListeningTechnique)来移动在固定设置的扬声器机器人之间的机器人座椅，或来保持阅听人和扬声器机器人之间相对移动关系。

相似地，机器人移动方式和远程控制能力能以相似的方式扩展到其他家具上；这些家具包括但不限于：

桌子；灯等。

可穿戴式终端混音产品

手掌扬声器(PalmSpeaker)

扬声器可设置在衣服上，这种设置方式具有很多工艺和时尚的设计。

手掌扬声器就是一种可穿戴式终端混音产品，该手掌扬声器包括设置在手套掌部的扁平圆形蓝牙扬声器，如图1所示。而与此同时，用户的智能手机上运行有JBM2的软件版本。JBM2是一种设置在扬声器中，具有计算能力和输入输出硬件的设备，例如RJ45局域网端口，音频输出的DAC模块。

每个手套内部具有圆形的LED和陀螺仪，该陀螺仪用于探测手部是举起的还是放下的，或指示手掌的朝向。

如果用户具有蓝牙耳机时，JBM2的音频输出结果会混在用户的声音里，该用户的声音会在手掌扬声器中播放。

集成终端混音(IntegratedEM,IEM)产品

集成终端混音主要产品(IEMMainProduct)

该集成终端混音主要产品的目的在于能实现本申请的终端混音的所有功能。

下面介绍了一种推荐产品，但本申请的产品并不限于下述的产品；所有根据本申请的思想而进行的改进或变换都应属于本申请的保护范围。

该集成终端混音主要产品是一种电子产品，内置有具有CPU、内存以及存储器，用于控制终端混音的硬件系统；该硬件系统装载有Linux系统，并装载有终端混音软件来控制终端混音。该集成终端混音主要产品还具有WiFi通讯模块，用于与局域网(LAN)WiFi通讯连接。该集成终端混音主要产品内部还设置有隔间，该隔间中设置有安装在轨道上的至少四个扬声器。

该集成终端混音主要产品具有以下主要特点：

能够播放终端混音音频；

扬声器之间的位置会根据所播放的终端混音音频种类而发生改变。

参照图2，该集成终端混音主要产品看起来像保护围栏，以避免在扬声器运动过程中，尤其是当终端混音音频重放时，扬声器快速运动时，人或动物受伤的情况。

第一种形式的集成终端混音产品

基于集成终端混音主要产品，第一种形式的集成终端混音产品具有以下附加特征：

1)图3示出了第一种形式的集成终端混音产品。该第一种形式的集成终端混音产品10包括天花支架1和机器人。天花支架1固定安装于天花板上，该第一种形式的集成终端混音产品10除天花支架1的其他部分就是机器人。该机器人可拆卸地设置于天花支架1上。

2)当天花支架1被安装时，天花支架1能被伸长，从而调整机器人高度。该机器人高度(即从地板到该机器人的高度)能被自动地调整，该机器人高度处于1m和天花板高度之间。因此，阅听人能调试该机器人高度，来阅听与该阅听人水平的角度的声音。

3)当机器人从天花支架1上拆卸下来时，机器人拆下其底盖，并将该机器人底部的机器人轮子2显示出来，该机器人能在室内或室外使用。用户能通过其移动电话上运行的远程控制软件来命令机器人播放音频，或控制机器人运动，或使该机器人自由运动，或使该机器人一直遵守阅听人的命令。视觉信号能被传输给用户的移动电话，并在该移动电话上进行播放。

4)多个电灯泡3环绕地设置在机器人上；该多个电灯泡3可以通过普通的墙上开关或者移动电话(该移动电话上运行的软件)来进行常规照明控制。在音频重放过程中，用户也能为娱乐目的，使不同颜色的该多个电灯泡3进行闪烁。

5)天花支架1被拆下来时，该天花支架1如图4所示。该天花支架1能像常规电灯一样工作，由常规墙上灯或者移动电话(该移动电话上运行的软件)进行控制。

第二种形式的集成终端混音产品

基于第一种形式的集成终端混音产品，该第二种形式的集成终端混音产品具有以下附加技术特征：

1)机器人手臂上的一个或多个透明显示屏4被安装在天花支架上，如图5所示。

2)能根据碰撞检波的结果，自动调低或调高一个或多个显示屏4；当显示屏4在使用时，则该显示屏4被调高，如图6所示。有声警报器和LED设置在一个或多个显示屏4上。

3)显示屏4与JBOX-VIDEO输出连通，JBOX-VIDEO仅是运行在具有该显示屏4的计算机中的软件。

4)常规显示屏能替代该透明显示屏4来使用。

第三种形式的集成终端混音产品

基于集成终端混音主要产品，第三种形式的集成终端混音产品具有以下附加技术特征：

1)该第三种形式的集成终端混音产品为扬声器机器人，该扬声器机器人具有机器人轮子或其他能使该机器人运动的部件；

2)该第三种形式的集成终端混音产品具有可爱的外表，如图7所示，该第三种形式的集成终端混音产品的外表为章鱼；

3)扬声器都安装在机器人手臂的端部；

4)具有第一种形式的集成终端混音产品和第二种形式的集成终端混音产品中部分或全部特征。

为了使该第三种形式的集成终端混音产品具有一些视觉效果，可以采用以下手段：

1)第三种形式的集成终端混音产品上安装有电灯泡、LED或激光灯；

2)根据该第三种形式的集成终端混音产品的形状，将LED遍布地安装在该第三种形式的集成终端混音产品上；

3)在该第三种形式的集成终端混音产品上安装平板LED显示屏；

4)能使用该第三种形式的集成终端混音产品附近的JBOX-VIDEO产品，来控制平板LED显示屏；

5)能使用该第三种形式的集成终端混音产品附近的移动设备，来控制该第三种形式的集成终端混音产品上的电灯泡、LED或激光灯和/或平板LED显示屏。

终端混音音乐的新世界--新的终端环境、新的乐器以及新的音乐表现方式

这可能是人们在人类历史的第一次以一种新的使用终端混音的方式来创造终端混音音乐。人们可以创造新的、革新的、突破性的以及精心制作的新世界，该新世界包括：

1)新的终端环境--该终端环境跨越范围巨大的地理区域，例如，在50000平方米的花园内使用100000个扬声器，每个扬声器播放一个音轨；

2)新的乐器--通过发声体和终端混音技术为人们创建了一个新的艺术体验。例如，5000根玻璃柱子；每根玻璃柱子10米高，并填充有水，每根柱子的顶端设置有扬声器；所有的扬声器都通讯连接于一个终端混音系统中；每个柱子负责发出竖琴的一个独特的弦的声音。该终端环境用来重放EMX/EMVS文件的MIDI音轨，或与电子竖琴连接；当音乐人弹奏竖琴的时候，新的终端环境将会同步地发出声音。这里，电子竖琴是一种常规竖琴，该电子竖琴的每根弦都与麦克风连接。

3)新的音乐表现方式--将所有可能的和被认可的发声体有选择地用于终端环境中。例如，在一场音乐会上，阅听人携带着他们的可穿戴式终端混音设备(WEM)，在该音乐会的舞台上设置有常规扬声器；每个常规扬声器都具有飞行机器人，用于使常规扬声器起飞；在音乐会的四边还遍布有扬声器机器人；其中有些扬声器机器人围绕阅听人运动。在音乐会过程中，音乐人歌唱和演奏音乐，音乐人和阅听人进行互动，将乐器给阅听人，并让阅听人举起他们的手，并让其可穿戴式终端混音设备成为终端混音系统的一部分，并成为音乐会乐器的一部分，阅听人可以通过可穿戴式终端混音设备进行唱歌。总之，音乐人可以自由的利用所有的资源来推进音乐会，并让阅听人以终端混音方式参与到音乐会中。

技术细节

终端混音系统的主要功能

1)罗列所有的扬声器；

2)采集每个扬声器的注册信息，并导入到实时数据库中；

3)扬声器进行同步发声；

4)实现所有的JBM2设备的播放、停止、其他命令和控制；

5)提供如下信息，以响应来自身份认证过的客户端的查询信息：

a)所有扬声器的总清单，以及每个扬声器的任务；

b)单一扬声器的类型、音域范围、终端位置、状态以及其他信息。

将扬声器的声音同步-算法

为了弱化不同音轨的音频差异，任意两个不同扬声器播放一个单节不同音轨的时差要小于10-100毫秒。

解决上述问题的方法有多种，包括基于消息传递、轮询等同步方法。但这些方法使任意两个不同扬声器播放一个单节不同音轨的时差处于100-500毫秒之间。

本申请提供了一种解决上述问题的优选方法，该方法是使嵌入式Linux设备的每个扬声器每天至少一次与同一互联网时间服务器进行同步，所有的同步活动(如重放过程开头的同步)应当基于两个因素，一个是来自终端混音系统的命令，该命令包含有处于未来时间的目标运行时间戳；另一个是嵌入式Linux时钟时间，该嵌入式Linux时钟时间的格式为操作系统纪元时间。

假设用户之间互联网交流延迟时，本申请的这种方法将任意两个不同扬声器播放一个单节不同音轨的时差降低到50毫秒以下。嵌入式Linux设备和时间服务器之间具有非常小的周转期，在2014年世界上所有的互联网终端上，这个假设都是真实的。同时，在未来，路由器技术的强化和光缆取代电缆的推进将进一步地减小该周转期，从而完全消除音轨时差不同的问题。在终端混音系统中设置微型原子钟是未来的解决方法。

为了控制JBM2设备，采用以下步骤：

在终端混音系统中：

如果用户按下播放按钮，则可以得到：『播放时间』为2017-03-17_10：23：59.001(操作系统纪元时间，精度为1毫秒)；

然后将「在『播放时间』开始播放」的信息发送给该终端混音系统的所有扬声器；

在JBM2设备上：

基于接收到的「在『播放时间』开始播放」的信息后，获取该信息中的时间，并查看该JBM2设备上的本地时间，并在该本地时间到达『播放时间』时作出行动。

注意：

开始播放一个列表需要进行一个过程，如使用选择(Fork)过程；

互联网交流遵守TCP/IP协议，这样，我们可以获得高质量信息传输保障。

将扬声器的声音同步-操作系统(OS)和多任务的考虑

大部分现代计算器操作系统都是多任务系统，由于各种原因，目前扬声器的运行程序与其他程序相互独立，这样，各扬声器播放声音的开始时间就不确定。

任意两个扬声器进行同一终端混音音频重放的时差不多于20毫秒。但任意两个扬声器的同步时间(SyncTimePeriod)不得超过10s。

为了满足上述要求，本申请通过以下两个方法来解决：

方法1：使用具有相同资源、配置和运行程序的相同规格的硬件和操作系统；

方法2：采用「锁-报告-取消锁-闹钟软件-处理」(Lock-Report-Calloff-Atomic-Transaction)算法

评估：

1)同时购买有两个或两个以上的相同硬件的顾客可以采用方法1；

2)采用混合硬件(MixedHandware，例如iPhone和计算机的组合)的顾客会陷入同步问题之中。同样的同步问题也出现在下面的终端中：该终端中的不同客体试图播放相同的音乐；该不同客体包括冰箱、茶杯和移动电话。方法2能在这被采用；

3)将一个新硬件添加到一个旧有硬件中的顾客也会遭遇同步问题，因为尽管旧有硬件可能会相互进行识别，但新硬件可能会更加先进，因此，新硬件和旧有硬件在硬件规格和软件规格上就存在差异。方法2能在这被采用。

4)一体化系统不存在同步问题。

'锁-报告-取消锁'('Lock-Report-Calloff')处理过程-算法

对于负责同一EMX文件重放任务的JBM2设备来说，「锁-报告-取消锁」处理过程包括以下步骤：

1)将音量调整到0%；

2)将音频处理模块限定于唯一的用途；

3)为目标重放时间实时检测本地时钟；当到达目标重放时间时，将音频数据块导入到音频硬件中；

4)通过将音频数据块的实际重放时间发送给终端混音系统的方式，向终端混音系统确定并报告音频数据块的实际重放时间；

5)等待终端混音系统的结果响应；

6)如果该结果响应是「取消锁；在音频处理模块的限定开始时间上，重新限定音频处理模块」时，则停止重放，并返回步骤2；

7)在7s内直线地将音量调整到100%。

在终端混音系统中：

1)等待并收集扬声器组中每一个扬声器的所有报告；

2)将该所有报告进行比较，以查明扬声器组是否满足时差要求；

3)将步骤2的信息发送给扬声器组中所有设备，如果扬声器不满足要求，扬声器会发出「取消锁；在音频处理模块的限定开始时间上，重新限定音频处理模块」，否则扬声器会发出「成功」；

4)如果扬声器不满足要求，会回到步骤1。

算法的评估

1)在一个小型系统中，小于50单位的JBM2、基本硬件、网络和软件资源是充足的；

2)在一个大型系统中，100000单位的JBM2、网络和终端混音系统资源必须是：

a)充足的网络资源；

b)具有较低的响应时延的网络，这样，可以避免太长的「阅听人等待时间」；

c)终端混音系统中充足的用于同步地发送和接收大量的通信信息的处理资源，例如该处理资源有100000单位。

多个RTMP(实时消息传送协议)数据流的广播

基于Adobe公司的RTMP协议，终端混音广播站提供了具有RTMP协议的终端混音音频，一个RTMP数据流对应地在一个音轨上播放。

本地终端混音系统采用流媒体译码音频数据，并以一种同步方式将所有的扬声器的重放过程同步。

站长列表文件格式(StationMasterListFileFormat)是M3U文件格式。

终端混音系统会在预配置中心服务器上下载 M3U 站列表；一个选择界面提供给用户，以便于选择 M3U 站。之后，终端混音系统与 M3U站连接，并通过使用

RTMP协议开始同步地下载所有音轨的内容。然后，在终端混音系统的扬声器上进行译码、同步和重放。

一种扬声器机器人的细节设计--具有机器人轮子和垂直轨道，并通过WiFi与终端混音系统连接，并内置有软机器人音乐人软件的通用扬声器，即扬声器机器人A

基于通用扬声器，该扬声器机器人还包括：

1)基体：

a)该基体包括高容量电池，该高容量电池能通过其插接站(DockingStation)或接上电源进行反复充电；

b)该基体中内置有JBM2，该JBM2由高容量电池提供电源，该JBM2还通过WiFi与终端混音系统连接；

c)机器人轮子设置在该基体的底部，该机器人轮子有高容量电池提供电源，该机器人轮子的控制信号线设置在JBM2的背面；

d)该基体还包括设置在该基体底部的用于识别轨道颜色的光传感器；

e)该基体还包括设置在该基体内部的扬声器，该扬声器与JBM2通过音频信号连接，单声道扬声器线与扬声器连接；

f)基体还包括用于探测该基体四边上的阻挡物体的传感器。

2)基体上设置有垂直机器人手臂，该机器人手臂顶部设置有扬声器，伺服机构设置在JBM2后部。该垂直机器人手臂可以是具有一移动平台的由两部分构成的机器人手臂，也可以是简单的垂直轨道。

3)内置于JBM2的附加软件模块用来识别该扬声器机器人底部的轨道信号；并根据来自EMX文件的译码位置和直接信息来确定该扬声器机器人的哪个部分进行移动，以及扬声器的垂直高度。将EMX文件信息与机器人姿态相映射，来模仿初始发声体的位置和方向。

4)软件模块也会不时执行避碰。

相关配件

1)插接站，机器人在完成被使用后，该机器人能放回到该插接站中；该插接站作为机器人的初始位置。该插接站用作电池充电器，能自动地对机器人的高容量电池进行充电直到充满为止。

软机器人音乐人软件设计

软机器人音乐人软件具有以下特征：

1)所有音轨必须在相同拍子下进行录制；

2)至少一个具有音乐拍号(例如，4/4拍的歌曲)的参考MIDI音轨是可用的；

3)参考音高--精确的音高调谐数据是可用于软机器人音乐人软件的调谐；

4)在EMX文件中设置键和和弦。

当上述所有条件都具备时，用户能为每个JMB2，有选择地初始化一运行于内置Linux系统的虚拟机中的软机器人。

用户能初始化对应一个发声体的一个或多个的软机器人，并将该一个或多个软机器人发送给扬声器，但为了实现最大的运动弹性，一个扬声器上只会分配有一个软机器人。用户能根据具有不同参数的相同软机器人，来初始化或有选择地使用另一个软机器人。例如，将芬达吉他(即Fender-Stratocaster)发声体的两个软机器人分别分配给两个扬声器；该两个扬声器中的一个用于播放和弦，另一个用于播放独奏。将大三和弦的独鸟发声体的一个附加软机器人分配给其中一个扬声器。

每个发声体将参考音高、拍号、拍子、键和现有和弦加入到与其对应的人工智能(AI)模块，并决定为适于现有和弦而发出什么声音。发声体可以发出现有和弦的可用标记的打击乐器的敲击声、鸟声或情态表达，以及前一播放、下一播放、参考打击节奏和使用人工智能的多种因素。

娱乐

观看扬声器机器人的运动并不能令阅听人愉悦，但将光学设备和LCD显示器添加到每个扬声器机器人上，就可以使扬声器的运动更加具有娱乐性。例如，简单音量级别的LED条，或简单级别激光枪秀能够被添加到运动的扬声器机器人上。

机器人家具的细节设计

当机器人座椅具有与扬声器机器人A相同特征(具有机器人轮子、垂直轨道，并通过WiFi与终端混音系统连接的，还内置有软机器人音乐人软件的通用扬声器)时，该机器人座椅被使用来替代普通扬声器。该机器人座椅的定位可简单地通过轨道进行，也可通过后墙上一定高度的参考点进行。从安全因素的考虑，机器人座椅上并没有设置机器人手臂来以此将该机器人座椅抬起。机器人座椅上设置有两个扬声器，而非一个扬声器；两个扬声器中的一个设置在该机器人座椅的左边，另一个设置在该机器人座椅的右边；当阅听人坐在该机器人座椅上时，两个扬声器分别正对该阅听人的两个耳朵。

该机器人座椅具有一个、两个或多个座位；该机器人座椅能有不同的设计、材质和类型。该机器人座椅还能具有按摩功能。然而，所有因素必须与有运动部件、电池容量和电池使用时间决定的伺服力矩、噪声水平保持平衡。

机器人站立架是一种适于通用目的的站立框架，用于托住LED电视显示屏；机器人站立架和机器人座椅之间的不同在于：机器人座椅可被机器人站立架替代，并在平滑移动时，能够牢固和安全地托住有效荷载。

宽域媒体(WideAreaMedia，WAM)重放--算法

1、对局域网(LAN)中终端混音系统的所有扬声器进行登记，每个扬声器通过俯视角度投影到地板平面上，每个扬声器被标记出来；

2、终端混音系统的每一个扬声器(扬声器、有效标记和音量水平)被记录于用户界面上；用户界面可为iPad的APP、PC软件或网页；

3、在终端混音时，按要求提供所需的扬声器；

4、休眠2s；

5、回到步骤2。

注意：终端混音系统和每个JBM2之间的通信必须基于TCP/IP协议，这样，假设终端混音系统和每个JBM2之间都已建立了联系，鉴于终端混音系统和所有的JBM2都处于相同的局域网中，或被分隔于互联网之外，为建立终端混音系统和每个JBM2之间的联系，虚拟专网(即VPN)需要被建立，来符合TCP/IP协议。

EMX文件结构

EMS文件包含下列信息：

文件类别；

版本号；

数字权限管理(DigitalRightManagement，DRM)信息，所有者，版权信息；

音频数据；

定位信息；

软机器人音乐人专用信息；

音轨元数据--关于音轨的细节信息：乐器的类别和详细型号、音乐人的名字、词作者名字、曲作者名字以及歌手名字等。

音轨之间的立体声耦合关系。

根据如上所述的内容，本发明提供了一种终端混音的播放方法，该终端混音的播放方法包括以下步骤：

进一步地，所述步骤S1还包括：提供与所述多个麦克风中的部分或全部麦克风通讯连接，并与所述多个麦克风中的部分或全部麦克风对应的拟声装置通讯连接的声音修改设备；该声音修改设备修改所述多个麦克风中的部分或全部麦克风各自录制的音轨的声音质量或给所述多个麦克风中的部分或全部麦克风各自录制的音轨增加声音效果；

本发明通过多个麦克风分别将多个发声体的声音录制为音轨，并通过多个与发声体位置对应的扬声器播放对应的音轨，从而播放出终端混音，可以重新再现发声体现场播放的声音，具有极高的音质效果。

应当理解的是，对本领域普通技术人员来说，可以根据上述说明加以改进或变换，而所有这些改进和变换都应属于本发明所附权利要求的保护范围。

Claims

一种终端混音的播放方法，其特征在于，该终端混音的播放方法包括以下步骤：

S0)、提供与初始环境中多个发声体对应的多个麦克风；还提供类型和尺寸与初始环境对应的终端环境以及与所述多个麦克风一一对应的、并与对应的麦克风通讯连接的多个拟声设备；每个拟声设备设置在终端环境中与初始环境中与该拟声设备对应的发声体所处位置对应的终端位置上；提供与多个拟声设备通讯连接的运动追踪设备；

S1)、多个麦克风分别同步地将对应的多个发声体的声音录制为音轨；运动追踪设备同步地将多个发声体的运动状态记录为运动状态文件；

S2)、多个拟声设备分别同步地以运动状态文件所记录的各自对应的发声体的运动状态进行运动，并分别同步地播放对应麦克风录制的音轨，从而播放出终端混音。
根据权利要求1所述的终端混音的播放方法，其特征在于，麦克风与和该麦克风对应的发声体相对设置，且所述多个麦克风与对应的发声体之间的距离都相等。
根据权利要求 2 所述的终端混音的播放方法，其特征在于，拟声设备包括扬声器。
根据权利要求3所述的终端混音的播放方法，其特征在于，拟声设备包括扬声器机器人；该扬声器机器人包括设置在该扬声器机器人底部的机器人轮子、设置在该扬声器机器人顶部的机器人手臂；在该机器人手臂的手部上设置有扬声器；

所述步骤S2还包括：扬声器机器人按照运动状态文件所记录的对应的发声体的运动轨迹进行运动。
根据权利要求3所述的终端混音的播放方法，其特征在于，拟声设备包括扬声器机器人；该扬声器机器人包括设置在该扬声器机器人底部的机器人轮子、设置在该扬声器机器人顶部的机器人手臂；在该机器人手臂的手部上设置有扬声器；

所述步骤S0还包括提供机器人家具；机器人家具包括可运动地、用于承载阅听人的机器人座椅和可运动地、托有用于播放视频的显示屏或投影屏幕的机器人站立架；

所述步骤S2还包括：同步地移动处于终端环境中的机器人座椅、机器人站立架以及扬声器机器人，并保持处于终端环境中的机器人座椅、机器人站立架以及扬声器机器人之间的相对位置。
根据权利要求5所述的终端混音的播放方法，其特征在于，扬声器可滑动地设置于由电机控制的导轨上；

所述步骤S2还包括：扬声器以运动状态文件所记录的对应的发声体的运动轨迹在导轨上进行运动。
根据权利要求 3-6 任意一项所述的终端混音的播放方法，其特征在于，所有扬声器通过 WiFi 连接在一起。
根据权利要求7所述的终端混音的播放方法，其特征在于，所述步骤S1还包括：提供与所述多个麦克风中的部分或全部麦克风通讯连接，并与所述多个麦克风中的部分或全部麦克风对应的拟声装置通讯连接的声音修改设备；该声音修改设备修改所述多个麦克风中的部分或全部麦克风各自录制的音轨的声音质量或给所述多个麦克风中的部分或全部麦克风各自录制的音轨增加声音效果；

所述步骤S2还包括：与所述多个麦克风中的部分或全部麦克风对应的拟声装置同步地播放该声音修改设备修改过的对应的音轨。
根据权利要求8 所述的终端混音的播放方法，其特征在于，所述多个麦克风所录制的音轨以 EMX 文件格式保存。
一种终端混音系统，其特征在于，该终端混音系统包括与处于初始环境中的多个发声体对应的、用于同步地将对应发声体声音录制为音轨的多个麦克风，用于同步地将多个发声体的运动状态记录为运动状态文件的运动追踪设备，类型和尺寸与初始环境对应的终端环境以及与所述多个麦克风一一对应的、与对应的麦克风通讯连接、并与运动追踪设备通讯连接、以同步地以运动状态文件所记录的对应的发声体的运动状态进行运动、并同步地播放该对应的麦克风录制的音轨，从而播放出终端混音的多个拟声设备；每个拟声设备设置在终端环境中与初始环境中与该拟声设备对应的发声体所处位置对应的终端位置上。