WO2022062195A1

WO2022062195A1 - 机上信息辅助方法及装置

Info

Publication number: WO2022062195A1
Application number: PCT/CN2020/135366
Authority: WO
Inventors: 徐舒寒; 张炯; 李博
Original assignee: 中国商用飞机有限责任公司北京民用飞机技术研究中心; 中国商用飞机有限责任公司
Priority date: 2020-09-27
Filing date: 2020-12-10
Publication date: 2022-03-31
Also published as: CN112185390B; CN112185390A

Abstract

一种机上信息辅助方法及装置。方法包括：获取目标语音数据(S102)；将目标语音数据进行切分，得到单条语音数据(S104)；根据单条语音数据进行语音识别，生成文本数据(S106)；将单条语音数据和文本数据进行展示(S108)。解决了现有技术中获取管控指令时的便捷性和准确性不够高的技术问题。

Description

机上信息辅助方法及装置

技术领域

本发明涉及航空领域，具体而言，涉及一种机上信息辅助方法及装置，在飞行任务中辅助飞行员进行空管信息的收听、回放、查询等，提高获取管控指令的便捷性和准确性，降低沟通成本，为飞机航行提供安全性的保障。

背景技术

在空中交通管制中，管制员与飞行员通过陆空语音进行通话，由管制员向飞行员发出管控指令，指挥飞行员按要求操作飞机。管制员角色尤为重要，飞机航行中许多重要的决策都是由管制员根据其与飞行员之间的对话内容而决定的。由于空管的专业性、地域差异性和人员复杂性，空管语音中存在大量专业名词、独特的地区名称、中英文混杂以及口音差异，加之嘈杂环境、通信链路干扰等因素，在实际操作中，很有可能因为极小失误，例如听错信息、遗漏信息等，导致飞行员对管制员语音的误判，进而给航空领域带来巨大的损失。因此，对于机上的飞行员而言，在与空管交流过程中迫切需要一种辅助手段。

随着自然语言处理技术的发展，人们提出采用语音识别作为一种辅助空管信息的技术途径。然而，在空管系统中实现准确高效的语音识别难度较大，主要体现在几个方面：首先，空管系统所处的环境特殊，这直接决定了空管语音识别在语音信息采集环节上的特殊性；其次，空管系统中对数字、字母、航班号、跑道等的发音有特殊定义，而且空管系统中对话语句的结构、顺序需遵循指定的规则，导致普通的语音识别产品无法应用到空管对话识别中；此外，由于在空管系统中极小的语音识别失误也可能造成巨大的损失，因此空管语音识别系统对识别的准确率要求严格。现有技术中存在一些专用于空管的语音识别方法，但普便存在准确率不够高的情况，于是大多被应用在地面场景中，例如用于辅助管制指挥质量评估、事后分析、工作负荷评估等地空通话数据分析工作。因此迫切需要一种在机上辅助飞行员，提高空管沟通便捷性和准确性的方法，为飞机航行提供安全性的保障。

针对上述的问题，目前尚未提出有效的解决方案。

发明内容

本发明实施例提供了一种机上信息辅助方法及装置，以至少解决现有技术中获取管控指令时的便捷性和准确性不够高的技术问题。

根据本发明实施例的一个方面，提供了一种机上信息辅助方法，包括：获取目标语音数据；将所述目标语音数据进行切分，得到单条语音数据；根据所述单条语音数据进行语音识别，生成文本数据；将所述单条语音数据和所述文本数据进行展示。

可选的，所述目标语音数据是通过语音通信链路捕获的陆空语音实时通话数据。

可选的，所述将所述目标语音数据进行切分，得到单条语音数据包括：根据所述目标语音数据，获取语音信息熵，其中，所述语音信息熵表征所述目标语音数据的复杂度；根据所述语音信息熵，对所述目标语音数据中的语句进行断句和切分，将切分后的语音数据作为所述单条语音数据进行输出。

可选的，在所述根据所述单条语音数据进行语音识别，生成文本数据之后，所述方法还包括：将所述单条语音数据和所述文本数据进行存储。

可选的，所述将所述单条语音数据和所述文本数据进行展示包括：播放所述单条语音数据；根据播放的所述单条语音数据，将对应的所述文本数据进行显示。

可选的，所述单条语音数据的播放次数为至少一次。

根据本发明实施例的另一方面，还提供了一种机上信息辅助装置，包括：获取模块，用于获取目标语音数据；切分模块，用于切分所述目标语音数据，得到单条语音数据；文本模块，用于对所述单条语音数据进行语音识别，生成文本数据；展示模块，用于展示所述单条语音数据和所述文本数据。

可选的，所述切分模块包括：获取单元，用于根据所述目标语音数据，获取语音信息熵，其中，所述语音信息熵表征所述目标语音数据的复杂度；切分单元，用于根据所述语音信息熵，对所述目标语音数据中的语句进行断句和切分；输出单元，用于将切分后的语音数据作为所述单条语音数据进行输出。

可选的，所述装置还包括：存储单元，用于存储单条语音数据和所述文本数据。

可选的，所述展示模块包括：播放单元，用于播放所述单条语音数据；显示单元，用于显示所述单条语音数据所对应的文本数据。

可选的，所述单条语音数据的播放次数为至少一次。

根据本发明实施例的另一方面，还提供了一种包括指令的计算机程序产品，当所述指令在计算机上运行时，使得所述计算机执行一种机上信息辅助方法。

根据本发明实施例的另一方面，还提供了一种非易失性存储介质，所述非易失性存储介质包括存储的程序，其中，所述程序在运行时控制非易失性存储介质所在的设备，执行一种机上信息辅助方法。

根据本发明实施例的另一方面，还提供了一种电子装置，包含处理器和存储器；所述存储器中存储有计算机可读指令，所述处理器用于运行所述计算机可读指令，其中，所述计算机可读指令运行时执行一种机上信息辅助方法。

在本发明实施例中，采用获取目标语音数据；将所述目标语音数据进行切分，得到单条语音数据；根据所述单条语音数据进行语音识别，生成文本数据；将所述单条语音数据和所述文本数据进行展示的方式，通过对语音进行切分和识别，进而解决了现有技术中获取管控指令时的便捷性和准确性不够高的技术问题。

附图说明

此处所说明的附图用来提供对本发明的进一步理解，构成本申请的一部分，本发明的示意性实施例及其说明用于解释本发明，并不构成对本发明的不当限定。在附图中：

图1是根据本发明实施例的一种机上信息辅助方法的流程图；

图2是根据本发明实施例的一种机上信息辅助装置的结构框图；

图3是根据本发明实施例的种机上空管信息辅助方法的效果示意图。

具体实施方式

为了使本技术领域的技术人员更好地理解本发明方案，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分的实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都应当属于本发明保护的范围。

需要说明的是，本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本发明的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

根据本发明实施例，提供了一种机上信息辅助方法的方法实施例，需要说明的是，在附图的流程图示出的步骤，可以在诸如一组计算机可执行指令的计算机系统中执行，并且，虽然在流程图中示出了逻辑顺序，但是在某些情况下，可以以不同于此处的顺序执行所示出或描述的步骤。

实施例一

图1是根据本发明实施例的一种机上信息辅助方法的流程图，如图1所示，该方法包括如下步骤：

步骤S102，获取目标语音数据。

具体的，本发明实施例为了实现实时捕获陆地和空中之间的音频语音传输数据，需要建立专用的语音通信链路，并设置语音捕获程序，针对语音通信链路中传输的语音数据进行录制和截取，并将所有的语音数据传输到处理器中，进行后续的语音分析处理。获取目标语音数据可以是在陆地控制设备上进行，也可以是在空中机上语音控制设备来进行，具体选用哪种控制设备进行语音的捕获的传输，在此处不进行具体的限定。

具体的，目标语音数据的获取可以是通过语音通信链路进行的、实时地通话数据，由于在陆地和空中飞行员进行语音交流的时候，往往实时性非常重要，实时性的语音通话可以在陆地和空中保持不断更新的动态呼叫，达到安全的效果，因此在捕获语音的时候，需要根据通信链路中的数据进行实时的语音捕获，其中捕获的延迟越小，对陆地空中语音协调控制的影响就越小。

步骤S104，将所述目标语音数据进行切分，得到单条语音数据。

可选的，所述将所述目标语音数据进行切分，得到单条语音数据包括：根据所述目标语音数据，获取语音信息熵，其中，所述语音信息熵表征所述目标语音数据的复杂度；根据所述语音信息熵对所述目标语音数据中的语句进行断句和切分，将切分后的语音数据作为所述单条语音数据进行输出。

具体的，根据所述目标语音数据，获取语音信息熵，其中，所述语音信息熵表征所述目标语音数据的复杂度，本发明实施例在获得了语音数据的复杂度之后才可以根据语音数据的复杂程度、长短程度，自动判定如何进行语音切分工作，切分后的语音数据可以更效率地进行文字化的语音识别操作。根据所述语音信息熵对所述目标语音数据中的语句进行断句和切分，将切分后的语音数据作为所述单条语音数据进行输出。

需要说明的是，信息熵是一个数学上颇为抽象的概念，在这里不妨把信息熵理解成某种特定信息的出现概率。而信息熵和热力学熵是紧密相关的。根据Charles H.Bennett对Maxwell's Demon的重新解释，对信息的销毁是一个不可逆过程，所以销毁信息是符合热力学第二定律的。而产生信息，则是为系统引入负(热力学)熵的过程。所以信息熵的符号与热力学熵应该是相反的。一般而言，当一种信息出现概率更高的时候，表明它被传播得更广泛，或者说，被引用的程度更高。我们可以认为，从信息传播的角度来看，信息熵可以表示信息的价值。这样子我们就有一个衡量信息价值高低的标准，可以做出关于知识流通问题的更多推论。

信息熵计算公式：

H(x)＝E[I(xi)]＝E[log(2,1/P(xi))]＝-∑P(xi)log(2,P(xi))(i＝1,2,..n)

其中，x表示随机变量，与之相对应的是所有可能输出的集合，定义为符号集,随机变量的输出用x表示。P(x)表示输出概率函数。变量的不确定性越大，熵也就越大，把它搞清楚所需要的信息量也就越大。

步骤S106，根据所述单条语音数据进行语音识别，生成文本数据。

具体的，为了将上述分割之后的单条语音数据进行识别，并将识别后的数据转化为与单条语音数据中内容相对应的文本数据，需要通过语音识别算法对单条语音数据中的每一帧语音数据进行识别，最后将识别出的汉字或字符进行拼接合并，得到完整的文本句子并输出。

例如，单条语音数据播放内容为“空中有雷暴天气，尽快降落”，那么通过语音识别算法识别之后的文字内容为“空中有雷暴天气”、“，”、“尽快降落”。因此最后通过语音文本拼接操作，对上述识别出来的文本内容见进行拼接得到“空中有雷暴天气，尽快降落”的文本数据，进而向飞行员进行显示，提示飞行员尽快进行降落。

步骤S108，将所述单条语音数据和所述文本数据进行展示。

具体的，在语音数据转化文本数据之后，根据飞行员及地面控制人员的需要，本发明实施例将单条语音数据和文本数据进行同时显示，即在播放语音数据的同时显示相应的文本数据，以便使用者可以不受对方口音等因素影响，直观地了解语音的内容。如图3所示，图3是根据本发明实施例的种机上空管信息辅助方法的效果示意图，根据图3可以看出当使用者点击语音播放的同时，可以看到语音下方的文本显示，达到了增加使用者获取语音信息准确度的技术效果。

可选的，所述单条语音数据的播放次数为至少一次。

具体的，由于某些重要的语音数据需要不止一次进行播放才可以获取完整的语音信息或命令，所以每一个单条语音数据都可以进行至少一次的播放，即根据使用者需求进行多次播放，以达到完整地执行语音中的内容或命令。

通过上述步骤，可以实现增加获取管控指令时的便捷性和准确性的技术效果。

实施例二

图2是根据本发明实施例的一种机上信息辅助装置的结构框图，如图2所示，该装置包括：

获取模块20，用于获取目标语音数据。

具体的，本发明实施例为了实现实时捕获陆地和空中之间的音频语音传输数据，需要建立专用的语音通信链路，并设置语音捕获程序针对语音通信链路中传输的语音数据进行录制和截取，并将所有的语音数据传输到处理器中进行后续的语音分析处理。获取目标语音数据可以是在陆地控制设备上进行，也可以是在空中机上语音控制设备来进行，具体选用哪种控制设备进行语音的捕获的传输，在此处不进行具体的限定。

切分模块22，用于将所述目标语音数据进行切分，得到单条语音数据。

可选的，所述切分模块包括：获取单元，用于根据所述目标语音数据，获取语音信息熵，其中，所述语音信息熵表征所述目标语音数据的复杂度；切分单元，用于根据所述语音信息熵对所述目标语音数据中的语句进行断句和切分；输出单元，用于将切分后的语音数据作为所述单条语音数据进行输出。

具体的，根据所述目标语音数据，获取语音信息熵，其中，所述语音信息熵表征所述目标语音数据的复杂度，本发明实施例在获得了语音数据的复杂度之后才可以根据语音数据的复杂程度、长短程度来自动判定如何进行语音切分工作，切分后的语音数据可以更效率地进行文字化的语音识别操作。根据所述语音信息熵对所述目标语音数据中的语句进行断句和切分，将切分后的语音数据作为所述单条语音数据进行输出。

信息熵计算公式：

H(x)＝E[I(xi)]＝E[log(2,1/P(xi))]＝-∑P(xi)log(2,P(xi))(i＝1,2,..n)

文本模块24，用于根据所述单条语音数据进行语音识别，生成文本数据。

可选的，所述装置还包括：存储单元，用于将所述单条语音数据和所述文本数据进行存储。

例如，单条语音数据播放内容为“空中有雷暴天气，尽快降落”，那么通过语音识别算法识别之后的文字内容为“空中有雷暴天气”、“，”、“尽快降落”。因此最后通过语音文本拼接操作对上述识别出来的文本内容见进行拼接得到“空中有雷暴天气，尽快降落”的文本数据，进而向飞行员进行显示，提示飞行员尽快进行降落。

展示模块26，用于将所述单条语音数据和所述文本数据进行展示。

可选的，所述展示模块包括：播放单元，用于播放所述单条语音数据；显示单元，用于根据播放的所述单条语音数据，将对应的所述文本数据进行显示。

可选的，所述单条语音数据的播放次数为至少一次。

上述一种机上信息辅助方法包括：获取目标语音数据；将所述目标语音数据进行切分，得到单条语音数据；根据所述单条语音数据进行语音识别，生成文本数据；将所述单条语音数据和所述文本数据进行展示。

根据本发明实施例的另一方面，还提供了一种非易失性存储介质，所述非易失性存储介质包括存储的程序，其中，所述程序运行时控制非易失性存储介质所在的设备执行一种机上信息辅助方法。

上述本发明实施例序号仅仅为了描述，不代表实施例的优劣。

在本发明的上述实施例中，对各个实施例的描述都各有侧重，某个实施例中没有详述的部分，可以参见其他实施例的相关描述。

在本申请所提供的几个实施例中，应该理解到，所揭露的技术内容，可通过其它的方式实现。其中，以上所描述的装置实施例仅仅是示意性的，例如所述单元的划分，可以为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，单元或模块的间接耦合或通信连接，可以是电性或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本发明各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

所述集成的单元如果以软件功能单元的形式实现，并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可为个人计算机、服务器或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、移动硬盘、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述仅是本发明的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视为本发明的保护范围。

Claims

一种机上信息辅助方法，其特征在于，包括：

获取目标语音数据；

将所述目标语音数据进行切分，得到单条语音数据；

根据所述单条语音数据进行语音识别，生成文本数据；

将所述单条语音数据和所述文本数据进行展示。
根据权利要求1所述的方法，其特征在于，所述目标语音数据是通过语音通信链路捕获的陆空语音实时通话数据。
根据权利要求1所述的方法，其特征在于，所述将所述目标语音数据进行切分，得到的单条语音数据包括：

根据所述目标语音数据，获取语音信息熵，其中，所述语音信息熵表征所述目标语音数据的复杂度；

根据所述语音信息熵，对所述目标语音数据中的语句进行断句和切分；

将切分后的语音数据作为所述单条语音数据进行输出。
根据权利要求1所述的方法，其特征在于，在所述根据所述单条语音数据进行语音识别，生成文本数据之后，所述方法还包括：

将所述单条语音数据和所述文本数据进行存储。
根据权利要求1所述的方法，其特征在于，所述将所述单条语音数据和所述文本数据进行展示包括：

播放所述单条语音数据；

根据播放的所述单条语音数据，将对应的所述文本数据进行显示。
根据权利要求5所述的方法，其特征在于，所述单条语音数据的播放次数为至少一次。
一种机上信息辅助装置，其特征在于，包括：

获取模块，用于获取目标语音数据；

切分模块，用于切分所述目标语音数据，得到单条语音数据；

文本模块，用于对所述单条语音数据进行语音识别，生成文本数据；

展示模块，用于展示所述单条语音数据和所述文本数据。
根据权利要求7所述的装置，其特征在于，所述目标语音数据，是通过语音通信链路捕获的陆空语音实时通话数据。
根据权利要求7所述的装置，其特征在于，所述切分模块包括：

获取单元，用于根据所述目标语音数据，获取语音信息熵，其中，所述语音信息熵表征所述目标语音数据的复杂度；

切分单元，用于根据所述语音信息熵，对所述目标语音数据中的语句进行断句和切分；

输出单元，用于将切分后的语音数据作为所述单条语音数据进行输出。
根据权利要求7所述的装置，其特征在于，所述装置还包括：

存储单元，用于存储所述单条语音数据和所述文本数据。