WO2019214456A1 - 一种肢体语言翻译系统、方法及服务器 - Google Patents

一种肢体语言翻译系统、方法及服务器 Download PDF

Info

Publication number
WO2019214456A1
WO2019214456A1 PCT/CN2019/084441 CN2019084441W WO2019214456A1 WO 2019214456 A1 WO2019214456 A1 WO 2019214456A1 CN 2019084441 W CN2019084441 W CN 2019084441W WO 2019214456 A1 WO2019214456 A1 WO 2019214456A1
Authority
WO
WIPO (PCT)
Prior art keywords
terminal device
text
limb
video
translated
Prior art date
Application number
PCT/CN2019/084441
Other languages
English (en)
French (fr)
Inventor
张运军
Original Assignee
深圳双猴科技有限公司
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 深圳双猴科技有限公司 filed Critical 深圳双猴科技有限公司
Publication of WO2019214456A1 publication Critical patent/WO2019214456A1/zh

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/24Speech recognition using non-acoustical features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/20Movements or behaviour, e.g. gesture recognition
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/02Methods for producing synthetic speech; Speech synthesisers
    • G10L13/027Concept to speech synthesisers; Generation of natural phrases from machine-based concepts
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/08Text analysis or generation of parameters for speech synthesis out of text, e.g. grapheme to phoneme translation, prosody generation or stress or intonation determination
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/28Constructional details of speech recognition systems
    • G10L15/30Distributed recognition, e.g. in client-server systems, for mobile phones or network applications
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0216Noise filtering characterised by the method used for estimating noise
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L65/00Network arrangements, protocols or services for supporting real-time applications in data packet communication
    • H04L65/60Network streaming of media packets
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L67/00Network arrangements or protocols for supporting network services or applications
    • H04L67/01Protocols
    • H04L67/10Protocols in which an application is distributed across nodes in the network
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0216Noise filtering characterised by the method used for estimating noise
    • G10L2021/02161Number of inputs available containing the signal or the noise to be suppressed
    • G10L2021/02166Microphone arrays; Beamforming

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Health & Medical Sciences (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Acoustics & Sound (AREA)
  • Signal Processing (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Quality & Reliability (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • General Health & Medical Sciences (AREA)
  • Psychiatry (AREA)
  • Social Psychology (AREA)
  • General Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Machine Translation (AREA)
  • User Interface Of Digital Computer (AREA)

Abstract

一种肢体语言翻译系统,包括终端设备与云端分布式服务;终端设备通过网络与云端分布式服务连接;其中,终端设备包括:阵列麦克风、摄像头、身体动作感知模块、声音输入模块;云端分布式服务包括:肢体识别服务、肢体翻译服务、肢体合成服务、语音识别服务、语音合成以及机器翻译。该系统通过将肢体动作转换为对应的文字或语音,实现了翻译的多样化,对于具有语言障碍的人员或者外国人起到了很好的辅助作用,实现了其与他人的正常沟通。

Description

一种肢体语言翻译系统、方法及服务器
相关申请的交叉引用
本申请要求于2018年05月11日提交中国专利局的申请号为201810448643.0、名称为“一种肢体语言翻译系统及方法”的中国专利申请的优先权,其全部内容通过引用结合在本申请中。
技术领域
本申请实施方式涉及信息技术领域,特别是涉及一种肢体语言翻译系统、方法及服务器。
背景技术
通常正常人与聋哑人士沟通时需要学习一套手语,手语的学习需要花费相当大的精力及相当长的时间。另外,大多数手语的表达方式因国籍或地区的不同而不同,故与不同国籍或地区的聋哑人士进行交流也存在沟通的问题。
发明内容
为至少解决上述技术问题,本申请提供一种肢体语言翻译系统,包括终端设备与云端分布式服务;终端设备通过网络与云端分布式服务连接;
其中,终端设备包括:阵列麦克风、摄像头、身体动作感知模块、声音输入模块;
云端分布式服务包括:肢体识别服务、肢体翻译服务、肢体合成服务、语音识别服务、语音合成以及机器翻译。
本申请还提供一种肢体语言翻译方法,包括:
身体动作感知模块通过摄像头检测人体身体动作信息,并形成肢体视频流传输到云端分布式服务;
云端分布式服务中的肢体识别服务通过滤波,降噪处理,视频流特征提取,通过视频解码所传过来视频流,然后识别成所表达意思文本,接着由肢体翻译服务形成原文本,原文本再通过机器翻译通过nlp二次语义处理后,翻译成目标语言;
生成所要的目标语言后,经过语音合成服务合成声音回传到终端设备播放声音。
本申请还提供一种肢体语言翻译方法,包括:
语音识别引擎通过阵列式麦克风进行语音降噪;
接着将语音数据流传输至云端分布式服务,云端分布式服务中的语音识别服务进行提取特征值,解码语音流为文本,配合语音模型最终识别出语音对应文本,肢体生成服务,把识别出的语音对应文本转化为动作编码再合成身体动作视频流;
最后,该身体动作视频流回传到终端设备中进行播放。
本申请还提供一种肢体语言翻译方法,应用于服务器,所述方法包括:
接收终端设备采集的肢体动作视频;
对所述肢体动作视频进行识别,获得与该肢体动作视频对应的自然语言文本;
生成与所述自然语言文本对应的合成语音并发送给终端设备。
可选地,在上述方法中,所述方法还包括:
接收终端设备发送的地域设置信息,根据所述地域设置信息确定相应的肢体动作翻译模型;
所述对所述肢体动作视频进行识别,获得与该肢体动作视频对应的自然语言文本的步骤,包括:
通过所述肢体动作翻译模型对所述肢体动作视频进行特征提取及识别,获得对应的动作语义;
将所述动作语义转换为的自然语言文本。
可选地,在上述方法中,所述对所述肢体动作视频进行识别,获得与该肢体动作视频对应的自然语言文本的步骤,包括:
通过翻译模型对所述肢体动作视频进行识别,获得动作语义;
通过地域校正模型对所述动作语义进行识别校正得到自然语言文本,所述地域校正模型配置成校正不同地域之间肢体动作对应的动作语义的差别。
可选地,在上述方法中,所述肢体动作翻译模型为预选训练的深度神经网络模型。
可选地,在上述方法中,所述方法还包括:
接收移动终端发送的目标语言种类;
将从所述肢体动作视频识别出的自然语言文本转为与所述目标语言种类对应的自然语言文本。
可选地,在上述方法中,所述方法还包括:
接收终端设备发送的待翻译语音;
将所述待翻译语音转换为待翻译文本;
对所述待翻译文本进行识别,确认对应的肢体动作编码;
根据所述肢体动作编码生成与所述待翻译文本对应的肢体语言视频发送给所述终端设备。
可选地,在上述方法中,所述方法还包括:
接收终端设备发送的地域设置信息,根据所述地域设置信息确定相应的文本翻译模型;
所述对所述待翻译文本进行识别,确认对应的肢体动作编码的步骤,包括:
通过所述文本翻译模型对所述待翻译文本进行识别,确认对应的肢体动作编码。
本申请还提供一种肢体语言翻译方法,应用于包括终端设备和服务器的肢体语言翻译系统,所述方法包括:
所述终端设备采集待翻译的肢体动作视频并发送给所述服务器;
所述服务器对所述肢体动作视频进行识别,获得与该肢体动作视频对应的自然语言文本;
所述服务器通过语音合成服务生成与所述自然语言文本对应的合成语音并发送给终端设备;
所述终端设备播放翻译后的所述合成语音。
可选地,在上述方法中,所述方法还包括:
所述终端设备采集待翻译语音并发送给所述服务器;
所述服务器将所述待翻译语音转换为待翻译文本;
所述服务器对所述待翻译文本进行识别,确认对应的肢体动作编码;
所述服务器根据所述肢体动作编码生成与所述待翻译文本对应的肢体语言视频发送给所述终端设备;
所述终端设备显示翻译后的上述肢体语言视频。
可选地,在上述方法中,所述终端设备采集待翻译的肢体动作视频并发送给所述服务器的步骤包括:
所述终端设备通过摄像头采集所述肢体动作视频并发送给所述服务器。
可选地,在上述方法中,所述终端设备采集待翻译的肢体动作视频并发送给所述服务器的步骤包括:
所述终端设备通过深度传感器采集所述肢体动作视频并发送给所述服务器。
本申请还提供一种服务器,其特征在于,包括机器可读存储介质及处理器,所述机器可读存储介质存储有机器可执行指令,所述机器可执行指令在被所述处理器执行时,实现本申请提供的肢体语言翻译方法。
本申请还提供一种肢体语言翻译系统,包括终端设备及服务器,所述终端设备与所述服务器相互配合实现本申请提供的肢体语言翻译方法。
附图说明
图1是本申请实施例提供的一种肢体语言翻译系统的结构框图。
图2是本申请实施例提供的一种肢体语言翻译系统的交互示意图。
图3是本申请实施例提供的服务器的结构示意图。
图4是本申请实施例提供的一种肢体语言翻译方法的流程示意图之一。
图5是本申请实施例提供的一种肢体语言翻译方法的流程示意图之二。
图6是本申请实施例提供的一种肢体语言翻译方法的流程示意图之三。
图7是本申请实施例提供的一种肢体语言翻译方法的流程示意图之四。
具体实施方式
为了便于理解本申请,下面结合附图和具体实施方式,对本申请进行更详细的说明。需要说明的是,当元件被表述“固定于”另一个元件,它可以直接在另一个元件上、或者其间可以存在一个或多个居中的元件。当一个元件被表述“连接”另一个元件,它可以是直接连接到另一个元件、或者其间可以存在一个或多个居中的元件。本说明书所使用的术语“垂直的”、“水平的”、“左”、“右”以及类似的表述只是为了说明的目的。
除非另有定义,本说明书所使用的所有的技术和科学术语与属于本申请的技术领域的技术人员通常理解的含义相同。本说明书中在本申请的说明书中所使用的术语只是为了描述具体的实施方式的目的,不是用于限制本申请。本说明书所使用的术语“和/或”包括一个或多个相关的所列项目的任意的和所有的组合。
如图1,一种肢体语言翻译系统,包括终端设备与云端分布式服务。终端设备通过网络与云端分布式服务连接,该云端分布式服务可以由运行于一个或多个服务器上的服务组成。
换句话说,请参照图2,本实施例提供的肢体语言翻译系统10可以包括终端设200及服务器100(或多个服务器100组成的服务器集群)。
其中,终端设备可以包括:肢体动作视频采集模块(如摄像头或深度传感器)、声音输入模块及显示模块等,终端设备的可读存储介质中还可以存储有身体动作感知模块相关的机器可执行指令。肢体动作视频采集模块(如摄像头或深度传感器)、声音输入模块及显示模块等可以集成在终端设备。
云端分布式服务包括:肢体识别服务、肢体翻译服务、肢体合成服务、语音识别服务、语音合成以及机器翻译。请参照图3,搭载该云端分布式服务的服务器100(或服务器集群中的多个服务器100)可以包括机器可读存储介质120及处理器130,机器可读存储介质120中存储有机器可执行的指令,处理器130在执行机器可执行指令时,促使服务器100(或服务器集群中的多个服务器100)实现本实施例提供的肢体语言翻译方法。
进行肢体语言翻译时,身体动作感知模块通过肢体动作视频采集模块(如摄像头或深度传感器)检测人体身体动作信息,并形成肢体视频流传输到云端分布式服务。由云端分布式服务中的肢体识别服务通过滤波,降噪处理,视频流特征提取,通过视频解码所传过来视频流,然后识别成所表达意思文本,接着由肢体翻译服务形成原文本,原文本再通过机器翻译通过nlp二次语义处理后,翻译成目标语言。生成所要的目标语言后,经过语音 合成服务合成声音回传到终端设备播放声音。
进一步的,肢体识别服务通过深度神经网络训练动作模型,在有识别动作视频流过来通过视频流特征值提取,通过解码器解码动作语义,并通过语言模型进行校准,最终得到所表达文本,肢体识别服务主要把文本翻译成对应动作编码,并合成视频流动态播放身体动作视频。
将语音翻译成肢体语言时,声音输入模块通过阵列式麦克风进行语音降噪,具体为进行VAD(静音检测)和过滤非人声。接着将语音数据流传输至云端分布式服务,云端分布式服务中的语音识别服务进行提取特征值,解码语音流为文本,配合语音模型最终识别出语音对应文本,肢体生成服务,把识别出的语音对应文本转化为动作编码再合成身体动作视频流;最后,该身体动作视频流回传到终端设备中进行播放。
云端分布式服务主要采用深度神经网络,CNN、LSTM、CTC技术实现。
一种肢体语言翻译方法,基于上述的肢体语言翻译系统实现,在进行肢体语言翻译时,包括:
身体动作感知模块通过摄像头检测人体身体动作信息,并形成肢体视频流传输到云端分布式服务。
云端分布式服务中的肢体识别服务通过滤波,降噪处理,视频流特征提取,通过视频解码所传过来视频流,然后识别成所表达意思文本,接着由肢体翻译服务形成原文本,原文本再通过机器翻译通过nlp二次语义处理后,翻译成目标语言。生成所要的目标语言后,经过语音合成服务合成声音回传到终端设备播放声音。
进一步的,肢体识别服务通过深度神经网络训练动作模型,在有识别动作视频流过来通过视频流特征值提取,通过解码器解码动作语义,并通过语言模型进行校准,最终得到所表达文本,文本翻译成对应动作编码,并合成视频流动态播放身体动作视频。
在语音翻译成肢体语言时,包括:
语音识别引擎通过阵列式麦克风进行语音降噪,具体为进行VAD(静音检测)和过滤非人声。
接着将语音数据流传输至云端分布式服务,云端分布式服务中的语音识别服务进行提取特征值,解码语音流为文本,配合语音模型最终识别出语音对应文本,肢体生成服务,把识别出的语音对应文本转化为动作编码再合成身体动作视频流。
最后,该身体动作视频流回传到终端设备中进行播放。
请参见图4,本实施例提供的应用于图2所示服务器100的肢体语言翻译方法可以包括步骤S110到步骤S130。
步骤S110,接收终端设备采集的肢体动作视频。
步骤S120,对肢体动作视频进行识别,获得与该肢体动作视频对应的自然语言文本。
步骤S130,生成与自然语言文本对应的合成语音并发送给终端设备。
可选地,在本实施例中,服务器中可以配置有进行肢体语言翻译的肢体动作翻译模型,该肢体动作翻译模型翻译为深度神经网络模型,配置成对肢体动作视频进行特征提取的识别,以确定肢体动作对应的动作语义。然后服务器对各个肢体动作对应的动作语义进行自然语言处理(Natural Language Processing,NLP)生成自然语言文本,并根据自然语言文本生成合成语音发送给终端设备。
如此,用户可以通过终端设备拍摄肢体动作视频发送给服务器进行翻译,获得翻译后的合成语音,从而方便了不了解肢体语言的用户与使用肢体语言的人群之间的交流。
可选地,由于不同地区的肢体语言可能存在着一些差异,例如,肢体语言中相同的动作可能在不同的地区代表着不同的含义,本实施例提供的肢体语言翻译方法可以根据不同地域对翻译过程进行调整。
在本实施例的一个示例中,服务器还可以接收终端设备发送的地域设置信息,根据地域设置信息确定相应的肢体动作翻译模型。例如,用户可以在终端设备上选择待翻译的肢体语言属于哪个地域,终端设备根据用户的选择生成地域设置信息发送给服务器,服务器可以根据地域设置信息确定相应的肢体动作翻译模型。
然后在步骤S120中,服务器可以通过肢体动作翻译模型对肢体动作视频进行特征提取及识别,获得对应的动作语义。然后,将动作语义转换为的自然语言文本。
在本实施例的另一个示例中,服务器还可以配置有地域校正模型。服务器通过翻译模型对肢体语言视频进行识别,获得动作语义。然后通过地域校正模型对动作语义进行识别校正得到自然语言文本,地域校正模型配置成校正不同地域之间人体动作对应的动作语义的差别。
其中,地域校正模型可以对根据肢体语言翻译出的动作语义进行识别校正,自动地确定肢体语言对应的地域并对应翻译出的自然语言文本进行校正,使翻译结果更加准确。
可选地,在本实施例中,服务器开可以接收移动终端发送的目标语言种类信息,然后将肢体语言视频识别出的自然语言文本转为与目标语言种类对应的自然语言文本。例如,用户可以在终端设备上选择需要将肢体语言视频翻译为哪种国家的语音,终端设备根据用户的选择告知服务器用户需要的目标语言种类,然后服务器在将翻译出的自然语言文本转换为用户选择的语言,并合成对应的语音发送给终端设备。
可选地,请参照图5,本实施例提供的应用于图2所示服务器100的肢体语言翻译方法还可以包括步骤S210到步骤S240。
步骤S210,接收终端设备发送的待翻译语音。
步骤S220,将待翻译语音转换为待翻译文本。
步骤S230,对待翻译文本进行识别,确认对应的肢体动作编码。
步骤S240,根据肢体动作编码生成与待翻译文本对应的肢体语言视频发送给终端设备。
例如,用户可以通过终端设备录制待翻译的语音信息并发送给服务器,服务器通过语音识别服务将接收到的待翻译语音转换为待翻译文本。然后服务器根据待翻译文本确定对应的动作编码,并根据动作编码通过肢体语言合成服务生成对应的肢体语言视频发送给终端设备。用户可以再通过终端设备对翻译出的肢体语言视频进行展示。
可选地,在本实施例中,服务器还可以接收终端设备发送的地域设置信息,根据地域设置信息确定相应的文本翻译模型,然后通过文本翻译模型对待翻译文本进行识别,确认对应的肢体动作编码。如此,可以将待翻译语音转换为用户选定的地域的肢体语言。
相应地,请参照图6,本实施例还提供一种应用于图4所示肢体翻译系统的肢体语言翻译方法,该方法可以包括以下步骤。
步骤S310,终端设备采集待翻译的肢体动作视频并发送给服务器。
步骤S320,服务器对肢体动作视频进行识别,获得与该肢体动作视频对应的自然语言文本。
步骤S330,服务器通过语音合成服务生成与自然语言文本对应的合成语音并发送给终端设备。
步骤S340,端设备播放翻译后的合成语音。
其中,服务器的执行动作请参见图4所示的步骤,在此不再赘述。
可选地,在本实施例的一个示例中,终端设备可以通过摄像头采集肢体动作视频并发送给服务器。在本实施例的另一个示例中,终端设备可以通过深度传感器采集肢体动作视频并发送给服务器。
可选地,请参照图7,本实施例还提供的应用于图2所示肢体翻译系统的肢体语言翻译方法,还可以包括以下步骤。
步骤S410,终端设备采集待翻译语音并发送给服务器。
步骤S420,服务器将待翻译语音转换为待翻译文本。
步骤S430,服务器对待翻译文本进行识别,确认对应的肢体动作编码。
步骤S440,服务器根据肢体动作编码生成与待翻译文本对应的肢体语言视频发送给终端设备。
步骤S450,终端设备显示翻译后的上述肢体语言视频。
其中,服务器的执行动作请参见图5所示的步骤,在此不再赘述。
区别于现有技术,本申请实施例提供的一种肢体语言翻译系统及方法,通过对身体动作的识别,并将其转换为对应的文字或语音,实现了翻译的多样化,对于具有语言障碍的人员或者外国人起到了很好的辅助作用,帮助其与他人能够正常沟通。
本申请实施例还提供了一种计算机程序产品,所述计算机程序产品包括存储在非易失性计算机可读存储介质上的计算机程序,所述计算机程序包括程序指令,当所述程序指令被计算机执行时,使所述计算机执行如上所述的方法。
以上所描述的装置实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。
通过以上的实施方式的描述,本领域普通技术人员可以清楚地了解到各实施方式可借助软件加通用硬件平台的方式来实现,当然也可以通过硬件。本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程是可以通过计算机程序来指令相关的硬件来完成,所述的程序可存储于一计算机可读取存储介质中,该程序在执行时,可包括如上述各方法的实施例的流程。其中,所述的存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory,ROM)或随机存储记忆体(Random Access Memory,RAM)等。
需要说明的是,本申请的说明书及其附图中给出了本申请的的实施方式,但是,本申请可以通过许多不同的形式来实现,并不限于本说明书所描述的实施方式,这些实施方式不作为对本申请内容的额外限制,提供这些实施方式的目的是使对本申请的公开内容的理解更加透彻全面。并且,上述各技术特征继续相互组合,形成未在上面列举的各种实施方式,均视为本申请说明书记载的范围;进一步地,对本领域普通技术人员来说,可以根据上述说明加以改进或变换,而所有这些改进和变换都应属于本申请所附权利要求的保护范围。
工业实用性
本申请实施例提供的一种肢体语言翻译系统、方法及服务器,通过服务器将终端设备采集的肢体语言视频翻译为语音发送给终端设备,或通过服务器将终端设备采集的语音翻译为肢体语言视频发送给终端设备,从而方便了用户与使用肢体语言的人群之间的沟通交流。并且本实施例提供的方案还可以根据不同的地域调整翻译结果,使翻译结果更加准确。

Claims (17)

  1. 一种肢体语言翻译系统,其特征在于,包括终端设备与云端分布式服务;终端设备通过网络与云端分布式服务连接;
    其中,终端设备包括:阵列麦克风、摄像头、身体动作感知模块、声音输入模块;
    云端分布式服务包括:肢体识别服务、肢体翻译服务、肢体合成服务、语音识别服务、语音合成以及机器翻译。
  2. 一种肢体语言翻译方法,其特征在于,包括:
    身体动作感知模块通过摄像头检测人体身体动作信息,并形成肢体视频流传输到云端分布式服务;
    云端分布式服务中的肢体识别服务通过滤波,降噪处理,视频流特征提取,通过视频解码所传过来视频流,然后识别成所表达意思文本,接着由肢体翻译服务形成原文本,原文本再通过机器翻译通过nlp二次语义处理后,翻译成目标语言;
    生成所要的目标语言后,经过语音合成服务合成声音回传到终端设备播放声音。
  3. 根据权利要求2所述的方法,其特征在于,肢体识别服务通过深度神经网络训练动作模型,在有识别动作视频流过来通过视频流特征值提取,通过解码器解码动作语义,并通过语言模型进行校准,最终得到所表达文本,文本翻译成对应动作编码,并合成视频流动态播放身体动作视频。
  4. 一种肢体语言翻译方法,其特征在于,包括:
    语音识别引擎通过阵列式麦克风进行语音降噪;
    接着将语音数据流传输至云端分布式服务,云端分布式服务中的语音识别服务进行提取特征值,解码语音流为文本,配合语音模型最终识别出语音对应文本,肢体生成服务,把识别出的语音对应文本转化为动作编码再合成身体动作视频流;
    最后,该身体动作视频流回传到终端设备中进行播放。
  5. 一种肢体语言翻译方法,其特征在于,应用于服务器,所述方法包括:
    接收终端设备采集的肢体动作视频;
    对所述肢体动作视频进行识别,获得与该肢体动作视频对应的自然语言文本;
    生成与所述自然语言文本对应的合成语音并发送给终端设备。
  6. 根据权利要求5所述的方法,其特征在于,所述方法还包括:
    接收终端设备发送的地域设置信息,根据所述地域设置信息确定相应的肢体动作翻译模型;
    所述对所述肢体动作视频进行识别,获得与该肢体动作视频对应的自然语言文本 的步骤,包括:
    通过所述肢体动作翻译模型对所述肢体动作视频进行特征提取及识别,获得对应的动作语义;
    将所述动作语义转换为的自然语言文本。
  7. 根据权利要求5所述的方法,其特征在于,所述对所述肢体动作视频进行识别,获得与该肢体动作视频对应的自然语言文本的步骤,包括:
    通过翻译模型对所述肢体动作视频进行识别,获得动作语义;
    通过地域校正模型对所述动作语义进行识别校正得到自然语言文本,所述地域校正模型配置成校正不同地域之间肢体动作对应的动作语义的差别。
  8. 根据权利要求6或7所述的方法,其特征在于,所述肢体动作翻译模型为预选训练的深度神经网络模型。
  9. 根据权利要求5所述的方法,其特征在于,所述方法还包括:
    接收移动终端发送的目标语言种类;
    将从所述肢体动作视频识别出的自然语言文本转为与所述目标语言种类对应的自然语言文本。
  10. 根据权利要求1所述的方法,其特征在于,所述方法还包括:
    接收终端设备发送的待翻译语音;
    将所述待翻译语音转换为待翻译文本;
    对所述待翻译文本进行识别,确认对应的肢体动作编码;
    根据所述肢体动作编码生成与所述待翻译文本对应的肢体语言视频发送给所述终端设备。
  11. 根据权利要求10所述的方法,其特征在于,所述方法还包括:
    接收终端设备发送的地域设置信息,根据所述地域设置信息确定相应的文本翻译模型;
    所述对所述待翻译文本进行识别,确认对应的肢体动作编码的步骤,包括:
    通过所述文本翻译模型对所述待翻译文本进行识别,确认对应的肢体动作编码。
  12. 一种肢体语言翻译方法,其特征在于,应用于包括终端设备和服务器的肢体语言翻译系统,所述方法包括:
    所述终端设备采集待翻译的肢体动作视频并发送给所述服务器;
    所述服务器对所述肢体动作视频进行识别,获得与该肢体动作视频对应的自然语言文本;
    所述服务器通过语音合成服务生成与所述自然语言文本对应的合成语音并发送给 终端设备;
    所述终端设备播放翻译后的所述合成语音。
  13. 根据权利要求12所述的方法,其特征在于,所述方法还包括:
    所述终端设备采集待翻译语音并发送给所述服务器;
    所述服务器将所述待翻译语音转换为待翻译文本;
    所述服务器对所述待翻译文本进行识别,确认对应的肢体动作编码;
    所述服务器根据所述肢体动作编码生成与所述待翻译文本对应的肢体语言视频发送给所述终端设备;
    所述终端设备显示翻译后的上述肢体语言视频。
  14. 根据权利要求12所述的方法,其特征在于,所述终端设备采集待翻译的肢体动作视频并发送给所述服务器的步骤包括:
    所述终端设备通过摄像头采集所述肢体动作视频并发送给所述服务器。
  15. 根据权利要求12所述的方法,其特征在于,所述终端设备采集待翻译的肢体动作视频并发送给所述服务器的步骤包括:
    所述终端设备通过深度传感器采集所述肢体动作视频并发送给所述服务器。
  16. 一种服务器,其特征在于,包括机器可读存储介质及处理器,所述机器可读存储介质存储有机器可执行指令,所述机器可执行指令在被所述处理器执行时,实现权利要求4-12任意一项所述的方法。
  17. 一种肢体语言翻译系统,其特征在于,包括终端设备及服务器,所述终端设备与所述服务器相互配合实现权利要求13-15任意一项所述的方法。
PCT/CN2019/084441 2018-05-11 2019-04-26 一种肢体语言翻译系统、方法及服务器 WO2019214456A1 (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
CN201810448643.0 2018-05-11
CN201810448643.0A CN108766433A (zh) 2018-05-11 2018-05-11 一种肢体语言翻译系统及方法

Publications (1)

Publication Number Publication Date
WO2019214456A1 true WO2019214456A1 (zh) 2019-11-14

Family

ID=64010100

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/CN2019/084441 WO2019214456A1 (zh) 2018-05-11 2019-04-26 一种肢体语言翻译系统、方法及服务器

Country Status (2)

Country Link
CN (1) CN108766433A (zh)
WO (1) WO2019214456A1 (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113470614A (zh) * 2021-06-29 2021-10-01 维沃移动通信有限公司 语音生成方法、装置和电子设备
CN113822186A (zh) * 2021-09-10 2021-12-21 阿里巴巴达摩院(杭州)科技有限公司 手语翻译、客服、通信方法、设备和可读介质
CN116702801A (zh) * 2023-08-07 2023-09-05 深圳市微星智造科技有限公司 翻译方法、装置、设备及存储介质

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108766433A (zh) * 2018-05-11 2018-11-06 深圳双猴科技有限公司 一种肢体语言翻译系统及方法
CN110133872A (zh) * 2019-05-24 2019-08-16 中国人民解放军东部战区总医院 一种能够实现多语言互译的智能眼镜
CN110163181B (zh) * 2019-05-29 2021-07-06 中国科学技术大学 手语识别方法及装置
CN111144287B (zh) * 2019-12-25 2023-06-09 Oppo广东移动通信有限公司 视听辅助交流方法、装置及可读存储介质
CN111428769A (zh) * 2020-03-18 2020-07-17 周升志 一种软件设计宠物行为语言的人工智能翻译系统

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO1998053438A1 (en) * 1997-05-20 1998-11-26 At & T Corp. Segmentation and sign language synthesis
CN101594434A (zh) * 2009-06-16 2009-12-02 中兴通讯股份有限公司 移动终端的手语处理方法和手语处理移动终端
CN101794528A (zh) * 2010-04-02 2010-08-04 北京大学软件与微电子学院无锡产学研合作教育基地 一种手语语音双向翻译系统
US20110116608A1 (en) * 2009-11-18 2011-05-19 Gwendolyn Simmons Method of providing two-way communication between a deaf person and a hearing person
CN103116576A (zh) * 2013-01-29 2013-05-22 安徽安泰新型包装材料有限公司 一种语音手势交互翻译装置及其控制方法
CN104125548A (zh) * 2013-04-27 2014-10-29 中国移动通信集团公司 一种对通话语言进行翻译的方法、设备和系统
CN108766433A (zh) * 2018-05-11 2018-11-06 深圳双猴科技有限公司 一种肢体语言翻译系统及方法

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO1998053438A1 (en) * 1997-05-20 1998-11-26 At & T Corp. Segmentation and sign language synthesis
CN101594434A (zh) * 2009-06-16 2009-12-02 中兴通讯股份有限公司 移动终端的手语处理方法和手语处理移动终端
US20110116608A1 (en) * 2009-11-18 2011-05-19 Gwendolyn Simmons Method of providing two-way communication between a deaf person and a hearing person
CN101794528A (zh) * 2010-04-02 2010-08-04 北京大学软件与微电子学院无锡产学研合作教育基地 一种手语语音双向翻译系统
CN103116576A (zh) * 2013-01-29 2013-05-22 安徽安泰新型包装材料有限公司 一种语音手势交互翻译装置及其控制方法
CN104125548A (zh) * 2013-04-27 2014-10-29 中国移动通信集团公司 一种对通话语言进行翻译的方法、设备和系统
CN108766433A (zh) * 2018-05-11 2018-11-06 深圳双猴科技有限公司 一种肢体语言翻译系统及方法

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113470614A (zh) * 2021-06-29 2021-10-01 维沃移动通信有限公司 语音生成方法、装置和电子设备
CN113822186A (zh) * 2021-09-10 2021-12-21 阿里巴巴达摩院(杭州)科技有限公司 手语翻译、客服、通信方法、设备和可读介质
CN116702801A (zh) * 2023-08-07 2023-09-05 深圳市微星智造科技有限公司 翻译方法、装置、设备及存储介质
CN116702801B (zh) * 2023-08-07 2024-04-05 深圳市微星智造科技有限公司 翻译方法、装置、设备及存储介质

Also Published As

Publication number Publication date
CN108766433A (zh) 2018-11-06

Similar Documents

Publication Publication Date Title
WO2019214456A1 (zh) 一种肢体语言翻译系统、方法及服务器
US9530415B2 (en) System and method of providing speech processing in user interface
JP6084654B2 (ja) 音声認識装置、音声認識システム、当該音声認識システムで使用される端末、および、話者識別モデルを生成するための方法
JP2020034895A (ja) 応答方法及び装置
US20180315438A1 (en) Voice data compensation with machine learning
JP6122792B2 (ja) ロボット制御装置、ロボット制御方法及びロボット制御プログラム
US11017001B2 (en) Apparatus, systems and methods for providing conversational assistance
JP2019533181A (ja) 通訳装置及び方法(device and method of translating a language)
US20180288109A1 (en) Conference support system, conference support method, program for conference support apparatus, and program for terminal
CN112967713A (zh) 一种基于多次模态融合的视听语音识别方法、装置、设备和存储介质
CN116524791A (zh) 一种基于元宇宙的唇语学习辅助训练系统及其应用
CN114064943A (zh) 会议管理方法、装置、存储介质及电子设备
US20180033432A1 (en) Voice interactive device and voice interaction method
JP6598369B2 (ja) 音声管理サーバー装置
KR102232642B1 (ko) 스토리 컨텐츠에 대한 음향 효과를 제공하는 미디어 재생 장치 및 음성 인식 서버
JP6306447B2 (ja) 複数の異なる対話制御部を同時に用いて応答文を再生する端末、プログラム及びシステム
JP2017191531A (ja) コミュニケーションシステム、サーバ及びコミュニケーション方法
JP7130290B2 (ja) 情報抽出装置
WO2019150708A1 (ja) 情報処理装置、情報処理システム、および情報処理方法、並びにプログラム
JP2017021245A (ja) 語学学習支援装置、語学学習支援方法および語学学習支援プログラム
KR102605178B1 (ko) 가족 관계에 기초하여 음성 데이터를 생성하는 장치, 방법 및 컴퓨터 프로그램
CN113301352B (zh) 在视频播放期间进行自动聊天
CN116561294A (zh) 手语视频的生成方法、装置、计算机设备及存储介质
KR20170127354A (ko) 페이셜 모션 캡쳐를 이용한 얼굴 변환 화상 대화 장치 및 방법
CN111090704A (zh) 一种基于区块链技术的语言口语自助学习系统

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 19798879

Country of ref document: EP

Kind code of ref document: A1

NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 19798879

Country of ref document: EP

Kind code of ref document: A1