WO2020048143A1 - 基于机器学习的同声传译方法及装置 - Google Patents

基于机器学习的同声传译方法及装置 Download PDF

Info

Publication number
WO2020048143A1
WO2020048143A1 PCT/CN2019/083763 CN2019083763W WO2020048143A1 WO 2020048143 A1 WO2020048143 A1 WO 2020048143A1 CN 2019083763 W CN2019083763 W CN 2019083763W WO 2020048143 A1 WO2020048143 A1 WO 2020048143A1
Authority
WO
WIPO (PCT)
Prior art keywords
speech
target person
machine learning
words
language
Prior art date
Application number
PCT/CN2019/083763
Other languages
English (en)
French (fr)
Inventor
梁志军
Original Assignee
满金坝(深圳)科技有限公司
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 满金坝(深圳)科技有限公司 filed Critical 满金坝(深圳)科技有限公司
Publication of WO2020048143A1 publication Critical patent/WO2020048143A1/zh

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/263Language identification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/40Processing or translation of natural language
    • G06F40/58Use of machine translation, e.g. for multi-lingual retrieval, for server-side translation for client devices or for real-time translation
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/02Methods for producing synthetic speech; Speech synthesisers
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/005Language recognition
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/02Feature extraction for speech recognition; Selection of recognition unit
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/065Adaptation
    • G10L15/07Adaptation to the speaker
    • G10L15/075Adaptation to the speaker supervised, i.e. under machine guidance
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use

Definitions

  • the present application relates to the field of data processing technology, and in particular, to a method and device for simultaneous interpretation based on machine learning.
  • Simultaneous interpretation means that the speaker's language is translated into different languages while the speaker is speaking. 5 Seeing that the simultaneous interpretation of technology is mostly realized manually, however, artificial interpretation often requires higher requirements for translators, resulting in scarcity of this part of talents. At present, more and more occasions, such as international conferences, require simultaneous interpretation. The manual interpretation of simultaneous interpretation cannot meet the needs of the market. In recent years, there are also some translation products on the market, such as translators. Translators can be used to translate speech into various languages, but the translation takes longer and the output of machine language is more rigid, resulting in poor user experience.
  • the main object of the present application is to provide a method and device for simultaneous interpretation based on machine learning.
  • a technical solution adopted in the present application is: providing a simultaneous interpretation method based on machine learning, including:
  • the using machine learning and imitating a target person's speech characteristics includes: [0015] disassemble the speech content of the target person into a plurality of words and / or words;
  • the pronunciation feature includes tone color data and tone data of a target person's speech.
  • the disassembling the speech content of the target person into a plurality of words and / or words includes:
  • the machine learning and imitating words and / or pronunciation features of a target person include:
  • the method before collecting the speech content and speech characteristics of the target person's speech, the method includes:
  • the outputting in a specified language the speech content mimicking the characteristics of the target person's speech by the machine includes:
  • outputting the speech content in a specified language that mimics the characteristics of the target person's speech by the machine includes: [0030] responding to a user's language switching operation;
  • an acquisition module configured to collect speech content and speech characteristics of a target person's speech
  • a learning module for using machine learning and simulating the speech characteristics of a target person
  • a translation module configured to translate the speech content of the target person into speech content in a specified language
  • An output module is configured to output the speech content in a specified language that is imitated by the machine to the characteristics of the target person ’s speech, wherein the target person ’s language is different from the specified language.
  • the learning module specifically includes:
  • a disassembling unit for disassembling the speech content of the target person into a plurality of words and / or words
  • a recognition unit configured to recognize and store the pronunciation characteristics of each word and / or word when the target person speaks;
  • a learning unit configured to use machine learning and imitate words and / or pronunciation features of a target person.
  • the output module is further configured to:
  • the simultaneous interpretation device based on machine learning is implemented by a smartphone, a computer, a PAD, and an intelligent sound.
  • the technical solution of the present application mainly includes collecting the speech content and speech characteristics of the target person's speech; using machine learning to imitate the speech characteristics of the target person; translating the speech content of the target person into speech content in a specified language; and in the specified language
  • the output of the speech content that the machine imitates the target person ’s speech characteristics is different from the problem of high cost of simultaneous interpretation using the existing technology and the problem of long translation time with a translator.
  • Translate into the specified language on the other hand, obtain the target person's speech characteristics, and use machine learning to learn the target person's speech characteristics to realize the output of speech content in the specified language that is modeled by the target person's speech characteristics in the specified language.
  • Feature output makes the translation result more real and brings better listening experience to users.
  • FIG. 1 is a method flowchart of a machine learning-based simultaneous interpretation method according to an embodiment of the present application
  • step S20 is a specific flowchart of step S20 in the present application.
  • FIG. 3 is a block diagram of a machine learning-based simultaneous interpretation device according to an embodiment of the present application.
  • FIG. 4 is a block diagram of a learning module in the present application.
  • FIG. 1 is a method flowchart of a machine learning-based simultaneous interpretation method according to an embodiment of the present application.
  • the machine learning-based simultaneous interpretation method includes:
  • Step S10 Collect speech content and speech characteristics of the target person's speech
  • Step S20 Use machine learning and imitate the speech characteristics of the target person
  • Step S30 Translate the speech content of the target person into speech content in a specified language
  • Step S40 Output the speech content in the specified language that is imitated by the machine to the characteristics of the target person's speech, wherein the target person's language and the specified language are different languages.
  • the speech voice of the interlocutor can also be collected.
  • the target and the interlocutor will speak different languages.
  • the speech content is a language feature of the target person, and the speech feature is a speech feature. Utilize machine learning and mimic the speech characteristics of the target person.
  • the translation result can have the target person's language characteristics instead of other speech built in the robot.
  • the target person's speech content can be translated into the speech content of the specified language through machine translation, combined with machine learning and imitating the target person's speech characteristics, so that the translation result with the target person's speech characteristics can be output, making the translation result more real, and the user brings Better listening experience.
  • This solution collects the speech content and speech characteristics of the target person's speech; uses machine learning to imitate the speech characteristics of the target person; translates the speech content of the target person into the speech content of the specified language;
  • the speech content of the target person's speech characteristics is different from the problem of high cost of simultaneous interpretation in the prior art and the long translation time using a translator.
  • This solution collects the speech content of the target person to translate the speech content into the specified language on the one hand
  • the target person's speech characteristics are obtained, and by using the machine learning target person's speech characteristics, the speech content that is imitated by the target person's speech characteristics can be output in a specified language, and the translation result can be output with the target person's speech characteristics.
  • the translation results are more real and bring better listening experience to users.
  • FIG. 2 is a specific flowchart of step S20 in this application.
  • the step of using machine learning and simulating the speech characteristics of a target person includes:
  • Step S21 Disassemble the speech content of the target person into a plurality of words and / or words;
  • Step S22 Identify and store the pronunciation characteristics of each word and / or word when the target person speaks;
  • Step S23 Utilize machine learning and imitate words and / or pronunciation features of the target person.
  • the collected speech content can be disassembled into multiple words, multiple words, or a combination of multiple words and words, and can be compared through multiple words, multiple words, or a combination of multiple words and words
  • the speech content of the target person is accurately identified to facilitate subsequent translation results.
  • the pronunciation feature includes tone color data and tone data of the target person's speech, so that the translation result output by the machine is a different language with the target person's speech characteristic.
  • the disassembling the speech content of the target person into a plurality of words and / or words includes:
  • the machine learning and imitating words and / or pronunciation features of a target person include:
  • the speech context of the target person may also be determined according to the pronunciation characteristics of the speech content, and then the speech content may be accurately identified through a combination of the speech context and multiple words, multiple words, or multiple words and words.
  • the target context in the database can also be automatically matched.
  • the target context is the transliteration context recognized by the machine. Combining the above transliteration context can accurately identify and translate the same word in different languages. Definition in context.
  • the output in a specified language of the speech content mimicking the speech characteristics of the target person by the machine includes:
  • the language of the talker's speech can be obtained by identifying the language of the talker's speech and the language of the talker's speech can be identified, and the language of the target person can be the language to be translated.
  • the machine can directly translate the language to be translated, and can automatically translate the language to be translated directly into the specified language without manual operation.
  • the outputting in a specified language of the speech content imitating a target person's speech characteristics by a machine includes:
  • the content of the target person's speech can also be translated into other languages by manual switching. There can be one or more types to meet the needs of the user.
  • FIG. 3 is a block diagram of a machine learning-based simultaneous interpretation device according to an embodiment of the present application.
  • the machine learning-based simultaneous interpretation device includes:
  • a collection module 10 configured to collect speech content and speech characteristics of a target person's speech
  • a learning module 20 configured to use machine learning and imitate the speech characteristics of a target person
  • a translation module 30 configured to translate the speech content of the target person into speech content in a specified language
  • An output module 40 is configured to output, in a specified language, a speech content that is mimicked by a target person's speech characteristics by a machine, wherein the target person's language is different from the specified language.
  • the collecting module 10 may collect the speech of the interlocutor while collecting the speech of the target person.
  • the target person and the interlocutor will speak different languages.
  • the speech content is the language and text features of the target person, and the speech features are phonetic features.
  • the machine can learn and imitate the characteristics of the target person's speech through the learning module 20, so that the translation result can have the target person's language characteristics instead of other speech built in the robot.
  • the translation module 30 can translate the speech content of the target person into the speech content of the specified language by machine, combining machine learning and imitating the speech characteristics of the target person, so that the output result with the target person's speech characteristics can be output through the output module 40 , Make the translation result more real, users bring better listening experience.
  • FIG. 4 is a block diagram of a learning module 20 in this application.
  • the learning module 20 specifically includes:
  • a disassembly unit 21 configured to disassemble the speech content of the target person into a plurality of words and / or words;
  • a recognition unit 22 configured to recognize and store the pronunciation characteristics of each word and / or word when the target person speaks;
  • a learning unit 23 is configured to use machine learning to mimic words and / or pronunciation features of the target person.
  • the disassembled unit 21 can disassemble the collected speech content into multiple words, multiple words, or a combination of multiple words and words, and the recognition unit 22 can use multiple words, multiple Words or a combination of words and words can accurately identify the speech content of the target person, so as to facilitate subsequent translation results.
  • the pronunciation features of the target person can also be learned and simulated by the learning unit 23. Further, the pronunciation feature includes tone color data and tone data of the target person's speech, so that the translation result output by the machine is a different language with the target person's speech characteristics.
  • the output module 40 is further configured to:
  • the output module 40 may respond to the user's language switching operation and translate the recognized speech content with the characteristics of the target person's speech into one or more languages.
  • the machine learning-based simultaneous interpretation device is implemented by a smartphone, a computer, a PAD, and a smart speaker. Understandably, in addition to the above-mentioned devices, this device can also be integrated into other digital products to facilitate the use of the user.

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Artificial Intelligence (AREA)
  • General Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Acoustics & Sound (AREA)
  • General Physics & Mathematics (AREA)
  • Human Computer Interaction (AREA)
  • General Health & Medical Sciences (AREA)
  • Software Systems (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Medical Informatics (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Machine Translation (AREA)
  • Electrically Operated Instructional Devices (AREA)

Abstract

一种基于机器学习的同声传译方法及装置,其中,基于机器学习的同声传译方法包括:采集目标人讲话的讲话内容及讲话特征(S10);利用机器学习并模仿目标人的讲话特征(S20);将目标人的讲话内容翻译为指定语言的讲话内容(S30);以及以指定语言输出经机器模仿目标人讲话特征的讲话内容(S40),其中,目标人的语言与指定语言为不同语种。基于机器学习的同声传译方法及装置能够自动识别翻译,将翻译结果以目标人的讲话特征输出,使翻译结果更加真切,有利于提升用户体验。

Description

基于机器学习的同声传译方法及装置
[0001] 本申请是以申请号为 201811030459.0、 申请日为 2018年 9月 5日的中国专利申请 为基础, 并主张其优先权, 该申请的全部内容在此作为整体引入本申请中。
[0002] 技术领域
[0003] 本申请涉及一种数据处理技术领域, 尤其涉及一种基于机器学习的同声传译方 法及装置。
[0004] 背景技术
[0005] 同声传译是指将在讲话人讲话的同时将讲话人的语言翻译成不同的语言。 5见有 技术的同声传译大都通过人工来实现, 然而通过人为实现同声传译往往需要对 译员具有较高的要求, 导致这部分人才稀缺。 目前, 越来越多的场合, 如国际 会议等均需要同声传译, 以人工的方式实现同声传译已满足不了市场的需求。 近年来, 市面上也存在一些翻译产品, 如翻译机, 利用翻译机可以将讲话翻译 成各种语言, 但翻译的时间较长, 输出机器语言较呆板, 导致用户的体验效果 差。
[0006] 有鉴于此, 有必要提出对目前的同声传译方法进行进一步的改进。
[0007] 申请内容
[0008] 为解决上述至少一技术问题, 本申请的主要目的是提供一种基于机器学习的同 声传译方法及装置。
[0009] 为实现上述目的, 本申请采用的一个技术方案为: 提供一种基于机器学习的同 声传译方法, 包括:
[0010] 采集目标人讲话的讲话内容及讲话特征;
[0011] 利用机器学习并模仿目标人的讲话特征;
[0012] 将目标人的讲话内容翻译为指定语言的讲话内容; 以及
[0013] 以指定语言输出经机器模仿目标人讲话特征的讲话内容, 其中, 所述目标人的 语言与指定语言为不同语种。
[0014] 其中, 所述利用机器学习并模仿目标人的讲话特征, 包括: [0015] 将目标人的讲话内容拆解成多个词语和 /或单词;
[0016] 识别并存储目标人讲话时各个词语和 /或单词的发音特征;
[0017] 利用机器学习并模仿目标人对词语和 /或单词的发音特征。
[0018] 其中, 所述发音特征包括目标人讲话的音色数据及音调数据。
[0019] 其中, 所述将目标人的讲话内容拆解成多个词语和 /或单词, 包括:
[0020] 从多个词语和 /或单词中选出至少一关键词语和 /或单词;
[0021] 根据采集的关键词语和 /或单词及其音调数据确定目标人的讲话语境;
[0022] 所述用机器学习并模仿目标人对词语和 /或单词的发音特征, 包括,
[0023] 从数据库找出与目标人讲话语境相适应的音译语境;
[0024] 在基于音译语境的前提下利用机器学习并模仿目标人对词语和 /或单词的发音 特征。
[0025] 其中, 所述采集目标人讲话的讲话内容及讲话特征之前, 包括,
[0026] 获取对话人讲话的语言信息并识别出对话人的讲话语种;
[0027] 所述以指定语言输出经机器模仿目标人讲话特征的讲话内容, 包括,
[0028] 将经机器模仿目标人讲话特征的讲话内容自动匹配输出为以对话人所讲语言。
[0029] 其中, 所述以指定语言输出经机器模仿目标人讲话特征的讲话内容, 包括: [0030] 响应用户的语言切换操作;
[0031] 以切换后的语言输出经机器模仿目标人讲话特征的讲话内容。
[0032] 为实现上述目的, 本申请采用的另一个技术方案为: 提供一种基于机器学习的 同声传译装置, 包括:
[0033] 采集模块, 用于采集目标人讲话的讲话内容及讲话特征;
[0034] 学习模块, 用于利用机器学习并模仿目标人的讲话特征;
[0035] 翻译模块, 用于将目标人的讲话内容翻译为指定语言的讲话内容; 以及
[0036] 输出模块, 用于以指定语言输出经机器模仿目标人讲话特征的讲话内容, 其中 , 所述目标人的语言与指定语言为不同语种。
[0037] 其中, 所述学习模块, 具体包括:
[0038] 拆解单元, 用于将目标人的讲话内容拆解成多个词语和 /或单词;
[0039] 识别单元, 用于识别并存储目标人讲话时各个词语和 /或单词的发音特征; [0040] 学习单元, 用于利用机器学习并模仿目标人对词语和 /或单词的发音特征。
[0041] 其中, 所述输出模块, 还用于,
[0042] 响应用户的语言切换操作;
[0043] 以切换后的语言输出经机器模仿目标人讲话特征的讲话内容。
[0044] 其中, 所述基于机器学习的同声传译装置通过智能手机、 电脑、 PAD及智能音 响来实现。
[0045] 本申请的技术方案主要包括采集目标人讲话的讲话内容及讲话特征; 利用机器 学习并模仿目标人的讲话特征; 将目标人的讲话内容翻译为指定语言的讲话内 容; 以及以指定语言输出经机器模仿目标人讲话特征的讲话内容, 区别于现有 技术采用同声传译成本高的问题以及采用翻译机翻译时间长的问题, 本方案通 过采集目标人的讲话内容, 一方面将讲话内容翻译成指定语言, 另一方面获取 目标人的讲话特征, 通过利用机器学习目标人的讲话特征, 实现以指定语言输 出经机器模仿目标人讲话特征的讲话内容, 能够将翻译结果以目标人的讲话特 征输出, 使翻译结果更加真切, 为用户带来较佳的听觉体验。
[0046] 附图说明
[0047] 图 1为本申请一实施例基于机器学习的同声传译方法的方法流程图;
[0048] 图 2为本申请中步骤 S20的具体流程图;
[0049] 图 3为本申请一实施例基于机器学习的同声传译装置的模块方框图;
[0050] 图 4为本申请中学习模块的方框图。
[0051] 本申请目的的实现、 功能特点及优点将结合实施例, 参照附图做进一步说明。
[0052] 具体实施方式
[0053] 下面将结合本申请实施例中的附图, 对本申请实施例中的技术方案进行清楚、 完整地描述, 显然, 所描述的实施例仅仅是本申请的一部分实施例, 而不是全 部的实施例。 基于本申请中的实施例, 本领域普通技术人员在没有作出创造性 劳动前提下所获得的所有其他实施例, 都属于本申请保护的范围。
[0054] 需要说明, 本申请中涉及“第一”、 “第二”等的描述仅用于描述目的, 而不能理 解为指示或暗示其相对重要性或者隐含指明所指示的技术特征的数量。 由此, 限定有“第一”、 “第二”的特征可以明示或者隐含地包括至少一个该特征。 另外, 各个实施例之间的技术方案可以相互结合, 但是必须是以本领域普通技术人员 能够实现为基础, 当技术方案的结合出现相互矛盾或无法实现时应当认为这种 技术方案的结合不存在, 也不在本申请要求的保护范围之内。
[0055] 请参照图 1, 图 1为本申请一实施例基于机器学习的同声传译方法的方法流程图 。 在本申请实施例中, 该基于机器学习的同声传译方法, 包括:
[0056] 步骤 S 10、 采集目标人讲话的讲话内容及讲话特征;
[0057] 步骤 S20、 利用机器学习并模仿目标人的讲话特征;
[0058] 步骤 S30、 将目标人的讲话内容翻译为指定语言的讲话内容; 以及
[0059] 步骤 S40、 以指定语言输出经机器模仿目标人讲话特征的讲话内容, 其中, 所 述目标人的语言与指定语言为不同语种。
[0060] 本实施例中, 在采集目标人的讲话的同时, 还可以采集对话人的讲话语音。 目 标人与对话人所将语言为不同的语种。 该讲话内容为目标人的语言文字特征, 讲话特征为语音特征。 利用机器学习和模仿目标人的讲话特征, 如此, 可以使 翻译结果具有目标人的语言特征, 而不是机器人内置的其他语音。 目标人的讲 话内容可以通过机器翻译成指定语言的讲话内容, 结合机器学习和模仿目标人 的讲话特征, 从而可以输出具有以目标人的讲话特征的翻译结果, 使翻译结果 更加真切, 用户带来较佳的听觉体验。
[0061] 本方案通过采集目标人讲话的讲话内容及讲话特征; 利用机器学习并模仿目标 人的讲话特征; 将目标人的讲话内容翻译为指定语言的讲话内容; 以及以指定 语言输出经机器模仿目标人讲话特征的讲话内容, 区别于现有技术采用同声传 译成本高的问题以及采用翻译机翻译时间长的问题, 本方案通过采集目标人的 讲话内容, 一方面将讲话内容翻译成指定语言, 另一方面获取目标人的讲话特 征, 通过利用机器学习目标人的讲话特征, 实现以指定语言输出经机器模仿目 标人讲话特征的讲话内容, 能够将翻译结果以目标人的讲话特征输出, 使翻译 结果更加真切, 为用户带来较佳的听觉体验。
[0062] 请参照图 2, 图 2为本申请中步骤 S20的具体流程图。 在一具体的实施例中, 所 述利用机器学习并模仿目标人的讲话特征的步骤, 包括:
[0063] 步骤 S21、 将目标人的讲话内容拆解成多个词语和 /或单词; [0064] 步骤 S22、 识别并存储目标人讲话时各个词语和 /或单词的发音特征;
[0065] 步骤 S23、 利用机器学习并模仿目标人对词语和 /或单词的发音特征。
[0066] 本实施例中, 采集的讲话内容可以拆解成多个词语、 多个单词或多个词语与单 词的组合, 通过多个词语、 多个单词或多个词语与单词的组合可以比较准确的 识别出目标人的讲话内容, 以方便后续的翻译结果。 在识别讲话内容后, 还可 以对目标人的发音特征进行学习及模仿。 进一步的, 所述发音特征包括目标人 讲话的音色数据及音调数据, 如此, 经机器输出的翻译结果为具有目标人讲话 特征的不同语言。
[0067] 在一具体的实施方式中, 所述将目标人的讲话内容拆解成多个词语和 /或单词 , 包括:
[0068] 从多个词语和 /或单词中选出至少一关键词语和 /或单词;
[0069] 根据采集的关键词语和 /或单词及其音调数据确定目标人的讲话语境;
[0070] 所述用机器学习并模仿目标人对词语和 /或单词的发音特征, 包括,
[0071] 从数据库找出与目标人讲话语境相适应的音译语境;
[0072] 在基于音译语境的前提下利用机器学习并模仿目标人对词语和 /或单词的发音 特征。
[0073] 进一步的, 还可以根据讲话内容的发音特征确定目标人的讲话语境, 然后通过 讲话语境与多个词语、 多个单词或多个词语与单词的组合准确识别讲话内容。 在确定目标人的讲话语境后, 还可以自动匹配出数据库中的目标语境, 该目标 语境即为机器识别的音译语境, 结合上述音译语境可以准确识别及翻译同一词 语在不同语境下释义。
[0074] 在一具体的实施方式中, 所述采集目标人讲话的讲话内容及讲话特征之前, 包 括,
[0075] 获取对话人讲话的语言信息并识别出对话人的讲话语种;
[0076] 所述以指定语言输出经机器模仿目标人讲话特征的讲话内容, 包括,
[0077] 将经机器模仿目标人讲话特征的讲话内容自动匹配输出为以对话人所讲语言。
[0078] 本实施例中, 可以通过获取对话人讲话的语言信息并识别出对话人的讲话语种 , 可以将对话人的讲话语种作为指定语言, 目标人讲话语种为待翻译语言, 利 用机器可以直接对待翻译语言进行翻译, 并且可以直接将待翻译语言自动翻译 成指定语言, 无需手动操作。
[0079] 在一具体的实施方式中, 所述以指定语言输出经机器模仿目标人讲话特征的讲 话内容, 包括:
[0080] 响应用户的语言切换操作;
[0081] 以切换后的语言输出经机器模仿目标人讲话特征的讲话内容。
[0082] 本实施例中, 还可以通过手动切换将目标人的讲话内容翻译成其他的语言, 可 以是一种也可以是多种, 以满足用户的需求。
[0083] 请参照图 3 , 图 3为本申请一实施例基于机器学习的同声传译装置的模块方框图 。 本申请的实施例中, 该基于机器学习的同声传译装置, 包括:
[0084] 采集模块 10, 用于采集目标人讲话的讲话内容及讲话特征;
[0085] 学习模块 20, 用于利用机器学习并模仿目标人的讲话特征;
[0086] 翻译模块 30, 用于将目标人的讲话内容翻译为指定语言的讲话内容; 以及
[0087] 输出模块 40, 用于以指定语言输出经机器模仿目标人讲话特征的讲话内容, 其 中, 所述目标人的语言与指定语言为不同语种。
[0088] 本实施例中, 采集模块 10, 在采集目标人的讲话的同时, 还可以采集对话人的 讲话语音。 目标人与对话人所将语言为不同的语种。 该讲话内容为目标人的语 言文字特征, 讲话特征为语音特征。 机器可以通过学习模块 20学习和模仿目标 人的讲话特征, 如此, 可以使翻译结果具有目标人的语言特征, 而不是机器人 内置的其他语音。 翻译模块 30, 在目标人的讲话内容可以通过机器翻译成指定 语言的讲话内容, 结合机器学习和模仿目标人的讲话特征, 从而可以通过输出 模块 40, 输出具有以目标人的讲话特征的翻译结果, 使翻译结果更加真切, 用 户带来较佳的听觉体验。
[0089]
[0090] 请参照图 4, 图 4为本申请中学习模块 20的方框图。 在一具体的实施方式中, 所 述学习模块 20, 具体包括:
[0091] 拆解单元 21, 用于将目标人的讲话内容拆解成多个词语和 /或单词;
[0092] 识别单元 22, 用于识别并存储目标人讲话时各个词语和 /或单词的发音特征; [0093] 学习单元 23 , 用于利用机器学习并模仿目标人对词语和 /或单词的发音特征。
[0094] 本实施例中, 通过拆解单元 21, 可以将采集的讲话内容可以拆解成多个词语、 多个单词或多个词语与单词的组合, 识别单元 22可以通过多个词语、 多个单词 或多个词语与单词的组合可以比较准确的识别出目标人的讲话内容, 以方便后 续的翻译结果。 在识别讲话内容后, 还可以通过学习单元 23对目标人的发音特 征进行学习及模仿。 进一步的, 所述发音特征包括目标人讲话的音色数据及音 调数据, 如此, 经机器输出的翻译结果为具有目标人讲话特征的不同语言。
[0095] 在一具体的实施方式中, 所述输出模块 40, 还用于,
[0096] 响应用户的语言切换操作;
[0097] 以切换后的语言输出经机器模仿目标人讲话特征的讲话内容。
[0098] 本实施例中, 输出模块 40可以响应用户的语言切换操作, 将识别后的具有目标 人讲话特征的讲话内容翻译成一种或多种语言。
[0099] 在一具体的实施例方式中, 所述基于机器学习的同声传译装置通过智能手机、 电脑、 PAD及智能音响来实现。 可以理解的, 除了上述的装置, 本装置还可以 集成设置于其他数码产品中, 以方便用户的使用。
[0100] 以上所述仅为本申请的优选实施例, 并非因此限制本申请的专利范围, 凡是在 本申请的申请构思下, 利用本申请说明书及附图内容所作的等效结构变换, 或 直接 /间接运用在其他相关的技术领域均包括在本申请的专利保护范围内。
发明概述
技术问题
问题的解决方案
发明的有益效果

Claims

权利要求书
[权利要求 1] 一种基于机器学习的同声传译方法, 其特征在于, 所述基于机器学习 的同声传译方法包括:
采集目标人讲话的讲话内容及讲话特征;
利用机器学习并模仿目标人的讲话特征;
将目标人的讲话内容翻译为指定语言的讲话内容; 以及
以指定语言输出经机器模仿目标人讲话特征的讲话内容, 其中, 所述 目标人的语言与指定语言为不同语种。
[权利要求 2] 如权利要求 1所述的基于机器学习的同声传译方法, 其特征在于, 所 述利用机器学习并模仿目标人的讲话特征, 包括: 将目标人的讲话内容拆解成多个词语和 /或单词; 识别并存储目标人讲话时各个词语和 /或单词的发音特征; 利用机器学习并模仿目标人对词语和 /或单词的发音特征。
[权利要求 3] 如权利要求 2所述的基于机器学习的同声传译方法, 其特征在于, 所 述发音特征包括目标人讲话的音色数据及音调数据。
[权利要求 4] 如权利要求 3所述的基于机器学习的同声传译方法, 其特征在于, 所 述将目标人的讲话内容拆解成多个词语和 /或单词, 包括: 从多个词语和 /或单词中选出至少一关键词语和 /或单词;
根据采集的关键词语和 /或单词及其音调数据确定目标人的讲话语境 所述用机器学习并模仿目标人对词语和 /或单词的发音特征, 包括, 从数据库找出与目标人讲话语境相适应的音译语境;
在基于音译语境的前提下利用机器学习并模仿目标人对词语和 /或单 词的发音特征。
[权利要求 5] 如权利要求 1所述的基于机器学习的同声传译方法, 其特征在于, 所 述采集目标人讲话的讲话内容及讲话特征之前, 包括,
获取对话人讲话的语言信息并识别出对话人的讲话语种;
所述以指定语言输出经机器模仿目标人讲话特征的讲话内容, 包括, 将经机器模仿目标人讲话特征的讲话内容自动匹配输出为以对话人所 讲语言。
[权利要求 6] 如权利要求 1所述的基于机器学习的同声传译方法, 其特征在于, 所 述以指定语言输出经机器模仿目标人讲话特征的讲话内容, 包括: 响应用户的语言切换操作;
以切换后的语言输出经机器模仿目标人讲话特征的讲话内容。
[权利要求 7] 一种基于机器学习的同声传译装置, 其特征在于, 所述基于机器学习 的同声传译装置包括:
采集模块, 用于采集目标人讲话的讲话内容及讲话特征;
学习模块, 用于利用机器学习并模仿目标人的讲话特征;
翻译模块, 用于将目标人的讲话内容翻译为指定语言的讲话内容; 以 及
输出模块, 用于以指定语言输出经机器模仿目标人讲话特征的讲话内 容, 其中, 所述目标人的语言与指定语言为不同语种。
[权利要求 8] 如权利要求 7所述的基于机器学习的同声传译装置, 其特征在于, 所 述学习模块, 具体包括:
拆解单元, 用于将目标人的讲话内容拆解成多个词语和 /或单词; 识别单元, 用于识别并存储目标人讲话时各个词语和 /或单词的发音 特征;
学习单元, 用于利用机器学习并模仿目标人对词语和 /或单词的发音 特征。
[权利要求 9] 如权利要求 7所述的基于机器学习的同声传译装置, 其特征在于, 所 述输出模块, 还用于, 响应用户的语言切换操作; 以切换后的语言输出经机器模仿目标人讲话特征的讲话内容。
[权利要求 10] 如权利要求 7所述的基于机器学习的同声传译装置, 其特征在于, 所 述基于机器学习的同声传译装置通过智能手机、 电脑、 PAD及智能音 响来实现。
PCT/CN2019/083763 2018-09-05 2019-04-23 基于机器学习的同声传译方法及装置 WO2020048143A1 (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
CN201811030459.0 2018-09-05
CN201811030459.0A CN109300469A (zh) 2018-09-05 2018-09-05 基于机器学习的同声传译方法及装置

Publications (1)

Publication Number Publication Date
WO2020048143A1 true WO2020048143A1 (zh) 2020-03-12

Family

ID=65166022

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/CN2019/083763 WO2020048143A1 (zh) 2018-09-05 2019-04-23 基于机器学习的同声传译方法及装置

Country Status (3)

Country Link
EP (1) EP3620939A1 (zh)
CN (2) CN109300469A (zh)
WO (1) WO2020048143A1 (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112201224A (zh) * 2020-10-09 2021-01-08 北京分音塔科技有限公司 用于即时通话同声翻译的方法、设备及系统

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109300469A (zh) * 2018-09-05 2019-02-01 满金坝(深圳)科技有限公司 基于机器学习的同声传译方法及装置
KR102312798B1 (ko) * 2019-04-17 2021-10-13 신한대학교 산학협력단 강의통역 서비스장치 및 그 장치의 구동방법
WO2021102647A1 (zh) * 2019-11-25 2021-06-03 深圳市欢太科技有限公司 数据处理方法、装置和存储介质
CN113539233B (zh) * 2020-04-16 2024-07-30 北京搜狗科技发展有限公司 一种语音处理方法、装置和电子设备
CN114203153A (zh) * 2021-10-29 2022-03-18 广州虎牙科技有限公司 一种跨语种语音合成方法、装置、电子设备及存储介质

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101008942A (zh) * 2006-01-25 2007-08-01 北京金远见电脑技术有限公司 机器翻译装置和机器翻译方法
US20100235161A1 (en) * 2009-03-11 2010-09-16 Samsung Electronics Co., Ltd. Simultaneous interpretation system
CN103020048A (zh) * 2013-01-08 2013-04-03 深圳大学 一种语言翻译方法及系统
CN104427294A (zh) * 2013-08-29 2015-03-18 中兴通讯股份有限公司 支持电视会议同声传译的方法及云端服务器
CN106486125A (zh) * 2016-09-29 2017-03-08 安徽声讯信息技术有限公司 一种基于语音识别技术的同声传译系统
CN107992485A (zh) * 2017-11-27 2018-05-04 北京搜狗科技发展有限公司 一种同声传译方法及装置
CN109300469A (zh) * 2018-09-05 2019-02-01 满金坝(深圳)科技有限公司 基于机器学习的同声传译方法及装置

Family Cites Families (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
SE9301596L (sv) * 1993-05-10 1994-05-24 Televerket Anordning för att öka talförståelsen vid översätttning av tal från ett första språk till ett andra språk
JP2009186820A (ja) * 2008-02-07 2009-08-20 Hitachi Ltd 音声処理システム、音声処理プログラム及び音声処理方法
US8571849B2 (en) * 2008-09-30 2013-10-29 At&T Intellectual Property I, L.P. System and method for enriching spoken language translation with prosodic information
CN102117614B (zh) * 2010-01-05 2013-01-02 索尼爱立信移动通讯有限公司 个性化文本语音合成和个性化语音特征提取
TWI413105B (zh) * 2010-12-30 2013-10-21 Ind Tech Res Inst 多語言之文字轉語音合成系統與方法
CN102354494A (zh) * 2011-08-17 2012-02-15 无敌科技(西安)有限公司 一种实现阿拉伯文tts发音的方法
KR102525209B1 (ko) * 2016-03-03 2023-04-25 한국전자통신연구원 원시 발화자의 목소리와 유사한 특성을 갖는 합성음을 생성하는 자동 통역 시스템 및 그 동작 방법
CN107195296B (zh) * 2016-03-15 2021-05-04 阿里巴巴集团控股有限公司 一种语音识别方法、装置、终端及系统
CN107093421A (zh) * 2017-04-20 2017-08-25 深圳易方数码科技股份有限公司 一种语音模拟方法和装置
CN108009159A (zh) * 2017-11-30 2018-05-08 上海与德科技有限公司 一种同声传译方法和移动终端
CN108447486B (zh) * 2018-02-28 2021-12-03 科大讯飞股份有限公司 一种语音翻译方法及装置
CN108447473A (zh) * 2018-03-06 2018-08-24 深圳市沃特沃德股份有限公司 语音翻译方法和装置

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101008942A (zh) * 2006-01-25 2007-08-01 北京金远见电脑技术有限公司 机器翻译装置和机器翻译方法
US20100235161A1 (en) * 2009-03-11 2010-09-16 Samsung Electronics Co., Ltd. Simultaneous interpretation system
CN103020048A (zh) * 2013-01-08 2013-04-03 深圳大学 一种语言翻译方法及系统
CN104427294A (zh) * 2013-08-29 2015-03-18 中兴通讯股份有限公司 支持电视会议同声传译的方法及云端服务器
CN106486125A (zh) * 2016-09-29 2017-03-08 安徽声讯信息技术有限公司 一种基于语音识别技术的同声传译系统
CN107992485A (zh) * 2017-11-27 2018-05-04 北京搜狗科技发展有限公司 一种同声传译方法及装置
CN109300469A (zh) * 2018-09-05 2019-02-01 满金坝(深圳)科技有限公司 基于机器学习的同声传译方法及装置

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112201224A (zh) * 2020-10-09 2021-01-08 北京分音塔科技有限公司 用于即时通话同声翻译的方法、设备及系统

Also Published As

Publication number Publication date
CN110415680A (zh) 2019-11-05
EP3620939A1 (en) 2020-03-11
CN110415680B (zh) 2022-10-04
CN109300469A (zh) 2019-02-01

Similar Documents

Publication Publication Date Title
WO2020048143A1 (zh) 基于机器学习的同声传译方法及装置
WO2021232725A1 (zh) 基于语音交互的信息核实方法、装置、设备和计算机存储介质
CN110675854B (zh) 一种中英文混合语音识别方法及装置
CN109325091B (zh) 兴趣点属性信息的更新方法、装置、设备及介质
JP2021103328A (ja) 音声変換方法、装置及び電子機器
CN111048064B (zh) 基于单说话人语音合成数据集的声音克隆方法及装置
CN110600033B (zh) 学习情况的评估方法、装置、存储介质及电子设备
CN107992195A (zh) 一种教学内容的处理方法、装置、服务器及存储介质
CN109616096A (zh) 多语种语音解码图的构建方法、装置、服务器和介质
CN110852075B (zh) 自动添加标点符号的语音转写方法、装置及可读存储介质
CN103714727A (zh) 一种人机互动的外语学习系统和方法
CN109256133A (zh) 一种语音交互方法、装置、设备及存储介质
CN109448704A (zh) 语音解码图的构建方法、装置、服务器和存储介质
TWI270052B (en) System for selecting audio content by using speech recognition and method therefor
CN108806360A (zh) 伴读方法、装置、设备和存储介质
Wagner et al. The big australian speech corpus (the big asc)
CN110211592A (zh) 智能语音数据处理装置及方法
KR20200002141A (ko) 이미지 기반의 언어학습 콘텐츠 제공 방법 및 이의 시스템
CN111156441A (zh) 用于辅助学习的台灯、系统和方法
CN109272983A (zh) 用于亲子教育的双语切换装置
WO2021228084A1 (zh) 语音数据识别方法、设备及介质
Bangalore et al. Balancing data-driven and rule-based approaches in the context of a multimodal conversational system
CN112786028A (zh) 声学模型处理方法、装置、设备和可读存储介质
CN111968646A (zh) 一种语音识别方法及装置
US20240221721A1 (en) Systems and methods for audio transcription switching based on real-time identification of languages in an audio stream

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 19856521

Country of ref document: EP

Kind code of ref document: A1

NENP Non-entry into the national phase

Ref country code: DE

32PN Ep: public notification in the ep bulletin as address of the adressee cannot be established

Free format text: NOTING OF LOSS OF RIGHTS PURSUANT TO RULE 112(1) EPC (EPO FORM 1205A DATED 08.07.2021)

122 Ep: pct application non-entry in european phase

Ref document number: 19856521

Country of ref document: EP

Kind code of ref document: A1