WO2014110980A1 - 表意构件识别提取和基于表意构件的机译人校互动翻译方法 - Google Patents

表意构件识别提取和基于表意构件的机译人校互动翻译方法 Download PDF

Info

Publication number
WO2014110980A1
WO2014110980A1 PCT/CN2014/000038 CN2014000038W WO2014110980A1 WO 2014110980 A1 WO2014110980 A1 WO 2014110980A1 CN 2014000038 W CN2014000038 W CN 2014000038W WO 2014110980 A1 WO2014110980 A1 WO 2014110980A1
Authority
WO
WIPO (PCT)
Prior art keywords
sentence
cabin
string
language
word
Prior art date
Application number
PCT/CN2014/000038
Other languages
English (en)
French (fr)
Inventor
刘树根
Original Assignee
Liu Shugen
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Liu Shugen filed Critical Liu Shugen
Publication of WO2014110980A1 publication Critical patent/WO2014110980A1/zh
Priority to US14/794,805 priority Critical patent/US9697199B2/en

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/40Processing or translation of natural language
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/263Language identification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/40Processing or translation of natural language
    • G06F40/42Data-driven translation
    • G06F40/45Example-based machine translation; Alignment
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/40Processing or translation of natural language
    • G06F40/42Data-driven translation
    • G06F40/47Machine-assisted translation, e.g. using translation memory
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/40Processing or translation of natural language
    • G06F40/53Processing of non-Latin text

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Machine Translation (AREA)
  • Document Processing Apparatus (AREA)

Abstract

本发明提供一种表意构件识别提取方法及其机译人校互动式翻译方法,其中的表意构件识别提取方法为:利用相同内容的多语种或双语文字版本的语料作句对齐后生成双语句对库,以表意将不同语言文字进行关联,不同语言文字的表意通过四种共同的表意构件实现,识别提取出这四种表意构件包括读句配骼、识别及标注句舱、舱检测及提取舱模和收存意群串。本发明还提供了基于表意构件的机译人校互动式翻译方法,包括读句配骼、源语句套入、句舱或舱眼内容转移、存查得项、预选给出目语待校句以及语意校正、自学习。本发明解决了现有技术存在的译文质量差,要求操作者具独立翻译能力,处理过程中无法反悔地丢失词义、语意之技术问题。

Description

说 明 书 表意构件识别提取和基于表意构件的机译人校互动翻译方法 【技术领域】
本发明涉及一种自然语言的处理或转换的方法; 特别涉及一种表意构件识别提取和基于 表意构件的机译人校互动翻译方法。
【背景技术】
计算机语言文字的信息处理领域, 机器翻译是技术难度的至高点。
机器翻译如《自然语言的计算机处理》冯志伟著, 上海外语教育出版社 1996年 10月出 版, 其中第八章第一节机器翻译中写道: " 1964年, 美国 ALPAC报告指出的机器翻译遇到的 '语义障碍' 至今仍然存在, 机器翻译技术至今似乎仍然没有突破性的进展"。 "机器翻译系 统的实用化和商品化问题面临着严峻的考验"。
大众软件, 2004年第二期, 作者王槊, 采访业界多位专家后报道, 《机器翻译, 路在何 方》一文中指出 MT (machine translation) "机器翻译技术本身存在的问题是阻碍其发展的 硬伤。 目前不仅在中国, 整个世界范围内机器翻译技术都没有很大的突破。 试图用机器通过 有限的规则和语料提高翻译准确性, 在短期内无法实现。 在语言智能化研究理论不成熟的情 况下, MT软件研究在技术上碰到瓶颈,无法解决一个单词在不同语言环境下的词义选择问题, 同样也无法在复杂多变的语境中正确选择语法规则, 因此, 翻译水平无法实现明显提高"。这 也是为什么现在的机器翻译软件无法满足人们的需求, 翻译出来的结果往往令人啼笑皆非的 原因……。 TM (Translation Memory, 翻译记忆), 面向专业翻译人员和机构设计, 要求使 用者具备独立的翻译能力。 它的原理是基于数据库, 将翻译过的所有材料以句子为单位存入 数据库。 翻译时系统自动对电子文档进行分析, 100%匹配的句子可以自动替换, 不足 100%匹 配的句子可根据匹配度提出翻译建议, 新句子完全依靠人工翻译。最后作者指出: "机器翻译 技术本身存在的问题是阻碍其发展的硬伤。 目前不仅在中国, 整个世界范围内机器翻译技术 都没有很大的突破"。
外语研究, 2007年第五期, 作者苏明阳, 在《翻译记忆系统的现状及其启示》一文中指 出翻译记忆技术本身的局限, "相同的句子永远不需要翻译第二遍"。 然而 "现实中的翻译活 动大多缺乏重复性, 只有在某些特定的领域中, 文本的重复才能达到一定的比例"。
湖南医科大学学报, 2010年 3月第二期, 作者傅彦夫, 在《翻译记忆理论及几款计算机 辅助翻译软件评介》一文中回顾并分析了 MT经历了 70多年的发展, 至今译文质量确实不能 令人欣慰。 "难怪人们把人工智能能列为二十一世纪人类科技十大难题之一。 在这种情况下, 采用基于翻译记忆 (MT)技术的辅助翻译系统应运而生"。 "翻译记忆软件一般都提供翻译记 忆、术语库管理、翻译项目管理、语料库加工与应用等翻译工具"。语料库加工是使翻译过的 语料进行句对齐, 以双语或多语语义对齐后的句对建库, 称 "句库"或 "记忆库"。
CN200910002334. 1 公开了一种基于实例短语的机器翻译方法,将基于实例和基于短语结 合。 虽然翻译粒度比基于字、 词和基于句更为适中, 但仅是利用算法临时获得, 没有人脑校 正质量难以保证; 没有建库, 不能累积也不能长期使用。
现有技术存在不足, MT①译文质量差: TM②要求操作者具独立翻译能力。
本发明人认为: 现有技术存在不足关键在于一味让电脑模仿人脑, 对语言文字的认识不 够透切。 不能站在语际的高度认识语言文字的本质是表意; 不能根据表意将不同语言文字进 行关联, 更不能将这些关联建库, 长期使用。 没有认识和利用 "不同语言文字的表意通过四 种共同的表意构件实现"的规律, 自然就不能使语言文字以表意构件为单元, 在计算机内、 网络间进行运作而难以逾越 "语义障碍";不能以表意构件组建数据库对机器翻译以及其它语 言文字信息处理应用进行支持。
在计算机语言文字信息处理领域, 现有技术都是面向字符进行编码, 以字符内码生成文 本; 在计算机内存贮、 传输, 以至不同语言文字间的机器翻译, 包括支持机器翻译的电子词 典、句库, 也都是基于字符。 它们③没有不同语言文字之间任何表意的关联; 在从字符、字、 词, 成分以至句意的多节点④处理过程中无法反悔地丢失词义、 语意。
综上所述, 现有技术存在着上述四个不足, 早已成为桎梏的四个技术问题。
【发明内容】
本发明申请的总体构思是:
站在语际的高度认识语言文字的本质是表意; 挖掘不同语言文字的句子可以表达相同语 意。 以表意将不同语言文字进行关联, 不同语言文字的表意通过四种共同的表意构件实现。 利用人机互动的方式从多语种句对语料中识别提取出这四种表意构件;组建表意构件数据库。 基于表意构件及其数据库产生机译人校互动翻译等语意文字信息处理领域的应用。
以表意将不同语言文字进行关联, 首先是利用相同内容的多语种或双语文字版本的语料 为样本进行识别提取表意构件。 识别提取表意构件每轮选取 A、 B两种语言文字, 第一轮选 最具代表性的中文汉语和英文英语, 进行核心的第一轮识别提取; 第二轮开始每轮新增一种 语言文字, 另一种是已经识别提取过并且表意构件达到足够多 (满足应用) 的程度。 第二轮 开始识别提取的方式与第一轮两者都空白不同; 而是以已经识别提取过的为模板, 识别提取 出新加语种的表意构件, 添加于与模板句表意构件同库同记录的相应语种构件字段。
以表意将不同语言文字进行关联, 进一步的措施就是具体识别提取出多种语言文字共同 的表意构件, 并将它们存贮于相应的构件库, 使每个库同记录的不同语种表意构件语意相同 且相互映射。
基于表意构件及其数据库产生机译人校互动翻译方法。 是基于表意构件及其数据库在语 意文字信息处理领域应用的一个实例; 仿此类推, 还可以开发更多的应用。 切底改变现有语 言文字信息处理基于字符, 难以逾越 "语义障碍"的现状。
本发明要解决的技术问题是:
本发明提供一种人机交互的多语种表意构件识别提取方法, 提取表意构件; 并使不同语 言文字的同类具体表意构件语意相等且相互映射; 解决现有技术基于字符的③没有不同语言 文字之间任何表意的关联之技术问题。
进一步提供一种机译人校互动翻译的方法, 解决现有技术①译文质量差, ②要求操作者 具独立翻译能力, ④处理过程中无法反悔地丢失词义、 语意之技术问题。
本发明解决其技术问题所采用的技术方案是:
一种表意构件识别提取方法, 利用相同内容的多语种或双语文字版本的语料作句对齐后 生成双语句对库, 其特征是进一步根据不同语言文字的句子可以表达相同语意, 以表意将不 同语言文字进行关联, 不同语言文字的表意通过四种共同的表意构件实现, 识别提取出这四 种表意构件包括如下步骤:
S1. 读句配骼 102, 句子由句骼和句舱两部分组成, 识别提取表意构件每轮选取 A、 B 两种语言文字, 计算机读取双语句对库一个 AB双语句对, 以当前双语句对之一查询句骼库 进行配句骼运作, 有匹配句骼将双语句对套入, 并显示 "舱检测"、 "査配标"按钮, 当套入后各句舱匀称、 无残缺、 无堆叠现象且 "舱检测"按钮被单击, 为肯定, 已有匹配句 骼, 接续 S3舱检测,
若套入后各句舱不匀称、 有残缺、 或有堆叠现象且 "査配标"按钮被单击, 为否定, 表示对 套入结果否定需要提取新句骼, 系统进入查配标运作, 用 A语句词串査询传统电子词典据 B 语句是否含有语义对应词串生成当前句对语意匹配表, 舱计数 N=0准备提取新句骼:
52. 识别及标注句舱 103, 机器以数量串、 专名串、 冠名串双语同时依次识别、 以先后 为序用 N=N+1将它们预标为句舱, 预标句舱使骼例比由 100%逐步降低, 这三种词串标注句 舱结束后,
如骼例比高于 50%, 以所述语意匹配表为据将无冠名串或其它语义匹配串在有间隔的前提下 逐个接续标为句舱, 接受操作者认可、 或更正或使用意群对齐运作增补语意匹配词串, 继续 识标句舱,
直至上述识别及标注句舱条件缺失且骼例比在 15-50%之间, 识标句舱结束,进行句骼格式检 査, 整理前述预标为正式标注这是第一轮识别提取的步骤, 第二轮识别提取开始不用识别词 性而是以已标语种句为模板识别、 标出未标语种句的句舱,
当 N->1时, 当前句对移去句舱所剩部分为句骼构件, 将它们存贮于句骼库 105相应语种构 件字段, 当 N=0当前句对为习语构件, 习语构件是一些分不出句骼句舱的特殊句对, 将它们 存贮于习语库 104相应语种习语字段,
将当前双语句例对号入座地套回当前句骼成为骼例式备续;
53. 舱检测及提取舱模 106, 逐个句舱检测, 第一轮识别提取以 A语拼音文字句的句舱 所含词串计数, ->5个原有词串要进入组复词运作,
原有 8个词串的以当前句跄作 "査配标"运作生成当前句舱语意匹配表以备进一步提取舱 模为有模句舱,
提取舱模, 以数量串、 专名串、 冠名串双语同时依次识别、 预标为舱眼, 模例之比由 100% 逐步降低, 若预标完这三种词串还大于 70%, 再以无冠名串或其它语意匹配串在有间隔的前 提下在标为舱眼, 接受操作者认可、 更正, 或使用意群对齐运作增补语意匹配词串, 继续预 标舱眼,
当预标条件不存在且模例比在 50-70%之间, 预标舱眼操作结束, 以英语句舱从左到右为序修 改舱眼预杯为正式标注, 第二轮提取开始不同, 是以已标语种句舱为模板识别、 标出未标语 种跄眼,
当舱眼数 N=>1 ;当前句舱对移去舱眼所剩部分为舱模构件,保存到舱模库 107相应语种舱模 字段,
继续其它句舱的检测直到全句对句舱检测完毕;
54. 收存意群串 108, 将当前双语例对号入座地套回当前提取的句骼, 有舱模的句舱再 套回相应舱模, 再逐个句舱或舱眼搜索, 参照语意匹配表, 相应内容在匹配表里 A语字段和 B语字段不空的记录是 A、 B语言文字语意对齐的, 确定为意群串构件, 将它们逐记录取出, 分别存贮到意群串库 109同记录相应语种字段内, 当前句对的识别提取结束。 上述方法中, 步骤 S2所述以数量串、专名串、冠名串双语同时依次识别、标注步骤, 具 体为:
机器査询当前句对语意匹配表, 首先识别搜索数量串, 如有则同样将它们在 A、 B语句子中 同时据 N=N+1以 "A、 B、 C ······ "加预标,
如无或识别搜索数量串完成后, 识别搜索专名串, 如有则同样将它不们在八、 B语句子中同 时据 N-N+1以 "A、 B、 C…… "预标,
如无或识别搜索专名串结束后, 识别搜索冠名串, 如有则同样将它不们在八、 B语句子中同 时据 N=N+1以 "A、 B、 C ·····' "预标,
如无或识别搜索冠名串结束后, 显示符号 " I,,且在两側分别显示 命令按钮、 计 算并显示酪例比、 以及 " "命令按钮, 接受操作者更正或认可。
上述方法中,步骤 S2所述以无冠名串或其它语意匹配串在有间隔的前提下逐个接续标为 句舱, 具体为: 当骼例比高于 50%, 以匹配表为据搜索词性字段是名词且 A语词 B语词字段 不空的为语意匹配的无冠名串,或者不是名词而 A语词 B语词字段不空的为其它语意匹配串, 同上且加显当前句对语意匹配表、 "|它 |"、 " V "、 " < "、 "格式检査"按钮, 并接受操作者使 用组复词、延伸词义、粘带前引或后随字词的意群对齐方法修改匹配表, 增补语意匹配词串, 继续预标句舱直至识标句舱条件缺失且骼例比在 15-50%之间, 识标句舱结束,
然后, 进行句骼格式检査, 第一轮识别提取以英语句从左到右为序整理预标舱序号为正式舱 序号, 第二轮识别提取开始以已标语种句为模板识别、 标出未标语种句的句舱。
上述方法中, 所述利用双语句对提取出表意构件, 具体为: 每轮识别提取选 AB两种语 言文字, 第一轮选中英双语为优选例, 其中 A语是英文、 B语是中文, 第二轮开始每轮识别 提取新增一种语言文字, 另一种为已经识别提取过的语言文字, A语分配给已经识别提取过 的语言文字, B语分配给新加入的语言文字; 第二轮识别提取开始每轮新加一种语言文字; 识别提取过程先以已识别句查询句骼库进行配句骼运作、 套入, 然后以已识别提取句为 模板, 在新增语种句子上识别出语意相同部分标为相同标号的句舱, 若有相同重复部分, 以 同样的标号标为重复句舱, 重复句舱适应各语种句子的重复成份, 两语种句子被识别标注的 重复句舱不一定都有、 数量也不一定一致、 也不影响句舱标出数;
含舱模的句舱, 同样以已经识别句的句舱套入舱模作为模板识别标出新加语种句相应句 舱的舱眼。
上述方法中, 所述配句骼运作具体为: 事先按句骼词串与句舱之空穴生成句骼串表并索 引, 配句骼时把句例从左到右英逐单词中逐字取下搜索句骼串表的骼首字段并存于临时表, 再逐记录取出临时表内容, 以句骼词段査询句对例, 句骼串的每段都可以在句对例中査到且 次序相同为匹配, 再根据句骼串表取出相应语种句骼;
所述査配标运作具体为: 机器利用至少含有词性、 A语词、 B语词字段的匹配表, 先以 A语句单词串为单元切分、依次填入匹配表 A语词字段,随后逐记录取出査询传统电子词典, 以査得的相应 B语解释搜索 B语句是否含有,含有且是最长串填入 B语词字段同时将其词性 填入词性字段, 无含有 B语词字段为空;
所述意群对齐运作具体为: ①以当前句对、 句舱为依据, 延伸或增补 B语解释填人匹配 表 B语字段, ②粘带附随字、 词或字符, ③有词形变化的另作词条入库, 在匹配表中根据当 前句对句舱参考传统词典填入 B语解释, ④组复词 (下款);
所述组复词运作具体为: 根据当前句对、 句舱语意判断, 如其一需要原有两个词条或更 多词条合并, 语意才等于另一时, 前者以 "-"将它们相连合并为一个词条, 称为复词, 在匹 配表作为一个记录分别填入 AB语字段,添加到意群串库之复词库,没有这种情况的空运作, 没有改变。
上述方法中, 基于所获得的表意构件以及相应的表意构件库, 能产生和支持多种语言文 字信息处理的应用, 机译人校互动翻译是其应用之一;
表意构件是不同语言文字以表意进行关联的具体体现, 是大小不等形态结构不同的语义 块, 它们也是多种语言文字表意的对等和统一, 表意构件包括句骼构件、 舱模构件、 意群串 构件和习语构件四种, 贮存它们的句骼库、 舱模库、 意群串库和习语库是表意构件分库, 共 同构成表意构件数据库, 四个分库之间相互独立,分库内同记录的成员语意相同且相互影射: 从一个句对提取出来的句骼可以被其它句对所套用, 舱模可以被其它句跄所套用, 句骼 所含有的句舱个数、 语意内容相同, 是跨语种的, 句舱在具体句骼中的位置、 次序和用以填 充的意群串是面向各自语言文字的, 不跨语种;
句骼库用以存贮句骼构件, 有句骼码、 英句骼、 中句骼字段, 同记录的各语种句骼字段 存 相应语种句骼, 它们的语义相同且相互影射, 句骼码是它们语义和库中位次的表示; 舱模库用以存贮舱模构件, 有船模码、 英舱模、 中舱模字段, 同记录的各语种舱模字段 存贮相应语种舱模, 它们的语义相同, 舱模码是它们语义和库中位次的表示;
意群库用以存贮意群串构件, 有意群码、 英群串、 中群串字段, 同记录的各语种意群串 字段存贮相应语种意群串, 它们的语义相同, 意群串码是它们语义和库中位次的表示;
习语库用以存贮习语构件, 有习语码、 英习语、 中习语字段, 同记录的各语种习语字段 存贮相应语种习语, 它们语义相同, 习语码是它们语义和库中位次的表示;
第二轮识别提取开始每轮新加一种语言文字, 事先应在这四个分库内分别增设新加语种 的构件字段。 本发明还提供一种基于表意构件的机译人校互动翻译方法,其特征在于,包括如下步骤:
55.读句配酪、源语句套入 202, 读入源语句子, 以源语句搜索句骼库, 获得唯一匹配的 源、 目语句骼, 若有多对匹配句骼自动隐含选取最长的为唯一匹配句骼, 然后将源语句子对 号入座地套入源语句骼, 舱检测若是有模句舱再搜索船模库有再套入舱模, 使成为源语句骼 例结合形式;
56.句舱或舱眼内容转移 203,从源语句骼例结合式中逐个取出句舱或舱眼内容,转移到 目语句骼、 舱模相应的句舱或舱眼里, 使之成为源、 目语过渡式;
57.存査得项、预选给出目语待校句 204, 逐个取出源、 目语过渡式中句舱或舱眼的源语 词串,查询意群串库,无词间间隔的表意文字则以从左到右可能的排列作为词串査询意群库, 二者所有査得项存于更正表; 利用预选模块 402选出查得项当中最大适配的目语串生成待校 句并在更正表中换位到词串段之首, 最后给出 301预选后的保留句舱舱眼标志标号的目语待 校句和 "返回"、 "继后"、 "一移"、 "移一"、 "▲"、 " Λ "、 "修辞"命令按钮以及相应的源语 参考句; S8.语意校正、自学习 205,当用户读到目语待校句和相应的源语参考句时开始校正操作, 同时系统的校正模块借更正表进行语意校正运作, 自学习模块 401与之联动, 对校正过程的 人机互动进行学习、 记忆且为预选模块提供数据,
当当前待校句的语意校正运作结束后, 接受用户单击 "返回"按钮接续 S5运作。
上述方法中, 步骤 S8所述及语意校正和校正模块, 其进一步的特征是:
语意校正有待校句完全正确无需更正和需要更正两种情况,无需更正时接受用户单击"返 回"按钮接续 S5, 需要更正的有如下状态与步骤, 更正结束后再接受单击 "返回"接续 S5:
A)不妥词串的替换 302—当用户认为待校句某词串不妥时, 单击它系统搜索更正表, 弹出下拉列表给出全部相关査得项待选, 然后以被单击选中的査得项替换译句不妥词串, 同 时置换为词串段之首;
B)连续句舱的切分 303—当遇到没有参照无法自动进行切分的连续句舱给出待切, 当 被单击后以被单击点为切分点将两个句舱内容分开;
C)干预另选句骼 304 ~~当遇到句舱和舱眼不匀称、有残缺、或堆叠之错选句骼表现时, 或用户不认可当前译句时单击 "继后"按钮, 系统把多对匹配句骼给出待选, 以单击选取后 的句骼重新套入接续 S6继续运作;
D)补加意群串 305—当不妥词串另选替换而缺失时, 接受用户使用延伸词义、粘带前 引或后随字词方法补加意群串, 以补加串进行替换并补加于意群串相应语种构件字段;
E)组选复串 306 ~—当不妥词串另选替换而缺失时, 接受用户使用组复词或改选复词的 方法补加复词串, 以补加串进行替换并补加于意群串的复词库相应语种构件字段;
F)句舱词序 307—当译句句舱有词序错误时, 接受用户单击其中串, 再单击 "一移" 或 "移一"命令按钮, 将单击串前移或后移一个串位;
G)编词替换 308—当连续多串不妥, 不能用单击选中时, 用拖放操作选中选中串时, 然后在编词替换处填上其它词串、编辑或为空, 再单击 " Λ "按钮时, 系统以后者置换前者;
H)修辞 309 ~当出现不能用上述步骤解决的修辞现象时,接受用户单击"修辞"按钮, 然后将当前待校句复制到编辑框, 接受用户使用编辑的方法进行修辞操作;
I)舱转换 310 ~当中译英时接受用户单击某句舱或舱眼内容, 搜索更正表所有当前句 舱或舱眼含有的査得项, 列表给出等待用户多次有序的单击选取, 将它们置换待校句相应句 舱或舱眼内容;
J)补量词 311—当英译中时由于英语无量词而中文有量词因而需要在待校句需要之处 补上量词, 接受用户单击待校句的需补加处, 系统搜索最接近单击点的数串后中心名词, 当 "▲"按钮同时被单击, 以中心名词搜索量词库, 取出相应量词补加到待校句; 如果量词库 査无, 给出对话接受输入给以补加且录入量词库;
K)补冠它 312—当中译英时由于中文没有而英文有冠词、 动词 to/be、 to have等, 这 些需要补加, 在系统给出保留句舱标志标号的目语待校句时, 已经显示了 "a/an"、 "the"、 "to/be"、 "to/have", 当它们之一被单击, 待校句也被单击时, 系统将它们之一在待校句被单 击处加上适当形式的词串;
以上 A-H状态步骤与语言文字的种类无关, 具共性特点,可以出现在多语种之间 A译 B 或 B译 A的双向翻译的过程中; I状态步骤与语言文字的种类相关, 用于无词间间隔表意文 字的翻译之中; J-K状态步骤与语言文字种类密切相关, 它们具个性特点根据具体语种设置。
上述方法中, 步骤 S8述及的自学习模块联动,对校正过程的人机互动进行学习、记忆且 为预选模块提供数据, 如图 4所示, 具体为:
A、经 选词, 在英译中语意校正运作过程中当用户单击待校句的不妥词串后 403, 系统 搜索更正表, 列表给出全部相关査得项待选的同时, 将所有相关待选项以空格相隔生成经验 串, 末尾把相应的英词串附后;
当用户选取列表之一置换的同时,用选中词条和英串查询"经验选词"库,査有频度 -频度 +1, 査无, 将选中词条移到经验串之首且压栈式存入该库 405的中解释字段, 英串从经验串取下 存入英串字段, 当前句骼号存入句骼号字段;
B、 中文词序, 在英译中语意校正运作过程中将生成的中文待校句给出时备份于 "给出 句", 当测得用户使用 "一移"或 "移一"按钮移动句舱或舱眼词序时 406, 记下被移句舱 的舱标号或舱眼号, 当语意校正结束, "返回 "命令按扭被单击时搜索经过移位调整词序的句 舱或舱眼, 是, 以句舱为单位将移位前、 后结果分别存于中词序库 408的 "原序"、 "正序" 字段, 且清除当前句舱或舱眼在经验选词库 405中的相关记录;
C、 炝经验, 在中译英语意校正的 "舱转换"运作时 409备存当前句舱、 舱眼标号, 当 "返回 "命令按钮被单击, 将当前句所有经过舱转换的转前转后内容査船经验库 411, 査有 频度 +1; 査无压栈式存入该库。
上述方法中,步骤 S7述及将所有査得项存于更正表,利用预选模块 402选出査得项当中 最大适配的目语串生成待校句并在更正表中换位到词串段之首, 如图 4所示, 其进一步的特 征是:
更正表至少有词串段、 搜索串、 解释、 串首位字段, 预选模块与语言文字种类密切相关; 英译中的预选 412是①用当前句舱或舱眼内英文词串査询 "经验选词"库, 査有取出解释字 段内容的首条中文词串为 413最大适配的目语串给出, 査无以更正表本词串段首记录为最大 适配的目语串给出; ②用当前句舱或舱眼已经获得的中文内容 414査询 "中词序"库的原序 字段, 査有以正序字段内容替换为最大适配的目语串 415给出, 查无不变;
中译英的预选以源、 目语过渡式中句舱或舱眼的源语内容査询更正表搜索串字段, 有全等的 以同记录解释字段内容为最大适配的目语串给出, 无全等时 417的再査询 "舱经验"库中舱 字段, 有 418以英舱字段内容为最大适配的目语串给出, 查 "舱经验"库无以当前句舱或舱 眼中文内容为最大适配的目语串给出;
凡预选模块选用了更正表某查得项改变了原给出内容的, 同时在更正表中将它换位到本 词串段之首。
与现有技术相比, 本发明的有益效果是:
1 )与传统机器翻译(MT)相比, 可以获得高质量译文的技术效果;
2) 与翻译记忆(TM)相比, 可获得无需独立翻译能力的人士也可操作, 译文质量且与 专业译员相当的技术效果。
3)与现有计算机语言文字信息处理基于字符相比, 本发明基于表意构件更优越。 现有 电子词典与纸上词典一样, 词条间只有不同语言文字的解释, 适合人脑理解与参考; 不能用 以拆分句子, 也不能拼接句子; 不适合计算机语言文字信息处理。 而本发明的表意构件及其 数据库, 更适合计算机语言文字信息处理; 可以用以拆分句子, 也可以用以拼接句子; 并可 社会性积累长期使用。
4)机译人校互动翻译, 在搜索表意构件数据库给出待校目语句的过程中, 诸如一词多 义的所有解释都备份于更正表, 一但人工智能不力产生偏差, 操作者可以简捷另选置换。 这 种有益效果的获得, 在当今人工智能不够完善、 正处成熟过程之中来说意义重大, 也是译文 质量的保证之一。
【阱图说明】
图 1表意构件识别提取流程图;
图 2机译人校互动翻译流程图;
图 3语意校正模块流程图;
图 4自学习模块和预选模块流程示意图;
【具体实施方式】
下文参照附图、 利用实施例将本发明的内容进一步说明如下- 一、 一种表意构件识别提取方法
一种表意构件识别提取方法, 面向多语种相同语意的双语句对, 利用软件方法, 人机交 互进行句对齐操作, 将语意相同的 A、 B双语分别存贮在句对库的 A语字段和 B语字段(该 部分与现有技术翻译记忆相似)。本申请对于表意构件提取的样本,要求规范,取课文、范文、 专业参考资料等发表文章或作品。 操作原则是: 表意构件识别提取的操作者以及句对整理的 语义对齐者。 不能修改被操作句对内容。
下文结合附图 1, 表意构件提取流程, 以中英双语为例, 将本表意构件提取方法进一步 说明如下。 如^图 1所示, 本方法分如下四大步骤:
(一)、 读句配骼 102:
这里将涉及的具特别意义的概念定义及提要如下:
句 ^-"在语言文字里, 表达完整语意的基本单位为句子; 不同语言文字的句子可以表 达相同的语意。 句子可分为句骼、 句舱两部分, 一个句骼至少包含一个句舱。
句翁一移去句舱后句子的剩下部分为句骼。句骼是句子的骨骼和框架; 它出自一类句 子的抽象,在句子中相对稳定, 体现句子基本语意及类属; 构成该类句子基本结构框架部分。 句骼体现句子基本语意及类属是面向全人类的、 跨语种的; 而其基本结构框架是面向具体自 然语言。
句餘一" ϋ嵌在句骼这个基本结构框架上的那些灵活的常替换部分为句舱。句舱接受句 骼的选择和制约; 句舱可用意群串填充或替换, 形成丰富多彩的、 具体的句子。 句舱个数、 其语意内容是面向全人类的、 跨语种的; 但其在句骼基本结构框架中的位置、 次序和用以填 充的意群串是面向具体自然语言的。
小习语一过于简短不足以分出句骼、 句舱, 或因语种、 习俗而难以比对分出句骼、 句 舱的为小习语; 它们是一类特殊的句子。
因语种、 习俗而难以分出句骼、 句舱的如: "一个和尚挑水喝, 二个和尚抬水喝, 三个 和尚没水喝。 "one boy is a boy , two boys half a boy , three boys no boy . "; "兵 不厌诈"; "There can never be too much deception in war. "等等; 没有词义相等的词串, 难以挖去或标注出句舱。 中文还有的成语、 俗语、 谚语、 歇后语等是小习语。
句骼和句舱好比填空题, 句骼是题干, 句舱是题空。 它们好比数学公式; 句舱是变量, 句骼是算式。 句舱由意群统领的意群串填充或组成。 但句舱的大小有较大差别。 最小的句舱 只包含一个意群串; 最大的句舱可以包含一个从句或分句。 句舱分为简单句舱和复杂句舱两 类。
当向双语句对库 101读入一个句对之后, 需要为句对匹配句骼, 有句骼且套入后各句舱 和舱眼匀称、 无残缺、 无堆叠现象的跳过; 无匹配句骼的句对才需要提取句骼。 首先进行配 句骼运作。 配句骼事先按句骼词串与句舱之空穴生成句骼串表并索引, 例如句骼 " I know+[l]+got crush on+[2]+,+[3]+you∞111(1+[4】+."、"我知道+〖1]+喜欢上+[2]+了, +〖3]+你 +[4]+ 看。"等使之成为句骼词串 "I know ... got crush on ..., ... you could ... ."、 "我知道 ... 喜欢 上 ... 了, ... 你 ... 看。 "; 和句骼码、骼首共同制表索引。句骼词串被句舱分割成句骼词段 如 "I know"、 "got crush on\ ","、 "you could", "Λ "我知道"、 "喜欢上"、 "了, "、 "你"、 "看。 "; 注意 ","、 "."与 "got crash on"等同也是一个句骼词段。
配句骼运作一"" *先按句骼词串与句舱之空穴生成句骼串表并索引, 配句骼时把句例从 左到右英逐单词中逐字取下搜索句骼串表的骼首字段(英含句骼词串第一个单词或符号; 中 含第一个字或标点符号)并存于临时表, 再逐记录取出临时表内容, 以句骼词段査询句对例, 句骼串的每段都可以在句对例中査到且次序相同为匹配句骼, 再根据句骼串表的句骼码字段 取出相应语种句骼。
配句骼运作搜索到匹配句骼, 将当前句对例套入并显示给出 "舱检测"和 "査配标"按 钮, 当操作者读到后认为各句舱和舱眼匀称、 无残缺、 无堆叠现象(这是一个意外的收获, 一瞥便知语意合适与否)且语意正确时单击 "舱检测"按钮, 表示认可, 系统接续舱检测步 骤。 如果不是这样, 不认可, 单击 "査配标"按钮, 系统进入査配标运作, 用 A语词串査询 传统电子词典看 B语句是否含有生成当前句对语意匹配表。
査配标运作——査配标运作机器利用含有词性、 A语词、 B语词字段的匹配表, 先以 A 语句子单词串为单元切分、依次填入匹配表 A语词字段,随后逐记录取出查询传统电子词典, 以査得的相应 B语解释搜索 B语句是否含有,含有且是最长串填入 B语词字段同时将其词性 填入词性字段, 无含有 B语词字段为空。 这就作好了识别标注句舱的准备, 将 N=0, 句舱计 数器清零。
«、 自动识别并标注句舱 103:
下文将涉及的具特别意义的概念定义及提要如下:
简单句 ^~以拼音文字计不超过 5个原有词串; 或除不表意虚词外不超过三个意群串 的句舱为简单句舱。
重复句抢一^句舱内容、 标号完全相同的句舱为重复句舱, 在句对当中, 两句的重复句 舱数量位置不一定相等。
连续句 前后两个句舱相连, 中间缺乏间隔词串 (或字符) 的为连续句舱; 在句对 中严卡, 仅仅允许 2连; 两个句子任何哪个出现 3连必须返工重新操作。
复杂句 JI& ~~大于简单句舱的为复杂句舱, 其中含有舱模的句船称有模句舱, 通常等于 大于 8个原有词串; 介于简单句舱和有模句舱之间常常含有复词串为组串句舱。
船模和舱限一进一步剖析复杂句舱; 得出如同框架结构部分称舱模; 镶嵌在舱模框架 结构上的可替换部分称舱眼。 句舱和舱眼是上、 下位概念; 但简单句舱和舱眼的大小相等。
自动识别面向上述匹配表, 自动识别的内容特征如下:
数量串: 凡表示 "数"和 "量"的中英词串收录于数量表, 表中有英数、 中数、计算值、 词性等字段; 其中词性含有 "计算串"、 "数位串"、 "基数"、 "序数"、 "量"等; 如果需要计 算, 将数串从左至右以单词切下, 査该表词性标有 "计算串"的以计算值加入结果数 A; 其 中如果是数位串, 将它与结果数 A相剩; 操作完成加入结果数 B。 判断是否数量串据该表已 登录的识别为数量串。 在匹配表数串之后如果是名词并且数量表有登录识别为量词, 二者合 并为数量串。
专名串: 利用英文首字母大写入手, 排外其它大写情况识别为专名串;
冠名串: 利用英文冠词识别, 冠后跟随名词, 或者插有形容词的 "冠形名 "者识别为冠 名串;
无冠名串: 无冠词引带而词性字段是名词, 且 A语词、 B语解释字段不空识别为语意相 等的无冠名串;
其它匹配串: 其它词类, 只要它们的 A语词、 B语解释字段不空的识别为语意相等的其 它匹配串。
续上: 机器以数量串、 专名串、 冠名串双语同时依次识别、 以先后为序用 N=N+1将它们 预标为句舱。
自动识别预标句艙的运作, 例如句对例:
" In Hengtung County, its per—mu— grain—yield surpassed 800 jin in 1970, double that before 1965.
衡东县在 1970年每亩产量超过 800斤, 是 1965年以前的两倍。"
机器査询当前句对语意匹配表, 首先搜索识别数量串, 有、 将它不们在 A、 B语句子中 同时据 N=N+1以 "A、 B、 C…… "预标; 本例有 3对数量串, 预标为 "A、 B、 C" 3个句跄, 例如:
" In Hengtung County, its per - mu— grain— yield surpassed A {800 jin} in B{1970} , double that before C {1965} .
衡东县在 8 {1970年} 每亩产量超过 A {800斤}, 是(:{1965年} 以前的两倍。" 无或识别搜索完全句数量串后识别搜索专名串, 有、 同样将它不们在 A、 B语句子中同 时据 N=N+1以 "A、 B、 C…… "预标; 本例有 1对专名串, 接续预标为句舱 "D"例如:
" In D {Hengtung County} , its per-rau_grain_yield surpassed A {800 jin} in B {1970} ; double that before C {1965} .
D{衡东县 } 在 8 {1970年} 每亩产量超过 800斤}, 是({1965年} 以前的两倍。" 无或识别搜索完全句专名串后识别搜索冠名串, 有、 同样将它不们在八、 B语句子中同时 据 +1以 "A、 B、 C…… "预标。 本例无; 无或识别搜索完全句冠名串后显示符号 " | "且 在两侧分别显示 "―"、 "一"命令按钮、 计算并显示骼例比、 以及 " "命令按钮, 接受操 作者更正或认可; 同时显示骼例比为 "64%"; 本例因没有达到 15-50%的指标, 需要继续识别 标注句舱; 接受操作者单击 " "按钮, 继续识别标注。
以上是双语依次同时识别数量串、专名串、冠名串; 这三种词串识别之后, 计算骼例比, 连同预标结果,一些命令按钮一同显示给出。如果需要更正可以接受用户(即操作者, 下同) 更正, 无需更正而骼例比超标, 如同本例, 则继续识别标注。 如果骼例比高于 15-50%, 以匹 配表为据搜索词性字段是名词且 A语词 B语词字段不空的为语意匹配的无冠名串, 或者不是 名词而 A语词 B语词字段不空的为其它语意匹配串。同上且加显当前句对语意匹配表、" I手 I "、 " V "、 " < "、 "格式检査"按钮。 本例继续识别无冠名串和其它语意匹配串, 注意, 现在开始是每识别预标一个句舱即暂 停, 等待交互认可或更正。 如本例从左向右搜索无冠名串, 有 " per- mu— grain— yield"、 "每 亩产量", 且与前、 后的已标句舱都有词串相隔, 因而进一步预标句舱 "E", 如:
" In D {Hengtung County} , its Ε {per- mu— grain一 yield} surpassed A {800 jin} in B{1970} , double that before C {1965} .
D{衡东县 } 在 8{1970年} E {每亩产量} 超过 4 {800斤} , 是(:{1965年} 以前的两倍。"
(待续)
这时骼例比为 "42%"已经达标, 但没有 =<15%由操作者根据语意情况可结束识别, 单击 "格式检査"按钮; 也可再识别预标单击 " "按钮; 也可以使用其它命令按钮进行更正。 更正操作和上述显示的命令按钮相关联, 逻列如下:
"一 I―"按钮: 当待校句被单击在单击点插入显示 " I "然后判别 "一"、 "一"按钮 是否被单击; 当 "一"被单击, 将 Ί "左边的词串左移, 如果 " 在句舱内则将其左边词 串移出句舱: 如果 " I "在句舱外则将其左边词串移入句舱。 当 "一 "被单击, 将 " I "右边 的词串右移, 如果 " I "在句舱内则将其右边词串移出句舱; 如果 " Γ在句舱外则将其右边 词串移入句舱。 借此更正句舱内容的多寡。
" V "按钮: 认可当前识别已预标句舱, 继续识别预标新句舱。
" |手| "按钮: 手工标识句舱, 同时在 A、 B语待校句各单击欲标句舱的首尾, 然后单击 " |手| "按钮, 将它们再预标一对句舱, 自动修改骼例比。
"〈 "按钮: 每次单击反悔最后识别预标的句舱,还原到最后预标前状态以及骼例比; 可重复直到完全删去。
"格式检査"按钮: 结束当前句对的更正操作, 进行格式检査运作。 格式检査进行返工 性检测、 标注格式检测、 正式标注三个步骤, 具体运作如下:
1.返工性检査:
句骼限长英句 <=200字符;中 <=150字符(2字节一汉字计);连续句舱限 2个句舱相连。 一但发现句骼超长或 3个句舱相连即刻报告; 立即返工。
2.标注格式检測:
上文述及的自动识别句舱预标是以下文的 "句骼句舱标注规则"进行的。 这里标注格式 检査也是根据这个规则进行检测。 有不符之处, 能自动修改的自动修改; 不能自动修改的提 示用户修改。 检测完成之后,搜索是否有 A、 B语句子同时同号连续句 Jift, 有给出对话框获得 操作者认可后合并为一个句舱。 同时同号连续句舱, 如八、 B语句子都含有" (:、 D"或" D、 C" 相连的句跄应交互后合并(当然由操作者决定)。 然后, 进入下一步骤。
3·正式标注
中、英文是第一个识别比对提取的语种对, 也是核心双语对。依英句从左到右升序编排; 句舱标号以" 1、 2、 3…… "正式标注。第三个语种开始以已经标注句为样本复制,识别标注; 不需要预标。
句髂句舱标注规则:
① 句骼含句骼词、 句舱、 标点符号三种成份; 句舱与其它两种成份之间,句舱与句舱之 间须以 "+"相隔; 标点符号的标注等同句骼词。 如:
[13+dared not+[2] + [3]+, much less+[4] + [5]+.
[1]+不相信 +[2] + [3]+不会来。 ② 标点符号等同句骼词。 句末、 句中符号英有空格隔开; 中无。 如- hearing+[l] +, they innnediately+[2]+.
听到了 +[1]+, 他们立刻 +[2]+。
③英句骼词首不大写("I "例外), 句骼中部可以大写, 包括不规则词、词尾变化等(应 与例句一致)。 如:
no+[l]+and No+[2]+any raore+. 再不要 +[1]+, 不要 +[2]+。
did you+ [l]+, or Did+[2]+? 是您 + [l] +, 还是 +[2] + [l] +?
I did not know whether to send+[l] + [2] +or not .我不知道 +[1]+是否要以 +[2]+发出。
④所有紧缩式无论在句骼或句例中都转换成展开形式;
"Aren' t " 转换成 "Are not"; "aren' t"转换成 "are not"等。
⑤句舱编号, 中英文是第一个语种对, 依英句从左到右升序编排: 中文以及随后语种均 据语意与之相应。 分句骼式和骼例式两种款式, 前者用方括号, 后者用花括号:
a)在句骼式中如句骼 263:
英文句豁- Cl]+could not afford+[2] +, not to speak of+[3]+.
中文句骼: [1]+不能维持 +[2]+, 更不要说 +[3]+。
b)在骼例式中, 仅句舱标号位置稍有区别, 如句骼 263的骼例式为:
1 {at— that— time they} could not afford 2 {the ordinary comforts of life} , not to speak of 3 {luxuries} .
1 {那时他们} 不能维持 2 {普通的生活 } , 更不要说 5 {奢侈品了} 。
⑥重复句舱的句船标号、 句舱内容相同; 语种间不一定对应; 标注也一样。 如- What l {he} has once heard l {he} 2 {never forgets} .
凡是 1{他} 听到过的, 再也 2{不会忘记} 。
⑦舱模标注与句骼标注一致, 也有相应两种款式; 舱模号置园括号 "0"内, 位于本句 舱之首。 如下例-
The 1 {fisherman} consents to return 2 {the feather suit}, on condition that 3 {(00205) 1 [fairy] 2[dance] and 3 [play heavenly music] for him} .
在 3{(00205) 1 [仙女] 为他 2 [跳舞] 并 3 [演奏天上乐曲] } 的条件下, 1 {渔夫} 答应归还 2{羽衣 } 。
⑧上述用以标注的园括号、 方括号和花括号中英及其它文种都使用单字节
续前: 当前句对例识别句舱, 标注全部完成。 如:
" In 1 {Hengtung County} , its 2 {per- mu— grain— yield} surpassed 3 {800 jin} in 4 {1970} , double that before 5 {1965} .
1 {衡东县 } 在 4 U970年 } 2 {每亩产量} 超过 3 {800斤}, 是 5 {1965年} 以前的两倍。" 本例暂停 (再举一例后接续)。
当前句对例识别句舱, 预标句舱有部份内容还未涉及, 再举例说明如下:
例如读入句对 "for three years, there is been a running fight between the Tory and Labour members of the Housing Co画 ittee about raising council ho house rents. ,,、 " 3年来, 住房供给委员会的保守党成员和工党成员就提高社团房租事宜互相进行了追击 战。"
如上述自动依次同时识别数量串、 专名串、 冠名串; 其中有提示: "冠名串 'running' 不匹配!"; 当这三种词串识别预标句舱之后, 显示骼例比为 59%, 预标结果:
"for A {three years} , there is been a running fight between B {the Tory} and C {Labour members} of D {the Housing Committee} about raising council house rents. ";
"八{ 3年} 来, D{住房供给委员会} 的 B {保守党成员 } 和 CD1党成员 } 就提高社团房 租事宜互相进行了追击战。"
本例出现上例未曾涉及的内容: 同上且加显当前句对语意匹配表、 " I手 I "、 " V"、 "〈 " 按钮; 接受操作者使用组复词、 延伸词义、 粘带前引或后随字词方法等意群对齐方法修改匹 配表, 增补语意匹配词串, 继续预标句舱。
数、 专、 冠三种词串识别预标中有提示 "冠名串 'running' 不匹配!"; 看匹配表, 语 种 A中的 "running"相应的语种 B字段为空所以还未匹配; 査传统电子词典 "running"的 解释有: "n, 奔跑: 赛跑: 运转; 转动;流出; adj, 奔跑的: 不断的; 连接的; 流动的: 赛跑 的"。 它们都在搜索 B语句中不含有而没有匹配。 根据当前句对例的语意, 它表达了 "追击" 之意; 是 "奔跑"、 "赛跑"的词义延伸。 符合 "意群对齐"的操作要求(详后)。 所以在语种 B字段增补 "追击"(词性字段填入 "t"示其它补加词类, 下同); 使 "runnings " 追击" 匹配成为意群串。然而冠名串 "a running fight"与"追击战"匹配;被识别预标为句舱" E"; 骼例比为 48%。 如:
"for A {three years} , there is been E {a running fight} between B {the Tory} and C {Labour members} of D {the Housing Committee} about raising council house rents. ";
"八{ 3年} 来, D{住房供给委员会} 的 B {保守党成员 } 和 CU1党成员 } 就提高社团房 租事宜互相进行了 E{追击战 } 。"
看句对的后部一大段, 没有句舱, 同时骼例比 48%; 可以继续识别预标句舱。 因而看匹 配表, 后的 "raising council house rents"与 "提高社团房租事宜"其中由于 "council " 未能匹配。传统词典它有 "n,参议会: 顾问班子; 理事会; 讨论会议; 立法班子; 委员会; 政 务会: 议员"等词义; 在这里表达了 "社团"之意, 是原有词串的词义延伸。 符合 "意群对 齐"的操作要求。 所以在语种 B字段增补 "社团"解释; 当用户单击 " V "按钮, 继续自动 识别、 预标为:
for A {three years} , there is been E{a running fight} between B {the Tory} and C {Labour members} of D {the Housing Conmiittee} about F {raising council house rents} . 八{ 3年} 来, D{住房供给委员会} 的 B {保守党成员 } 和 C D!党成员 } 就 F{提高社团房 租事宜 } 互相进行了 E{追击战 } 。
这时骼例比为 26%; 句舱分布合理(舱间间隔一般为 1-5串的)。识别预标结束; 搜索接 受 "格式检查"按钮被单击。 进行格式检査运作。 然后正式标注为- for 1 {three years} , there is been 2 {a running fight} between 3 {the Tory} and 4 {Labour members} of 5 {the Housing Committee} about 6 {raising council house rents} .
1 { 3年} 来, 5 {住房供给委员会} 的 3 {保守党成员 } 和 4{工党成员 } 就 6{提高社团房 租事宜 } 互相进行了 2 {追击战 } 。
上为列举了两个句对例子, 都在正式标注后暂停。 这里接续:
续上句对例 1 , 正式标注后为:
1 {In Hengtung County} , 2 {its per~mu_grai n_y i e 1 d } surpassed 3 {800 jin} in 4 {1970} , double that before 5 {1965} . 1 {衡东县 } 在 4 {1970} 年 2 {亩产量 } 超过 3 {800斤} , 是 5 {1965} 年以前的两倍。 此时句舱数 =5, 符合 " N=>1 "的要求; 然后移去句舱内容所剩部分为句骼构件, 如- In+[1] +, its+ [2] +surpassed+ [3] +in+ [4] +, double that before+[5]+.
[1] +在+ [4] + [2] +超过 + [3] +, 是 + [5] +以前的两倍。
将句骼构件分别存 于句骼库相应语种构件字段; 这里如将英文句骼 " In+[1]+, its+[2]+ surpassed+[3]+in+[4]+, double that before+[5]+. "存贮于句骼库的 "英句骼" 字段;将中文句骼" [1]+在 +[4] + [2]+超过 +[3]+,是 +[5]+以前的两倍。 "存贮于句骼库的"中 句骼"字段。 下文 XXXX构件存贮于 XXXX库相应语种构件字段如此类推。
句骼库 105有 "英句骼"、 "中句骼"、 "俄句骼"等多语种句骼字段, 分别存贮相应语种 句骼; 同记录的多语种句骼语意相同。 第二轮语意比对提取句骼以己标语种句为模板识别、 标注句舱, 获得新加语种句骼后, 以已标语种句骼搜索句骼库, 在相同记录与新加语种相应 的字段存入。
续上句对例 2, 正式标注后为- for 1 {three} years, there is been 2 {a running fight} between 3 {the Tory} and 4 {Labour} members of 5 {the Housing Committee} about 6 {raising council house rents} .
1 { 3 } 年来, 5 {住房供给委员会} 的 3 {保守党 } 成员和 4 {工党} 成员就 6 {提高社团 房租事宜} 互相进行了 2 {追击战 } 。
此时句舱数 =6, 符合 " N=>1 "的要求; 然后移去句舱内容所剩部分为句骼构件, 如: for+[l]+, there is been+ [2] +between+ [3] +and+ [4] +raembers of + [5] +about+ [6] +.
[1]+来, [5]+的 +[3]+成员和 +[4] +成员就 +[6]+互相进行了 +[6]+。
如同上例, 将它们分别存入句骼库同一记录的 "英句骼"、 "中句骼"字段。
句对例 3:
many things grow in the garden that were never sown there .
有心栽花花不发, 无心插柳柳成荫。
配句骼运作没有匹配句骼; 然而进入査配标运作。査配标运作后的匹配表有 12记录, 语 种 A字段依次是英语句各单词和句号; 语种 B字段全空。 査配标没有匹配串。
再进入识别、 标注句船运作, 没有可标句舱。 符合 N=0; 为小习语构件; 将它们分别存 贮于习语库同一记录的 "英习语"、 "中习语"字段。
习语库 104有 "英习语"、 "中习语"、 "俄习语"等多语种习语字段, 分别存贮相应语种 习语; 同记录的多语种习语语意相同。第二轮语意比对提取的习语以已标语种句为模板识别、 标注习语, 获得新加语种习语后, 以已标语种习语搜索习语库, 在相同记录与新加语种相应 的字段存入。
识别、标注句舱步骤完成, 已获得的句骼构件,小习语构件分别存贮于句骼库、习语库。 0、 艙检测、 提取舱模图 106:
依次逐个句舱检测, 第一轮比对以英语句舱所含词串计数, 小于原有 8个词串的句舱视 需要组复词, 不需组复词的跳过。 等于大于原有 8个词串的以当前句舱作查配标运作生成当 前句舱语意匹配表以备进一步提取舱模为有模句舱。 如当前例:
l{the American} 2 {economic} system is, oiganized around 3{a basically private-enterprise}, 4 {market-oriented economy} in which 5 {consumers} largely determine 6 {what shall be produced} by 7 {spending their money in the marketplace for those goods and services that they want most} .
1 {美国的 } 2{经济 } 是以 3{基本的私有企业} 和 4{市场导向经济 } 为架构的, 在这种 2{经济} 中, 5{消费者 } 很大程度上通过 7{在市场上为那些他们最想要的货物和服务付费 } 来决定 6{什么应该被制造出来 } 。
依次逐个句舱检测, 1-6号句舱都没有超过 8个原有串;句舱 7{spending their money in the marke^lace for those goods and services that they want most}超过 8个原有词串, 作査配标运作 生成当前句船语意匹配表以备进一步提取舱模为有模句舱。
提取舱模, 也以数量串、 专名串、 冠名串双语同时依次识别、 预标为舱眼, 例如当前舱 被标注为:
spending their money in A[the marketplace] for those goods and services that they want most 在 A [市场上】 为那些他们最想要的货物和服务付费
这时模例比 81%;大于 50-70%,再以无冠名串或其它语意匹配串在有间隔的前提下逐个 标为舱眼, 操作者除认可更正外, 还可以使用组复词、 延伸词义、 粘带前引或后随字词等意 群对齐的方法修改匹配表, 增补语意匹配词串, 继续预标舱眼 B。
spending their money in A[tiie marketplace] for those B[goods and services] that they want most
在 A〖市场上] 为那些他们最想要的 B〖货物和服务】付费
这时模例比 65%; 模例比在 50-70%之间; 看语意需要, 可以结束也可以再预标句舱 C: spending their money in A[the marketplace] for those B [goods and services] that Cfthey want most]
在 A [市场上] 为那些 C [他们最想要] 的 B [货物和服务]付费
这时模例比 53%: 低于 50-70%不能再标, 反悔还原。标眼结束, 以英语句舱从左到右为 序修改舱眼预标为正式标注, 例如当前句舱正式标注为:
spending their money in l[the marketplace] for those 2[goods and services] that 3 [they want most]
在 1 [市场上】 为那些他们最想要的 2 [货物和服务】付费
当前句舱提取舱模含有舱眼数 =2; 符合舱模 N=>1条件。 将舱眼内容移去所剩部分为舱 模构件。 如:
spending their money in+[l]+for those+[2]+that+[3]
在 +[1]+为那些 +[3〗+的 +〖2]+付费
将当前提取所得舱模保存到舱模库 107相应语种构件字段。
舱模库 107有 "英舱模"、 "中舱模"、 "俄舱模"等多语种舱模字段, 分别存贮相应语种 舱模; 同记录的多语种舱模语意相同。第二轮语意比对提取的船模以已标语种句为模板识别、 标注舱模, 获得新加语种舱模后, 以已标语种舱模搜索舱模库, 在相同记录与新加语种相应 的字段存入。
继续其它句舱的检测直到全句对句舱检测完毕。 当前舱模是当前句对例最后一个句舱, 因而全句对句舱检测完毕, 当前句舱套回当前舱模, 全句对的骼例式如下:
1 {the American} 2 {economic} system is, organized around 3 {a basically private-enterprise}, 4 {market-oriented economy} in which 5 {consumers} largely determine 6{vs¾at shall be produced} by 7{(2301) spending their money in l[the marketplace] for those 2[goods and services] that 3[they want most]} .
1 {美国的 } 2{经济 } 是以 3{基本的私有企业} 和 4{市场导向经济 } 为架构的, 在这种 2{经济 } 中, 5{消费者 } 很大程度上通过 7{(2301)在 1 [市场上] 为那些 3 [他们最想要] 的 2 [货物和服务]付费 } 来决定 6{什么应该被制造出来 } 。
脚、 收存意群串 108:
这里将涉及的具特别意义的概念定义及提要如下
意群一一意群是自然语言的字、 词、 词组或短语之 "意"的对等和统一; 是人类思维活 动的基本单元。 意群无语种之限,属于全人类; 也随人类社会发展而代谢着。
意群串一意群在语言文字里相应的表示称意群文字串, 简称意群串。 拼音文字的意群 串分单串、 复串两种; 只含有一个原有词串的为单串; 由两个或两个以上原有词串组成, 并 用 "一"相连为复串。
意群对齐一意群对齐方法是利用意群的跨语种特征, 将多语种的字、 词、 词组或短语 等在当前句对实例支持下进行语义对齐, 对齐之后它们便成为意群串, 就有资格存贮于意群 串库。 主要有如下一些方法:
①组复词一根据当前句对、句舱语意判断,如其一需要原有两个词条或更多词条合并, 语意才等于另一时, 前者以 "-"将它们相连合并为一个词条, 称为复词。 或者说: 当两个或 两个以上原有词串的总语义不能由词串义相加获得的以 "一"相连成复词 (复串):
knew— nothing— about— it —无所知
compel led— to— go非去不可
Late— at— night 深夜
works— little工作懒散
其中 "works little" "工作懒散", 虽然 "works"有 "工作"之义, 但 " little"没有 "懒散"之意; 它们的总语义不能由词串义相加获得, 以 "―"相连, 组为复词。
②依照当前句对例、 延伸或增补词义
Nothing can be 1 {wholly beautiful} that is not 2 {useful} .
凡是未经 2 {应用的 } 就不可能 1 {完美 } 。
其中" usefur词义有 "有用的、 有帮手的 、 有益的"; 在该句对确实表达了 "应用的" 语义; 同时 "应用的"和 "有用的"词义接近, 增补或延伸词义项 "应用的"。
1 {She} was 2 {strong} , for all 1 {she} was so 3 {small} .
1{她} 虽然 3{痩小 } , 但很 2{结实 } 。
其中 "small小的", 据该句对例增补 "瘦小" 词义项。
③不改变原有字、 单词的前提下加减串长度, 便于拼接
I ask you to teach me every other day. 我请你每隔一天来教我。
其中" teach" V有 "讲授、 教授"词义; 减词串长为 "教", 增加 "教"词义项。
④粘带附随词串
如 "good好"粘带成 "好处、 好事、 好心"等。 如 "word词"粘带成 "词儿"等。 ⑤词形变化另作词条录入于库(分词, 比较级等表达的语意, 增加词条和相应词义)。 been增补 "还是、 怎么样"词义; punished 增补 "受处分"词义; 意群对齐方法与配句骼运作、査配标运作一样重要,也是本技术方法不可或缺的内容之一。 意群串库与传统的词典、 电子词典有重合之处, 原有词汇基本上都被收录; 不同之处就与意 群对齐相关, 有词形变化的词汇以新词条登录, 意群对齐使得相对词条数量增加, 并为可拼 接贡献很大。 其中复词, 术语都能被涵盖。
续前; 参照经上述识别、 句舱标注后的语意匹配表, 将句舱或舱眼中已经语意对等的双 语词串确定为意群串, 逐对存 It于意群串库 109相应语种构件字段。 当前句对的比对提取结 束, 接续 S1 ; 读句配骼。
以句舱和舱眼标号为序, 逐对句舱或舱眼搜索, 参照语意匹配表, 相应内容在匹配表里 A语字段和 B语字段不空的记录是 A、 B语言文字语意对等的, 已经成为意群串, 将它们逐记 录取出, 分别存贮到意群串库 109同记录相应语种字段内。
如经上述处理后的骼例式句对例:
1 {dyslexia} first was recognized in 2 {Europe} and 3 {the United— States} more than 4 {80 years} ago .
4 {80多年 } 以前在 2 {欧洲 } 和 3 {美国 } 第一次发现 1 {读写困难症 } 。
逐对句舱或舱眼搜索, 参照语意匹配表, 相应内容在匹配表里 A语字段和 B语字段.不空 的记录是 A、 B语言文字语意对等的。 例如其中 "dyslexia读写困难症"、 "Europe欧洲"、 "United—States美国"、 "years多年", 它们是意群在不同语言文字里的表示, 是自然语言 的字、 词、 词组或短语之 "意"的对等和统一; 所以是意群串, 即意群串构件。 然后逐记录 (逐对)将它们保存到意群串库 109相应语种构件字段。
意群串库 109由于拼音文字的意群串分单串、 复串两种; 有相应的单串库和复串库。 表 意文字据语义随拼音文字的串被存放在单串库或复串库; 存入前先搜索, 査无再加入免重。
单串库有 "英单串"、 "中单串"、 "俄单串"等多语种单串字段, 分别存贮相应语种意群 单串; 同记录的多语种单串语意相同。 如 "dyslexia读写困难症"、 "Europe欧洲"等等。
复串库有 "英复串"、 "中复串"、 "俄复串"等多语种复串字段, 分别存 C相应语种意群 复串;同记录的多语种复串语意相同。如" United— States美国"、 "lose— touch—with互不来往"、 "strike_a_balance衡量得失"等等。
第二轮语意比对提取的意群串以已标语种句为模板, 获得新加语种意群串后, 以已标语 种意群串搜索单串库或复串库, 在相同记录与新加语种相应的单串或复串字段存入。
当前句对例的句舱、 舱眼内, 所有语意匹配(语意对齐)后的意群串, 贮存于意群串库 之后,当前句对例语意比对提取表意构件结束,接续步骤( -)、读句配骼;读入下一个句对例, 继续上述运作。
上文表意构件提取方法是以中英双语为例、面向双语句对库进行。进行语意比对、识别、 提取若干表意构件。每轮比对、识别、提取工作选取 A、 B两个语种; 语种 A分配给拼音文字 或已经比对、 识别、 提取过的语种。 语种 B分配给表意文字, 也可分配给拼音文字或新加入 的语种。第一轮比对、 识别、提取工作取中英双语句对, 为核心对; A语种是英语, B语种是 汉语。 从第二轮开始, 每轮增加一个新语种, 另一个必须是已经经过比对、 识别、 提取过的 语种。 然而, 第二轮开始, 比对、 识别、提取工作的运作有所不同。是以已经经过比对、识别、 提取过的 A语为模板, 进行识别、 标注句舱, 获取句骼等。 例例如第二轮新加语种是俄语为 语种 B; 语种 A是已经经过比对、 识别、 提取的中文汉语。 取中俄句对:
约翰象亨利一样努力工作吗?
Pa6oTaeT flacoH β ycepHo βκ reHJin?
然而以中文句搜索句骼库, 获得匹配句骼 象 +[4]+—样 +[3] + [2]+吗? ";将中文句 例套入成为骼例式, 如:
1 {约翰 } 象 4 {亨利 } 一样 3 {努力 } 2 {工作} 吗?
接着根据相应査配标运作后的匹配表, 逐句舱取出, 如取出句舱 1的"约翰", 通过匹配 表找到俄语相应的 " Pa6oTaeT",将它标注为句舱 1,如: l {Pa6oTaeT} A¾ OH EK ycepHo κβκ reHJin?
同样的方法取出句舱 4的 "亨利", 通过匹配表找到俄语相应的 "reHJW", 将它标注为 句船 4, 如: 1 {Pa6o ae } flacoH τβκ ycepHo κβκ 4 {VeHjrn} ?
同样的方法取出句舱 3的"努力", 通过匹配表找到俄语相应的 "ycepHo ",将它标注为 句船 3, 如: 1 {PaOoTae } flacoH τβ 3 {ycepHo} βκ 4{reHjin} ?
最后取出句舱 2的 "工作", 通过匹配表找到俄语相应的
Figure imgf000020_0001
", 将它标注为句舱 2, 如: 1 {PaGo aeT} 2 (Α»ΟΗ} τβκ 3{ycepHo} κβκ 4 {ΓΘΗΛΜ} ?
然而移去句舱所剩部分为句骼构件。 获得新语种俄语句骼:
" [ 1 ] + [2] [3] + KaK+ [4] +? "
利用 Α语句骼 " [1]+象 +[4]+—样 +[3] + [2]+吗? "査询句骼库, 然后在 A语句骼所在记 录的 "俄句骼"字段, 填入新得的俄文句骼 " [l] + [2]+TaK+[3]+ KaK+[4]+?"。
当前句骼库的 "英、 中、 俄"三个语种句骼分别是: D0eS+[l]+[2] +aS+[3]+aS+[4]+? C 1 ] +象 + [4] +—样 + [3] + [2] +吗? [ 1 ] + [2] +T3K+ [3] + KaK+ [4] +?
其它表意构件的比对、 识别、 提取如此类推。
在上文所述表意构件提取方法的运作过程中, 提取出句骼、 舱模、 意群串、 小习语四种 表意构件, 被分别存贮在相应的句骼库、 舱模库、 意群串库、 习语库里面。 它们的特征是:
1 )句骼构件是移去句舱后留下的句子的骨骼和框架部分,句骼库用以存贮句骼构件,有 句骼码、 英句骼、 中句骼、 俄句骼字段, 同记录的各语种句骼字段存贮相应语种句骼, 它们 的语义相同, 句骼码是它们语义和位次的表示。
同记录的各语种句骼, 它们的语义相同决定于每轮比对、 识别、 提取利用一个语种对, 第二轮开始, 每次增加一个语种, 句骼库增设相应语种构件字段; 比对、 识别、 提取出来的 新句骼存放到相应语种构件字段, 如此的比对、 识别、 提取方法以及软件运作保证同记录的 表意构件语义相同。 加之数据库的特点, 使得同记录的各成分之间互相影射, 包括各语种构 件字段以及句骼码, 只要搜索到其中之一, 就可以取出相应语种构件字段内容。
2)舱模构件是移去舱眼后留下的句舱的骨骼和框架部分,舱模库用以存贮舱模构件,有 舱模码、 英舱模、 中舱模、 俄舱模字段, 同记录的各语种舱模字段存贮相应语种舱模, 它们 的语义相同, 舱模码是它们语义和位次的代表。 舱模库具句骼库相同的同记录语种构件字段 语义相同且相互影射的特征。
3)意群串构件是填充句舱或舱眼的成分, 意群库用以存贮意群串构件, 有意群码、英群 串、 中群串、 俄群串字段, 同记录的各语种意群串字段存贮相应语种意群串, 它们的语义相 同, 意群串码是它们语义和位次的代表。 意群串库也具句骼库相同的同记录语种构件字段语 义相同且相互影射的特征。
4)小习语构件是一类不能划分出句骼句舱的特殊句子, 习语库用以存贮小习语构件,有 习语码、 英习语、 中习语、 俄习语字段, 同记录的各语种习语字段存贮相应语种习语, 它们 的语义相同, 习语码是它们语义和位次的表示。 习语库也具句骼库相同的同记录语种构件字 段语义相同且相互影射的特征。
5)表意构件是不同语言文字以表意进行关联的具体体现,是大小不等形态结构不同的语 义块, 它们也是多种语言文字表意的对等和统一。 同时, 表意构件是大小不等结构不同的可 以拆卸、 组装、 拼接的语义块。 包括句骼构件、 舱模构件、 意群串构件和小习语构件四种; 有相应的句骼库、 舱模库、 意群串库和习语库, 它们共同构成表意构件数据库, 四库之间相 互独立。
6)第二轮开始的识别提取, 事先应在上述这四个库内分别增设新语种的构件字段。
7) 以表意构件及其数据库支持语言文字信息处理; 可以获得不同语言文字之间以表意 进行关联的信息; 利于语言文字信息处理逾越 "语义障碍"的有益效果。 可以支持语言文字 信息处理多种场合。
用形象化语言描述, 句骼构件如同汽车底盘, 给驾驶室、 车轮、 动力系统、 供油系统等 等留有恰到好处的空间和接洽件。 舱模构件如同驾驶窒, 里面还包括其它小系统和部件。 意 群串构件如同车轮、 其它种种小系统、 集合件、 组件等等; 可以装配的任何需要的部位。 小 习语则是一类特殊的、 仅具基本车特性的它种车, 以至人力车、 手推车等等。 二、 一种基于表意构件的机译人校互动翻译方法- 结合附图 2, 机译人校互动翻译流程图, 以英译中为例, 将本机译人校互动翻译方法进 一步说明如下。
读入源语待译文件 201, 存于缓存区。 随后进入如下四大模块步骤:
( -)、 读句、 配骼、 源语句套入 202, 读入源语句子, 以源语句搜索句骼库, 进入如同上 文的配句骼运作:
例如读入源语一个待译句子:
Oliver Twist was born in workhouse; there were no aunts, no sisters, no cousins, no grand— mothers,
把当前句例从左到右英逐单词中逐字取下搜索句骼串表(含骼首、 句骼、 句骼码字段) 的骼首字段(英含句骼词串第一个单词或符号; 中含第一个字) 并存于临时表, 再逐记录取 出临时表内容, 以句骼词段査询句对例, 句骼串的每段都可以在句对例中查到且次序相同为 匹配句骼, 再根据句骼串表的句骼码字段取出相应语种句骼。 句骼码以句骼库标志码加记录 号组成; 其它索引表类推。
如本例再根据句骼码字段到句骼构件库取出源、 目语句骼如下:
w [l]+was born in+[2] + ; there were no+[3]+, no+[4]+, no+[5]+, no+[6]+. " 出生于 +[2]+; 没有 +[3]+, 没有 +[4]+, 没有 +[5]+, 没有 +[6]+。" 然后将源语句子对号入座地套入源语句骼, 所谓对号入座如该例第一个句骼词段 "was born in"与句例中的相应段 "was born in"对号, 句骼词段 "; there were no"与句例中 的相应段 "; there were no"对号等等如 "黑体"部分:
[l]+was born in+[2] + ; there were no+[3]+, no+[4]+, no+[5]+, no+ [6]+.
Oliver Twist was born in workhouse ; there were no aunts , no sisters , no cousins no grand— mothers .
句例中的相应段之外部分 (斜体)分别入座到相应句舱去 (即成为骼例式), ta n
入座到句舱 [1] ; " irorvWwwse"入座到句舱 [2] ; 入座到句舱 [3]; 等, 使成 为源语句骼例结合形式。 如- se} ; there were no 3 {aunts} , no 4 {sisters}
Figure imgf000022_0001
将源语句子对号入座地套入源语句骼后, 进行舱检测, 若是有模句舱再搜索舱模库、 套 入舱模并纳入句骼, 使成为源语句骼例结合形式。 该步骤结束。
(=、 句熗或舱眼内容转移 203, 从源语句的骼例式中逐个取出句舱或舱眼内容, 转移到 目语句骼相应的句舱或舱眼里, 使之成为源、 目语过渡式:
用前面含有模句舱之例, 其源语的骼例式如:
1 {the American} 2 {economic} system is, organized around 3 {a basically private-enterprise}, 4 {market-oriented economy} in which 5 {consumers} largely determine 6{v¾at shall be produced} by 7 {(2301) spending their money in l[the marketplace] for those 2 [goods and services] that 3 [they want most]} .
目语句骼相应的句舱或舱模如:
{ 1 } { 2 } 是以 { 3 } 和 { 4 } 为架构的, 在这种 { 2 } 中, { 5 } 很大程度上通过 7{(2301)在 〖1 ] 为那些 [ 3 ] 的 [ 2】付费 } 来决定 { 6 } 。
然后从源语句的骼例式中逐个取出句舱或舱眼内容, 转移到目语句骼相应的句舱或舱眼 里。如取出句舱 1的内容 "the American", 转移到目语句骼相应的句舱 1 " { 1 }"里; 取出句 舱 2的内容 "economic", 转移到目语句骼相应的句舱 2 " { 2 } "里; ……; 取出句舱 7中舱 眼 1的内容 "the maiketplace", 转移到目语句骼相应句舱 7的相应舱眼 1 "[ 1】"里, 等等如 此类推。 使之成为源、 目语过渡式如-
1 { the American } 2{ economic } 是以 3{ a basically private-enterprise } 和 4{ market-oriented economy } 为架构的, 在这种 2 { economic } 中, 5{ consumers } 很大程 度上通过 7{(2301)在 l[the marketplace ] 为那些 3〖他们最想要] 的 2[goods and services ] 付费 } 来决定 6{ what shall be produced } 。
如此, 使之成为源、 目语过渡式。 该步骤结束。
、 存査得项、 预选、 给出目语待校句 204, 逐个取出目语过渡式中句舱或舱眼的源语 词串,查询意群串库,无词间间隔的表意文字则以从左到右可能的排列作为词串査询意群库, 二者所有査得项存于更正表。 更正表至少有词串段、 搜索串、 解释、 串首位字段。
续上例, 如取出 "American", 査询意群串库, 获得 "美国"、 "美国人"、 "美洲人"、 " 美 国的"、 "美洲的"; "American"存入搜索串字段; "美国"、 " 美国人"等存入解释字段; 词 串段字段填 1; 串首位字段填 8 (包括空格居第 8个字符位) 。 共有 5个解释, 有 5个记录。 再取出 "economic"并存入搜索串字段, 査询意群串库, 获得 "经济的"、 "经济学的"、 "产供销的"等并存入解释字段(更正表又增加了 3个记录); 词串段字段填 2 (它们是第 2 段) ; 串首位字段填 22; 以下如此类推。
利用预选模块 402搜索, 若有改选记录的将其在更正表中换位到词串段之首。 如上例, 机器运作到预选模块之前目语句为 斜体字
nm 2{经济) 是以 基本上私有企业} 和 4{市场导向经济 } 为架构的, 在这种
2{经济 } 中, 5{消费者 } 很大程度上通过 7{(2301)在 1 [市场上] 为那些 他们想要 Μ 的 2【货物和服务]付费 } 来决定 6{什么应该被制造出来 } 。
预选模块 402之中要搜索经验选词库 405 (含英串、 中解释字段)和中文词序库 408 (含 原序、 更正序字段); 其中句舱 1 "American"在经验选词库 405记录有改选 "美国的"的记 录; 这时更正表"美国的 "处第 4个记录, 是第 1个词串段, 该段首是"美国", 因而将 "美 国的"置换 "美国"(因最后给出的只是段首记录)。类似,句舱 3中的 "basically"有改选 "基 本的"的记录; 句舱 7的舱眼 3内容在中词序库 408有更正序为 "她们 最想要"的记录; 然而, 经预选模块运作后, 相应句舱、 舱眼自动更正之后, 预选后的保留句舱舱眼标志标号 的目语待校句; 显示待校句 416, 如:
1 { ^ 2{经济 } 是以 3{基本 私有企业} 和 4{市场导向经济 } 为架构的, 在这种 2{经济} 中, 5{消费者 } 很大程度上通过 7{(2301)在 1 [市场上] 为那些 ^他们最想 的 2 [货物和服务]付费 } 来决定 6{什么应该被制造出来 } 。
相应的源语参考句如: l{the American} 2{economic} system is, organized around 3{a basically private-enterprise} , 4 {market-oriented economy} in which 5 {consumers} largely determine 6{what shall be produced} by 7 {(2301) spending their money in l[the marketplace] for those 2[goods and services] that they want most} .
显示给出待校句同时, 显示 "返回"、 "继后"、 "一移"、 "移一"、 "▲"、 " Λ "、 "修辞" 命令按钮以及相应的源语参考句; 作好接受用户更正操作的准备。 本模块步骤结束。
以上 (-)到〇模块步骤都在计算机全自动状态下完成, 也就是本方法名称 "一种机译人校 互动翻译方法"的 "机译"部分; 接着, 下文模块步骤榔是 "人校"部分, 人校之中也是互 动、 交互, 确保获得快捷简便的使用效果。
脚、语意校正, 自学习 205; 又如图 3语意校正模块流程图所示, 上文模块步骤运作后, 给出了目语待校句、 按钮以及源语参考句 301, 为语意校正作好了准备。 当用户读到目语待 校句和相应的源语参考句后开始校正操作, 系统的校正模块借更正表进行语意校正运作, 自 学习模块 401联动, 对校正过程的人机互动进行学习、 记忆且为预选模块提供数据。
下文根据实例进一步说明如下:
Α)不妥词串的替换 302: 例如, 当用户读到的待校句及相应的源语参考如:
"如果你 1 { 买到那一栋房子 } , 你是否将在 3 {那里 } 渡过 2 {你的晚年 } ? ,,
" if you 1 {buy that home} , will you spend 2 {the— rest— of— your—life} 3 {there} ?" 当用户认为待校句某词串 "那一"不妥时, 单击它系统搜索更正表, 弹出下拉列表给出 全部相关査得项待选。 根据被击词串, 及其所在待校句的字符位置数查询搜索串、 串首位字 段, 符合记录以下拉列表给出; 如 "那个、 由于、 那、 那么"等等。 当列表某项被用户单击,例如"那"被单击, 以"那"置换待校句当前不妥词串"那个"; 并在更正表中将 "那"和 "那个" 2记录内容换位; 由于 "那"、 "那个"不等长, 还要修 改以后记录 "串首位" 字段之值。
当 "返回"按钮被单击, 将上述更正相关信息记录于经验选词库备预选模块搜索使用: 最后返回, 进行下一句的翻译运作。
B)连续句舱的切分 303—当遇到没有参照无法自动进行切分的连续句舱给出、等待操 作者干预, 例如连续句舱含 2个词串, 两个句舱各取其一, 自动切分。又例如两个句舱相连, 其中之一又是重复句舱,参考重复句舱的另一个,将连续句舱内容划出与重复句舱相同部分, 剩下部分即属于连续句舱之中的另一个。
例如待译句 "When will he go there, tomorrow or some_other_day?"运作时半途停 下, 出现连续句舱 " 1 { 2 {he go there} ", 没有参照无法自动切分; 所以显示 "连续句舱, 请单击切分点: ":
" 1 { 2 {he go there} " 以及如下信息:
wbea will 1 { 2 {he go there}, 3 {tomorrow} or 4 {some— other— day}?
[1] +什么时候 +[2] +, +[3] +还是 + [4] +?
显然, 应将 "he go there"切分为 "he ", "go there"; 分别被放到 [1] +什么时候 + [2] 中去。
当 "he go there"被单击后以被单击点为切分点将两个句舱内容分开; 成为:
"when will l {he} 2 {go there}, 3 {tomorrow} or 4 {some— other— day}?"
继续运作。
C)干预另选句骼 304—当遇到句舱和舱眼不匀称、有残缺、或堆叠之错选句骼表现时, 或用户不认可当前译句时单击 "继后"按钮, 系统把多对匹配句骼给出待选, 以单击选取后 的句骼重新套入接续 S6继续运作; 例如待译句:
I went to see— my— doctor for a check-up yesterday.
自动给出待校句为:
我去看 1 {我去了 釅 请医生 的 驪 体格检査昨天 } 。
1 { I went to see— my— doctor for a check-up yesterday } .
参考句全部内容堆叠到一个句舱; 起码的 "句子有句骼、 句舱两个部分"都不支持; 自 动选句骼有误, "继后"按钮接受到用户单击; 把多对匹配句骼给出待选;
当用户另选一个句骼后, 继续运作给出待校句以及相应源语参考句为- 3 { 昨天 } 我去 1 { 请医生 } 作了 2 { ■ 体格检查 } 。
I went to 1 { see— my_doctor } for 2 { a check-up } 3 { yesterday } .
根据上述命令按钮被用户单击由判别和后续 313接续相应后续运作。
D)补加意群串 305 "—当不妥词串另选替换而缺失时, 接受用户使用延伸词义、粘带前 引或后随字词等意群对齐方法补加意群串, 以补加串进行替换并补加于意群串相应语种构件 字段。 例如待译句:
Now doctors have discovered a cause of ulcers.
自动给出的待校句为:
Π现在 doctors } 发现了一种导致 2 { 溃疡 } 的原因。 当用户单击" doctors"时更正表中找不到待选项;当用户选中査词典时给出" doctors是 名复或动 3"提示。 本方法规定, 凡有词形变化的作为新词登录。 然而接受用户输入 "医 生们"为 "doctors"和 "医生们"补加为意群串, 存入意群串库。 同时待译句更换成: Π现在 医生们 } 发现了一种导致 2 { 溃疡 } 的原因。
根据上述命令按钮被用户单击由判别和后续 313接续相应后续运作。
E)组选复串 306 ~当不妥词串另选替换而缺失时, 接受用户使用组复词或改选复词的 方法补加复词串, 以补加串进行替换并补加于意群串的复词库相应语种构件字段;
例如待译句:
It usually happens before eating or during the night.
自动给出的待校句和相应源语句参考为:
它通常出现在 H 以前吃饭 } 或 2 {在.…的期间 園 夜晚 } 。
it usually happens 1 { before eating } or 2 { during the night } - 当用户单击这两个句舱之一词串时, 更正表列出的备选项用户没有选取, 而是用拖放方 法选中 "before eating"接受用户使用组复词的方法将它们组成复串 "饭前", 这里更换且 补加于复词库。 接着用户又用拖放方法选中 "during the night " 自动査询复词有 "during the night 夜里"给出; 接受用户单击选用, 这时的待校句更正为:
它通常出现在 1 {饭前 } 或 2 { 夜里 } 。
根据上述命令按钮被用户单击由判别和后续 313接续相应后续运作。
F)句舱词序 307—当译句句舱有词序错误时, 接受用户单击其中串, 再单击 "一移" 或 "移一"命令按钮, 将单击串前移或后移一个串位;
例如待译句:
Doctors have been able to help lessen the pain of ulcers.
自动给出的待校句和相应源语句参考为:
H 医生们 } 早已能够帮助 2 { 减轻 顬 疼痛 的溃疡 } 。
1 { Doctors } have been able to help 2 { lessen the pain of ulcers } .
如果用户单击 "疼痛", 再连续 2次单击 "移一"按钮, 右移 2次, 待校句变成:
1 { 医生们 } 早已能够帮助 2 {减轻 讕 的溃疡疼痛 } 。
接着用户单击 "的"后单击 "移一"按钮, 待校句更正为:
H 医生们 } 早已能够帮助 2 {减轻 隨 溃疡 的 疼痛 } 。
当用户单击 "返回"按钮时, 先判别用户使用 "一移"或 "移→"按钮移动了词序, 启 动自学习模块, 将当前移动过的句舱, 移前、 移后内容保存到 "中词序 "库。 然后返回。
G)编词替换 308—当连续多串不妥, 不能用单击选中时, 用拖放操作选中选中串后, 然后在编词替换处填上其它词串、编辑或为空, 再单击 " Λ "按钮时, 系统以后者置换前者。
例如待译句-
Alfred Herman, he shared the 1911 Nobel Peace Prize for his work toward world peace.
自动给出的待校句和相应源语句参考为:
H 阿尔弗雷德赫尔曼 } ,因 2 {他 } 为 4 { 世界和平 } 所做的贡献,获得 3 { 1911 诺贝尔 Peace Prize } 。
1 { Alfred Herman }, 2 { he } shared 3 { the 1911 Nobel Peace Prize } for his work toward 4 { world peace } .
当用户认为 "诺贝尔 Peace Prize"; 并用拖放操作选中, 系统将它们显示于 "选中串" 和 "编词替换"字样下的文本框; 接受编辑为 "年诺贝尔 和平奖"。 当 " Λ "按钮补单击, 以后者替换前者, 更正待校句为-
1 { 阿尔弗雷德赫尔曼 } ,因 2 {他 } 为 4 {世界和平 } 所做的贡献,获得 3 { 1911 年诺贝尔 和平奖 } 。
根据上述命令按钮被用户单击由判别和后续 313接续相应后续运作。
H)修辞 309 ~当出现不能用所列其它步骤处理的修辞现象时, 接受用户单击"修辞" 按钮, 然后将当前待校句复制到编辑框, 接受用户使用编辑的方法进行修辞操作。
例如待译句或经其它所列步骤处理后的修辞现象时, 如:
Dickens ' language, at once rich colourful and varied, is like fine and sensitive musical instrument.
自动给出的待校句和相应源语句参考为:
1 {狄更斯 的语言 } 既 2 { 丰富 多采 } 又 3 {变化多端 } ,很象 4 {精美而动人 的 音乐的 工具 } 。
1 { Dickens, language }, at once 2 { rich colourful } and 3 { varied } , is like 4 { fine and sensitive musical instrument } ,
当用户单击 "修辞"按钮时, 将当前待校句复制到编辑框, 接受用户使用编辑的方法进 行修辞操作。 操作后的目语待校句为:
1 {狄更斯 的 语言 } 既 2 { 丰富 多采 } 又 3 {变化多端 } ,很象 4 {精美而动人 的 乐器 } 。
"返回"命令按钮除上文所述功能外, 它在返回之前还会扫描专为修辞所设的编辑框; 当该编辑框不空时, 取该框内容返回; 要不取待校句返回。
J)补量词 311—当英译中时由于英语无量词而中文有量词因而需要在待校句需要之处 补上量词, 接受用户单击待校句的需补加处, 系统搜索最接近单击点的数串后中心名词, 当 "▲"按钮同时被单击, 以中心名词搜索量词库, 取出相应量词补加到待校句; 如果量词库 査无, 给出对话接受输入给以补加并录入量词库。 例如待译句-
On April 24, 1970, China successfully launched its first man-made earth satellite.
自动给出的待校句和相应源语句参考为:
1 {在 四月 24 } , 2 { 1970 , 中国 } 成功发射了 3 {第一人造地球卫星 } 。
1 { on April 24 } , 2 { 1970 , China } successfully launched its 3 { first man-made earth satellite } .
当用户把数字串或数串之后的中心名词利用拖放操作选中。例如用户选中 "人造地球卫 星"; 系统将它们显示于 "选中串"和 "编词替换"下;
当用户单击命令按钮 "▲"时, 以中心名词(这里是 "卫星")搜索量词库, 取出相应量 词, "颗"补加到待校句; 这时的待校句变成:
2 { 1970 } 年 1 { 在 四月 24 } , 3 { 中国 } 成功发射了 4 { 第一颗 人造地球 卫 星 } 。
如果量词库査无, 给出对话提示: "査无; 可在编词替换下以 '量 /名' 形式加入。"如 该例输入 "颗 /卫星"即可。
根据上述命令按钮被用户单击由判别和后续 313接续相应后续运作。
以上 A-H状态步骤与语言文字的种类无关, 具共性特点, 可以出现在多语种双向翻译之 间; 如英译中或中译英的双向翻译的过程中。 J状态步骤与语言文字种类密切相关, 用于英 译中或其它语种译成中文时使用。 下文还有 I、 K状态步骤与语言文字的种类相关。 I状态步 骤用于无词间间隔表意文字的翻译之中, 例如中译英; K状态步骤用于中译英。 I- K都具个性 特点根据具体语种设置。上文以英译中为例说明; 下文 I、 K出现在中译英过程中。所以下文 以相应中译英实例说明:
I )舱转换 310 ~当中译英时接受用户单击某句舱或舱眼内容, 搜索更正表所有当前句 舱或舱眼含有的査得项, 列表给出等待用户多次有序的单击选取, 将它们置换待校句相应句 舱或舱眼内容;
例如待译句:
"理论在本质上是对认识了的现实的 种抽象和符号化的表达。 "
自动给出的待校句和相应源语句参考为:
1 {essentially} , a 2 {theory} is an 3 {abstract} , 4 { 符号化的表达 } of what is conceived to be 5 {reality} .
2 {理论} 在 1 {本质上 } 是对认识了的 5{现实 } 的一种 3 {抽象 } 和 4 {符号化的表 达} 。
待校句有 4个句舱;其中 3个句舱都已经译成英文;仅句舱 4还保留着源语句舱内 {符 号化的表达 } "
当用户单击该舱内容 "符号化的表达"时, 由于査询意群库生成更正表的过程中, 无词 间间隔的表意文字从左到右可能的排列作为词串査询意群库,所有査得项存于更正表。 "符号 化的表达"被分为 "符号"、 "符号化"、 "符号化的"、 "的"、 "表达"等中文词串, 査得项包 含它们以及它们的相关英文解释。 供用户根据英文习惯依次选取。
这里用户应先选取 "symbolic 符号化的"; 再选取 "representation表达"; 然而当前 句舱处理完毕, 当前待校句为:
1 {essentially} , a 2 {theory} is an 3 {abstract} , {symbolic representation} of what is conceived to be 5 {reality} .
不管有无其它更正; 系统都检测上述命令按钮和给出的相关框、 表是否被用户单击来判 别后续 313, 接续相应后续运作。
K)补冠它 312——当中译英时由于中文没有冠词、 动词 to/be、 to/have区分等, 在中译 英时, 这些需要补加; 在系统给出保留句舱标志标号的目语待校句时, 已经显示了 "a/an"、 "the", "to/be"、 "to/have"、 "墨" , 当它们之一被单击 ("丽 "除外是结束标志), 待校句 也被单击时, 系统将它们之一在待校句被单击处加上适当形式的词串;
例如待译句:
我们累了, 这是有目共睹的。
自动给出的待校句和相应源语句参考为:
1 { 我们累了 }, as anyone can see .
1 { 我们累了 } , 这是有目共睹的。 系统以 "我们累了"可能排列査询意群串库, 将所有査得项保存于更正表备用户选取。 这里用户会选取 " we 我们"和 " tired 累了"; 这时的待校句变成:
1 { we tired }, as anyone can see .
这样的显然不符合英语的要求。用户会单击 "补冠它"下方列出的 "a/an the to/be to/have 體"其中的 "to/be"; 并且再单击 "we tired"中间的空格。 系统判定这里需要 "补冠它" 操作, 并且根据 "to/be"的要求, 这里应插入动词 "are"; 然而当前待校句变成为:
1 { we are tired }, as anyone can see .
不管有无其它更正; 系统都检测上述命令按钮和给出的相关框、 表是否被用户单击来判 别后续 313, 接续相应后续运作。
上文逻列并说明了需要更正的状态步骤。 还有一种情况, 给出的待校句完全正确, 操作 者没有单击任何上述按钮以及相关给出显示的页面控件, 就单击 "返回"按钮; 即给出的待 校句完全正确, 无需更正的情况; 这种情况并且会越用越多。
需要补充说明的是, 上文所提及的待校句都是以保留了句舱、 舱眼标志、 标号的目语待 校句形式给出的。 当 "返回"命令按钮被单击返回, 这些句舱、 舱眼标志、 标号以及不需要 的空格都将弃去,与传统方式一样:如:" 1 { we are tired } , as anyone can see ."; " 2{ 1970 } 年 1 { 在 四月 24 } , 3{ 中国 } 成功发射了 4{ 第一颗人造地球卫星 } 。"等等变成:
" we are tired, as anyone can see .
在 1970年四月 24日,中国成功发射了第一颗人造地球卫星。"等等返回;给出到译文框, 以至最后生成目标译文输出 206。 实施本发明所产生的软件系统可以在现有的中型、小型、微、巨型计算机,笔记本电脑、 掌上电脑等单独的或者相连成网的计算机上运行实施。 可以在各种计算机网络, 特别是在因 特网上运行实施。 还可以在诸如 "个人数字助理", PDA (Personal Digital Assistant) , 平 板电脑、 手机等装置上运行实施。 本发明实施后的产品, 可以应用于需要和其它语种的人们 进行交流的工作、 学习、 休闲、 旅游等等场合; 可以用于家庭、 机关、 学校以及各行各业涉 及外文的场合。

Claims

权 利 要 求 书
1. 一种表意构件识别提取方法, 利用相同内容的多语种或双语文字版本的语料作句对齐 后生成双语句对库, 其特征是进一步根据不同语言文字的句子可以表达相同语意, 以表意将 不同语言文字进行关联, 不同语言文字的表意通过四种共同的表意构件实现, 识别提取出这 四种表意构件包括如下步骤:
51. 读句配骼 102, 句子由句骼和句舱两部分组成, 识别提取表意构件每轮选取 A、 B 两种语言文字, 计算机读取双语句对库一个 AB双语句对, 以当前双语句对之一査询句骼库 进行配句骼运作, 有匹配句骼将双语句对套入, 并显示 "舱检测"、 "査配标"按钮, 当套入后各句舱匀称、 无残缺、 无堆叠现象且 "舱检测"按钮被单击, 为肯定, 已有匹配句 骼, 接续 S3舱检测,
若套入后各句舱不匀称、 有残缺、 或有堆叠现象且 "査配标"按钮被单击, 为否定, 表示对 套入结果否定需要提取新句骼, 系统进入查配标运作, 用 A语句词串査询传统电子词典据 B 语句是否含有语义对应词串生成当前句对语意匹配表, 舱计数 N )准备提取新句骼;
52. 识别及标注句舱 103, 机器以数量串、 专名串、 冠名串双语同时依次识别、 以先后 为序用 N-N+1将它们预标为句舱, 预标句舱使骼例比由 100%逐步降低, 这三种词串标注句 舱结束后,
如骼例比高于 50%, 以所述语意匹配表为据将无冠名串或其它语义匹配串在有间隔的前提下 逐 接续标为句舱, 接受操作者认可、 或更正或使用意群对齐运作增补语意匹配词串, 继续 识标句舱,
直至上述识别及标注句舱条件缺失且骼例比在 15-50%之间,识标句舱结束,进行句骼格式检 査, 整理前述预标为正式标注这是第一轮识别提取的步骤, 第二轮识别提取开始不用识别词 性而是以已标语种句为模板识别、 标出未标语种句的句舱,
当 N=>1时, 当前句对移去句舱所剩部分为句骼构件, 将它们存 于句骼库 105相应语种构 件字段, 当 N=0当前句对为习语构件, 习语构件是一些分不出句骼句舱的特殊句对, 将它们 存贮于习语库 104相应语种习语字段,
将当前双语句例对号入座地套回当前句骼成为骼例式备续;
53. 舱检测及提取舱模 106, 逐个句舱检测, 第一轮识别提取以 A语拼音文字句的句舱 所含词串计数, =>5个原有词串要进入组复词运作,
=>原有 8个词串的以当前句舱作 "査配标"运作生成当前句舱语意匹配表以备进一步提取舱 模为有模句舱,
提取舱模, 以数量串、 专名串、 冠名串双语同时依次识别、 预标为舱眼, 模例之比由 100% 逐步降低, 若预标完这三种词串还大于 70%, 再以无冠名串或其它语意匹配串在有间隔的前 提下在标为舱眼, 接受操作者认可、 更正, 或使用意群对齐运作增补语意匹配词串, 继续预 标舱眼,
当预标条件不存在且模例比在 50-70%之间, 预标舱眼操作结束, 以英语句舱从左到右为序修 改舱眼预杯为正式标注, 第二轮提取开始不同, 是以已标语种句舱为模板识别、 标出未标语 种舱眼,
当舱眼数 N->1 ;当前句舱对移去舱眼所剰部分为舱模构件,保存到舱模库 107相应语种船模 字段,
继续其它句舱的检测直到全句对句舱检测完毕;
54. 收存意群串 108, 将当前双语例对号入座地套回当前提取的句骼, 有舱模的句舱再 套回相应舱模, 再逐个句舱或舱眼搜索, 参照语意匹配表, 相应内容在匹配表里 A语字段和 B语字段不空的记录是 A、 B语言文字语意对齐的, 确定为意群串构件, 将它们逐记录取出, 分别存贮到意群串库 109同记录相应语种字段内, 当前句对的识别提取结束。 权 利 要 求 书
2. 根据权利要求 1所述的表意构件识别提取方法, 其特征在于: S2所述以数量串、 专 名串、 冠名串双语同时依次识别、 标注步骤, 具体为:
机器査询当前句对语意匹配表, 首先识别搜索数量串, 如有则同样将它们在 A、 B语句子中 同时据 N=N+1以 "A、 B、 C ······ "加预标,
如无或识别搜索数量串完成后, 识别搜索专名串, 如有则同样将它不们在 、 B语句子中同 时据 N-N+1以 "A、 B、 C ······ "预标,
如无或识别搜索专名串结束后, 识别搜索冠名串, 如有则同样将它不们在八、 B语句子中同 时据 N-N+1以 "A、 B、 C…… "预标,
如无或识别搜索冠名串结束后, 显示符号 " I "且在两側分别显示 "一" "一"命令按钮、 计 算并显示骼例比、 以及 " V "命令按钮, 接受操作者更正或认可。
3. 根据权利要求 1所述的表意构件识别提取方法, 其特征在于: S2所述以无冠名串或 其它语意匹配串在有间隔的前提下逐个接续标为句舱, 具体为: 当骼例比高于 50%, 以匹配 表为据搜索词性字段是名词且 A语词 B语词字段不空的为语意匹配的无冠名串,或者不是名 词而 A语词 B语词字段不空的为其它语意匹配串, 同上且加显当前句对语意匹配表、 "|它 |"、
" V "、 "<^"、 "格式检査"按钮, 并接受操作者使用组复词、延伸词义、粘带前引或后随字 词的意群对齐方法修改匹配表, 增补语意匹配词串, 继续预标句舱直至识标句舱条件缺失且 骼例比在 15-50%之间, 识标句舱结束,
然后, 进行句骼格式检査, 第一轮识别提取以英语句从左到右为序整理预标舱序号为正式舱 序号, 第二轮识别提取开始以已标语种句为模板识别、 标出未标语种句的句舱。
4. 根据权利要求 1所述的表意构件识别提取方法, 其特征在于:
所述利用双语句对提取出表意构件, 具体为: 每轮识别提取选 AB两种语言文字, 第一 轮选中英双语为优选例, 其中 A语是英文、 B语是中文, 第二轮开始每轮识别提取新增一种 语言文字,另一种为已经识别提取过的语言文字, A语分配给已经识别提取过的语言文字, B 语分配给新加入的语言文字; 第二轮识别提取开始每轮新加一种语言文字;
识别提取过程先以已识别句査询句骼库进行配句骼运作、 套入, 然后以已识别提取句为 模板, 在新增语种句子上识别出语意相同部分标为相同标号的句舱, 若有相同重复部分, 以 同样的标号标为重复句舱, 重复句舱适应各语种句子的重复成份, 两语种句子被识别标注的 重复句舱不一定都有、 数量也不一定一致、 也不影响句舱标出数;
含舱模的句舱, 同样以已经识别句的句舱套入舱模作为模板识别标出新加语种句相应句 舱的舱眼。
5. 根据权利要求 1所述的表意构件识别提取方法, 其特征在于:
所述配句骼运作具体为: 事先按句髂词串与句舱之空穴生成句骼串表并索引, 配句骼时 把句例从左到右英逐单词中逐字取下搜索句骼串表的骼首字段并存于临时表, 再逐记录取出 临时表内容, 以句骼词段査询句对例, 句骼串的每段都可以在句对例中査到且次序相同为匹 配, 再根据句骼串表取出相应语种句骼;
所述査配标运作具体为: 机器利用至少含有词性、 A语词、 B语词字段的匹配表, 先以 A语句单词串为单元切分、依次填入匹配表 A语词字段,随后逐记录取出査询传统电子词典, 以査得的相应 B语解释搜索 B语句是否含有,含有且是最长串填入 B语词字段同时将其词性 填入词性字段, 无含有 B语词字段为空;
所述意群对齐运作具体为: ①以当前句对、 句舱为依据, 延伸或增补 B语解释填人匹配 表 B语字段, ②粘带附随字、 词或字符, ③有词形变化的另作词条入库, 在匹配表中根据当 前句对句舱参考传统词典填入 B语解释, ④组复词 (下款);
所述组复词运作具体为: 根据当前句对、 句舱语意判断, 如其一需要原有两个词条或更 多词条合并, 语意才等于另一时, 前者以 "-"将它们相连合并为一个词条, 称为复词, 在匹 权 利 要 求 书
配表作为一个记录分别填入 AB语字段,添加到意群串库之复词库, 没有这种情况的空运作, 没有改变。
6. 根据权利要求 1所述的表意构件识别提取方法, 其特征在于:
表意构件包括句骼构件、 舱模构件、 意群串构件和习语构件四种, 贮存它们的句骼库、 抢模库、 意群串库和习语库是表意构件分库, 共同构成表意构件数据库, 四个分库之间相互 独立, 分库内同记录的成员语意相同且相互影射;
从一个句对提取出来的句骼可以被其它句对所套用, 舱模可以被其它句船所套用, 句骼 所含有的句舱个数、 语意内容相同, 是跨语种的, 句舱在具体句骼中的位置、 次序和用以填 充的意群串是面向各自语言文字的, 不跨语种;
句骼库用以存贮句骼构件, 有句骼码、 英句骼、 中句骼字段, 同记录的各语种句骼字段 存贮相应语种句骼, 它们的语义相同且相互影射, 句骼码是它们语义和库中位次的表示; 舱模库用以存贮舱模构件, 有舱模码、 英舱模、 中舱模字段, 同记录的各语种舱模字段 存贮相应语种舱模, 它们的语义相同, 舱模码是它们语义和库中位次的表示;
意群库用以存贮意群串构件, 有意群码、 英群串、 中群串字段, 同记录的各语种意群串 字段存贮相应语种意群串, 它们的语义相同, 意群串码是它们语义和库中位次的表示;
习语库用以存贮习语构件, 有习语码、 英习语、 中习语字段, 同记录的各语种习语字段 存 It相应语种习语, 它们语义相同, 习语码是它们语义和库中位次的表示;
第二轮识别提取开始每轮新加一种语言文字, 事先应在这四个分库内分别增设新加语种 的构件字段。
7. 一种基于表意构件的机译人校互动式翻译方法, 其特征在于, 包括如下步骤:
55.读句配骼、源语句套入 202, 读入源语句子, 以源语句搜索句骼库, 获得唯一匹配的 源、 目语句骼, 若有多对匹配句骼自动隐含选取最长的为唯一匹配句骼, 然后将源语句子对 号入座地套入源语句骼, 舱检测若是有模句舱再搜索舱模库有再套入舱模, 使成为源语句骼 例结合形式;
56.句舱或舱眼内容转移 203,从源语句骼例结合式中逐个取出句舱或舱眼内容,转移到 目语句骼、 舱模相应的句舱或舱眼里, 使之成为源、 目语过渡式;
57.存査得项、预选给出目语待校句 204,逐个取出源、 目语过渡式中句舱或舱眼的源语 词串,査询意群串库,无词间间隔的表意文字则以从左到右可能的排列作为词串査询意群库, 二者所有査得项存于更正表; 利用预选模块 402选出査得项当中最大适配的目语串生成待校 句并在更正表中换位到词串段之首, 最后给出 301预选后的保留句舱舱眼标志标号的目语待 校句和 "返回"、 "继后"、 "一移"、 "移一"、 "▲"、 " Λ "、 "修辞"命令按钮以及相应的源语 参考句;
58.语意校正、自学习 205,当用户读到目语待校句和相应的源语参考句时开始校正操作, 同时系统的校正模块借更正表进行语意校正运作, 自学习模块 401与之联动, 对校正过程的 人机互动进行学习、 记忆且为预选模块提供数据,
当当前待校句的语意校正运作结束后, 接受用户单击 "返回"按钮接续 S5运作。
8. 根据权利要求 7所述的机译人校互动式翻译的方法, 其中 S8述及语意校正和校正模 块, 其进一步的特征是:
语意校正有待校句完全正确无需更正和需要更正两种情况,无需更正时接受用户单击"返 回"按钮接续 S5, 需要更正的有如下状态与步骤, 更正结束后再接受单击 "返回"接续 S5:
A)不妥词串的替换 302——当用户认为待校句某词串不妥时, 单击它系统搜索更正表, 弹出下拉列表给出全部相关査得项待选, 然后以被单击选中的査得项替换译句不妥词串, 同 时置换为词串段之首; 权 利 要 求 书
B)连续句舱的切分 303—当遇到没有参照无法自动进行切分的连续句舱给出待切, 当 被单击后以被单击点为切分点将两个句舱内容分开;
C)干预另选句骼 304—当遇到句舱和舱眼不匀称、有残缺、或堆叠之错选句骼表现时, 或用户不认可当前译句时单击 "继后"按钮, 系统把多对匹配句骼给出待选, 以单击选取后 的句骼重新套入接续 S6继续运作;
D)补加意群串 305 ~~当不妥词串另选替换而缺失时,接受用户使用延伸词义、粘带前 引或后随字词方法补加意群串, 以补加串进行替换并补加于意群串相应语种构件字段;
E)组选复串 306 "—当不妥词串另选替换而缺失时, 接受用户使用组复词或改选复词的 方法补加复词串, 以补加串进行替换并补加于意群串的复词库相应语种构件字段;
F)句舱词序 307 ~~当译句句舱有词序错误时, 接受用户单击其中串, 再单击 "一移" 或 "移一"命令按钮, 将单击串前移或后移一个串位;
G)编词替换 308—当连续多串不妥, 不能用单击选中时, 用拖放操作选中选中串时, 然后在编词替换处填上其它词串、编辑或为空, 再单击 " Λ "按钮时, 系统以后者置换前者;
H)修辞 309 -""当出现不能用上述步骤解决的修辞现象时,接受用户单击"修辞"按钮, 然后将当前待校句复制到编辑框, 接受用户使用编辑的方法进行修辞操作;
I)艙转换 310 ~当中译英时接受用户单击某句舱或舱眼内容, 搜索更正表所有当前句 舱或舱眼含有的查得项, 列表给出等待用户多次有序的单击选取, 将它们置换待校句相应句 舱或舱眼内容;
J)补量词 311—当英译中时由于英语无量词而中文有量词因而需要在待校句需要之处 补上量词, 接受用户单击待校句的需补加处, 系统搜索最接近单击点的数串后中心名词, 当 "▲"按钮同时被单击, 以中心名词搜索量词库, 取出相应量词补加到待校句; 如果量词库 査无, 给出对话接受输入给以补加且录入量词库;
K)补冠它 312—当中译英时由于中文没有而英文有冠词、 动词 to/be、 to/have等, 这 些需要补加, 在系统给出保留句舱标志标号的目语待校句时, 已经显示了 "a/an"、 "the"、 "to/be"、 "to/have", 当它们之一被单击, 待校句也被单击时, 系统将它们之一在待校句被单 击处加上适当形式的词串;
以上 A-H状态步骤与语言文字的种类无关, 具共性特点,可以出现在多语种之间 A译 B 或 B译 A的双向翻译的过程中; I状态步骤与语言文字的种类相关, 用于无词间间隔表意文 字的翻译之中; J-K状态步骤与语言文字种类密切相关, 它们具个性特点根据具体语种设置。
9.根据权利要求 7所述的机译人校互动式翻译的方法,其中 S8述及的自学习模块联动, 对校正过程的人机互动进行学习、 记忆且为预选模块提供数据, 其特征是:
A、经验选词,在英译中语意校正运作过程中当用户单击待校句的不妥词串后 403, 系统 搜索更正表, 列表给出全部相关査得项待选的同时, 将所有相关待选项以空格相隔生成经验 串, 末尾把相应的英词串附后;
当用户选取列表之一置换的同时,用选中词条和英串査询"经验选词"库,査有频度=频度 +1 , 査无, 将选中词条移到经验串之首且压栈式存入该库 405的中解释字段, 英串从经验串取下 存入英串字段, 当前句骼号存入句骼号字段;
B、 中文词序, 在英译中语意校正运作过程中将生成的中文待校句给出时备份于 "给出 句" , 当测得用户使用 "一移"或 "移一"按钮移动句舱或舱眼词序时 406, 记下被移句舱 的舱标号或船眼号, 当语意校正结束, "返回 "命令按扭被单击时搜索经过移位调整词序的句 舱或舱眼, 是, 以句艙为单位将移位前、 后结果分别存于中词序库 408的 "原序"、 "正序" 字段, 且清除当前句舱或舱眼在经验选词库 405中的相关记录;
C、 舱经验, 在中译英语意校正的 "舱转换"运作时 409备存当前句舱、 舱眼标号, 当 "返回"命令按钮被单击, 将当前句所有经过舱转换的转前转后内容査舱经验库 411, 査有 权 利 要 求 书
频度 +1; 查无压栈式存入该库。
10.根据权利要求 7所述的机译人校互动式翻译的方法,其中 S7述及将所有査得项存于 更正表, 利用预选模块 402选出査得项当中最大适配的目语串生成待校句并在更正表中换位 到词串段之首, 其进一步的特征是:
更正表至少有词串段、 搜索串、 解释、 串首位字段, 预选模块与语言文字种类密切相关; 英译中的预选 412是①用当前句舱或舱眼内英文词串査询 "经验选词"库, 査有取出解释字 段内容的首条中文词串为 413最大适配的目语串给出, 査无以更正表本词串段首记录为最大 适配的目语串给出; ②用当前句舱或舱眼已经获得的中文内容 414査询 "中词序"库的原序 字段, 査有以正序字段内容替换为最大适配的目语串 415给出, 査无不变;
中译英的预选以源、 目语过渡式中句舱或舱眼的源语内容査询更正表搜索串字段, 有全等的 以同记录解释字段内容为最大适配的目语串给出, 无全等时 417的再查询 "舱经验"库中舱 字段, 有 418以英舱字段内容为最大适配的目语串给出, 査 "舱经验"库无以当前句舱或舱 眼中文内容为最大适配的目语串给出;
凡预选模块选用了更正表某査得项改变了原给出内容的, 同时在更正表中将它换位到本词串 段之首。
PCT/CN2014/000038 2013-01-21 2014-01-13 表意构件识别提取和基于表意构件的机译人校互动翻译方法 WO2014110980A1 (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
US14/794,805 US9697199B2 (en) 2013-01-21 2015-07-09 Ideographical member identification and extraction method and machine-translation and manual-correction interactive translation method based on ideographical members

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
CN201310042053.5A CN103106195B (zh) 2013-01-21 2013-01-21 表意构件识别提取和基于表意构件的机译人校互动翻译方法
CN201310042053.5 2013-01-21

Related Child Applications (1)

Application Number Title Priority Date Filing Date
US14/794,805 Continuation-In-Part US9697199B2 (en) 2013-01-21 2015-07-09 Ideographical member identification and extraction method and machine-translation and manual-correction interactive translation method based on ideographical members

Publications (1)

Publication Number Publication Date
WO2014110980A1 true WO2014110980A1 (zh) 2014-07-24

Family

ID=48314060

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/CN2014/000038 WO2014110980A1 (zh) 2013-01-21 2014-01-13 表意构件识别提取和基于表意构件的机译人校互动翻译方法

Country Status (3)

Country Link
US (1) US9697199B2 (zh)
CN (1) CN103106195B (zh)
WO (1) WO2014110980A1 (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109933799A (zh) * 2019-03-22 2019-06-25 北京金山数字娱乐科技有限公司 语句拼接方法以及装置
CN111191440A (zh) * 2019-12-13 2020-05-22 语联网(武汉)信息技术有限公司 翻译中针对译文的量词纠错方法及系统
CN111460834A (zh) * 2020-04-09 2020-07-28 北京北大软件工程股份有限公司 基于lstm网络的法条语义标注方法及装置

Families Citing this family (22)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103106195B (zh) * 2013-01-21 2018-12-11 刘树根 表意构件识别提取和基于表意构件的机译人校互动翻译方法
CN103218353B (zh) * 2013-03-05 2018-12-11 刘树根 母语人士学用其它语言文字之人工智能实现方法
CN107850988B (zh) * 2015-07-15 2020-11-10 三菱电机株式会社 显示控制装置以及显示控制方法
JP2017167805A (ja) * 2016-03-16 2017-09-21 株式会社東芝 表示支援装置、方法およびプログラム
US10496686B2 (en) * 2016-06-13 2019-12-03 Baidu Usa Llc Method and system for searching and identifying content items in response to a search query using a matched keyword whitelist
KR102637338B1 (ko) * 2017-01-26 2024-02-16 삼성전자주식회사 번역 보정 방법 및 장치와 번역 시스템
US11468286B2 (en) * 2017-05-30 2022-10-11 Leica Microsystems Cms Gmbh Prediction guided sequential data learning method
US11468882B2 (en) 2018-10-09 2022-10-11 Accenture Global Solutions Limited Semantic call notes
US10923114B2 (en) * 2018-10-10 2021-02-16 N3, Llc Semantic jargon
CN109685059A (zh) * 2018-11-06 2019-04-26 平安科技(深圳)有限公司 文字图像标注方法、装置及计算机可读存储介质
US10972608B2 (en) 2018-11-08 2021-04-06 N3, Llc Asynchronous multi-dimensional platform for customer and tele-agent communications
CN109783826B (zh) * 2019-01-15 2023-11-21 四川译讯信息科技有限公司 一种文档自动翻译方法
US11443264B2 (en) 2020-01-29 2022-09-13 Accenture Global Solutions Limited Agnostic augmentation of a customer relationship management application
US11392960B2 (en) 2020-04-24 2022-07-19 Accenture Global Solutions Limited Agnostic customer relationship management with agent hub and browser overlay
US11481785B2 (en) 2020-04-24 2022-10-25 Accenture Global Solutions Limited Agnostic customer relationship management with browser overlay and campaign management portal
CN111652006B (zh) * 2020-06-09 2021-02-09 北京中科凡语科技有限公司 一种计算机辅助翻译方法及装置
US11507903B2 (en) 2020-10-01 2022-11-22 Accenture Global Solutions Limited Dynamic formation of inside sales team or expert support team
US11797586B2 (en) 2021-01-19 2023-10-24 Accenture Global Solutions Limited Product presentation for customer relationship management
US11816677B2 (en) 2021-05-03 2023-11-14 Accenture Global Solutions Limited Call preparation engine for customer relationship management
CN113569575B (zh) * 2021-08-10 2024-02-09 云南电网有限责任公司电力科学研究院 一种基于象形-语义双特征空间映射的评审专家推荐方法
CN113780008B (zh) * 2021-11-15 2022-03-04 腾讯科技(深圳)有限公司 描述文本中目标词的确定方法、装置、设备以及存储介质
CN117422061B (zh) * 2023-12-19 2024-03-08 中南大学 一种文本词项多重分割结果合并标注方法及装置

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101960451A (zh) * 2008-02-29 2011-01-26 夏普株式会社 信息处理装置、方法、以及程序
CN103106195A (zh) * 2013-01-21 2013-05-15 刘树根 表意构件识别提取和基于表意构件的机译人校互动翻译方法

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8195447B2 (en) * 2006-10-10 2012-06-05 Abbyy Software Ltd. Translating sentences between languages using language-independent semantic structures and ratings of syntactic constructions
CN101246474B (zh) * 2008-02-18 2012-01-11 刘树根 一种基于语句构件的母语读外文方法
US8335754B2 (en) * 2009-03-06 2012-12-18 Tagged, Inc. Representing a document using a semantic structure
CN101510194B (zh) * 2009-03-15 2015-09-09 刘树根 一种基于语句构件的多语种专业翻译方法
US20110131033A1 (en) * 2009-12-02 2011-06-02 Tatu Ylonen Oy Ltd Weight-Ordered Enumeration of Referents and Cutting Off Lengthy Enumerations
CN102043849B (zh) * 2010-12-20 2015-03-25 惠州市表意软件有限公司 表意构件电子词典系统的实现方法

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101960451A (zh) * 2008-02-29 2011-01-26 夏普株式会社 信息处理装置、方法、以及程序
CN103106195A (zh) * 2013-01-21 2013-05-15 刘树根 表意构件识别提取和基于表意构件的机译人校互动翻译方法

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109933799A (zh) * 2019-03-22 2019-06-25 北京金山数字娱乐科技有限公司 语句拼接方法以及装置
CN109933799B (zh) * 2019-03-22 2023-08-15 北京金山数字娱乐科技有限公司 语句拼接方法以及装置
CN111191440A (zh) * 2019-12-13 2020-05-22 语联网(武汉)信息技术有限公司 翻译中针对译文的量词纠错方法及系统
CN111191440B (zh) * 2019-12-13 2024-02-20 语联网(武汉)信息技术有限公司 翻译中针对译文的量词纠错方法及系统
CN111460834A (zh) * 2020-04-09 2020-07-28 北京北大软件工程股份有限公司 基于lstm网络的法条语义标注方法及装置
CN111460834B (zh) * 2020-04-09 2023-06-06 北京北大软件工程股份有限公司 基于lstm网络的法条语义标注方法及装置

Also Published As

Publication number Publication date
US9697199B2 (en) 2017-07-04
CN103106195A (zh) 2013-05-15
US20150309994A1 (en) 2015-10-29
CN103106195B (zh) 2018-12-11

Similar Documents

Publication Publication Date Title
WO2014110980A1 (zh) 表意构件识别提取和基于表意构件的机译人校互动翻译方法
Matthews et al. Cantonese: A comprehensive grammar
Lehrberger et al. Machine Translation: Linguistic characteristics of MT systems and general methodology of evaluation
RU2399959C2 (ru) Способ автоматизированной обработки текста на естественном языке путем его семантической индексации, способ автоматизированной обработки коллекции текстов на естественном языке путем их семантической индексации и машиночитаемые носители
Aswani et al. A hybrid approach to align sentences and words in English-Hindi parallel corpora
Pirkola Studies on linguistic problems and methods in text retrieval: the effects of anaphor and ellipsis resolution in proximity searching, and translation and query structuring methods in cross-language retrieval
Vilares et al. On the feasibility of character n-grams pseudo-translation for Cross-Language Information Retrieval tasks
Ngai et al. Identifying concepts across languages: A first step towards a corpus-based approach to automatic ontology alignment
Feng Evolution and present situation of corpus research in China
Shashirekha et al. Dictionary based Amharic-Arabic cross language information retrieval
WO2014134971A1 (zh) 母语人士学用其它语言文字之软件代脑方法和系统
Liu et al. PENS: A machine-aided English writing system for Chinese users
Maziarz et al. Lexicalisation of Polish and English word combinations: an empirical study
Gamal et al. Survey of arabic machine translation, methodologies, progress, and challenges
Mrini et al. Building the moroccan darija wordnet (mdw) using bilingual resources
Griffith et al. Early Irish Lexicography‒A Research Survey
Sérasset Recent trends of electronic dictionary research and development in europe
Salgado et al. Challenges of word sense alignment: Portuguese language resources
Hu et al. Sheffield corpus of chinese for diachronic linguistic study1
Karlgren et al. The challenges of language variation in information access
Di Felippo et al. Applying lexical-conceptual knowledge for multilingual multi-document summarization
Pishartoy et al. Extending capabilities of English to Marathi machine translator
Ghayoomi et al. Challenges in developing Persian corpora from online resources
Li An aggregate approach to diachronic variation in modern Chinese writings and translations
Prys et al. Welsh Word2vec model: vector representation of the semantic correlation of Welsh words based on their embeddings within an enormous Welsh corpus, volume 1 of Language and Technology in Wales, book section 8

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 14740814

Country of ref document: EP

Kind code of ref document: A1

NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 14740814

Country of ref document: EP

Kind code of ref document: A1