WO2014134971A1 - 母语人士学用其它语言文字之软件代脑方法和系统 - Google Patents

母语人士学用其它语言文字之软件代脑方法和系统 Download PDF

Info

Publication number
WO2014134971A1
WO2014134971A1 PCT/CN2014/000241 CN2014000241W WO2014134971A1 WO 2014134971 A1 WO2014134971 A1 WO 2014134971A1 CN 2014000241 W CN2014000241 W CN 2014000241W WO 2014134971 A1 WO2014134971 A1 WO 2014134971A1
Authority
WO
WIPO (PCT)
Prior art keywords
sentence
cabin
string
language
software
Prior art date
Application number
PCT/CN2014/000241
Other languages
English (en)
French (fr)
Inventor
刘树根
Original Assignee
Liu Shugen
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Liu Shugen filed Critical Liu Shugen
Publication of WO2014134971A1 publication Critical patent/WO2014134971A1/zh

Links

Classifications

    • GPHYSICS
    • G09EDUCATION; CRYPTOGRAPHY; DISPLAY; ADVERTISING; SEALS
    • G09BEDUCATIONAL OR DEMONSTRATION APPLIANCES; APPLIANCES FOR TEACHING, OR COMMUNICATING WITH, THE BLIND, DEAF OR MUTE; MODELS; PLANETARIA; GLOBES; MAPS; DIAGRAMS
    • G09B19/00Teaching not covered by other main groups of this subclass
    • G09B19/06Foreign languages
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/3332Query translation
    • G06F16/3337Translation of the query language, e.g. Chinese to English
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3344Query execution using natural language analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/36Creation of semantic tools, e.g. ontology or thesauri
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/40Processing or translation of natural language
    • G06F40/42Data-driven translation
    • G06F40/45Example-based machine translation; Alignment

Abstract

本发明提供一种母语人士学用其它语言文字之软件代脑方法。母语人士对双语文本的阅读理解移到计算机上进行,阅读理解同时用鼠标点击或软件自动识别出可作句舱的词串、将其标注上句舱和舱眼借以保留阅读理解成果生成句理解模板、含表意构件,模板和构件间语意相同且相互映射;成为软件代脑之"学"还将众人学之所得集结于句理解模板数据库。软件以后者拆分源语句子为表意构件,再转换表意构件为目语句子,给出待校句进行更正运作。无需更正的接续处理下一句;需要更正的有11种简捷更正方法并与自学习模块联动;更正可使后续A向B语句的转换更精准。从而提供母语读外文、外-母翻译、母-外翻译、句骼助写作为无力阅读外文的母语人士获得阅读、参考外文资料能力之多项代脑应用。

Description

母语人士学用其它语言文字之软件代脑方法和系统
【技术领域】
本发明涉及一种软件代脑的方法及系统; 特别涉及一种具母语和专业知识而学用外语者 使用的软件代脑方法和系统。
【背景技术】
1 ) CN99804904.2专利授权, 刘莎公开了一项 "开放式全息模板人机对话语言翻译方法 及全息语义标注系统"。建立一个以句子为对象的自然语言受限对话模板,模板中包含各种自 然语言的所有必要语义信息要素, 在模板上通过全选式人机对话确定自然语言符号实际携带 的词汇信息项和句法信息项, 完成原文信息求解, 根据求解结果生成译文, 并将求解结果转 换成译文符号, 供译文语义査询。 其试图不依赖上下文语境作语义分析并充分利用人机优势 互补的作用, 获得网络通信中扫除语义信息传递障碍。 其以 "句子为对象"建立模板为之可 取; 但模板中包含 "各种自然语言的所有必要语义信息要素", 太复杂、 难学难用。 并借此 确定实际携带的"词汇信息项"和 "句法信息项"; 没有抓住不同语言间的表意共性, 不可能 获得好结果。
2) CN20880128636.7专利申请, 刘树根中公开了 "一种语句构件的制作方法"。 利用 相同内容的双语或多语种文字版本的语料作为训练样本。 取出一个句对, 利用人机交互方式 进行句型层面剖析比对获得句型和小习语; 进行句舱层面剖析比对获得舱模和意群串。 然后 又用同样的方法剖析下一个句对。 同时将在这个过程中获得的句型、 舱模、 意群串和小习语 统称语句构件, 加以建库保存。 该方法获取语句构件的过程与人脑阅读理解过程(方式)接 近, 意义重大。
3 ) CN200810086229.6专利授权,刘树根公开了"一种基于语句构件的母语读外文方法"。 利用上款相同方法获得语句构件; 基于语句构件产生母语读外文方法。 产生人们可以用各自 的母语直接阅读外文的技术效果; 实现了人们盼望已久的梦想。
4) CN200910129096.0专利申请, 刘树根公开了 "一种基于语句构件的多语种专业翻译 方法"。基于语句构件; 使语句构件库具有字段结构映射关系。利用语句构件对待译源句进行 拆分, 把句子拆分成语句构件; 以被拆分的源语语句构件通过相应库的映射关系, 映射并取 出目语语句构件, 以后者组装成目语句子给出。 既可获得高质量译文又不需要具独立翻译能 力者操作。 整个过程很简单, 计算机只做了简单而高效的记忆、 搜索和査表; 不必直接处理 语义, 绕过了长久以来机器翻译不能逾越的 "语义障碍"; 具明显迸步。
上述专利及申请 2~4之间, 有一个共同特点, 都在人脑、 电脑、 语言文字之间寻求一个 最佳结合点, 试图借此获得突破性的技术进展。 也有着一种进步和关联关系。
本申请在上述专利和申请 2-4的基础上进一步创新; 上述专利和申请 2-4也是本申请在 先的连带专利与申请, 部分内容需要同时实施。
人们往往在掌握了母语且有一定的专业基础知识之时学习另一种语言文字, 他们是母语 人士(下称母语人士); 为了工作和事业, 需要再学习一门或更多其它语言文字, 以便可以阅 读参考外文资料; 特别是借助阅读双语文本进行范读、 扩大词汇量的学习。 非外语专业的各 专业院校, 无一例外地开设外语课, 目的就是为了阅读参考外文资料。 "学"的目的是 "用 "; 开设外语课的 "学"是为了 "阅读参考"外文资料之用。 事实上, 母语人士之学外语, 效果 普遍不理想, 能使他们学外语效率提高, 那将获得巨大的经济、 社会效益。
众所周知, 人脑有独特的理解能力, 电脑没有; 电脑有非凡的记忆搜索能力, 人脑则远 远不及。 如果能合二为一, 势必爆发突破。
合二为一有两种取向; 其一, 借助于某种脑电波的仪器使人脑电脑互连, 人脑可以将电 脑作为记忆的扩充部件; 从而, 人脑可以直接搜索电脑记忆体。 其二, 将人脑对有限目标的 理解能力有形化, 成为有限目标理解产物或模板, 这有限目标产物或模板转移给电脑, 电脑 对有限目标可以进行基于这种理解的信息处理。 虽然当今有人探索利用意念, 通过脑电波指 挥机器人; 但是要实现前者这种人脑电脑的互连, 实在太遥远。 后者, 对人脑有限目标的理 解能力有形化, 以理解产物或模板转移给电脑, 与传统让电脑模拟人脑的做法相近, 可能实 现。
人脑在阅读理解时, 以句段为单元眼睛逐字扫描; 大脑将它们分割成多个语义块, 理出 块与块之间线性或多维联系。块分割完了, 块间联系清晰了; 就是理解了。如果分割不利索, 块间联系不清晰, 没理解; 没理解就得重复这个过程……。 为了加强分割、 理出联系, 手也 帮忙——画线、 划书、 做笔记, 留下阅读理解的种种印记。
当人脑再次阅读这种留下种种印记的文本 (书本) 时, 块分割、 块间联系瞬间显现, 使 阅读理解变得简单而快捷。
尽管人与人之间, 阅读理解留下印记之千差万别; 阅读理解的深浅程度也不同; 但是, 这是规律, 这是普遍规律。 要不, 天下就没有划书, 没有做笔记之事; 自然也就没有划书之 典范、 《列宁哲学笔记》 了。
综上所述, 阅读理解时, 划书、 做笔记是人脑独特理解能力之印记。 现有技术和现状的 缺点是: 人脑阅读理解与电脑语言文字信息处理没有任何关联; 人脑阅读理解之所得不能为 计算机所借用, 不能和电脑非凡的记忆搜索能力合二为一, 两者完全脱节。 能否利用软件手 段, 使阅读理解留下更多的、 规范统一的印记为电脑所用; 是一项具非常意义的技术尝试和 挑战。
"母外语言文字学用"指母语人士, 学习外语, 使用外文——阅读、 参考、 翻译外文资 料——的全过程, 在这个过程中通过人机交互的手段、 软件留下阅读理解更多的、 规范统一 印记的 "句理解模板", 借以实现和达到 "软件代脑"作用和功效。
【发明内容】
本发明申请的总体构思是:
刘树根在前专利和申请 2-4上继续前进, 提供一种母语人士学用其它语言文字之软件代 脑方法和系统。 有①阅读理解移到计算机上进行; ②软件标注句舱和舱眼; ③模板和构件间 语意相同并相互映射; ④拆分源语句子为表意构件; ⑤转换表意构件为目语句子; ⑥更正和 机器学习等六大步骤。
步骤①〜②是代脑 "学"的体现, 通过人机交互的软件手段, 使母语人士的阅读理解留 下更多的、规范统一的印记,用以保留当前句对阅读理解的产物(成果)。从而在"母语人士"、 "句为单元"和 "以 A-B语句转换翻译为理解深度"三个有限约束条件下, 产生有限目标一 一句理解模板, 保存后者、 转移给电脑并使后续工作能够通过软件完成。 这样代脑之学 A) 学的胃口再大也可行, 电脑海量记忆和非凡搜索都能发挥作用; B) 代脑之学容易实现且能 共享, 母语人士加个电脑即可, 更具意义的是众人学之所得, 可以相加、 能够共享; C )代 脑之学紧随科技发展, 任何语用新成果、 新方法、 翻译经验, 很容易归结到句理解模板。
步骤③模板和构件间语意相同并相互映射, 在步骤①〜②已经获得的句理解成果, 由于 句子可以根据其框架式表意构件进行分类; 幼儿学说话, 人们造句思想交流, 都是使用这种 框架式表意构件的过程。 然而, 这来自一个句对理解实例之句理解产物, 事实是一类句子代 表, 能提炼出一类句子的 "模板"。
步骤④软件在拆分源语句子为表意构件, 接着⑤转换表意构件为目语句子, ⑥提供更正 机会并进行软件自学习, 这些本在人脑完成的、 由 A语句向 B语句的转换过程, 通过软件在 电脑里实现。 ④〜⑥步骤不断循环是软件代脑 "用"的核心; 至少能产生四种代脑应用: A) 为无力阅读外文的广大母语人士获得阅读、 参考外文资料能力之代脑应用——母语读外文。 B) 为无力作翻译的广大母语人士获得翻译外文资料的代脑应用一一外-母书面翻译。 C) 为 无力作母 -外翻译的母语人士获得难度较大翻译能力的代脑应用——母-外书面翻译。 D)为无 力而需要用外文写作的母语人士获得用外文写作能力的代脑应用——句骼助写作。
母外语言文字学用软件代脑之实现, 使母语人士获得既减轻学外语费时费脑、 阅读参考 外文资料不力之难, 同时又为扩充相当庞大、 可以涵盖语言文字表意构件之所有的表意构件 数据库添砖加瓦; 使后来的母语人士获得更多更优的软件代脑好处。
本发明要解决的技术问题是:
本发明提供提供一种母语人士学用其它语言文字之软件代脑方法和系统。 要解决的技术 问题是现有技术(现状), 人脑阅读理解之所得, 不能为计算机语言文字信息处理所利用; 人 脑独特的理解能力和电脑非凡的记忆搜索能力不能合二为一; 电脑不能逐句将语言文字 A转 换成语意不变的语言文字 B的技术问题。
本发明解决其技术问题所采用的技术方案是- 提供一种母语人士学用其它语言文字之软件代脑方法和系统, 其特征包括如下步骤;
51. 阅读理解移到计算机上进行, 母语人士对相同内容双语文本的阅读理解移到计算机 上进行, 软件把双语文本 A和 B被分别置于源文 A和 B区;
软件从源文 A和 B区根据句末符号切分并取出双语文本 A和 B—个句对置阅读理解区 A和 B, 源文 A和 B区相应减少一句;
若母语人士认为切句不妥, 单击源文区 A或 B某点, 软件将该点之前部分移入阅读理解区紧 随 A或 B已取句之后;
若单击阅读理解区 A或 B某点, 软件将该点之后部分退回源文区 A或 B;
52. 软件标注句舱和舱眼, 母语人士阅读理解同时用鼠标点击阅读理解区 A和 B句当前 可作为句舱的表意相同词串或连续的若干个词串, 软件将它们以大写字母依先后为序加花括 号在 A和 B句同时预标为一个句舱;
或软件自动识别出 A和 B句当前表意相同词串或连续的若干个词串将它们以大写字母依先后 为序加花括号在 A和 B句同时预标为一个句舱;
母语人士阅读理解或软件自动识别都是以数量串、 专名串、 冠名串依次搜索, 双语同时预标 一个句舱, 若这三种串全部搜索完且骼例比在 15-50%之间, 预标句舱结束;
若这三种串全部搜索完且骼例比 >50%, 再以无冠名串、其它语意匹配串继续依次搜索预标句 舱, 直至骼例比在 15-50%之间, 预标句舱结束;
当预标句舱结束, 软件进行句舱、 句骼格式检査, 用 16进制数字替换大写字母以 A句从左 到右为序整理前述预标为正式标注;
经正式标注的双语句对进一步检测每个句舱, 若有大于原有 5个词串的大句舱需进一步标注 舱眼或组复词,标注舱眼以无冠名串、其它语意匹配串依次为靶词串,模例比为 50-70%之间, 舱眼用 16进制数字以 A句从左到右为序加方括号标注, 以上是第一轮句舱及舱眼理解标注 的步骤, 从第二轮理解标注开始, 以已标语种句为模板软件自动识别、 标出未标语种句相应 表意相同的句舱及舱眼;
每轮标注选内容相同的 AB两种语言文字版本的语料, 第二轮开始每轮理解标注新增一种语 言文字, 另一种为已经标注过的语言文字, A语分配给已经标注的语言文字, B语分配给新 加入的语言文字;
每个句对的正式标注结束, 进行下一句对的标注, 接续 S1 ;
53.模板和构件间语意相同并相互映射, 软件在这种必须由人脑主导的阅读理解过程中 把当前阅读理解区的双语句对标注上句舱、 舱眼, 用以保留当前句对阅读理解的成果, 以句 理解模板 100的方式转移给电脑, 使后续工作能够通过软件完成而产生代脑功效, 为了句理 解模板能更好用于理解标注其它句子, 软件将它们保存于句理解模板数据库代替人脑进行记 忆, 句理解模板数据库至少可分解出句骼、 舱模、 意群串、 习语四种表意构件, 分别构成相 应的表意构件库, 它们是句理解模板数据库的分库;
54.拆分源语句子为表意构件, 软件利用句理解模板 100拆分源语句子为表意构件, 代 替人脑理解和拆分句子, 先进行配句骼运作, 事先按句骼词串与句舱之空穴生成句骼串表并 索引, 配句骼时把源语句子从左到右逐字或逐词串取下搜索句骼串表的骼首字段并存于临时 表, 再逐记录取出临时表内容, 以句骼词段査询源语句子, 句骼串的每段都可以在源语句子 中査到且次序相同为匹配, 再根据句骼串表取出当前匹配的源语句骼;
将源语句子套入源语句骼拆分源语句子为表意构件使之成为当前源语句理解模板 101 ;
利用当前源语句句骼映射作用取出相应目语句句骼;
55. 转换表意构件为目语句子, 软件利用源语句句骼搜索到目语句的句骼, 将当前源语 句理解模板上的句舱内容转移到目语句骼相应句舱;
检测所有句舱, 不含舱模的跳过, 若含有舱模, 将该句舱内容套入舱模, 利用该舱模分 库的映射作用取出相应目语舱模, 将当前源语舱眼内容移到目语舱模的相应舱眼;
逐个搜索目语句理解模板 102的句舱或舱眼, 用其中的源语词串搜索意群串库, 将搜索 到的目语所有解释结果保存到更正表, 利用预选模块, 预选其中之一作为目语意群串替换当 前句舱或舱眼的源语词串, 直至所有句舱、 舱眼替换结束。
56. 更正和自学习, 软件从目语句理解模板 102上取出作为目语待校句显示给出, 接受 操作者确认或更正, 同时进行自学习;
或软件从目语模板上取出作为目语待校句显示给出, 从源语模板上取出作为源语参考句显示 给出, 接受操作者确认或更正, 软件同时进行自学习;
当人脑读到, 阅读理解的印记瞬间显现, 阅读理解变得简单而快捷, 软件配合操作进入校正 运作 201 ;
软件在拆分源语句子为表意构件 S4,接着转换表意构件为目语句子 S5,软件配合作更正并自 学习 S6, 这些本在人脑完成的由语言文字 A103的句子向语言文字 B104的句子转换, 软件 给以实现在 S4-S6之间循环, 能产生多项代脑应用。
上述方法中, 步骤 S3所述句理解模板数据库进一步的特征是: 句理解模板包括句例、句 舱、 句骼、 舱眼、 舱模、 意群串、 习语, 它们共为句理解模板的成员, 直接用以表意的成员 为表意构件, 以它们相连可组成一个多语种句理解模板的长链;
软件在获得句理解模板的同时, 用数据库进行保存代替人脑进行记忆, 第一轮理解标注句理 解模板数据库含有 A句模、 B句模字段, 第二轮理解标注开始每轮新增一种语言文字, 句理 解模板数据库先增设一个相应语之句模字段, 每轮理解标注必须取同内容、 不同文字版本语 料确保相同记录的各语种句模所表达的语意相同, 并互相映射;
从句理解模板数据库分解出若千种类表意构件, 分别构成表意构件库, 它们是句理解模板数 据库的分库, 分库具继承性, 继承了句理解模板数据库的特性, 分库中同记录表意构件语意 也相同, 它们也互相映射。
上述方法中,步骤 S5所述的利用预选模块,预选其中之一作为目语意群串替换当前句舱 或舱眼的源语词串, 其进一步的特征是:
更正表至少有词串段、 搜索串、 解释、 串首位字段, 预选模块与语言文字种类密切相关; 英译中的预选 312是①用当前句舱或舱眼内英文词串査询 "经验选词"库, 査有取出解释字 段内容的首条中文词串为 313最大适配的目语串给出, 査无以更正表本词串段首记录为最大 适配的目语串给出; ②用当前句舱或舱眼已经获得的中文内容 314査询 "中词序"库的原序 字段, 查有以正序字段内容替换为最大适配的目语串 315给出, 査无不变;
中译英的预选以源、 目语过渡式中句舱或舱眼的源语内容査询更正表搜索串字段, 有全等的 以同记录解释字段内容为最大适配的目语串给出, 无全等时 317的再査询 "舱经验"库中舱 字段, 有 318以英舱字段内容为最大适配的目语串给出, 査 "舱经验"库无以当前句舱或舱 眼中文内容为最大适配的目语串给出;
凡预选模块选用了更正表某査得项改变了原给出内容的, 同时在更正表中将它换位到本 词串段之首。
上述方法中, 步骤 S6所述软件从目、源句理解模板取出作为目语待校句, 和或作为源语 参考句, 接受操作者确认或更正, 同时进行自学习, 进一步的特征是:
当用户读到目语待校句和相应的源语参考句时即校正开始, 语意校正有待校句完全正确无需 更正和需要更正两种情况, 无需更正时接受用户单击 "返回"按钮接续 S4, 需要更正的进入 校正运作 201后再接续 S4;
软件进入校正运作 201, 且与自学习模块 301联动, 对校正过程的人机互动进行学习、 记忆 且为预选模块提供数据。
上述方法中述需要校正的进入校正运作 201, 进一步包括如下步骤:
A)不妥词串的替换 202——当用户认为待校句某词串不妥时, 单击它系统搜索更正表, 弹出 下拉列表给出全部相关査得项待选, 然后以被单击选中的査得项替换译句不妥词串, 同时置 换为词串段之首;
B)连续句舱的切分 203——当遇到没有参照无法自动进行切分的连续句舱给出待切, 当被单 击后以被单击点为切分点将两个句舱内容分开;
C)干预另选句骼 204—当遇到句舱和舱眼不匀称、有残缺、或堆叠之错选句骼表现时, 或 用户不认可当前译句时单击 "继后"按钮, 系统把多对匹配句骼给出待选, 以单击选取后的 句骼重新套入接续 S6继续运作;
D)补加意群串 205—当不妥词串另选替换而缺失时, 接受用户使用延伸词义、粘带前引或 后随字词方法补加意群串, 以补加串进行替换并补加于意群串相应语种构件字段;
E)组选复串 206—当不妥词串另选替换而缺失时, 接受用户使用组复词或改选复词的方法 补加复词串, 以补加串进行替换并补加于意群串的复词库相应语种构件字段;
F)句舱词序 207——当译句句舱有词序错误时,接受用户单击其中串,再单击 "一移 "或"移 ―"命令按钮, 将单击串前移或后移一个串位;
G)编词替换 208—当连续多串不妥, 不能用单击选中时, 用拖放操作选中选中串时, 然后 在编词替换处填上其它词串、 编辑或为空, 再单击 " Λ "按钮时, 系统以后者置换前者;
H)修辞 209 ~当出现不能用上述步骤解决的修辞现象时, 接受用户单击"修辞"按钮, 然 后将当前待校句复制到编辑框, 接受用户使用编辑的方法进行修辞操作;
I)舱转换 210 "—当中译英时接受用户单击某句舱或舱眼内容, 搜索更正表所有当前句舱或 舱眼含有的查得项, 列表给出等待用户多次有序的单击选取, 将它们置换待校句相应句舱或 舱眼内容; J)补量词 211—当英译中时由于英语无量词而中文有量词因而需要在待校句需要之处补上 量词, 接受用户单击待校句的需补加处, 系统搜索最接近单击点的数串后中心名词, 当 "▲" 按钮同时被单击, 以中心名词搜索量词库, 取出相应量词补加到待校句; 如果量词库查无, 给出对话接受输入给以补加且录入量词库;
K)补冠它 212—当中译英时由于中文没有而英文有冠词、 动词 to/be、 to/have等, 这些需 要补加,在系统给出保留句舱标志标号的目语待校句时, 已经显示了" a/an"、 "the"、 "to/be"、 "to/have", 当它们之一被单击, 待校句也被单击时, 系统将它们之一在待校句被单击处加上 适当形式的词串;
以上 A-H状态步骤与语言文字的种类无关, 具共性特点, 可以出现在多语种之间 A译 B 或 B译 A的双向翻译的过程中; I状态步骤与语言文字的种类相关, 用于无词间间隔表意文 字的翻译之中; J-K状态步骤与语言文字种类密切相关, 它们具个性特点根据具体语种设置。
上述方法中, 所述的与自学习模块联动, 对校正过程的人机互动进行学习、 记忆且为预 选模块提供数据, 进一步的特征是:
A、经验选词, 在英译中语意校正运作过程中当用户单击待校句的不妥词串后 303, 系统搜索 更正表, 列表给出全部相关査得项待选的同时, 将所有相关待选项以空格相隔生成经验串, 末尾把相应的英词串附后;
当用户选取列表之一置换的同时,用选中词条和英串査询"经验选词"库,査有频度=频度 +1, 查无, 将选中词条移到经验串之首且压栈式存入该库 305的中解释字段, 英串从经验串取下 存入英串字段, 当前句骼号存入句骼号字段;
B、 中文词序, 在英译中语意校正运作过程中将生成的中文待校句给出时备份于 "给出句", 当测得用户使用 "一移"或 "移一"按钮移动句舱或舱眼词序时 306, 记下被移句舱的舱标 号或舱眼号, 当语意校正结束, "返回 "命令按扭被单击时搜索经过移位调整词序的句舱或舱 眼, 是, 以句舱为单位将移位前、 后结果分别存于中词序库 308的 "原序"、 "正序"字段, 且清除当前句舱或舱眼在经验选词库 305中的相关记录;
C、 舱经验, 在中译英语意校正的 "舱转换"运作时 309备存当前句舱、 舱眼标号, 当 "返 回"命令按钮被单击, 将当前句所有经过舱转换的转前转后内容査舱经验库 311, 查有频度 +1 ; 查无压栈式存入该库。
上述方法中, 步骤 S1完成之后, S2步骤开始之前, 还有一个步骤:
先用当前 A语例句进行配句骼运作,搜索当前例是否己有匹配句骼, 若搜索到 A语句有匹配 句骼且套入后得到操作者认可的跳过, 不必理解标注, 读入下一个句对;
若没有搜索到 A语句有匹配句骼或搜索到有但套入后被操作者否认时作查配标运作后, 进入 理解标注句舱的步骤 S2。
上述方法中,步骤 S6所述的在 S4-S6之间循环产生多项代脑应用,进一步的特征是为无 力阅读外文的广大母语人士获得阅读、 参考外文资料能力之代脑应用- 母语读外文——让人们利用自己的母语直接阅读外文资料。 通过步骤 4-6的循环, 一句 一句地将源语转换成目语给出, 供人一句一句地阅读, 若有词串不妥、用鼠标单击进行更正; 可以仅仅取多语种表意构件库的 A、 B语构件两个字段生成专用的母语读外文专版, 将常用 高频表意构件保存于用户端, 其余由网络支持更好地适应用户个性化。
外-母翻译一为无力翻译外文资料的广大母语人士获得参考、 翻译外文资料的代脑应 用, 软件逐句切分外文资料, 进行 S4-S6之间的转换循环, 转换出母语句子, 以母语句理解 模板的方式显示给出待校句, 同时显示源语参考句;
当用户觉得某处不妥用鼠标单击时, 软件立即启动校正运作及机器自学习;
用户端保留高频表意构件, 当用以保留高频表意构件库接近个人机满负荷时, 自动进行清理, 删除低频端 20%腾出空间, 重新计频, 其余部分通过网络由公司服务器进行后台实时支持。 上述方法中,步骤 S6所述的在 S4-S6之间循环产生多项代脑应用,进一步的特征是为无 力作母 -外翻译的母语人士获得母 -外翻译能力的代脑应用- 母 -外书面翻译——把母语资料翻译成外文文本, 软件逐句切分母语资料, 进行 S4-S6之间的 转换循环, 转换出外文句子, 以外文句理解模板的方式显示给出待校句, 同时显示母语句理 解理解模板备考;
当用户觉得某处不妥用鼠标单击时, 软件立即启动校正运作, 必要时作相应必要的交互, 翻 译要求语意精准, 给出原文语意不变的外语译文;
更正操作有的与具体语言文字种类直接相关, 除公有更正功能外, 软件据具体语种给以适宜 的个性化的更正操作。
上述方法中,步骤 S6所述的在 S4-S6之间循环产生多项代脑应用,进一步的特征是为无 力而需要用外文写作的母语人士获得用外文写作能力的代脑应用, 句骼助写作, 软件接收母 语人士以三种方式示意, 若示意中含有句末符没有下横线判定为①以母语句示意, 若示意中 含有句末符也有下横线判定为②以模糊句骼示意, 若示意的汉语词串中含有空格或前两者配 句骼失败后判定为③以若干词串示意, 分别继续下列其一运作:
①以母语句示意, 在 "母语意思区"写出完整的母语句子表示想用外文表达的意思。 可 以只写一句, 也可以书写多句, 必须使用句末符。 软件依句末符切分, 以切分下来的作为例 句,进行配句骼运作, 如没有搜索到匹配句骼,跳转③处理;搜索到,给出搜索结果进行 S4-S6 之循环;
当全部转换成英文词串后, 软件按钮 "尾加"接受用户单击, 将当前句尾加到英文书写区, 也可以接受操作者在英文书写区进行编辑修改;
②以模糊句骼示意, 软件接收单击 "配句骼"命令按钮运作后, 弹出一个列表, 列出含 有 "模糊句骼"成份的句骼, 并且光标落在合意可能最大的记录上, 同时它的中、 英句骼已 经显示在上部相应框内。 接收用户单击 " 尾加"命令按钮, 将英文句骼尾加于英文写作窗 口, 等待用户填写句舱内容, 完成该句英文写作;
如果首个记录并不符合用户要表达的意思, 可以在列表另选, 单击该记录后再单击"一另选" 命令按钮, 该记录详细内容将显示;
③以若干词串示意, 软件将示意切分为词串, 根据词串搜索后的结果, 到双语文本或句 对库、 记忆库等以句为单元存在的素材中搜索含有的句子, 并以含有词串长度的多少排序, 取高端 10个记录列表以参考句给出待选。 与现有技术相比, 本发明的有益效果是-
1 )母语人士获得既减轻学外语费时费脑、 阅读参考外文资料不力之难; 同时又为扩充相 当庞大、 可以涵盖语言文字表意构件之所有的表意构件数据库添砖加瓦, 使后来的母语人士 获得更多软件代脑之好处。
2)通过软件使人脑阅读理解留下更多统一的印记,用以保留阅读理解产物的句理解模板, 将后者转移给电脑使后续工作能够通过软件完成; 这样的 "学", a)效率很高; b)这种学容 易实现且能共享, 母语人士加个电脑即可, 更具意义的是众人学之所得, 可以相加、 能够共 享; c)这种学紧随科技发展, 任何语用新成果、 翻译经验, 很容易归结成句理解模板。
3 )电脑能逐句将语言文字 A转换成语意不变的语言文字 B,借此进行高译文质量的机器 翻译; 借此母语人士可以直接以母语阅读参考外文资料。
4)在当前软件能否 "代脑"人们还在设想和争论之时,率先实现有限目标下的软件代脑, 开发出软件代脑产品, 具有积极的学术价值和现实意义。
5)本发明具弘扬中文汉语, 促进世界语言文字一体化的有益效果。人类自然语言已经经 历了漫长的 "文字化"时期, "文字化"没有完成, 即还没有文字的语言, 将完全消失。 文字 化后的自然语言, 堪称"语言文字", 将进入这个以现代科技为背景的 "以表意进行关联"技 术走到一起的第二个时期。 这个时期之后是世界语言文字一体化; 或者说这个时期就是语言 文字一体化的初级阶段。 "以表意进行关联"后的语言文字不再是 "在各自独立体系内缓慢发 展", 而是在 "以表意进行关联"后共同、 快速地发展。
这个以现代科技为背景, "以表意进行关联"的技术的完全有可能就是本发明所公开的技 术。 其以汉英作为第一个语言文字对, 也是核心语言文字对。 即将成为其它语言文字表意关 联的模板, 象 DNA复制一样那样对其它语言文字进行表意的关联。 这点对于弘扬中文汉语 意义重大。
中文汉语, 曾经由于字符集太大在计算机面前苦脑犯愁难以输入。 自然语言大量被吞并, 不少国人志士为之犯愁。 感叹没有词间间隔, 表意文字落后于拼音文字等等; 甚至呼吁在被 吞并危协来到之前改为拼音文字。 这些犯愁虽然不无道理, 但没想到在本系列发明这里, 呼 吁变多余、 所愁变优势, 没有词间间隔反而更容易被表意关联; 拼音文字虽然先进, 在世界 语言文字一体化面前不一定更优越。 所以支持、 实施本系列发明 (包括后继的发明)具有弘 扬中文汉语的有益效果。
【附图说明】
图 1句理解模板模式图;
图 2更正运作流程示意图;
图 3自学习模块和预选模块流程示意图;
【具体实施方式】
一种母语人士学用另一语言文字之软件代脑方法和系统, 下面以掌握汉语中文的汉语人 士, 各企事业单位专业技术人员以及在校大学生。 他们都掌握了中文汉语, 有相应专业知识 和一定的英语基础, 他们需要学习或继续学习英语, 参考阅读英文资料, 是汉语人士。 下面 参照附图, 以他们为母语人士, 学习使用英语进行阅读参考英文资料为实施例。 分①阅读理 解移到计算机上进行; ②软件标注句舱和舱眼; ③模板和构件间语意相同并相互映射; ④拆 分源语句子为表意构件; ⑤转换表意构件为目语句子; ⑥更正和机器学习; ⑦多项代脑应用 的软件实现等将本发明的内容进一步说明如下:
一、 阅读理解移到计算机上进行
人脑在阅读理解时, 以句段为单元眼睛逐字扫描; 大脑将它们分割成多个语义块, 理出 块与块之间线性或多维联系。块分割完了, 块间联系清晰了: 就是理解了。如果分割不利索, 块间联系不清晰, 没理解; 没理解就得重复这个过程……。 为了加强分割、 理出联系, 手也 帮忙——画线、 划书、 做笔记, 留下阅读理解的种种印记。
当人脑再次阅读这种留下种种印记的文本 (书本) 时, 块分割、 块间联系瞬间显现, 再 阅读理解变得简单而快捷。
把人脑的阅读理解移到计算机上进行, 不少人们已经是这样做了; 在计算机或网络上阅 读电子文档。技术关键是如何保留阅读理解的"印记";首先需要确定一个理解的深度和目的。 我们的目的是以 "表意"将不同语言文字进行关联, 将双语句对标出相应的表意构件。 母语 人士的阅读理解深浅度以钩划出双语句对表意构件为度, 能标注出句舱、 舱眼即可。 然而, 对人脑理解深度要求不是很高, 只要在两个句子中找出相同表意的词串。 通过软件利用电子 词典进行自动识别、 或者外语水平不高的母语人士, 都可以做到。
计算机和网络现成的相同内容不同语言文字版本的文档是很好的样本部分, 其次, 书面 的相同内容不同语言文字版本的文档, 通过扫描识别或者键盘输入进入计算机。 随后的人脑 阅读理解就可以在计算机上进行了。
在本方法的软件界面设置四个区域。软件把双语文本 A和 B分别读入系统, 分别置于源 文 A和 B区。 然后, 从源文 A和 B区根据句末符号切分并取出双语文本 A和 B—个句对置 阅读理解区 A和 B,源文 A和 B区相应减少一句。某些特殊情况,若母语人士认为切句不妥, 单击源文区 A或 B某点, 软件将该点之前部分移入阅读理解区紧随 A或 B已取句之后。 若 单击阅读理解区 A或 B某点, 软件将该点之后部分退回源文区 A或 B。
作好准备后, 首先需要为句对搜索匹配句骼,有匹配句骼并且套入后各句舱和舱眼匀称、 无残缺、 无堆叠现象的跳过; 无匹配句骼或有残缺、 有堆叠现象的句对才进行理解标注。 首 先进行配句骼运作。 配句骼事先以语种为单元, 按句骼词串与句舱之空穴生成句骼串表并索 引,例如句骼" I know {1 } got crush on {2}, {3} you could {4} ."等使之成为句骼词串 "I know… got crush on ... . ... you could ... 句骼串表至少有 "句骼词串、 句骼码(句骼库记录号)、 骼首(如该例 = "1")"字段;加索引。句骼词串被句舱分割成句骼词段如 "I knoW"、"got crush on"、 ","、 "you could". 注意 ","、 "."与 "got crush on"等同也是一个句骼词段。 这就 构成英语句骼串表, 可用于以英文为源句的搜索。 再例如句骼 "我知道朝露 {1} 喜欢上 {2} 了, {3} 你 {4} 看。"等使之成为句骼词串 "我知道 ... 喜欢上 ... 了, ... 你 ... 看。"; 和句骼码、骼首字段共同制表索引。句骼词串被句舱分割成句骼词段如 "我知道"、 "喜欢上"、 "了, "、 "你"、 "看。"; 这就构成中文句骼串表, 可用于以中文为源句的搜索。
配句骼运作——事先按句骼词串与句舱之空穴生成句骼串表并索引之后, 配句骼时把 A 语句例从左到右英逐单词中逐字取下搜索句骼串表的骼首字段(英含句骼词串第一个单词或 符号; 中含第一个字或标点符号) 并存于临时表, 再逐记录取出临时表内容, 以句骼词段査 询句对例, 句骼串的每段都可以在句对例中査到且次序相同为匹配句骼, 再根据句骼串表的 句骼码字段取出相应语种句骼。 以 A语句搜索, 取出 A、 B语句骼; 将当前句对例对号入座 地全部套入。
配句骼运作搜索到匹配句骼, 将当前句对例套入并显示给出 "舱检测"和 "切配标"按 钮, 当操作者读到后认为各句舱和舱眼匀称、 无残缺、 无堆叠现象且语意正确时单击 "舱检 测"按钮, 表示认可, 系统接续舱检测步骤。 如果不是这样, 不认可, 单击 "切配标"按钮, 系统进入切配标运作, 用 A语词串査询意群串库 (或和传统电子词典)看 B语句是否含有, 生成当前句对语意匹配表; 为标注句舱、 舱眼作好准备。
若搜索到 A语句有匹配句骼且套入后得到操作者认可的跳过, 不必理解标注, 读入下一 个句对。 若没有搜索到 A语句有匹配句骼或搜索到有但套入后被操作者否认时进行切配标运 作后, 进入理解标注句舱的步骤。
切配标运作——切配标运作机器利用含有词性、 A语词、 B语词字段的语意匹配表, 先 以 A语句子单词串为单元切分、依次填入匹配表 A语词字段, 随后逐记录取出査询意群串库 或传统电子词典, 以査得的相应 B语解释搜索 B语句是否含有,含有且是最长串填入 B语词 字段同时将其 A语词性填入词性字段, 无含有 B语词字段为空。 一条 A词串有多条 B语解 释的, 它们的 A语词词字段相同。 这就作好了识别标注句舱的准备, 将句舱计数器(N=0) 清零。 接续标注句舱的步骤。
二、 软件标注句舱和船眼
语言文字的本质是表意, 所表之意人类互通; 句子是能够表达完整语意的基本单位。 不 同语言文字的句子可以表达相同的语意。 不同语言文字的表意由几种共同的表意构件实现。 然而, 把多种语言文字以表意进行关联, 就可以划分出它们相应的表意构件。 句子分句骼和 句船两部分, 句骼是句子的骨骼和框架, 句舱是句骼框架上灵活、 常被替换的舱。 它们像填 空题, 句骼是题干; 句舱是题干上的空。 它们像数学公式, 句骼是算式, 句舱是变量。 然而 拿不同的词串替换句舱内容就可以生成许多新句子; 换一句话说, 句骼是一类句子的骨骼和 框架。 幼儿呀呀学语是在模仿、 尝试着找句骼、 用句骼; 成人遣词造句交流思想, 是使用句 骼的过程; 传统机器翻译以字、 词组合成句, 欠缺的就是句骼框架。 标注句舱, 根据当前句对、 以八、 B语句词串是否表意相同来决定是否作为一个句舱。 其中词性是一个参考, 最常作为句舱或者最适合作为句舱的词串依次是: 数量串, 表示数、 量的词串或连续数条词串; 专名串, 专有名词串; 冠名串, 由冠词携带的名词词串, 多种语 言文字有冠词(可作识别标志); 无冠名串, 没有冠词携带的名词词串; 其它语意匹配串, 除 前 4种词串以外的其它词串, 只要在句对中表意相同都可以作为句舱, 在骼例比适宜的范围 内。 母语人士阅读理解或软件自动识别都是以数量串、 专名串、 冠名串依次搜索, 双语同时 预标一个句舱。 句舱与句舱之间以有词串相隔为佳, 没有词串相隔为连续句舱; 仅仅允许两 舱相连。 一旦 A、 B语之一出现三舱相连, 软件立即提示 "返工", 否则不能继续运行。 A、 B语句同时出现两个相续的句舱, 例如 A语有 2、 3句舱相续; B语也有 2、 3或 3、 2相续, 并且英共含词串 (包括间隔词串) <=5, 软件提示操作者考虑合并; 仅是 "考虑"。
骼例比为长期反复多次实验获得的标注句舱、 舱眼的指标; 是句骼和句例含有字符数之 比例。 第一轮标注 A语选英文, B语选中文。 以英文字符数计算, 假如一个中英句对, 英文 字符总数(包括标点符号)是 100; 开始标注时它的骼例比是 100%; 标注一个句舱后, 舱内 含 20个字符, 这时的骼例比 =20/100, 等于 20%; 再标注一个句舱, 句舱内的总字符数增加 到 45个, 骼例比等于 45%; 以此类推。 第二轮开始以己经标注语句为模板, 象 DNA复制一 样识别标注未标语句的句舱及舱眼, 骼例比仍然以英文句计算。
把句对标注出句舱有两种方法:
方法之一, 由操作者、 母语人士阅读理解句对, 将在句对中表意一致的词串或连续的几 条词串定为一个句舱, 用鼠标单击其首尾, A、 B语句同时进行; 软件将被单击两个点之间的 内容,作为一个句舱进行标注;标注好一对句舱、再标注第二对……。在前申请 2公开了 "一 种语句构件的制作方法", 表意构件是语句构件的进步, 标注操作方法步骤一致, 操作者可参 考上述最适合作句舱词串依次考虑搜索, 将它们作为句舱, 当骼例比合适时终止标注句舱。 这里不再赘述。
方法之二, 由软件自动按上述最适合作为句舱的词串, 依次搜索作为句舱进行标注。 先 以先后为序预标, 达标后以英语句从左到右为序改预标为正式标注。 第二轮开始以已经标注 的语句为模板对未标语句进行识别标注, 句舱标号也同时复制; 这也是不同语言文字同类表 意构件语意相同的技术特征保证之一。
利用上述方法之一,母语人士阅读理解同时用鼠标点击阅读理解区 A和 B句当前表意相 同词串或连续的若干个词串,软件将它们以大写字母依先后为序加花括号在 A和 B句同时预 标为一个句舱。
利用上述方法之二,软件自动识别出 A和 B句当前表意相同词串或连续的若干个词串将 它们以大写字母依先后为序加花括号在 A和 B句同时预标为一个句舱。
自动识别预标句舱的运作, 例如句对例:
" In Hengtung County, its per_mu— grain— yield surpassed 800 jin in 1970, double that before 1965.
衡东县在 1970年每亩产量超过 800斤, 是 1965年以前的两倍。 "
机器査询当前句对语意匹配表, 首先搜索识别数量串, 有、 将它不们在 A、 B语句子中 同时据 N=N+1以 "A、 B、 C…… "预标; 本例有 3对数量串, 预标为 "A、 B、 C" 3个句舱, 例如:
" In Hengtung County, its per-mu_gra i n_y i e 1 d surpassed A {800 jin} in B {1970} , double that before C {1965} .
衡东县在 8 {1970年} 每亩产量超过 A {800斤}, 是(:{1965年} 以前的两倍。" 无或识别搜索完全句数量串后识别搜索专名串, 有、 同样将它不们在 A、 B语句子中同 时据 N=N+1以 "A、 B、 C…… "预标; 本例有 1对专名串, 接续预标为句舱 "D"例如: "In D{Hengtung County}, its per-mu_grain_yield surpassed A {800 jin} in B{1970}, double that before C{1965}.
D{衡东县 } 在 8{1970年} 每亩产量超过 A {800斤}, 是( {1965年} 以前的两倍。" 无或识别搜索完全句专名串后识别搜索冠名串, 有、 同样将它不们在八、 B语句子中同时 据^^1以 "A、 B、 C…… "预标。 本例无; 无或识别搜索完全句冠名串后显示符号 " I "且 在两侧分别显示 "一 "、 "一 "命令按钮、 计算并显示骼例比、 以及 " V"命令按钮, 接受操 作者更正或认可; 同时显示骼例比为 " 64%"; 本例因没有达到 15- 50%的指标, 需要继续识别 标注句舱; 接受操作者单击 " V"按钮, 继续识别标注。
以上是双语依次同时识别数量串、 专名串、 冠名串; 这三种词串识别之后, 计算骼例比, 连同预标结果,一些命令按钮一同显示给出。若这三种串全部搜索完且骼例比在 15- 50%之间, 预标句舱结束。 若这三种串全部搜索完且骼例比 >50%, 再以无冠名串、 其它语意匹配串继续 依次搜索预标句舱, 直至骼例比在 15- 50%之间, 预标句舱结束。 母语人士核实确认或作指点 由软件执行更正。 无需更正而骼例比超标, 如同本例, 则继续识别标注。 如果骼例比高于 15-50%, 以匹配表为据搜索词性字段是名词且 A语词 B语词字段不空的为语意匹配的无冠名 串, 或者不是名词而 A语词 B语词字段不空的为其它语意匹配串。 同上且加显当前句对语意 匹配表、 "|手1"、 "V"、 "〈〜,、 "格式检查"按钮。
本例继续识别无冠名串和其它语意匹配串, 注意, 现在开始是每识别预标一个句舱即暂 停, 等待交互认可或更正。 如本例从左向右搜索无冠名串, 有 " per- rau— grain— yield"、 "每 亩产量", 且与前、 后的已标句舱都有词串相隔, 因而进一步预标句舱 "E", 如:
" In D{Hengtung County} , its E{per-mu_grain_yield} surpassed A {800 jin} in B{1970}, double that before C{1965}.
D{衡东县 } 在 B{1970年 } E{每亩产量} 超过 4{800斤}, 是(;{1965年} 以前的两倍。" (待续)
这时骼例比为 "42%" 已经达标, 但没有 =〈15%由操作者根据语意情况可结束识别, 单击 "格式检査"按钮; 也可再识别预标单击 " V"按钮; 也可以使用其它命令按钮进行更正。 更正操作和上述显示的命令按钮相关联, 逻列如下:
"― I— "按钮: 当 A或 B语句被单击在单击点插入显示 " I "然后判别 "一"、 "一" 按钮是否被单击; 当 "一"被单击, 将 " I"左边的词串左移, 如果 "I"在句舱内则将其左 边词串移出句舱; 如果 "I"在句舱外则将其左边词串移入句舱。 当 "一 "被单击, 将 " 右边的词串右移, 如果 "I"在句舱内则将其右边词串移出句舱; 如果 " ί"在句舱外则将其 右边词串移入句舱。 借此更正句舱内容的多寡。
" "按钮: 认可当前识别已预标句舱, 继续识别预标新句舱。
"|手|"按钮: 手工标识句舱, 同时在 Α、 Β语待校句各单击欲标句舱的首尾, 然后单击 "|手|"按钮, 将它们再预标一对句舱, 自动修改骼例比。
"〈 "按钮: 每次单击反悔最后识别预标的句舱, 还原到最后预标前状态以及骼例比; 可重复直到完全删去。
上述句对例的识别预标句舱有部份内容还未涉及, 再举例说明如下:
例如读入句对 "for three years, there is been a running fight between the Tory and Labour members of the Housing Committee about raising council ho house rents.,,、 " 3年来, 住房供给委员会的保守党成员和工党成员就提高社团房租事宜互相进行了追击 战。"
如上述自动依次同时识别数量串、 专名串、 冠名串; 其中有提示: "冠名串 'running' 不匹配!"; 当这三种词串识别预标句舱之后, 显示骼例比为 59%, 预标结果:
"for A {three years} , there is been a running fight between B{the Tory} and C {Labour members} of D{the Housing Committee} about raising council house rents. "; "八{ 3年} 来, D {住房供给委员会} 的 B {保守党成员 } 和 C {工党成员} 就提高社团房 租事宜互相进行了追击战。"
本例出现上例未曾涉及的内容: 同上且加显当前句对语意匹配表、 " 1手1 "、 " V "、 "< 按钮; 接受操作者使用组复词、 延伸词义、 粘带前引或后随字词方法等意群对齐方法修改匹 配表, 增补语意匹配词串, 继续预标句舱。
数、 专、 冠三种词串识别预标中有提示 "冠名串 'running' 不匹配!"; 看匹配表, 语 种 A中的 "running"相应的语种 B字段为空所以还未匹配; 査传统电子词典 "running"的 解释有: "n, 奔跑; 赛跑; 运转; 转动;流出; adj, 奔跑的; 不断的; 连接的; 流动的; 赛跑 的"。 它们都在搜索 B语句中不含有而没有匹配。 根据当前句对例的语意, 它表达了 "追击" 之意; 是 "奔跑"、 "赛跑"的词义延伸。 符合 "意群对齐"的操作要求(详后)。 所以在语种 B字段增补 "追击"(词性字段填入 "t "示其它补加词类, 下同); 使 "rUnning"、 " 追击" 匹配成为意群串。然而冠名串" a running fight"与"追击战"匹配;被识别预标为句舱 "E"; 骼例比为 48%。 如:
"for A {three years} , there is been E {a running fight} between B {the Tory} and C {Labour members} of D {the Housing Committee} about raising council house rents. ";
"八{ 3年} 来, D {住房供给委员会} 的 B {保守党成员 } 和 C {工党成员} 就提高社团房 租事宜互相进行了 E {追击战 } 。"
看句对的后部一大段, 没有句舱, 同时骼例比 48%; 可以继续识别预标句舱。 因而看匹 配表, 后的 "raising council house rents "与 "提高社团房租事宜"其中由于 "council " 未能匹配。传统词典它有 "n,参议会; 顾问班子; 理事会; 讨论会议; 立法班子; 委员会; 政 务会; 议员"等词义; 在这里表达了 "社团"之意, 是原有词串的词义延伸。 符合 "意群对 齐"的操作要求。 所以在语种 B字段增补 "社团"解释; 当母语人士单击 " V "按钮, 继续 自动识别、 预标为:
for A {three years} , there is been E {a running fight} between B {the Tory} and C {Labour members} of D {the Housing Committee} about F {raising council house rents} .
4 { 3年} 来, D {住房供给委员会} 的 B {保守党成员 } 和 C {工党成员} 就 F {提高社团房 租事宜 } 互相进行了 E {追击战 } 。
这时骼例比为 26%; 句舱分布合理(舱间间隔一般为 1-5串的)。识别预标结束; 搜索接 受 "格式检查"按钮被单击。 进行格式检查运作。 然后正式标注为:
for 1 {three years} , there is been 2 {a running fight} between 3 {the Tory} and
4 {Labour members} of 5 {the Housing Committee} about 6 {raising council house rents
1 { 3年} 来, 5 {住房供给委员会} 的 3 {保守党成员 } 和 4 {工党成员 } 就 6 {提高社团房 租事宜 } 互相进行了 2 {追击战 } 。
"格式检査"按钮: 结束当前句对的更正操作, 进行句舱、 句骼格式检査, 用 16进制数 字替换大写字母以 A句从左到右为序整理前述预标为正式标注。 经正式标注的双语句对进一 步检测每个句舱, 若有大于原有 5个词串的大句舱需进一步标注舱眼或组复词, 标注舱眼也 以数量串、 专名串、 冠名串、 无冠名串、 其它语意匹配串依次为靶词串, 模例比 (仿效骼例 比) 为 50-70%之间, 舱眼用 16进制数字以 A句从左到右为序加方括号标注。
逐个句舱检测, =»5个原有词串要进入组复词运作。 组复词——根据当前句对、 句舱语 意判断, 如其一需要原有两个词条或更多词条合并, 语意才等于另一时, 前者以 "-"将它们 相连合并为一个词条, 称为复词。 换句话说, 当两个或两个以上原有词串的总语义不能由词 串义相加获得的以 "」,相连成复词(复串),如: "works little" "工作懒散", 在句对 " the unsuccessful person, on the other hand, works little and just waits to see pass by .,,;
"而失败者工作懒散, 眼看机遇悄然而过。"中表意相同。 虽然 "works"有 "工作"之义, 但 " little"没有 "懒散"之意; 它们的总语义不能由词串义相加获得, 故以 " "相连, 组 为复词。又如: knew— nothing—about— it —无所知; compelled— to— go非去不可; Late— at— night 深夜; works— little 工作懒 ; 等等。
若=>原有 8个词串的以当前句舱作 "切配标"运作生成当前句舱语意匹配表以进一步提 取舱模为有模句舱, 如下例 - l {the American} 2 {economic} system is, organized around 3{a basically private-enterprise } , 4 {market-oriented economy} in which 5 {consumers} largely determine 6 {what shall be produced} by 7 {spending their money in the marketplace for those goods and services that they want most} .
1 {美国的 } 2{经济 } 是以 3{基本的私有企业} 和 4{市场导向经济 } 为架构的, 在这种 2{经济 } 中, 5{消费者 } 很大程度上通过 7{在市场上为那些他们最想要的货物和服务付费 } 来决定 6{什么应该被制造出来 } 。
依次逐个句舱检测, 1-6号句舱都没有超过 8个原有串;句舱 7{spending their money in the marketplace for those goods and services that they want most}超过 8个原有词串, 作切配标运作 生成当前句舱语意匹配表以备进一步提取舱模为有模句舱。
一提取舱模, 也以数量串、 专名串、 冠名串双语同时依次识别、 预标为舱眼, 例如当前舱 被标注为:
spending their money in A[the marketplace] for those goods and services that they want most 在 A [市场上] 为那些他们最想要的货物和服务付费
这时模例比 81%; 大于 50-70%, 再以无冠名串或其它语意匹配串在有间隔的前提下逐个 标为舱眼, 母语人士除认可更正外, 还可以使用组复词、 延伸词义、 粘带前引或后随字词等 意群对齐的方法修改匹配表, 增补语意匹配词串, 继续预标舱眼 B为:
spending their money in A[the marketplace] for those B [goods and services] that they want most
在 A [市场上] 为那些他们最想要的 B [货物和服务〗付费
这时模例比 65%; 模例比在 50-70%之间; 看语意需要, 可以结束也可以再预标句舱 C; 再预标舱眼 C必须模例比也在 50-70%之间; 否则反悔还原, 标眼结束。
spending their money in A [the marketplace] for those B[goods and services] that C[they want most]
在 A [市场上] 为那些 C [他们最想要] 的 B [货物和服务]付费
这时模例比 53%; 也在 50-70%之间, 允许。最后, 以英语句舱从左到右为序修改舱眼预 标为正式标注, 例如当前句舱正式标注为:
spending their money in l[the marketplace] for those 2 [goods and services] that 3 [they want most]
在 1 [市场上] 为那些 3 [他们最想要] 的 2 [货物和服务] 付费
将当前句舱纳入当前句对, 成为-
1 {the American} 2 {economic} system is, organized around 3{a basically private-enterprise }, 4 {market-oriented economy} in which 5 {consumers} largely determine 6 {what shall be produced} by 7 {(623786) spending their money in l [the marketplace] for those 2 [goods and services] that 3 [they want most]} .
1 {美国的 } 2{经济 } 是以 3{基本的私有企业} 和 4{市场导向经济 } 为架构的, 在这种 2{经济 } 中, 5{消费者 } 很大程度上通过 7{(623786)在 1 [市场上] 为那些 3 [他们最想要] 的 2 [货物和服务〗付费 } 来决定 6{什么应该被制造出来 } 。
以上是第一轮句舱及舱眼标注的步骤, 第二轮句舱及舱眼标注开始, 不用据词串而是以 已标语种句为模板软件自动识别、 标出未标语种句相应当前表意相同的句舱及舱眼; 每轮标注选内容相同的 AB两种语言文字版本的语料, 第一轮选最具代表性的英汉二种 语言文字, 第二轮开始每轮标注新增一种语言文字, 另一种为已经标注过的语言文字, A语 分配给已经标注过的语言文字, B语分配给新加入的语言文字。
三、 模板和构件间语意相同并相互映射
软件在这种必须由人脑主导的阅读理解过程中把当前阅读理解区的双语句对标注上句 舱、 舱眼, 用以保留当前句对阅读理解的成果为句理解模板。
句理解模板包括句例; 被花括号所括的句舱; 花括号外的句骼。 以及大句舱内被方括号 所括的舱眼; 方括号外的舱模。 句舱和舱眼内含有原有若干词串或被组复词所连的复词串, 它们是双语以至多语种语意匹配对齐的意群串。 意群串是一类填充性的表意构件, 填充于句 舱或舱眼之中。舱模在大句舱内虽有框架、被填充的情况, 但本身也具填充性、填充于句舱。 句骼是框架式的表意构件, 句骼是句理解模板唯一的固定部分, 包括舱标号和花括号, 其它 都非固定可以被置换的部分或实例。 有一些特殊的句子, 它们不包含如上所述语意匹配对齐 的句舱, 直接以句匹配进行表意使用的习语。它们共同成为句理解模板的成员。 以上例为例, 如: "
1 {the American} 2 {economic} system is , organized around 3 {a basically private-enterprise} , 4 {market-oriented economy} in which 5 {consumers} largely determine 6 {what shal l be produced} by 7 {spending their money in 1 [the marketplace] for those 2 [goods and services] that 3 [they want most] } .
1 {美国的 } 2{经济 } 是以 3{基本的私有企业} 和 4{市场导向经济 ί 为架构的, 在这种 2{经济 } 中, 5{消费者 } 很大程度上通过 7{在 1 [市场上] 为那些 3 [他们最想要] 的 2 [货物 和服务]付费 } 来决定 6{什么应该被制造出来 } 。 "
这是当前句对阅读理解的成果。 由于上述的阅读理解已经移到计算机上进行了, 在计算 机上由软件进行标注, 所以 "转移给电脑" 自然隐含实现。 这种通过人机交互的软件手段, 使母语人士的阅读理解留下更多的、 规范统一印记的成果; 是在 "母语人士"、 "句为单元" 和 "以 Α-Β语句转换翻译为理解深度"三个有限约束条件下, 产生有限目标的 ~~句理解模 板 100。 句理解模板如图 1所示, 有 Α语句理解模板 101 ; B语句理解模板 102; 这是第一轮 理解标注时所含语言文字种类, 也是以后长连当中的某一片段; 以后每轮理解标注新增一种 语言文字, 它将逐步增长, 多语种句理解模板可以组成长链。 语言文字 A 103的句子, 通过 A语句理解模板 101, 由它们的成员,表意构件与另一语言文字, B语句理解模板 102的表意 构件产生语言文字 B的句子 104。简言之, 园语言文字 A103的句子,可以转换出语意不变的 语言文字 B的句子; 逆向也一样, 由语言文字 B104的句子, 可以转换出语意不变的语言文 字 A103的句子。 句理解模板包括句例, 如: "
the American economic system is, organized around a basically private-enterprise, market-oriented economy in which consumers largely determine what shall be produced by spending their money in the marketplace for those goods and services that they want most.
美国的经济是以基本的私有企业和市场导向经济为架构的, 在这种经济中, 消费者很大 程度上通过在市场上为那些他们最想要的货物和服务付费来决定什么应该被制造出来。 " 包括被花括号所括的句舱, 如: "the American美国的"; "economic经济"; "a basically private-enterprise基本的私有企业,,; " market-oriented economy市场导向经济"; " consumers消 费者 "; " what shall be produced什么应该被制造出来 "; " spending their money in the marketplace for those goods and services that they want most在市场上为那些他们最想要的货物和服务付 费,,;
'包括花括号外的句骼, 如 "
{ 1 } { 2 } system i s, organized around { 3 } , { 4 } in which { 5 } largely determine { 6 } by { 7 } .
{ 1 } { 2 } 是以 { 3 } 和 { 4 } 为架构的,在这种 { 2 } 中, { 5 } 很大程度上通过 { 7 } 来决定 { 6 } 。 "
以及包括大句舱内被方括号所括的舱眼, "the marketplace市场上"; "goods and services 货物和服务"; "they want most他们最想要"
和方括号外的舱模, "
spending their money in [ 1 ] for those [ 2 ] that [ 3 ]
在 [ 1 ] 为那些 [ 3 ] 的 [ 2 ] 付费 "。
句舱和舱眼内含有原有一条或若干词串及被组复词所连的复词串, 它们是双语以至多语 种语意匹配对齐的意群串,如上面所列的 "the American美国的"; "economic经济"; "a basically private-enteiprise基本的私有企业"; "等等。 另有一些特殊的句子, 它们不包含如上所述语意 匹配对齐的句舱, 直接以句匹配进行表意使用的习语, 例如: "
"一个和尚挑水喝,二个和尚抬水喝,三个和尚没水喝。 "; "one boy is a boy, two boys half a boy, three boys no boy . "; "兵不厌诈 "; " There can never be too much deception in war. "等等; 没有表意相等可划为句舱的词串, 无法标注出句骼、 句舱归属于习语。 中文的成语、 俗语、 谚语、 歇后语等几乎都是习语。
正如上述, 句理解模板包括句例、 句舱、 句骼、 舱眼、 舱模、 意群串以及习语, 它们共 为句理解模板的成员。 如图 1所示, A语句理解模板 101、 B语句理解模板 102分别含有这 7 种成员。 其中直接用以表意的成员为表意构件, 有句骼、 舱模、 意群串及习语四种; A、 B 模板中相应的表意构件有横线相连, 表示它们语意相同且能相互映射。 多语种的句理解模板 通过表意构件相连组成一个句理解模板的长链。
其中连接 "句骼"的横线特粗表示它是模板唯一的固定成员。 7个成员中有四者是表意 构件, 也就是说, 从句理解模板上至少可以分解出句骼、 舱模、 意群串及习语四种类表意构 件。 语言文字的本质是表意。 句子是能够表达完整语意的基本单位; 不同的语言文字的句子 可以表达相同的语意; 不同语言文字的表意以相同的表意构件实现。
意群串是一类填充性的表意构件, 填充于句舱或舱眼之中, 包括原有词汇、 术语、 短语 以及由意群整词补加的词串。舱模在大句舱内虽有框架、被填充的情况, 但本身也具填充性、 填充于句舱。 句骼是框架式的表意构件, 包括舱标号和花括号。 句骼是句理解模板上唯一固 定成员; 其它成员都非固定, 都是可以被置换的部分或实例。 习语是以句匹配进行表意使用 的一类特殊句子, 它是表意构件之一。 句例不是表意构件, 句例是可以表达完整语意的基本 单位, 是模板的句子实例。
句理解模板客观存在, 不管人们是否认识和如何评价它。 幼儿呀呀学语, 人们遣词造句 思想交流, 都是自觉或不自觉地是利用句理解模板, 运用表意构件的过程。 这是句理解模板 单用的情况。 此外, 可一对一对地使用; 一对一对地使用可产生 、 B语言文字间句子的转 换。 由于同类的表意构件语意相同且互相映射, 所以转换出来的 A、 B语言文字的句子语意 不变。
一对句理解模板包含许多句例。 具有相同句骼的一类句子都可以在这对句理解模板上被 拆分; 被组装出来。 一对句理解模板能涵盖句例的多少, 是句理解模板和句骼的代表性, 代 表能力的体现。显然, 句子可以根据其句骼进行分类; 句理解模板可以来自某一个句对实例, 而它的唯一固定成员, 句骼可代表和涵盖一类句子, 可以被一类句子所套用。
例如这个对句例 "The fisherman consents to return the feather suit, on condition that fairy dance and play heavenly music for him. 在仙女为他跳舞并演奏天上乐曲的条件下,渔夫答应归 还羽衣。 ", 称为 "原始例"被保留于句理解模板。 以它为句对实例而产生的一对模板: "
1 { The fisherman} consents to return 2 {the feather suit}, on condition that 3 {(00205) 1 [fairy] 2[dance] and 3 [play heavenly music] for him} . 在 3{ 1 [仙女] 为他 2 [跳舞] 并 3 [演奏天上乐曲] } 的条件下, 1 {渔夫 } 答应归还 2{羽 衣} 。 "以及它们的句骼: "
{ 1 } consents to return {2} , on condition that {3} .
在 {3} 的条件下, { 1 } 答应归还 {2} 。
"; 它们的句骼可以代表和涵盖一类句子, 可以被一 类句子所套用, 如可套用出: "
1 {The child} consents to return 2{Ipad}, on condition that 3 {(00205) 1 [father] 2[buy the toys] and 3 [play games together ] for him} .
在 3 {(00205) 1 [爸爸] 为他 2 [买玩具] 并 3 [—起玩游戏] } 的条件下, 1 {孩子 } 答应归还 2{Ipad电脑 } 。
1 {The boy} consents to return 2 {her bag} , on condition that 3 { (00205) 1 [his female classmate ] 2 [prepare the homework] and 3 [not inform others] for him} . 在 3 {(00205) 1 [同班女生] 为他 2 [写作业] 并 3 [不告知他人] } 的条件下, 1 {男孩 } 答应 归还 2 {她的书包} 。
1 {The employer} consents to return 2 {the delinquent wages}, on condition that 3 {the workers not reveal} .
在 3{农民工不告发 } 的条件下, 1 {雇主} 答应归还 2{拖欠的工资 } 。
1 {Tom} consents to return 2 {calculator}, on condition that 3 {the homework is finished} . 在 3 {完成家庭作业 } 的条件下, 1 {汤姆 } 答应归还 2{计算器 } 。
1 {Mother} consents to return 2 {his favorite doll}, on condition that 3 {the child get A greed in the next exam} .
在 3{孩子下一次测试获得八级} 的条件下, 1 {妈妈 } 答应归还 2{他最喜欢的玩具} 。
"; 等等很多句对; 用于产生许多对英-中或中 -英间句子的 转换。
之所以称句理解模板鉴于其特性: 1 )一种产物, 一个经过人脑阅读理解由软件标注上更 多统一印记的句对理解产物。 2)—种场所, 一种可以拆分句子和组装句子的场所。 3 )有固 定设施, 一种特殊的固定设施——句骼, 句骼是句子的骨骼和框架; 句骼是不同语言文字表 意不可或缺的表意成份。 4) 有运作模式, 一种句理解模式; 一种基于句理解的由 A语句子 向 B语句子转换的模式, 或拆分 A语句、 组装出 B语句的运作模式。 5 ) 可以长期应用, 可 以累积、 可以共享。
为了句理解模板能更好用于理解标注其它句子、 通过 A、 B句理解模板进行 、 B语句 之转换, 软件将它们保存于句理解模板数据库代替人脑记忆, 功效自然更高。 不仅如此, 保 存于句理解模板能保证 "句理解模板、 同种表意构件之间语意相同并互相映射"。 当今数据库 技术要达到这一目的并不难。 首先是建立 "句理解模板数据库"第一轮理解标注选取最具代 表意义的汉英两种语言文字, 该数据库上相应有中模板、 英模板两个字段。 如上例英汉两个 句理解模板分别贮存于当前记录相应语模板字段下。 其中英文句理解模板 "
1 {The fisherman} consents to return 2 {the feather suit}, on condition that 3 {(00205) 1 [fairy] 2[dance] and 3 [play heavenly music] for him} . "存贮于当前记录 "英模板"字段; 相应中 文句理解模板 "
在 3{(00205) 1 [仙女] 为他 2 [跳舞] 并 3 [演奏天上乐曲] } 的条件下, 1 {渔夫 } 答应归 还 2{羽衣 } 。 ,,存贮于当前记录 "中模板"字段。这种存贮由 软件执行, 可以完全准确无误。 并且, 只要通过数据库搜索, 就可以找到该记录, 且同记录 字段间能相互映射。例如搜索到"英模板 "字段下的当前例的英模,通过映射取出同记录 "中 模板"字段内容, 肯定是当前例中模。 它们的语意一定相同; 这 "一定相同"还有相关步骤 保证, 如 "每轮标注取同内容、 不同文字版本语料"进行; 获得模板之后, 本节所述步骤保 存方法和步骤等。
从第二轮理解标注开始, 每轮新增一种语言文字, 句理解模板数据库相应增设一个某语 模板字段。 例如第二轮新增俄文, 增设一个 "俄模板"字段, 利用中俄双语样本句对, 经理 解标注后获得中俄两个句理解模板: "
1 {约翰 } 象 4 {亨利 } 一样 3 {努力 } 2 {工作} 吗?
1 {PaGoTaeT} 2{,∑ί5κοΗ} τβκ 3{ycepHo} κβκ 4{ΓεΐϋΐΗ}? "; 以已经标注的中文之句理解 模板搜索到当前记录,可见"中模板 "字段下的" 1 {约翰 } 象 4 {亨利 } 一样 3 {努力 } 2 {工作 } 吗? "; 也可看到 "英模板"字段下有 "Does 1 {John} 2 {work} as 3 {hard} as 4 {Henry} ?"; 然后将当前俄句理解模板 " l {Pa6oTaeT} 2{Λ*ΟΗ} τακ 3{ycepHo} ΚΒΚ 4{ΓεΗΛΗ}?"存贮于 "俄 模板"字段。 此后, 它们三者不但语意相同, 且可以相互影射。
句理解模板至少包含句骼、 舱模、 意群串、 习语四种表意构件。 这里将它们分解出来, 分别存贮于相应的构件数据库, 相应的构件数据库同样有语种构件字段, 同样是同记录语意 相同且相互映射。 例如上例分解出中、 英、 俄三种句骼存贮于句骼库相应中、 英、 俄句骼字 段,如: "Does {1} {2} as {3} as {4}?"存贮于英句骼字段; " {1} 象 {4} 一样 {3} {2} 吗? ,, 存贮于中句骼字段; {2} TaK {3} KaK {4} ?"存贮于俄句骼字段。 其它表意构件, 舱 模、 意群串、 习语以此类推。
这些表意构件数据库是句理解模板数据库的分库。 分库继承总库, 继承了句理解模板数 据库的特性, 分库中同记录表意构件语意也相同, 它们也互相映射。 分库与分库之间相互独 立。 总库与分库关系为上、 下位概念且有分工; 总库贮存句理解模板, 分库贮存它们的表意 构件; 这样的安排, 搜索、 存取等应用方便、 灵活。
四、 拆分源语句子为表意构件
软件利用句理解模板 100拆分源语句子为表意构件, 代替人脑理解和拆分句子, 先进行 配句骼运作。 配句骼运作事先按句骼词串与句舱之空穴生成句骼串表并索引, 配句骼时把源 语句子从左到右逐字或逐词串取下搜索句骼串表的骼首字段并存于临时表, 再逐记录取出临 时表内容, 以句骼词段査询源语句子, 句骼串的每段都可以在源语句子中査到且次序相同为 匹配, 再根据句骼串表取出当前匹配的源语句骼。 例如:
事先按语种把句骼变成句骼词串, 如英句骼 "draw {1} to divide {2} into {3} ."变成句骼 词串 "draw to divide into . " IC存于英句骼串表 (至少含句骼串、 骼首、 句骼码三 字段)对句骼串字段索引 (骼首字段" draw")。 配句骼时把源语句子从左到右逐字或逐词串 取下搜索句骼串表的骼首字段并存于临时表, 再逐记录取出临时表内容, 以句骼词段査询源 语句子。 当前例从临时表句骼串字段取出 "draw to divide into ." 句骼串的每段都 可以在源语句子中査到且次序相同为匹配。 当前例 4段(其中 "."也是一个段), 它们都可 以在源语句子 "Draw a diagonal line to divide the square into two triangles. "中查到且次序相同, 所以匹配。再根据句骼串表当前记录的句骼码字段到句骼库取出当前匹配的源语句骼: "draw {1} to divide {2} into {3} .,,。
然后, 将源语句子 "Draw a diagonal line to divide the square into two triangles. "套入源语 句骼 "draw {l } to divide {2} into {3} 拆分源语句子为:
draw 1 {a diagonal line} to divide 2 {the square} into 3 {two triangles} .
它们的表意构件清晰可见, 很容易由软件分解出来。 如该例得到源语句骼 "draw { 1 } to divide {2} into {3} ."; 意群串 "diagonal"、 " line,,、 " square " two,,、 " triangles"等。
这就得到当前源语句理解模板; 已经将源语例拆分成表意构件。
五、 转换表意构件为目语句子 当上一步骤将源语例拆分成表意构件之后。 软件利用句理解模板 100转换表意构件为目 语句子, 如图 1所示, A、 B语种的表意构件一一相应, 有线条相连。软件利用源语句理解模 板上的句骼" draw {l } to diVide {2} into {3} . "搜索到相应目语句的句骼"画 {1 } ,把 {2} 分 成 {3} 。", 将当前源语句理解模板上的句舱内容转移到目语句骼相应句舱。 例如-
"画 1 { a diagonal line }, 把 2{ the square }分成 3 { two triangles }。,,
检测所有句舱, 不含舱模的跳过, 若含有舱模, 将该句舱内容套入舱模, 利用该舱模分 库的映射作用取出相应目语舱模, 将当前源语舱眼内容移到目语舱模的相应舱眼里。 当前例 不含舱模, 继续下一步骤。
逐个搜索目语句理解模板的句舱或舱眼, 用其中的源语词串搜索意群串库, 将搜索到的 目语所有解释结果保存到更正表。例如" a"的中文解释有 "一种"、 "一个"、 "一条"; "diagonal " 的中文解释有 "对角线"、 " 斜纹织物"; " square"的中文解释有 "广场"、 "平方"、 "正方形"、 "直角尺"、 "公正的 "、: " triangles "的中文解释有 "可三角剖分的"、 "三角形"等等全部 被搜索罗列到更正表。 更正表至少有词串段、 搜索串 (该例是英串) 、 解释、 串首位字段。 其中词串段即源文词串以及它的所有解释占居更正表连续记录的段。
利用预选模块, 预选其中之一作为目语意群串替换当前句舱或舱眼的源语词串, 直至所 有句舱、 舱眼转换结束。
预选模块与语言文字种类密切相关。 英译中的预选 312是①用当前句舱或舱眼内英文词 串査询 "经验选词"库, 査有取出解释字段内容的首条中文词串为 313最大适配的目语串给 出, 査无以更正表本词串段首记录为最大适配的目语串给出; ②用当前句舱或舱眼已经获得 的中文内容 314査询 "中词序"库的原序字段, 查有以正序字段内容替换为最大适配的目语 串 315给出, 査无不变。 中译英的预选以源、 目语过渡式中句舱或舱眼的源语内容査询更正 表搜索串字段, 有全等的以同记录解释字段内容为最大适配的目语串给出, 无全等时 317的 再査询 "舱经验"库中舱字段, 有 318以英舱字段内容为最大适配的目语串给出, 査 "舱经 验"库无以当前句舱或舱眼中文内容为最大适配的目语串给出;
凡预选模块选用了更正表某査得项改变了原给出内容的, 同时在更正表中将它换位到本 词串段之首。 例如上所述得到目语句子-
" 画 1 { 一条对角线 },把 2{ 正方形 }分成 3{ 两个三角形 }。 ";作为待校句显示 给出。
六、 更正和自学习
当母语人士读到目语待校句和相应的源语参考句时即开始了校正, 同时系统的校正模块 (附图 2)借更正表进行语意校正运作, 自学习模块 301联动, 对校正过程的人机互动进行 学习、 记忆且为预选模块提供数据;
语意校正有待校句完全正确无需更正和需要更正两种情况, 无需更正时接受用户 (同指 母语人士, 下同)单击 "返回"按钮接续 S4, 需要更正的进入校正运作后再接续 S4。
需要更正的进入校正运作 201举例如下:
A)不妥词串的替换 202: 例如, 当用户读到的待校句及相应的源语参考如:
"如果你 1 { 买到 那一栋房子 } , 你是否将在 3 { 那里 } 渡过 2 { 你的晚年 } ? "
" if you 1 {buy that home} , wi ll you spend 2 {the— rest— of— your— l ife} 3 {there}?" 当用户认为待校句某词串 "那一"不妥时, 单击它系统搜索更正表, 弹出下拉列表给出 全部相关査得项待选。 根据被击词串, 及其所在待校句的字符位置数査询搜索串、 串首位字 段, 符合记录以下拉列表给出; 如 "那个、 由于、 那、 那么"等等。
当列表某项被用户单击,例如"那"被单击, 以"那"置换待校句当前不妥词串"那个"; 并在更正表中将 "那"和 "那个" 2 记录内容换位; 由于 "那"、 "那个"不等长, 还要修 改以后记录 "串首位" 字段之值。
当 "返回"按钮被单击, 将上述更正相关信息记录于经验选词库备预选模块搜索使用; 最后返回, 进行下一句的翻译运作。
B)连续句舱的切分 203——当遇到没有参照无法自动进行切分的连续句舱给出、等待操 作者干预。假如连续句舱含 2个词串, 两个句舱各取其一, 自动切分。又例如两个句舱相连, 其中之一又是重复句舱,参考重复句舱的另一个,将连续句舱内容划出与重复句舱相同部分, 剩下部分即属于连续句舱之中的另一个, 自动切分, 不必交互。 除此之外的情况视为 "没有 参照无法自动进行切分"。 一
例如待译句 "When will he go there, tomorrow or some— other— day?"运作时半途停 下, 出现连续句舱 " 1 { 2 {he go there} ", 没有参照无法自动切分; 以显示 "连续句舱, 请单击切分点:":
" 1 { 2 {he go there} " 以及如下信息:
when will 1 { 2{he go there} , 3 {tomorrow} or 4 {some— other— day}?
[1]+什么时候 +[2]+, +[3]+还是 +[4]+?
显然, 应将 "he go there"切分为 "he", "go there"; 分别被放到 [1] +什么时候 +[2] 中去。
当 "he go there"被单击后以被单击点为切分点将两个句舱内容分开; 成为-
"when will l {he} 2 {go there} , 3 {tomorrow} or 4 {some— other— day}?"
继续运作。 ― ―
C)干预另选句骼 204—当遇到句舱和舱眼不匀称、有残缺、或堆叠之错选句骼表现时, 或用户不认可当前译句时单击 "继后"按钮, 系统把多对匹配句骼给出待选, 以单击选取后 的句骼重新套入接续 S6继续运作; 例如待译句:
I went to see一 my— doctor for a check-up yesterday.
自动给出待校 为- 我去看 1 {我去了 議 请医生 的 園 体格检査 昨天 } 。
1 { I went to see_ray_doctor for a check-up yesterday } - 参考句全部内容堆 iii一个句舱; 起码的 "句子有句骼、 句舱两个部分"都不支持; 自 动选句骼有误, "继后"按钮接受到用户单击; 把多对匹配句骼给出待选;
当用户另选一个句骼后, 继续运作给出待校句以及相应源语参考句为:
3 { 昨天 } 我去 1 { 请医生 } 作了 2 { ■ 体格检査 } 。
I went to 1 { see— my— doctor } for 2 { a check-up } 3 { yesterday } .
根据上述命令按钮 ¾ 户单击由判别和后续 213接续相应后续运作。 上面的 "画"表示 不表意的词串, 当用户觉得不妥单击后可弹出列表惫选 (下同)。
D)补加意群串 205—当不妥词串另选替换而缺失时, 接受用户使用延伸词义、 粘带前 引或后随字词等意群对齐方法补加意群串, 以补加串进行替换并补加于意群串相应语种构件 字段。 例如待译句:
Now doctors have discovered a cause of ulcers.
自动给出的待校句为-
1 {现在 doctors } 发现了一种导致 2 { 溃疡 } 的原因。
当用户单击" doctors"时更正表中找不到待选项;当用户选中査词典时给出 "doctors是 名复或动 3"提示。 本方法规定, 凡有词形变化的作为新词登录。 然而接受用户输入 "医 生们"为 "doctors"和 "医生们"补加为意群串, 存入意群串库。 同时待译句更换成: Π现在 医生们 } 发现了一种导致 2 { 溃疡 } 的原因。
根据上述命令按钮被用户单击由判别和后续 213接续相应后续运作。 E)组选复串 206—当不妥词串另选替换而缺失时, 接受用户使用组复词或改选复词的 方法补加复词串, 以补加串进行替换并补加于意群串的复词库相应语种构件字段;
例如待译句:
It usually happens before eating or during the night.
自动给出的待校句和相应源语句参考为:
它通常出现在 1 { 以前 吃饭 } 或 2 { 在 . . .的期间 画 夜晚 } 。
it usually happens 1 { before eating } or 2 { during the night } - 当用户单击这两个句舱之一词串时, 更正表列出的备选项用户没有选取。 当用拖放选中 "before eating "接受用户使用组复词的方法将它们组成复串 "饭前", 这里更换且补加于 复词库。接着用户又用拖放方法选中 "during the night " 自动査询复词有" during the night 夜里"给出; 接受用户单击选用, 这时的待校句更正为 - 它通常出现在 1 { 饭前 } 或 2 { 夜里 } 。
根据上述命令按钮被用户单击由判别和后续 213接续相应后续运作。
F)句舱词序 207——当译句句舱有词序错误时, 接受用户单击其中串, 再单击 "一移" 或 "移一"命令按钮, 将单击串前移或后移一个串位;
例如待译句-
Doctors have been able to help lessen the pain of ulcers.
自动给出的待校句和相应源语句参考为:
H 医生们 } 早已能够帮助 2 { 减轻 醫 疼痛 的 溃疡 } 。
1 { Doctors } have been able to help 2 { lessen the pain of ulcers } .
如果用户单击 "疼痛", 再连续 2次单击 "移一"按钮, 右移 2次, 待校句变成-
1 { 医生们 } 早已能够帮助 2 { 减轻 園 的 溃疡疼痛 } 。
接着用户单击 "的"后单击 "移一"按钮, 待校句更正为:
H 医生们 } 早已能够帮助 2 { 减轻 釅 溃疡 的 疼痛 } 。
当用户单击 "返回"按钮时, 先判别用户使用 "一移"或 "移一"按钮移动了词序, 启 动自学习模块, 将当前移动过的句舱, 移前、 移后内容保存到 "中词序 "库。 然后返回。
G)编词替换 208—当连续多串不妥, 不便用单击选中时, 用拖放操作选中选中串后, 然后在编词替换处填上其它词串、编辑或为空, 再单击 " Λ "按钮时, 系统以后者置换前者。
例如待译句:
Alfred Herman, he shared the 1911 Nobel Peace Prize for his work toward world peace.
自动给出的待校句和相应源语句参考为:
1 { 阿尔弗雷德赫尔曼 } ,因 2 { 他 } 为 4 { 世界和平 } 所做的贡献,获得 3 { 1911 诺贝尔 Peace Prize } 。
1 { Alfred Herman } , 2 { he } shared 3 { the 1911 Nobel Peace Prize } for his work toward 4 { world peace } .
当用户认为 "诺贝尔 Peace Prize "; 并用拖放操作选中, 系统将它们显示于 "选中串" 和 "编词替换"字样下的文本框; 接受编辑为 "年诺贝尔 和平 奖"。当 " Λ "按钮补单击, 以后者替换前者, 更正待校句为:
H 阿尔弗雷德赫尔曼 } ,因 2 { 他 } 为 4 { 世界和平 } 所做的贡献,获得 3 { 1911 年诺贝尔 和平奖 } 。
根据上述命令按钮被用户单击由判别和后续 213接续相应后续运作。
H)修辞 209 ~当出现不便用所列其它步骤处理的修辞现象时, 接受用户单击 "修辞" 按钮, 然后将当前待校句复制到编辑框, 接受用户使用编辑的方法进行修辞操作。
例如待译句或经其它所列步骤处理后的修辞现象时, 如:
Dickens, language, at once rich colourful and varied, is like fine and sensitive musical instrument.
自动给出的待校句和相应源语句参考为:
1 { 狄更斯 的 语言 } 既 2 { 丰富 多采 } 又 3 { 变化多端 } ,很象 4 { 精美而动人 的音乐的工具 } 。
1 { Dickens, language } , at once 2 { rich colourful } and 3 { varied } , is like 4 { fine and sensitive musical instrument } .
当用户单击 "修辞"按钮时, 将当前待校句复制到编辑框, 接受用户使用编辑的方法进 行修辞操作。 操作后的目语待校句为:
1 { 狄更斯 的语言 } 既 2 { 丰富 多采 } 又 3 { 变化多端 } ,很象 4 {精美 而动人 的 乐器 } 。
"返回"命令按钮除上文所述功能外, 它在返回之前还会扫描专为修辞所设的编辑框; 当该编辑框不空时, 取该框内容返回; 要不取待校句返回。
J)补量词 211 当英译中时由于英语无量词而中文有量词因而需要在待校句需要之处 补上量词, 接受用户单击待校句的需补加处, 系统搜索最接近单击点的数串后中心名词, 当 "▲"按钮同时被单击, 以中心名词搜索量词库, 取出相应量词补加到待校句; 如果量词库 查无, 给出对话接受输入给以补加并录入量词库。 例如待译句-
On April 24, 1970, China successfully launched its first man-made earth satell ite.
自动给出的待校句和相应源语句参考为:
1 {在 四月 24 } , 2 { 1970 , 中国 } 成功发射了 3 { 第一人造地球卫星 } 。 1 { on April 24 } , 2 { 1970 , China } successfully launched its 3 { first man-made earth satellite } .
当用户把数字串或数串之后的中心名词利用拖放操作选中。例如用户选中 "人造地球卫 星"; 系统将它们显示于 "选中串"和 "编词替换"下;
当用户单击命令按钮 "▲"时, 以中心名词(这里是 "卫星")搜索量词库, 取出相应量 词, "颗"补加到待校句; 这时的待校句变成-
2 { 1970 } 年 1 { 在 四月 24 } , 3 { 中国 } 成功发射了 4 { 第一颗 人造地球 卫 星 }
如果量词库査无, 给出对话提示: "査无; 可在编词替换下以 '量 /名' 形式加入。"如 该例输入 "颗 /卫星"即可。
根据上述命令按钮被用户单击由判别和后续 213接续相应后续运作。
以上 A-H状态步骤与语言文字的种类无关, 具共性特点, 可以应用于多语种双向翻译; 如英译中或中译英的双向翻译的过程中。 J状态步骤与语言文字种类密切相关, 用于英译中 或其它语种译成中文时使用。 下文还有 I、 K状态步骤与语言文字的种类相关。 I状态步骤用 于无词间间隔表意文字的翻译之中, 例如中译英; K状态步骤用于中译英。 I- K都具个性特点 根据具体语种设置。上文以英译中为例说明; 下文 I、 K出现在中译英过程中。所以下文以相 应中译英实例说明-
I )舱转换 210 ~当中译英时接受用户单击某句舱或舱眼内容, 搜索更正表所有当前句 舱或舱眼含有的査得项, 列表给出等待用户多次有序的单击选取, 将它们置换待校句相应句 舱或舱眼内容;
例如待译句:
"理论在本质上是对认识了的现实的一种抽象和符号化的表达。"
自动给出的待校句和相应源语句参考为:
1 {essentially} , a 2 {theory} is an 3 {abstract} , 4 { 符号化的表达 } of what is conceived to be 5 {reality} .
2 {理论} 在 1 {本质上 } 是对认识了的 5 {现实 } 的一种 3 {抽象 } 和 4 {符号化的表 达} 。
待校句有 4个句舱;其中 3个句舱都已经译成英文;仅句舱 4还保留着源语句舱内容" 4 {符 号化的表达 } "
当用户单击该舱内容 "符号化的表达"时, 由于査询意群库生成更正表的过程中, 无词 间间隔的表意文字从左到右可能的排列作为词串查询意群库,所有査得项存于更正表。 "符号 化的表达"被分为 "符号"、 "符号化"、 "符号化的"、 "的"、 "表达"等中文词串, 査得项包 含它们以及它们的相关英文解释。 供用户根据英文习惯依次选取。
这里用户应先选取 " symbolic 符号化的"; 再选取 "representation表达"; 然而当前 句舱处理完毕, 当前待校句为-
1 {essentially} , a 2 {theory} is an 3 {abstract} , 4 {symbolic representation} of what is conceived to be 5 {reality} .
不管有无其它更正; 系统都检测上述命令按钮和给出的相关框、 表是否被用户单击来判 别后续 213, 接续相应后续运作。
K) 补冠它 212——当中译英时由于中文没有冠词、 动词 to/be、 to/have区分等, 在中译 英时, 这些需要补加; 在系统给出保留句舱标志标号的目语待校句时, 已经显示了 "a/an"、 "the"、 "to/be"、 " to/have", "■,,, 当它们之一被单击 ("###"除外是结束标志), 待校句 也被单击时, 系统将它们之一在待校句被单击处加上适当形式的词串;
例如待译句 - 我们累了, 这是有目共睹的。
自动给出的待校句和相应源语句参考为:
1 { 我们累了 } , as anyone can see .
1 { 我们累了 } , 这是有目共睹的。
系统以 "我们累了"可能排列査询意群串库, 将所有査得项保存于更正表备用户选取。 这里用户会选取 "we 我们"和 " tired 累了"; 这时的待校句变成:
1 { we tired }, as anyone can see .
这样的显然不符合英语的要求。用户会单击 "补冠它"下方列出的 "a an the to/be to/have 腦"其中的 "to/be"; 并且再单击 "we tired"中间的空格。 系统判定这里需要 "补冠它" 操作, 并且根据 "to/be"的要求, 这里自动插入动词 "are"; 然而当前待校句变成为-
1 { we are tired }, as anyone can see .
不管有无其它更正; 系统都检测上述命令按钮和给出的相关框、 表是否被用户单击来判 别后续 213, 接续相应后续运作。
上文逻列并说明了需要更正的状态步骤。 还有一种情况, 给出的待校句完全正确, 操作 者没有单击任何上述按钮以及相关给出显示的页面控件, 就单击 "返回"按钮; 即给出的待 校句完全正确, 无需更正的情况; 这种情况随着自学习的运行占比例会越用越多。
需要补充说明的是, 上文所提及的待校句都是以保留了句舱、 舱眼标志、 标号的目语句 理解模板形式给出的。 当 "返回"命令按钮被单击返回, 这些句舱、 舱眼标志、 标号以及不 需要的空格都将弃去,与传统方式一样:如:" 1 { we are tired }, as anyone can see .,,·' " 2{ 1970 } 年 1 { 在 四月 24 } , 3{ 中国 } 成功发射了 4{ 第一颗人造地球卫星 } 。"等等变成:
" we are tired, as anyone can see .
在 1970年四月 24日, 中国成功发射了第一颗人造地球卫星。" 等等返回; 给出到译文 框, 以至最后生成目标译文输出。 如由语言文字 A103 的句子运作后给出语意不变的语言文 字 B104的句子。
自学习模块 301, 对校正过程的人机互动进行学习、 记忆且为预选模块提供数据, 具体 运作包括如下内容。 例如:
A、经验选词, 在英译中语意校正运作过程中当用户单击待校句的不妥词串后 303, 系统 搜索更正表, 列表给出全部相关查得项待选的同时, 将所有相关待选项以空格相隔生成经验 串,末尾把相应的英词串附后。当用户选取列表之一置换的同时,用选中词条和英串査询"经 验选词 "库, 査有频度=频度 +1, 査无, 将选中词条移到经验串之首且压栈式存入该库 305 的中解释字段, 英串从经验串取下存入英串字段, 当前句骼号存入句骼号字段。
B、 中文词序, 在英译中语意校正运作过程中将生成的中文待校句给出时备份于 "给出 句", 当测得用户使用 "一移"或 "移一"按钮移动句舱或舱眼词序时 306, 记下被移句舱 的舱标号或舱眼号, 当语意校正结束, "返回 "命令按扭被单击时搜索经过移位调整词序的句 舱或舱眼, 是, 以句舱为单位将移位前、 后结果分别存于中词序库 308的 "原序"、 "正序" 字段, 且清除当前句舱或舱眼在经验选词库 305中的相关记录。
C、 舱经验, 在中译英语意校正的 "舱转换"运作时 309备存当前句舱、 舱眼标号, 当 "返回 "命令按钮被单击, 将当前句所有经过舱转换的转前转后内容査舱经验库 311 , 査有 频度 +1 ; 査无压栈式存入该库。
七、 多项代脑应用的软件实现
本申请实施方式, 参照附图分七个主题将本发明的内容进一步说明。 在这最后一个主题 开始之际, 回顾上面已经进一步说明的 6个主题:
①阅读理解移到计算机上进行; ②软件标注句舱和舱眼; ③模板和构件间语意相同并相 互映射。 这 1-3这三个主题将母语人士阅读理解的成果通过软件的手段转移给电脑, 是软件 代脑之 "学"的实施。 同样通过软件将众人 "学"之所得集结于句理解模板数据库; 保证学 以致用得以实现。
④拆分源语句子为表意构件;⑤转换表意构件为目语句子;⑥更正和机器学习。 4-6这三 个主题是软件代脑之 "用"的技术核心,通过这个核心实施学以致用, "学"是软件代脑之学; "用"也是软件代脑之用。 这 4-6循环是软件代脑之 "用"的技术核心。
用的实施和体现在于⑦多项代脑应用的软件实现; 由将众人 "学"之所得集结于句理解 模板数据库, 和 4-6是软件代脑之 "用"的技术核心; 还要加上现有技术的陪衬, 产生多种 实实在在的代脑应用, 下文选取其中具代表性的进一步说明如下:
( )母语读外文
这是为无力阅读外文的广大母语人士获得阅读、 参考外文资料能力之代脑应用。 母语读 外文, 让人们利用自己的母语直接阅读外文资料。 通过步骤 4-6的循环, 一句一句地将源语 转换成目语给出, 供人一句一句地阅读。 其中计算机在转换的过程中, 一条源语词串可能有 多条对应的目语解释,预选模块预选其一给出,其余全部保留于缓存区(更正表)。人阅读时, 觉得某词串不妥、 不恰当时, 用鼠标单击它进入校正运作, 系统即刻从缓存区以下拉列表的 形式给出待选, 只要读者单击某待选词条, 即刻将其置换; 并使后继译句更精准。
该类软件由集结众人 "学"之所得的句理解模板数据库; 4-6循环的软件代脑用之技术核 心; 和部分相关的现有技术组成。 三部分的具体选用有侧重有所不同。
对于现有技术需要采用结合的主要是有关适合阅读的界面以及相应的功能按钮, 这里不 予赘述。
对于句理解模板数据库主要用于对表意构件的优化, 母语读外文这里一般不涉及。 因为 母语读外文需要软件瘦身, 特别是适宜手机等小存贮空间和速度代价有限的应用。 主要是利 用句理解模板数据库的分库——表意构件库。 甚至仅仅取多语种表意构件库的 A、 B语构件 两个字段生成专用的母语读外文版本。 例如 "汉语读英文"、 "英语读中文"等等专版, 供汉 语人士阅读英语之用。 如此细分专用版本还不够, 取 、 B语两个构件字段还嫌大, 将它们 分成用户端和服务器两部分,用户常用高频部分保存于用户端,其余部分由服务器实时支持。 这用户常用高频部分保存于用户端是为了更好适应用户个性化, 软件与操作者专业、 学识、 兴趣爱好相关达到最大化。
母语读外文类软件, 对于校正运作部分不必全部包含, 有所取舍。例如编词替换、修词、 补量词、 补冠它四项更正可以合并于编词替换。 显然操作麻烦些, 但功能简化简洁界面对于 母语读外文更需要。
对于步骤 4-6的循环核心, 循环后给出目语待校句, 不必再给出源语参考句。 当然, 也 可以作成设置项, 让用户自选。
当用户只是浏览, 不管需要不需要更正, 都单击 "返回"按钮处理下一句, 顺流而下; 当用户觉得某处不妥或还未读懂时可用鼠标单击, 软件启动更正运作, 由于自学习联动可使 后面的转换更精准, 以适宜精读、 范读、 浏览不同的需求。
母语读外文除了在个人电脑上实现,还可以全部放在网站上运行,手机仅仅是发出问题, 获取答案的终端。
〇外-母翻译
这是为无力翻译外文资料的广大母语人士获得参考外文资料、 作外 -母翻译之代脑应用。 母语读外文侧重点点在于 "读", 而外-母翻译的侧重点至于 "译", 与母语读外相比, 更正和 人机互动更受注重, 追求译文高质量。
外-母翻译流程是: 软件逐句切分外文资料, 进行 S4-S6之间的转换循环, 转换出母语句 子, 以母语句理解模板的方式显示给出待校句, 同时显示源语参考句。 当用户觉得某处不妥 用鼠标单击时, 软件立即启动更正运作, 必要时作相应必要的互动, 机器自学习, 产生越用 软件越聪明, 翻译越高效的应用效果。
对于句理解模板数据库的支持也采用两部分进行, 使用过程中用户端分库保留高频表意 构件, 当用以保留高频本意构件库接近个人机满负荷时(以统一例题用户机完成翻译时间衡 量), 自动进行清理, 以使用频度排序, 删除低频端 20%腾出空间, 重新计频。其余部分通过 网络由公司服务器进行后台实时支持。
外-母翻译主要用于个人电脑, 也可根据用户需求, 仅仅利用八、 B语构件字段开发多种 手机、 个人数字助理等专版, 满足个性化的需求。 多语种版本之间的双向互译可由用户选取 进行。
对于更正运作全动员, 应有尽有。 并择优结合有关翻译、 编辑的现有技术, 界面以及相 应的功能, 这里也不予赘述。
(≡)母-外翻译
这是为无力作母 -外翻译的母语人士获得母 -外翻译能力的代脑应用。 "母 -外翻译"与 "外 -母翻译"原理、 软件实现基本一样, 两者不同在于母语人士, 作 "外 -母翻译" 目的语言是 母语, 是操作者自幼习得的语言文字, 母语人士不仅是掌握了母语, 还具有相应专业知识, 即使外语水平很差, 很容易发挥母语和专业知识的优势, 很容易通过本软件获得高质量的译 文。 作 "母-外翻译"正好相反, 尽管本方法软件已经代脑做了大量工作, 由于目标语言文字 是用户没有掌握的语言文字, 如果外语基础太差, 错选外语词串更正可能增大, 遇到母外词 序不同的句舱, 更正外语词序可能不正确。 也就是说, 对操作者外语基础要求, 作 "母 -外翻 译"比 "外 -母翻译"更高一些。
把母语资料翻译成外文文本, 软件逐句切分母语资料, 进行 S4-S6之间的转换循环, 转 换出外文句子, 以外文句理解模板的方式显示给出待校句, 同时显示母语句理解理解模板备 考。 当用户觉得某处不妥用鼠标单击时, 软件立即启动更正运作, 必要时作相应必要的交互, 翻译要求语意精准, 给出符合原文语意的外语译文。 更正操作有的与具体语言文字种类直接 相关, 除公有更正功能外, 软件据具体语种给以适宜的个性化的更正内容。
语言文字个性化问题, 虽然, "母 -外翻译"与 "外 -母翻译"同样需要。 但相对而言, 母 -外翻译要求更细, 例如上文所述与语言文字直接相关的更正部分内容不但全部包含, 而且应 尽可能结合现有技术进行扩展。
卿句骼助写作
为无力而需要用外文写作的母语人士获得用外文写作能力的代脑应用。直接用外文写作、 表达思想往往有话不知怎么说, 书写缺乏句骼难以动笔。 因为逻列单词成不了句子; 传统的 机器翻译数十年几乎没有进展缺乏的正是句骼。 本方法有句骼表意构件, 可以进行句骼助写 作之代脑应用。 有了句骼, 往句舱填入相应词串就可以获得地道的外文句子。 往句舱填入词 串容易理解也容易实现。 这里需要说明的关键在于软件如何接收操作者示意、 搜索出合意的 句骼。 软件接收操作者示意后搜索出合意的句骼。 下面以 "汉英助写作"为例进一步说明。
母语人士在 "母语意思区"输入母语词串示意, 若示意中含有句末符没有下横线判定为 ①以母语句示意, 若示意中含有句末符也有下横线判定为②以模糊句骼示意, 若示意的汉语 词串中含有空格或当配句骼失败后判定为③以若干词串示意, 分别继续下列其一运作:
①以母语句示意
在 "母语意思区"写出完整的母语句子表示你想用外文表达的意思。 可以只写一句, 也 可以书写多句, 必须使用句末符。 软件依句末符切分, 以切分下来的作为例句, 进行配句骼 运作, 如没有搜索到匹配句骼, 跳转③处理; 搜索到, 给出搜索结果。 例如:
"达尔文十六岁时到爱丁堡学医,三年后到剑桥。 "当该句输入到母语意思区。单击"配 句骼"按钮后显示出母语句骼 " [1] +岁时到 + [2] + [3]+, + [4] +后到 + [5]+。"同时给出英文句 骼: "at the age of+ [l] +went to+ [2] +to+ [3] +and+ [4] +later to+ [5] +. ,,。
接着要将中文句舱内容转移到英文句骼。因中文句骼有连续句舱 [2][3]无参照需要干预切 分,显示" 2{ 3{爱丁堡学医 } "。当操作者在"堡学"两字间单击左键,软件将它们切分为" 2{爱 丁堡 } 3{学医 } "; 软件将它们的内容分别填充到英文句骼相应句舱。 随后中间态显示框显示 骼例混合式的外文中间套句子: "
at the age of 达尔文十六 went to爱丁堡 to学医 and三年 later to剑桥. " 当操作者依次逐个单击或拖放选中某汉语词串 "达尔文"、 "十六"、 "爱丁堡"、 等, 软件 在下部列表中给出相应英文词条, 当用户单击某列表项选中后, 软件将它置换刚才被单击或 选中的汉语词串只有一条词串相对应的不列表软件直接替换它。 例如拖放选中 "十六"、 "达 尔文"后, 被软件置换为:
at the age of sixteen Darwin went to 爱丁堡 to学医 and三年 later to剑桥. 当然单击应以英文词序安排先后。 接着继续 "爱丁堡"、 "学医"、 "三"、 "年"、 "剑桥" 的运作。
其中某词串既有单词也有复词都能表示被选词串语意时, 例如 "学医"单词列表有 " learn". " studying". " medicine "等; 复词歹 ij表有 "学医,,、 " study medicine ", 应单 击 " f 选复"按钮, 选取复词置换 "学医"。 当该句操作结束。 英文句为:
"At the age of sixteen Darwin went to Edinburgh to study— medicine and three years later to Cambridge.,,
软件按钮 "尾加"接受用户单击, 将该句尾加到英文书写区。 这里补充一下, 在中间态 显示框选取词串时,可以重复选词操作直至全英文句完成。当需要对英文词串进行査询的话, 可以使用同样拖选的方法进行。 可以选取一条单词, 也可一次选中数条。
②以模糊句骼示意
所谓模糊句骼就是不必记住并写出某个完整的句骼, 写出某句骼的一部分即可。
例如要表达 "生命存在需要恰当数量种类的大气。"这个意思。 给它写一个模糊的、 可能 的句骼。可以在母语意思区写 "_需要恰当_。"; "―存在一需要。,,; "―存在一需要恰当 ―的―。"等均可。 软件接收单击 "配句骼"命令按钮后, 取出被下横线、 句末符分隔的 句骼词, 以句骼词搜索 "句骼串表"。 如没有搜索到跳转③处理; 搜索到, 将搜索到的记录暂 存临时表, 再以临时表句骼词长度统计、 排序, 长的在前, 列表给出高端 (最多 10个), 依 次取出相应句骼, 列表给出, 并且光标落在最上记录, 同时其中、 英句骼已经显示在上部相 应框内。 如果用户认可单击 " 1尾加"命令按钮, 软件将英文句骼尾加于英文写作窗口, 等 待用户填写句舱内容, 完成该句英文写作。
如果首个记录并不符合用户要表达的意思, 可以在列表另选。 单击该记录后再单击 "一 另选"命令按钮, 该记录详细内容将显示。
③以若干词串示意
本方法采用"相同内容双语文本"作为样本,直接读取双语文本置于 A、 B源语区。此外, 也将相同内容双语文本读入, 也可切分成句对以 "句对库"或 "记忆库"暂存; 以及其它以 句为单元存在的这些素材可以直接被利用。
若用户的示意是包含空格的中文汉语词串, 以这些空格为分隔符将它们切分成词串; 或 以下横线、 句末符为分隔切分词串。 然后, 以这些词串进行搜索; 若这两者都没有时, 从左 到右切下三字, 搜索, 有取用、 弃去再切; 无改以二字切下, 搜索, 有取用、 弃去再切; 无 改 四字切下, 搜索, 有取用、 弃去再切; 无改以一字切下, 搜索, 有取用、 弃去再切。 直 至示意为零。
根据词串搜索后的结果, 到双语文本或句对库、 记忆库等以句为单元存在的素材中搜索 含有的句子, 并以含有词串长度的多少排序, 取高端 10个记录列表以参考句给出待选。
例如想表达 "一项独立研究发现, 与父母有心脏病病史相比, 兄弟姐妹患心脏病可能是 一个人患病风险的更大的预测因素。"这个意思, 可以只写 "研究发现父母有心脏病兄弟姐妹 患心脏病。"; "研究发现父母有心脏病 兄弟姐妹 患心脏病。"; "研究发现父母有心脏病 兄弟 姐妹患心脏病。"等。 显示给出如上述, 不予赘述。
上文所列是软件代脑中具代表性的实施例。 根据本发明敌技术特征, 很可以开发出更多 的代脑软件产品。 上文数处提及意群对齐, 这里作一补充。
意群对齐一意群对齐方法是利用意群的跨语种特征, 将多语种的字、 词、 词组或短语 等在当前句对实例支持下进行语义对齐, 对齐之后它们便成为意群串, 有资格存贮于意群串 库。 主要有如下一些方法:
①组复词一当两个或两个以上原有词串的总语义不能由词串义相加获得的以 "―"相连 成复词, 简称复串, 例如:
knew— nothing— about— it —无所知
compel led— to— go非去不可
late— at— night 深夜
works— little工作懒散
其中 "works little" "工作懒散", 虽然 "works"有 "工作"之义, 但 " little"没有 "懒散"之意; 它们的总语义不能由词串义相加获得, 故以 "一"相连, 组为复词。
②依照当前句对例、 延伸或增补词义
Nothing can be 1 {wholly beautiful} that is not 2 {useful} .
凡是未经 2 {应用的 } 就不可能 1 {完美 } 。
其中" useful"词义只有 "有用的、 有帮手的 、 有益的"; 但在该句对确实表达了 "应用 的"语义; 同时 "应用的"和 "有用的"词义接近, 给以增补或延伸词义项 "应用的"。
1 {She} was 2 {strong} , for all 1 {she} was so 3 {small} .
1 {她} 虽然 3{瘦小 } , 但很 2{结实} 。 其中 "small小的", 据该句对例增补 "瘦小" 词义项。
③不改变原有字、 单词的前提下加减串长度, 便于拼接
I ask you to teach me every other day. 我请你每隔一天来教我。
其中" teach" v有 "讲授、 教授"词义; 减词串长为 "教", 增加 "教"词义项。
④粘带附随词串
如 "good好"粘带成 "好处、 好事、 好心"等。 如 "word词"粘带成 "词儿"等。
⑤词形变化另作词条录入于库 (英语的分词, 形容词副词比较级等表达的语意, 增加词 条和相应词义)。
been增补 "还是、 怎么样"词义; punished 增补 "受处分"词义; 等等以此类推。

Claims

WO 2014/134971 权 禾 |J 要 求 书 PCT/CN2014/000241
1. 一种母语人士学用其它语言文字之软件代脑方法和系统, 其特征包括如下步骤;
51. 阅读理解移到计算机上进行, 母语人士对相同内容双语文本的阅读理解移到计算机 上进行, 软件把双语文本 A和 B被分别置于源文 A和 B ;
软件从源文 A和 B区根据句末符号切分并取出双语文本 A和 B—个句对置阅读理解区 A和 B, 源文 A和 B区相应减少一句;
若母语人士认为切句不妥, 单击源文区 A或 B某点, 软件将该点之前部分移入阅读理解区紧 随 A或 B已取句之后;
若单击阅读理解区 A或 B某点, 软件将该点之后部分退回源文区 A或 B;
52. 软件标注句舱和舱眼, 母语人士阅读理解同时用鼠标点击阅读理解区 A和 B句当前 可作为句舱的表意相同词串或连续的若干个词串, 软件将它们以大写字母依先后为序加花括 号在 A和 B句同时预标为一个句舱;
或软件自动识别出 A和 B句当前表意相同词串或连续的若干个词串将它们以大写字母依先后 为序加花括号在 A和 B句同时预标为一个句舱:
母语人士阅读理解或软件自动识别都是以数量串、 专名串、 冠名串依次搜索, 双语同时预标 一个句舱, 若这三种串全部搜索完且骼例比在 15-50%之间, 预标句舱结束;
若这三种串全部搜索完且骼例比 >50%, 再以无冠名串、其它语意匹配串继续依次搜索预标句 舱, 直至骼例比在 15-50%之间, 预标句舱结束;
当预标句舱结束, 软件进行句舱、 句骼格式检査, 用 16进制数字替换大写字母以 A句从左 到右为序整理前述预标为正式标注;
经正式标注的双语句对进一步检测每个句舱, 若有大于原有 5个词串的大句舱需进一步标注 舱眼或组复词,标注舱眼以无冠名串、其它语意匹配串依次为靶词串,模例比为 50-70%之间, 舱眼用 16进制数字以 A句从左到右为序加方括号标注, 以上是第一轮句舱及舱眼理解标注 的步骤, 从第二轮理解标注开始, 以已标语种句为模板软件自动识别、 标出未标语种句相应 表意相同的句舱及舱眼;
每轮标注选内容相同的 AB两种语言文字版本的语料, 第二轮开始每轮理解标注新增一种语 言文字, 另一种为己经标注过的语言文字, A语分配给已经标注的语言文字, B语分配给新 加入的语言文字;
每个句对的正式标注结束, 进行下一句对的标注, 接续 S1 ;
53. 模板和构件间语意相同并相互映射, 软件在这种必须由人脑主导的阅读理解过程中 把当前阅读理解区的双语句对标注上句舱、 舱眼, 用以保留当前句对阅读理解的成果, 以句 理解模板 100的方式转移给电脑, 使后续工作能够通过软件完成而产生代脑功效, 为了句理 解模板能更好用于理解标注其它句子, 软件将它们保存于句理解模板数据库代替人脑进行记 忆, 句理解模板数据库至少可分解出句骼、 舱模、 意群串、 习语四种表意构件, 分别构成相 应的表意构件库, 它们是句理解模板数据库的分库;
54.拆分源语句子为表意构件, 软件利用句理解模板 100拆分源语句子为表意构件, 代 替人脑理解和拆分句子, 先进行配句骼运作, 事先按句骼词串与句舱之空穴生成句骼串表并 索引, 配句骼时把源语句子从左到右逐字或逐词串取下搜索句骼串表的骼首字段并存于临时 表, 再逐记录取出临时表内容, 以句骼词段査询源语句子, 句骼串的每段都可以在源语句子 中查到且次序相同为匹配, 再根据句骼串表取出当前匹配的源语句骼;
将源语句子套入源语句骼拆分源语句子为表意构件使之成为当前源语句理解模板 101 ;
利用当前源语句句骼映射作用取出相应目语句句骼;
55.转换表意构件为目语句子, 软件利用源语句句骼搜索到目语句的句骼, 将当前源语 句理解模板上的句舱内容转移到目语句骼相应句舱; 检测所有句舱, 不含舱模的跳过, 若含有舱模, 将该句舱内容套入舱模, 利用该舱模分库的 映射作用取出相应目语舱模, 将当前源语舱眼内容移到目语舱模的相应舱眼;
逐个搜索目语句理解模板 102的句舱或艙眼, 用其中的源语词串搜索意群串库, 将搜索到的 目语所有解释结果保存到更正表, 利用预选模块, 预选其中之一作为目语意群串替换当前句 舱或舱眼的源语词串, 直至所有句舱、 舱眼替换结束。
S6. 更正和自学习, 软件从目语句理解模板 102上取出作为目语待校句显示给出, 接受 操作者确认或更正, 同时进行自学习;
或软件从目语模板上取出作为目语待校句显示给出, 从源语模板上取出作为源语参考句显示 给出, 接受操作者确认或更正, 软件同时进行自学习;
当人脑读到, 阅读理解的印记瞬间显现, 阅读理解变得简单而快捷, 软件配合操作进入校正 运作 201 ;
软件在拆分源语句子为表意构件 S4,接着转换表意构件为目语句子 S5,软件配合作更正并自 学习 S6, 这些本在人脑完成的由语言文字 A103的句子向语言文字 B104的句子转换, 软件 给以实现在 S4-S6之间循环, 能产生多项代脑应用。
2. 根据权利要求 1当中 S3所述句理解模板数据库进一歩的特征是: 句理解模板包括句 例、 句舱、 句骼、 舱眼、 舱模、 意群串、 习语, 它们共为句理解模板的成员, 直接用以表意 的成员为表意构件, 以它们相连可组成一个多语种句理解模板的长链;
软件在获得句理解模板的同时, 用数据库进行保存代替人脑进行记忆, 第一轮理解标注句理 解模板数据库含有 A句模、 B句模字段, 第二轮理解标注幵始每轮新增一种语言文字, 句理 解模板数据库先增设一个相应语之句模字段, 每轮理解标注必须取同内容、 不同文字版本语 料确保相同记录的各语种句模所表达的语意相同, 并互相映射;
从句理解模板数据库分解出若千种类表意构件, 分别构成表意构件库, 它们是句理解模板数 据库的分库, 分库具继承性, 继承了句理解模板数据库的特性, 分库中同记录表意构件语意 也相同, 它们也互相映射。
3. 根据权利要求 1中 S5所述的利用预选模块, 预选其中之一作为目语意群串替换当前 句舱或舱眼的源语词串, 其进一步的特征是:
更正表至少有词串段、 搜索串、 解释、 串首位字段, 预选模块与语言文字种类密切相关; 英译中的预选 312是①用当前句舱或舱眼内英文词串査询 "经验选词"库, 査有取出解释字 段内容的首条中文词串为 313最大适配的目语串给出, 査无以更正表本词串段首记录为最大 适配的目语串给出; ②用当前句舱或舱眼已经获得的中文内容 314查询 "中词序"库的原序 字段, 查有以正序字段内容替换为最大适配的目语串 315给出, 査无不变;
中译英的预选以源、 目语过渡式中句舱或舱眼的源语内容査询更正表搜索串字段, 有全等的 以同记录解释字段内容为最大适配的目语串给出, 无全等时 317的再査询 "舱经验"库中舱 字段, 有 318以英舱字段内容为最大适配的目语串给出, 査 "舱经验"库无以当前句舱或舱 眼中文内容为最大适配的目语串给出;
凡预选模块选用了更正表某査得项改变了原给出内容的, 同时在更正表中将它换位到本 词串段之首。
4. 根据权利要求 1中 S6所述软件从目、 源句理解模板取出作为目语待校句, 和或作为 源语参考句, 接受操作者确认或更正, 同时进行自学习, 进一步的特征是:
当用户读到目语待校句和相应的源语参考句时即校正开始, 语意校正有待校句完全正确无需 更正和需要更正两种情况, 无需更正时接受用户单击 "返回"按钮接续 S4, 需要更正的进入 校正运作 201后再接续 S4;
软件进入校正运作 201, 且与自学习模块 301联动, 对校正过程的人机互动进行学习、 记忆 且为预选模块提供数据。
5. 根据权利要求 4中述需要校正的进入校正运作 201, 进一步包括如下步骤:
A)不妥词串的替换 202——当用户认为待校句某词串不妥时, 单击它系统搜索更正表, 弹出 下拉列表给出全部相关查得项待选, 然后以被单击选中的査得项替换译句不妥词串, 同时置 换为词串段之首;
B)连续句舱的切分 203——当遇到没有参照无法自动进行切分的连续句舱给出待切, 当被单 击后以被单击点为切分点将两个句舱内容分开;
C )干预另选句骼 204—当遇到句舱和舱眼不匀称、有残缺、 或堆叠之错选句骼表现时, 或 用户不认可当前译句时单击 "继后"按钮, 系统把多对匹配句骼给出待选, 以单击选取后的 句骼重新套入接续 S6继续运作;
D)补加意群串 205——当不妥词串另选替换而缺失时, 接受用户使用延伸词义、粘带前引或 后随字词方法补加意群串, 以补加串进行替换并补加于意群串相应语种构件字段;
E)组选复串 206——当不妥词串另选替换而缺失时, 接受用户使用组复词或改选复词的方法 补加复词串, 以补加串进行替换并补加于意群串的复词库相应语种构件字段;
F)句舱词序 207—当译句句舱有词序错误时,接受用户单击其中串,再单击 "一移 "或"移 —"命令按钮, 将单击串前移或后移一个串位;
G)编词替换 208——当连续多串不妥, 不能用单击选中时, 用拖放操作选中选中串时, 然后 在编词替换处填上其它词串、 编辑或为空, 再单击 " Λ "按钮时, 系统以后者置换前者;
H)修辞 209 ~当出现不能用上述步骤解决的修辞现象时, 接受用户单击"修辞"按钮, 然 后将当前待校句复制到编辑框, 接受用户使用编辑的方法进行修辞操作;
I)舱转换 210 "—当中译英时接受用户单击某句舱或舱眼内容, 搜索更正表所有当前句舱或 舱眼含有的査得项, 列表给出等待用户多次有序的单击选取, 将它们置换待校句相应句舱或 舱眼内容;
J)补量词 211—当英译中时由于英语无量词而中'文有量词因而需要在待校句需要之处补上 量词, 接受用户单击待校句的需补加处, 系统搜索最接近单击点的数串后中心名词, 当 "▲" 按钮同时被单击, 以中心名词搜索量词库, 取出相应量词补加到待校句; 如果量词库查无, 给出对话接受输入给以补加且录入量词库;
K)补冠它 212——当中译英时由于中文没有而英文有冠词、 动词 to/be、 to/have等, 这些需 要补加,在系统给出保留句舱标志标号的目语待校句时, 已经显示了" a/an "、 "the"、 "to/be "、 "to/have", 当它们之一被单击, 待校句也被单击时, 系统将它们之一在待校句被单击处加上 适当形式的词串;
以上 A-H状态步骤与语言文字的种类无关, 具共性特点, 可以出现在多语种之间 A译 B 或 B译 A的双向翻译的过程中; I状态步骤与语言文字的种类相关, 用于无词间间隔表意文 字的翻译之中; J-K状态步骤与语言文字种类密切相关, 它们具个性特点根据具体语种设置。
6. 根据权利要求 4所述的与自学习模块联动, 对校正过程的人机互动进行学习、记忆且 为预选模块提供数据, 进一步的特征是:
A、经验选词, 在英译中语意校正运作过程中当用户单击待校句的不妥词串后 303, 系统搜索 更正表, 列表给出全部相关査得项待选的同时, 将所有相关待选项以空格相隔生成经验串, 末尾把相应的英词串附后;
当用户选取列表之一置换的同时,用选中词条和英串査询"经验选词"库,査有频度=频度 +1, 査无, 将选中词条移到经验串之首且压栈式存入该库 305的中解释字段, 英串从经验串取下 存入英串字段, 当前句骼号存入句骼号字段;
B、 中文词序, 在英译中语意校正运作过程中将生成的中文待校句给出时备份于 "给出句", 当测得用户使用 "一移"或 "移一"按钮移动句舱或舱眼词序时 306, 记下被移句舱的舱标 号或舱眼号, 当语意校正结束, "返回 "命令按扭被单击时搜索经过移位调整词序的句舱或舱 眼, 是, 以句舱为单位将移位前、 后结果分别存于中词序库 308的 "原序"、 "正序"字段, 且清除当前句舱或舱眼在经验选词库 305中的相关记录;
C、 舱经验, 在中译英语意校正的 "舱转换"运作时 309备存当前句舱、 舱眼标号, 当 "返 回"命令按钮被单击, 将当前句所有经过舱转换的转前转后内容査舱经验库 311, 査有频度 +1; 査无压栈式存入该库。
7. 根据权利要求 1 中所述母语人士学用其它语言文字之软件代脑方法, 其特征是在 S1 步骤完成之后, S2.软件标注句舱和舱眼开始之前, 还有一个步骤- 先用当前 A语例句进行配句骼运作,搜索当前例是否已有匹配句骼, 若搜索到 A语句有匹配 句骼且套入后得到操作者认可的跳过, 不必理解标注, 读入下一个句对;
若没有搜索到 A语句有匹配句骼或搜索到有但套入后被操作者否认时作査配标运作后, 进入 理解标注句舱的步骤 S2。
8. 根据权利要求 1中 S6所述的在 S4-S6之间循环产生多项代脑应用, 进一步的特征是 为无力阅读外文的广大母语人士获得阅读、 参考外文资料能力之代脑应用- 母语读外文——让人们利用自己的母语直接阅读外文资料。 通过步骤 4-6的循环, 一句 一句地将源语转换成目语给出, 供人一句一句地阅读, 若有词串不妥、用鼠标单击进行更正; 可以仅仅取多语种表意构件库的 A、 B语构件两个字段生成专用的母语读外文专版, 将常用 高频表意构件保存于用户端, 其余由网络支持更好地适应用户个性化。.
外-母翻译一为无力翻译外文资料的广大母语人士获得参考、 翻译外文资料的代脑应 用, 软件逐句切分外文资料, 进行 S4-S6之间的转换循环, 转换出母语句子, 以每语句理解 模板的方式显示给出待校句, 同时显示源语参考句;
当用户觉得某处不妥用鼠标单击时, 软件立即启动校正运作及机器自学习:
用户端保留高频表意构件, 当用以保留高频表意构件库接近个人机满负荷时, 自动进行清理, 删除低频端 20%腾出空间, 重新计频, 其余部分通过网络由公司服务器进行后台实时支持。
9. 根据权利要求 1中 S6所述的在 S4-S6之间循环产生多项代脑应用, 进一步的特征是 为无力作母 -外翻译的母语人士获得母 -外翻译能力的代脑应用:
母 -外书面翻译一把母语资料翻译成外文文本, 软件逐句切分母语资料, 进行 S4-S6之间的 转换循环, 转换出外文句子, 以外文句理解模板的方式显示给出待校句, 同时显示母语句理 解理解模板备考;
当用户觉得某处不妥用鼠标单击时, 软件立即启动校正运作, 必要时作相应必要的交互, 翻 译要求语意精准, 给出原文语意不变的外语译文;
更正操作有的与具体语言文字种类直接相关, 除公有更正功能外, 软件据具体语种给以适宜 的个性化的更正操作。
10.根据权利要求 1中 S6所述的在 S4-S6之间循环产生多项代脑应用,进一步的特征是 为无力而需要用外文写作的母语人士获得用外文写作能力的代脑应用, 句骼助写作, 软件接 收母语人士以三种方式示意, 若示意中含有句末符没有下横线判定为①以母语句示意, 若示 意中含有句末符也有下横线判定为②以模糊句骼示意, 若示意的汉语词串中含有空格或前两 者配句骼失败后判定为③以若干词串示意, 分别继续下列其一运作:
①以母语句示意, 在 "母语意思区"写出完整的母语句子表示想用外文表达的意思。 可 以只写一句, 也可以书写多句, 必须使用句末符。 软件依句末符切分, 以切分下来的作为例 句,进行配句骼运作, 如没有搜索到匹配句骼,跳转③处理;搜索到,给出搜索结果进行 S4-S6 之循环;
当全部转换成英文词串后, 软件按钮 "尾加"接受用户单击, 将当前句尾加到英文书写区, 也可以接受操作者在英文书写区进行编辑修改;
②以模糊句骼示意, 软件接收单击 "配句骼"命令按钮运作后, 弹出一个列表, 列出含 有 "模糊句骼"成份的句骼, 并且光标落在合意可能最大的记录上, 同时它的中、 英句骼己 经显示在上部相应框内。 接收用户单击 " 尾加"命令按钮, 将英文句骼尾加于英文写作窗 口, 等待用户填写句舱内容, 完成该句英文写作;
如果首个记录并不符合用户要表达的意思, 可以在列表另选, 单击该记录后再单击"一另选" 命令按钮, 该记录详细内容将显示;
③以若干词串示意, 软件将示意切分为词串, 根据词串搜索后的结果, 到双语文本或句 对库、 记忆库等以句为单元存在的素材中搜索含有的句子, 并以含有词串长度的多少排序, 取高端 10个记录列表以参考句给出待选。
PCT/CN2014/000241 2013-03-05 2014-03-11 母语人士学用其它语言文字之软件代脑方法和系统 WO2014134971A1 (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
CN201310086775.0 2013-03-05
CN201310086775.0A CN103218353B (zh) 2013-03-05 2013-03-05 母语人士学用其它语言文字之人工智能实现方法

Publications (1)

Publication Number Publication Date
WO2014134971A1 true WO2014134971A1 (zh) 2014-09-12

Family

ID=48816157

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/CN2014/000241 WO2014134971A1 (zh) 2013-03-05 2014-03-11 母语人士学用其它语言文字之软件代脑方法和系统

Country Status (2)

Country Link
CN (1) CN103218353B (zh)
WO (1) WO2014134971A1 (zh)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103218353B (zh) * 2013-03-05 2018-12-11 刘树根 母语人士学用其它语言文字之人工智能实现方法
KR102509821B1 (ko) * 2017-09-18 2023-03-14 삼성전자주식회사 Oos 문장을 생성하는 방법 및 이를 수행하는 장치
CN108509416B (zh) * 2018-03-20 2022-10-11 京东方科技集团股份有限公司 句意识别方法及装置、设备和存储介质

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101246474A (zh) * 2008-02-18 2008-08-20 刘树根 语句构件装置、构件制作和基于该构件的母语读外文方法
CN101510194A (zh) * 2009-03-15 2009-08-19 刘树根 语句构件装置和基于语句构件的多语种专业翻译方法
CN102043849A (zh) * 2010-12-20 2011-05-04 惠州市贝圣科特软件有限公司 表意构件电子词典系统及其实现方法
US20110119282A1 (en) * 2009-11-17 2011-05-19 Glace Holdings Llc Systems and methods for generating a language database that can be used for natural language communication with a computer
CN103106195A (zh) * 2013-01-21 2013-05-15 刘树根 表意构件识别提取和基于表意构件的机译人校互动翻译方法
CN103218353A (zh) * 2013-03-05 2013-07-24 刘树根 母语人士学用其它语言文字之软件代脑方法和系统

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
AU2001255599A1 (en) * 2000-04-24 2001-11-07 Microsoft Corporation Computer-aided reading system and method with cross-language reading wizard
CN101266600A (zh) * 2008-05-07 2008-09-17 陈光火 多媒体多语言互动同步翻译方法
CN102929865B (zh) * 2012-10-12 2015-06-03 广西大学 一种用于中文和东盟各国语言互译的pda翻译系统

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101246474A (zh) * 2008-02-18 2008-08-20 刘树根 语句构件装置、构件制作和基于该构件的母语读外文方法
CN101510194A (zh) * 2009-03-15 2009-08-19 刘树根 语句构件装置和基于语句构件的多语种专业翻译方法
US20110119282A1 (en) * 2009-11-17 2011-05-19 Glace Holdings Llc Systems and methods for generating a language database that can be used for natural language communication with a computer
CN102043849A (zh) * 2010-12-20 2011-05-04 惠州市贝圣科特软件有限公司 表意构件电子词典系统及其实现方法
CN103106195A (zh) * 2013-01-21 2013-05-15 刘树根 表意构件识别提取和基于表意构件的机译人校互动翻译方法
CN103218353A (zh) * 2013-03-05 2013-07-24 刘树根 母语人士学用其它语言文字之软件代脑方法和系统

Also Published As

Publication number Publication date
CN103218353B (zh) 2018-12-11
CN103218353A (zh) 2013-07-24

Similar Documents

Publication Publication Date Title
US9805020B2 (en) In-context access of stored declarative knowledge using natural language expression
Fawcett A theory of syntax for systemic functional linguistics
Gouws et al. Principles and practice of South African lexicography
Bao The making of vernacular Singapore English: System, transfer, and filter
US20070112554A1 (en) System of interactive dictionary
McCarten Corpus-informed course book design
WO2014110980A1 (zh) 表意构件识别提取和基于表意构件的机译人校互动翻译方法
Moore Reinventing ethnopoetics
Zaki Corpus‐based teaching in the Arabic classroom: Theoretical and practical perspectives
Vlieghe Education, digitization and literacy training: A historical and cross-cultural perspective
WO2014134971A1 (zh) 母语人士学用其它语言文字之软件代脑方法和系统
Manning et al. Kirrkirr: Software for browsing and visual exploration of a structured Warlpiri dictionary
Bai Fusion of East and West: Children, Education and a New China, 1902-1915
Frey “Data is nice:” Theoretical and pedagogical implications of an Eastern Cherokee corpus
CN101989387A (zh) 基于学员中介语管理的外语句型借词训练系统及方法
Jing The Construction of a Multilingual Parallel Corpus for Hnewo Teyy
Siemens et al. Mind Technologies: Humanities Computing and the Canadian Academic Community
Tasovac THE HISTORICAL DICTIONARY AS AN EXPLORATORY TOOL: A DIGITAL EDITION OF VUK STEFANOVIĆ KARADŽIĆ’S LEXICON SERBICO-GERMANICO-LATINUM
Saussy Recent Chinese Literary Histories in English
Laviosa et al. Empirical translation studies: from theory to practice and back again
Paillet et al. Approaches to syntax
Kavokina The Near-Synonymous Classifiers in Mandarin Chinese: Etymology, Modern Usage, And Possible Problems in L2 Classroom
Wang et al. Extract Multiword Expressions from Textbooks
Yang Construction and Application of English Language Context-Driven Multimodal Corpus
Bova et al. Discovering the world city: from texts' analysis to 3D scenes visualization

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 14759613

Country of ref document: EP

Kind code of ref document: A1

NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 14759613

Country of ref document: EP

Kind code of ref document: A1