WO2024098282A1

WO2024098282A1 - 一种几何解题方法、装置、设备及存储介质

Info

Publication number: WO2024098282A1
Application number: PCT/CN2022/130858
Authority: WO
Inventors: 黄世锋
Original assignee: 广州视源电子科技股份有限公司; 广州视源人工智能创新研究院有限公司
Priority date: 2022-11-09
Filing date: 2022-11-09
Publication date: 2024-05-16

Abstract

本申请公开了一种几何解题方法、装置、设备及存储介质，该方法包括：接收到客户端针对学科属于几何的电子习题发送的解题请求；响应于解题请求，从电子习题中提取已知的几何条件与待解答的几何问题；在每一次迭代强化学习模型时，将当前几何条件输入强化学习模型中进行学习，得到与当前几何条件适配的几何定理；将当前几何定理应用于当前几何条件推论新的几何条件；当迭代强化学习模型结束时，确定新的几何条件为几何问题的答案；将答案发送至客户端、以将几何习题与答案关联显示。本实施例在几何解题框架中引入强化学习模型学习几何定理，逻辑清晰，可解析性强，保持了几何定理与几何定理之间的关联性，提高了几何解题的精准度。

Description

一种几何解题方法、装置、设备及存储介质

技术领域

本申请涉及机器学习的技术领域，尤其涉及一种几何解题方法、装置、设备及存储介质。

背景技术

几何是数学中的一门学科，几何中的习题要求用户根据题干信息和几何图形进行问题的求解，该类型的习题要求学生有较好的几何思维，同时熟悉几何中的知识点，可以考验学生的数学综合能力。

发明内容

本申请提供了一种几何解题方法、装置、设备及存储介质，以解决如何提高解答几何习题的精准度的问题。

根据本申请的一方面，提供了一种几何解题方法，应用于服务端，所述方法包括：

接收客户端针对学科属于几何的电子习题发送的解题请求；

响应于所述解题请求，从所述电子习题中提取已知的几何条件与待解答的几何问题；

在每一次迭代强化学习模型时，将当前所述几何条件输入所述强化学习模型中进行学习，得到与当前所述几何条件适配的几何定理；

将当前所述几何定理应用于当前所述几何条件推论新的几何条件；

当迭代所述强化学习模型结束时，确定新的所述几何条件为所述几何问题的答案；

将所述答案发送至所述客户端、以将所述几何习题与所述答案关联显示。

根据本申请的另一方面，提供了一种几何解题方法，应用于服务端，所述方法包括：

从题库中查找学科属于几何的电子习题；

若所述电子习题缺乏答案和/或推导过程，则从所述电子习题中提取已知的几何条件与待解答的几何问题；

当迭代所述强化学习模型结束时，将新的所述几何条件为所述几何问题的答案；

在所述题库中存储所述电子习题与推导信息之间的映射关系，所述推导信息为按照迭代所述强化学习模型的顺序依次显示将当前所述几何定理应用于当前所述几何条件推论新的几何条件，直至得到所述答案的过程。

根据本申请的另一方面，提供了一种几何解题装置，应用于服务端，所述装置包括：

解题请求接收模块，用于接收客户端针对学科属于几何的电子习题发送的解题请求；

习题信息提取模块，用于响应于所述解题请求，从所述电子习题中提取已知的几何条件与待解答的几何问题；

几何定理学习模块，用于在每一次迭代强化学习模型时，将当前所述几何条件输入所述强化学习模型中进行学习，得到与当前所述几何条件适配的几何定理；

几何条件推论模块，用于将当前所述几何定理应用于当前所述几何条件推论新的几何条件；

答案确定模块，用于当迭代所述强化学习模型结束时，确定新的所述几何条件为所述几何问题的答案；

答案发送模块，用于将所述答案发送至所述客户端、以将所述几何习题与所述答案关联显示。

电子习题查找模块，用于从题库中查找学科属于几何的电子习题；

习题信息提取模块，用于若所述电子习题缺乏答案和/或推导过程，则从所述电子习题中提取已知的几何条件与待解答的几何问题；

答案确定模块，用于当迭代所述强化学习模型结束时，将新的所述几何条件为所述几何问题的答案；

习题存储模块，用于在所述题库中存储所述电子习题与推导信息之间的映射关系，所述推导信息为按照迭代所述强化学习模型的顺序依次显示将当前所述几何定理应用于当前所述几何条件推论新的几何条件，直至得到所述答案的过程。

根据本申请的另一方面，提供了一种电子设备，所述电子设备包括：

至少一个处理器；以及

与所述至少一个处理器通信连接的存储器；其中，

所述存储器存储有可被所述至少一个处理器执行的计算机程序，所述计算机程序被所述至少一个处理器执行，以使所述至少一个处理器能够执行本申请任一实施例所述的几何解题方法。

根据本申请的另一方面，提供了一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，所述计算机程序用于使处理器执行时实现本申请任一实施例所述的几何解题方法。

在本实施例中，服务端接收到客户端针对学科属于几何的电子习题发送的解题请求；响应于解题请求，从电子习题中提取已知的几何条件与待解答的几何问题；在每一次迭代强化学习模型时，将当前几何条件输入强化学习模型中进行学习，得到与当前几何条件适配的几何定理；将当前几何定理应用于当前几何条件推论新的几何条件；当迭代强化学习模型结束时，确定新的几何条件为几何问题的答案；将答案发送至客户端、以将几何习题与答案关联显示。本实施例提出了一种富有推理性的几何解题框架，兼容性强，可扩展性强，在几何解题框架中引入强化学习模型学习几何定理，逻辑清晰，可解析性强，保持了几何定理与几何定理之间的关联性，提高了几何解题的精准度，此外，本实施例可以一步步地预测几何定理进行推论，可推论的过程进行描述，更加符合用户学习的过程，达到知其然，更知其所以然的效果。

附图说明

图1是根据本申请实施例一提供的一种几何解题方法的流程图；

图2是根据本申请实施例二提供的一种几何解题方法的流程图；

图3是根据本申请实施例二提供的一种光学字符识别的示例图；

图4A是根据本申请实施例二提供的一种几何的电子习题的示例图；

图4B是根据本申请实施例一提供的一种几何解题的流程示例图；

图5是根据本申请实施例三提供的一种几何解题方法的流程图；

图6是根据本申请实施例四提供的一种几何解题装置的结构示意图；

图7是根据本申请实施例五提供的一种几何解题装置的结构示意图；

图8是实现本申请实施例的几何解题方法的电子设备的结构示意图。

具体实施方式

为了使本技术领域的人员更好地理解本申请方案，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分的实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都应当属于本申请保护的范围。

需要说明的是，本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本申请的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

为了辅助用户理解几何中的知识点，一些学习类的应用使用神经网络对几何的电子习题的求解过程进行剖析，即，将几何的电子习题的题干信息输入文本特征提取器中获取文本特征，将几何的电子习题的几何图形输入图像特征提取器中获取图片特征，融合文本和图片特征，并经过解码器后得到预测的结果。

对于机器学习而言，可解析性可划分为两种：内禀可解释(Intrinsic Interpretability)和事后可解释(Post Hoc Interpretability)。内禀可解释要求限制模型的复杂性，事后可解释则要求在模型训练之后分析模型结果。

若限制模型的复杂性到足够的程度，则可以完备性地了解模型中所有决策过程及其原因，这就是内禀可解释性。满足这个条件的模型包括线性/逻辑回归，决策树、朴素贝叶斯、K近邻等等。而神经网络因为参数的复杂性，显然不满足该条件。

在事后可解释性方面，通常使用基于统计的方法给出关于模型特征的总结，例如，特征重要性分析，特征的可视化，等等。或者是反事实方法修改数据从而获得不同的结果来进行解释。这些方法都是提供了关于模型的全局可解释性(Global Interpretability)，由于神经网络的复杂性，提供全局可解释性需要大量的数据和基于这些数据的大量统计，因此涉及到大量的人力工作。虽然看起来比较费劲，但是全局可解释性对于神经网络来说是可实现的。

在实际应用中，常常分析某一个数据点为什么被模型预测为某个特定的值，比如金融中的授信，也就是局部可解释性(Local Interpretability)。对于随机森林、GBDT(Gradient Boosting Decision Tree，梯度提升决策树)这样的模型来说，这样的局部可解释性是内宗的，看数据在模型走过哪些分支即可。

对于神经网络来说，这样的局部可解释性几乎是不可能实现的。虽然可以让数据过一遍神经网络然后判断哪些神经元被激活，但每个神经元的意义是什么，神经元簇的意义是什么，这些问题是不稳定的。经常地可以发现稍微修改数据的某个特征的值，就可能导致完全不同的预测结果。这也导致所谓的反事实分析在局部可解释性上并不实用。同时，这个问题也揭示了神经网络结果的不完备性——对同样的数据存在无穷多个可能的拟合，并不能保证得到的神经网络能准确地处理未见过的同类型数据。

几何的电子习题的复杂性较高，涉及较多的几何定理，由于几何定理大多属于知识点，因而几何的电子习题大多以几何定理作为辅助进行解题，而神经网络的可解析性较弱，无法引入几何定理，导致几何解题的精准度较低。

实施例一

图1为本申请实施例一提供的一种几何解题方法的流程图，本实施例可适用于使用强化学习模型对用户选定的几何的电子习题进行求解的情况，该方法可以由几何解题装置来执行，该几何解题装置可以采用硬件和/或软件的形式实现，该几何解题装置可配置于电子设备中。如图1所示，该方法包括：

步骤101、接收客户端针对学科属于几何的电子习题发送的解题请求。

在几何等不同学科的教学环节中，电子习题均是一种重要的学习资源，可以帮助用户巩固、复习和检验所学的知识，在教学平台的题库中存储了大量的电子习题，规模可能达千万级别。

其中，几何是数学中的一门分科，是研究空间结构及性质的一门学科。

一般情况下，考虑到各个学科的电子习题的数量众多，可达千万级别，占用的存储资源巨大，以及，筛选、求解电子习题的逻辑众多、且偶有更新，电子设备作为服务端(Server)的角色，存储电子习题，维护筛选、求解电子习题的逻辑，以便节省存储资源、减少对客户端的更新。

在本实施例中，服务端面向用户提供解答几何的电子习题的服务，用户登录客户端(Client)，客户端可接收用户选定几何的电子习题或接收服务端筛选的几何的电子习题，显示该几何的电子习题给用户作答、练习，在某些情况中，某些几何的电子习题缺失答案，此时，用户可在客户端中操作、向服务端发送解题请求，请求服务端求解学科属于几何的电子习题。

当然，服务端除了可以为用户提供求解几何的电子习题的服务，也可以为用户提供推荐电子习题、求解其他学科的电子习题等服务，本实施例对此不加以限制。

示例性地，在教育的场景中，用户包括教师、学生，一方面，教师可登录客户端，基于学生的学习情况，选择部分或全部学生、通知服务端为这些学生筛选适合这些学生的几何的电子习题，将该电子习题推送至相应学生登录的客户端中，让这些学生分别进行作答、练习，并在作答、练习之后，为学生加载服务端求解几何的电子习题的过程，另一方面，学生可登录客户端，通知服务端选定几何的电子习题、通知服务端为其筛选适合的电子习题，将该电子习题推送至该学生登录的客户端中，让该学生进行作答、练习，并请求服务端求解几何的电子习题。

当然，在部分业务场景下，可降低几何的电子习题的数量、达十万级别，例如，练习在某个年级的几何的电子习题、练习几何中某个知识点的电子习题，等等，客户端可从服务端下载几何的电子习题，维护筛选、求解几何的电子习题的逻辑，面向用户提供求解几何的电子习题的服务，以便用户在离线的场景下，依然正常作答、练习，浏览求解几何的电子习题的过程，本实施例对此不加以限制。

步骤102、响应于解题请求，从电子习题中提取已知的几何条件与待解答的几何问题。

在本实施例中，可以对电子习题进行预处理，并从电子习题中解析出一些对于解答电子习题属于关键的信息，分别为已知的条件，记为几何条件，以及，待解答的问题，记为几何问题。

其中，几何条件可以包括边的长度、点与边的关系(如中点等)、点与图形的关系(如三角形的重心等)、角的度数、边与角的关系(如角平分线等)，等等。

待解答的问题可以包括求边的长度、求点与边的关系、求点与图形的关系、求角的度数、求边与角的关系，等等。

电子习题包括题干信息、选项信息等部分，而几何的电子习题的题型较多，例如，选择题、填空题、问答题(又称解答题)，等等，针对不同题型的电子习题，电子习题所包含的信息有所不同，例如，选择题通常包括题干信息、选项信息，填空题与问答题通常包括题干信息，等等。

一般情况下，题干信息包含了解答电子习题的关键信息，而选项信息是答案的几种可能，因此，本实施例中可以滤除选项信息，而从电子习题的题干信息中提取已知的几何条件与待解答的几何问题。

对于几何的电子习题，除了文本信息之外，经常搭配公式数据、字符数据、几何图形等不同类型的数据组成题干信息，对于不同类型的数据，对其处理的方式也有所不同。

示例性地，针对数学中的公式数据、英文中的字符数据，通常会使用一些特定的格式进行记录，以便在UI的页面中正确显示，如latex(基于底层编程语言的电子排版系统)、HTML(HyperText Markup Language，超文本标记语言)、MathML(数学标记语言)等，在记录时会产生标签。

例如，针对数学中求解一元二次方程的公式数据

使用MathML记录时，使用标签<math>记录文档的开始，使用标签<mi>记录各个标识符元素(代表变量、函数名、常量等)，如x、b、a、c等，使用标签<mo>记录操作符元素，如＝、±、-等，使用标签<mfrac>记录

为分数模式，使用标签<msup>记录b ²为上标模式，等等，在对数据公式

进行预处理时，可以去除这些标签。

为了方便电子设备进行解析、处理，已知的几何条件与待解答的几何问题均可以转换为特定结构的数据格式进行表示。

针对不同类型(如长度、角度等)的几何条件、几何问题，均可以设置数据格式的模板，在模板中具有一个或多个通配符，将几何条件、几何问题中的关键词写入该模板的通配符中，则可以获得以特定结构的数据格式表示的几何条件、几何问题。

例如，对于类型为长度的几何条件，模板为Equals(LengthOf(Line(\1)),\2)，其中，通配符“\1”可写入表示线段的字母，通配符“\2”可写入线段的长度。

对于类型为长度的几何问题，模板为Find(LengthOf(Line(\1)))，其中，通配符“\1”可写入表示线段的字母。

步骤103、在每一次迭代强化学习模型时，将当前几何条件输入强化学习模型中进行学习，得到与当前几何条件适配的几何定理。

几何的电子习题中涉及较多的推理，在这过程中会使用一些几何定理作为辅助信息，尤其是一道电子习题涉及多个几何定理进行推理的情况下，后续使用几何定理的推导依赖在先使用几何定理的推导，逻辑表达式之间存在较强的关联性。

由于神经网络属于黑盒模型，可解析性弱，传统基于神经网络进行解题的方法推理性较弱，无法引入几何定理，从根本上丧失了几何定理之间的关联性，导致解题的质量差，无法落地使用。

在本实施例中，可以使用强化学习模型辅助求解几何的电子习题，而使用强化学习模型辅助求解几何的电子习题会存在一次或多次迭代学习的过程，在每次迭代学习的过程中，可以将本次迭代中的所有几何条件输入强化学习模型中进行学习，强化学习模型输出与当前几何条件适配的几何定理。

其中，强化学习模型是表达强化学习的模型，所谓强化学习，即理解信息、获得输入到输出的映射，从自身的以往求解几何的电子习题的经验中去不断学习来获取知识，从而避免大量已标记的确定标签，以一个评价选定几何定理的行为好坏的奖惩机制进行反馈，强化学习通过这样的反馈自己进行“学习”。

如果当前选定几何定理的行为的反馈“好”，则以后就多往这个方向发展，如果当前选定几何定理的行为的反馈“坏”，则以后尽量避免这样的行为，即不是直接得到了标签，而是自己在实际中总结得到的。

强化学习模型可以使用马尔可夫决策过程(Markov Decision Process，MDP)等方式来描述，即，机器处在一个环境中，每个状态为机器对当前环境的感知；机器通过动作来影响环境，当机器执行一个动作后，会使得环境按某种概率转移到另一个状态；同时，环境会根据潜在的激励函数反馈给机器一个激励。

步骤104、将当前几何定理应用于当前几何条件推论新的几何条件。

在本实施例中，可以将选定的几何定理应用于几何条件进行逻辑上的推论，得到新的信息，记为新的几何条件。

步骤105、当迭代强化学习模型结束时，确定新的几何条件为几何问题的答案。

如果使用强化学习模型完成迭代学习，则可以将最后一次迭代学习输出的新的几何条件定义为几何问题的答案。

步骤106、将答案发送至客户端、以将几何习题与答案关联显示。

服务端将答案封装至解题响应中，并将解题响应发送至客户端，客户端在接收到解题响应时，从解题响应中解析出答案，将几何习题与答案关联显示，向用户提示对几何习题进行解答，得到该答案。

实施例二

图2为本申请实施例二提供的一种几何解题方法的流程图，本实施例与在上述实施例的基础上细化了强化学习模型的推导过程。如图2所示，该方法包括：

步骤201、接收客户端针对学科属于几何的电子习题发送的解题请求。

在用户使用的设备中，如学习机、移动终端(如手机、平板电脑、数字助理等)等，其操作系统可以包括Android(安卓)、iOS、Windows等，可安装支持作答电子习题的应用程序，该应用程序可以为独立提供学习服务的客户端，也可以为其他客户端中提供学习服务的功能模块(如SDK(Software Development Kit，软件开发工具包))，如即时通讯工具、行业工作的客户端等，还可以为具有浏览组件的客户端，该具有浏览组件的客户端可包括浏览器、配置浏览组件(如WebView(网络视图))的应用程序，本实施例对此不加以限制。

对于用户而言，可以在该应用程序中使用用户账号、密码等信息进行登录，从而以身份数据进行表示，若用户没有登录，可为该用户提供临时的身份数据，并将该临时的身份数据与设备标识进行绑定，将绑定相同设备标识的临时的身份数据进行合并，若后续该临时用户注册、登录，则可以将用户临时的身份数据转换为正式的身份数据。

该客户端可提供UI(User Interface，用户界面)，用户可在该UI上浏览几何的电子习题，在某些情况下可触发求解某个几何的电子习题的操作，如点击某个几何的电子习题进行学习并浏览解答的过程、点击某个几何的学习任务进行测试并浏览解答电子习题的过程、遇到新的几何的电子习题请求解答电子习题，等等。

本实施例应用于服务端，那么，客户端可针对几何的电子习题的解题请求发送至服务端，服务端在接收到该解题请求时，启动求解几何的电子习题的逻辑(即执行步骤201-步骤212)。

进一步而言，用户主动在客户端中选择几何的电子习题，客户端还可以向服务端在题库中筛选适合用户的、几何的电子习题，并将该几何的电子习题推送给用户，在此过程中，可以考虑几何的电子习题涉及的方法、知识点、题型的新颖度等等因素，从而筛选电子习题给用户。

示例性地，筛选几何的电子习题的方法可以包括如下至少一种：

一、基于规则的方法

在此方法中，考虑用户的学情、几何的电子习题的热度等因素，利用规则或者线性的加权筛选几何的电子习题给用户。

二、基于认知诊断的方法

在此方法中，对用户进行几何中各个知识点的掌握度诊断，从而筛选难度合适的、几何的电子习题给用户。

三、基于协同过滤的方法

在此方法中，找到和当前用户学习行为、学情相似的其他用户，将其他用户作答较差的、几何的电子习题筛选给当前用户。

四、基于内容的方法

在此方法中，通过用户的、几何的作答电子习题的情况，以几何的电子习题为单位，去统计几何的电子习题与几何的电子习题之间的相似性，进而利用这种相似性辅助筛选几何的电子习题，即筛选与用户在先作答错误的、几何的电子习题相似的其他几何的电子习题给该用户。

此外，用户还可以直接将几何的电子习题输入到客户端中，在客户端的UI上操作，控制客户端针对该几何的电子习题向服务端发送解题请求。

在一种情况中，用户从网页等其他应用程序中复制可编辑的、学科属于几何的电子习题，并将可编辑、学科属于几何的电子习题输入客户端中，该几何的电子习题中具有文本数据、公式数据、图像数据等数据，其中，文本数据主要记录题干、选项等信息，公式数据以latex、HTML、MathML等形式记录，图像数据主要记录几何图形(含几何参数，如线段的标号、角度等)。

此时，客户端可将可编辑的、学科属于几何的电子习题封装至解题请求中，并将解题请求发送至服务端，服务端从解题请求中解析可编辑的、学科属于几何的电子习题。

在另一种情况中，面向无法编辑的、学科属于几何的电子习题，例如，位于书本上的、学科属于几何的电子习题，禁止复制的、学科属于几何的电子习题，等等，客户端可调用摄像头对学科属于几何的电子习题采集图像数据并在图像数据中框定学科属于几何的电子习题，即，该图像数据中可能包含题干、选项、公式、几何图形(含几何参数，如线段的标号、角度等)等信息，客户端将图像数据封装至至解题请求中，并将解题请求发送至服务端。

服务端接收到客户端发送的解题请求，从解题请求中提取图像数据，此时，可对图像数据执行OCR(Optical Character Recognition，光学字符识别)操作，得到文本信息，并将文本信息执行自然语言处理上的规范化处理，将文本信息分别归类为题干、选项、公式、几何图形(含几何参数，如线段的标号、角度等)等信息，从而在图像数据中读取学科属于几何的电子习题。

步骤202、响应于解题请求，从电子习题中提取已知的几何条件与待解答的几何问题。

由于几何的电子习题中包含的数据有所不同，因此，从电子习题中提取已知的几何条件与待解答的几何问题的方式也有所不同。

在一种提取几何条件、几何问题的方式中，电子习题具有第一文本信息，那么，在本方式中，可确定正则表达式。

在本方式中，可以预选分析几何的电子习题中、已知的几何条件或待解答的几何问题的特征，针对这些特征构造一个或多个正则表达式(regular expression)，该正则表达式用于描述几何条件或几何问题的匹配模式(pattern)，针对几何的电子习题的特征，正则表达式的组件可以是单个的字符、字符集合、字符范围、字符间的选择或者所有这些组件的任意组合。

例如，在学习一些简单的几何定理时，如勾股定理等，几何的电子习题会经常对线段标示长度，线段以字母表示，长度均为简单的数值，如“AB＝5”，对此，可以设置正则表达式为“([A-Z]{2})(？:＝|等于)([0-9]+)”。

针对不同的正则表达式，可将正则表达式与第一文本信息进行匹配。

在本方式中，可以使用正则表达式与第一文本信息进行匹配，检查第一文本信息中是否含有某种子串、将匹配的子串替换或者从某个串中取出符合某个条件的子串等。

针对确定匹配成功的第一文本信息，可确定匹配成功的第一文本信息为已知的几何条件或待解答的几何问题。

若第一文本信息中的某个子串与解析几何条件的正则表达式匹配成功，则确定该子串为几何条件，此时，可以将几何条件转换为特定结构的数据格式进行表示。

示例性地，几何条件“∠ABC＝90°”可表示为Equals(MeasureOf(Angle(ABC),90)，几何条件“AB＝5”可表示为Equals(LengthOf(Line(AB)),5)，几何条件“D是AB的中点”可表示为Equals(LengthOf(Line(AD))，LengthOf(Line(BD)))。

若第一文本信息中的某个子串与解析几何问题的正则表达式匹配成功，则确定该子串为几何问题，此时，可以将几何问题转换为特定结构的数据格式进行表示。

示例性地，几何问题“求AC的长度”可表示为Find(LengthOf(Line(AC)))。

在另一种提取几何条件、几何问题的方式中，电子习题具有图像数据，则在方式中，可以以符号、数字、字母中的至少一者作为目标，在图像数据中进行检测。

在几何的电子习题中，图像数据中包含丰富的信息，尤其用于显示几何图形的结构(如三角形、四边形等)，以及，对几何图形标注信息(如长度、角度、线段之间的关系等等)，这些信息多以符号、数字、字母表示，其中，符号可以为一些常用的数学符号(如角度的符号)，也可以为一些特定的几何符合(如角垂直的符号)，本实施例对此不加以限制。

因此，本实施例可以以符号、数字、字母中的至少一者作为目标，使用RetinaNet、YOLO、PSENet等目标检测模型在图像数据中检测存在该目标的区域。

针对不同的目标，若检测到符号、数字、字母中的至少一者所处的区域，则对区域进行光学字符识别，得到第二文本信息。

在目标检测模型输出存在符号、数字、字母中的至少一者的区域的情况下，可以截取该区域，使用CRNN等光学识别模型对该区域进行OCR操作，光学识别模型输出第二文本信息。

例如，如图3所示，在某个几何的电子习题中，绘制了一个三角形(几何图形)，里面标记了一些角度(60°、55°)、长度(73)、未知量(X)，则可以以符号、数字、字母作为目标，在三角形检测到了四个区域(即图2中间的框)，对这些区域进行OCR，则可以得到四个数据(即图2右侧的框)。

此外，在图像数据中识别几何图形，从而将第二文本信息赋予几何图形，得到已知的几何条件。

在本方式中，可以使用OpenCV等几何图形的提取工具从图像数据中提取点、线、角等几何图形。

将第二文本信息赋予该几何图形，使得第二文本信息与几何图形之间产生关联，从而得到几何条件。

考虑到对几何图形标注的信息基本在几何图形的附近，因此，一般情况下，第二文本信息为赋予距离与其最近的几何图形。

在一些情况中，第二文本信息为几何图形的标识信息，例如，第二文本信息为表示线段的字母，第二文本信息为标识角的字母，等等。

在另一些情况中，第二文本信息为几何图形的数值，例如，第二文本信息为表示线段的长度，第二文本信息为标识角的度数，等等。

当然，上述提取几何条件、几何问题的方式只是作为示例，在实施本申请实施例时，可以根据实际情况设置其它几何条件、几何问题的方式，本申请实施例对此不加以限制。另外，除了上述几何条件、几何问题的方式外，本领域技术人员还可以根据实际需要采用其它几何条件、几何问题的方式，本申请实施例对此也不加以限制。

步骤203、在每一次迭代强化学习模型时，分别设定当前几何条件为强化学习模型中环境的状态、设定几何定理为强化学习模型中的动作。

在强化学习模型中包含四个基本元素：智能体Agent、环境Environment、动作Action以及激励Reward。

其中，智能体Agent能够感知环境Environment的状态State，并且根据环境Environment提供的激励Reward，通过学习选择一个合适的动作Action，来最大化长期的激励Reward。

简而言之，智能体Agent根据环境Environment提供的激励Reward作为反馈，学习一系列的环境Environment的状态State到动作Action的映射，动作Action选择的原则是最大化未来累积的激励Reward的概率。选择的动作Action不仅影响当前时刻的激励Reward，还会影响下一时刻甚至未来的激励Reward，因此，智能体Agent在学习过程中的基本规则是：如果某个动作Action带来了环境Environment的正激励Reward，那么这一动作会被加强，如果某个动作Action带来了环境Environment的负激励Reward，那么这一动作会被削弱。

环境Environment会接收智能体Agent执行的一系列的动作Action，并且对这一系列的动作Action的好坏进行评价，并转换成一种可量化的(标量信号)激励Reward反馈给智能体Agent。同时，环境Environment还像智能体Agent提供它所处的状态State。

激励Reward是环境Environment提供给智能体Agent的一个可量化的标量反馈信号，用于评价智能体Agent在某一个时间所执行的动作Action的好坏。强化学习是基于一种最大化累计激励假设，即在强化学习中，智能体Agent进行一系列的动作Action选择的目标是最大化未来的累计激励Reward。

状态State包含了智能体Agent用于动作Action选择所参考的信息，它是历史History的一个函数。

则马尔科夫决策过程可表示如下：

M＝(S,A,P _sa,R)

其中，S表示环境的状态的集合，A表示为动作的集合，P _sa表示状态转移概率，即在状态s下采取动作a后，转移到其他状态的概率分布情况。

学习的目标即为针对上述马尔可夫决策过程，寻找最优策略π：

π(a|s)＝P[A _t＝a|S _t＝s]

即在t时刻，对于给定状态s，寻找该状态s下执行动作a的最优策略。

在本实施例中，在每一次迭代强化学习模型时，电子设备(几何解题装置)为智能体Agent、几何条件为环境Environment的状态State、为几何条件选定几何定位为动作Action。

对于几何的电子习题，一般具有相应的几何的知识点，这些几何的知识点可归纳为不同的几何定理，例如，勾股定理、射影定理、欧拉定理、中线定理、斯图尔特定理、阿波罗尼斯定理、托勒密定理，等等，从而使用一个或多个几何定理设计几何的电子习题，因此，为了提高解答几何的电子习题的效率，提高解答几何的电子习题的准确性，可以按照几何的电子习题所包含的知识点筛选几何定理，从而构建动作Action的空间。

例如，如果某个几何的电子习题为初中考试的题目，此时，可以选择初中阶段所有的几何定理，构建动作Action的空间。

步骤204、执行强化学习模型，学习几何条件应用所有几何定理的价值，作为第一目标价值。

在执行强化学习模型进行学习时，电子设备(几何解题装置)作为智能体Agent，从几何的电子习题中提取几何条件，作为环境Environment的状态State，执行为几何条件应用几何定理这个动作Action，从而计算为几何条件应用几何定理这个动作Action的价值(Q值)，记为第一目标价值。

在具体实现中，可以应用DQN(Deep Q-Learing，深度Q学习)执行强化学习模型，对此，可预先对强化学习模型定义动作价值函数Q(s _t,a _t；ω)，其中，s _t表示当前时刻t的环境Environment的状态State，即当前时刻t电子习题的几何条件，a _t表示当前时刻t执行的动作Action，即当前t时刻选择的几何定理，ω为参数。

其中，动作价值函数又可称为Q网络，Q网络可以应用神经网络，例如，卷积神经网络(Convolutional Neural Networks，CNN)、循环神经网络(Recurrent Neural Network，RNN)、深度神经网络(Deep Neural Networks，DNN)，等等，从而将高维度、连续的状态空间(几何条件、各个几何定理)通过神经网络转换为低纬度的价值函数。

即，将几何条件、各个几何定理输入到动作价值函数中，输出各个几何定理的第一目标价值。

步骤205、按照第一目标价值选择与当前几何条件适配的几何定理。

在本实施例中，可以参考各个几何定理的第一目标价值，选择与几何条件适配的几何定理。

一般情况下，可以对比各个几何定理的第一目标价值，选择第一目标价值最高的几何定理为与几何条件适配的几何定理。

当然，除了选择第一目标价值最高的几何定理之外，还可以应用其他方式选择与几何条件适配的几何定理，例如，使用∈-贪婪法选择与几何条件适配的几何定理，即，有∈的概率选择第一目标价值的几何定理，有(1-∈)的概率随机选择几何定理，等等，本实施例对此不加以限制。

步骤206、计算在当前几何条件下，作为时间差分的目标的第二目标价值。

在本实施例中，强化学习模型中的动作价值函数(如DQN)的参数可以使用时间差分(Temporal Difference，TD)进行学习。

此时，可以在几何条件下，计算作为时间差分的目标的价值，记为第二目标价值。

在具体实现中，可以确定在当前时刻t的几何条件下、对选定的几何定理的激励Reward，电子设备(几何解题装置)执行为几何条件选择几何定理这个动作Action，目的是使得这个激励Reward最优。

一般情况下，激励Reward与匹配度正相关，该匹配度表示几何条件与电子习题的匹配程度，即，匹配度越高，激励Reward的数值越大，反之，匹配度越低，激励Reward的数值越小。

示例性地，在当前时刻的几何条件下，若几何信息为几何问题的答案，即匹配度最高，则确定对几何定理的激励为第一值。

在当前时刻的几何条件下，若几何信息为新的、已知的几何条件，即匹配度次之，则确定对几何定理的激励为第二值。

在当前时刻的几何条件下，若几何信息为除几何问题的答案与新的已知的几何条件之外的其他信息，即匹配度最低，则确定对几何定理的激励为第三值。

其中，第一值(如10)大于第二值(如1)，第二值大于第三值(如0)。

执行强化学习模型，学习在下一时刻(t+1)的几何条件下应用所有几何定理的价值，作为第一候选价值，表示为Q(s _t+1,a；ω)，其中，s _t+1表示下一时刻(t+1)的几何条件(状态)，a∈A，A表示几何定理形成的空间。

对所有第一候选价值进行比较，选择所有第一候选价值中的最大值，对所有第一候选价值中的最大值进行衰减(即，计算所有第一候选价值中的最大值与预设的衰减因子之间的乘积，该衰减因子的取值为(0，1))，获得第二候选价值。

计算激励与第二候选价值之间的和值，作为时间差分的目标的第二目标价值，表示为r _t+λ*Max _a∈AQ(s _t+1,a；ω)，其中，r _t为激励Reward，λ为衰减因子。

步骤207、计算第一目标价值与第二目标价值之间的差异，作为损失值。

在本实施例中，第一目标价值与第二目标价值均是强化学习模型(如DQN)对最优的动作(即选择几何定理)的价值估计，而第二目标价值的部分是基于观测到的激励，第二目标价值更加接近实际的结果，因此，可以将训练强化学习模型(如DQN)的目标设置为鼓励第一目标价值接近第二目标价值，此时，可以调用预设的损失函数，代入第一目标价值与第二目标价值，从而计算第一目标价值与第二目标价值之间的差异，记为损失值。

示例性地，将第一目标价值减去第二目标价值，获得价值差，将价值差的平方乘以预设的系数，得到损失值，则损失函数表示如下：

L(ω)＝α(q _t-y _t) ²

其中，L(ω)为损失值，α为系数，取值一般为(0，1)，如1/2，q _t为第一目标价值，y _t为第二目标价值。

步骤208、按照损失值更新强化学习模型。

在本实施例中，可以对强化学习模型(如DQN)进行反向传播，在反向传播的过程中，将损失值代入SGD(stochastic gradient descent，随机梯度下降)、Adam(Adaptive momentum，自适应动量)等优化算法中，计算更新强化学习模型(如DQN)中参数的梯度，分别按照该梯度更新强化学习模型(如DQN)中的参数。

当然，上述DQN算法只是作为强化学习模型的示例，在实施本实施例时，可以根据实际情况设置其他强化学习模型，例如，SARAS(一种时序差分法)算法、DDPG(Deep Deterministic Policy Gradient，深度确定性策略梯度)算法、A3C(Actor-Critic Algorithm，异步的优势行动者评论家算法)算法、NAF(normalized advantage functions，归一化优势函数)算法、TRPO(Trust region policy optimization，信赖域策略优化)算法、PPO(Proximal Policy Optimization，近端策略优化算法)算法，等等，本实施例对此不加以限制。另外，除了上述强化学习模型外，本领域技术人员还可以根据实际需要采用其它强化学习模型，本实施例对此也不加以限制。

步骤209、将当前几何定理应用于当前几何条件推论新的几何条件。

在本实施例中，在服务端中可以预先将实现各个几何定理的逻辑代码封装为各个应用程序编程接口(Application Program Interface，API)，并提供接口规范。

在确定当前几何定理与当前几何条件时，可以依据当前几何定理查询目标接口，其中，目标接口为用于实现当前几何定理的逻辑代码封装的应用程序编程接口。

不同几何定理需求的几何条件有所不同，因而可以按照接口规范从当前几何条件中选择适用于几何定理的几何条件，作为目标条件。

例如，如果几何定理为勾股定理，接口规范定义输入直角三角形的任意两条边长，那么，可以从从当前几何条件中选择直角三角形的任意两条边长，作为目标条件。

按照接口规范将目标条件作为打包至推论请求中，以及，将推论请求发送至目标接口，以调用逻辑代码按照几何定理对目标条件进行运算并返回新的几何条件。

步骤210、判断新的几何条件是否为几何问题的答案；若是，则执行步骤211，若否，则返回执行步骤203-步骤210。

步骤211、确定迭代强化学习模型结束，将新的几何条件作为几何问题的答案输出。

在本实施例中，可以检测当前迭代中新的几何条件是否为有效的信息，例如，新的几何条件是否具有有效的几何图形的标识信息、数值等。

如果新的几何条件有效，则可以将新的几何条件与几何问题进行比较，如果新的几何条件与几何问题匹配，则可以确认新的几何条件为几何问题的答案，则停止迭代强化学习模型结束，将该新的几何条件作为几何问题的答案输出给用户，如果新的几何条件与几何问题不匹配，则可以将新的几何条件添加到已知的几何条件中，使用强化学习模型进入下一次迭代的学习。

如果新的几何条件无效，则可以确认当前几何定理为错误的几何定理，选择其他几何定理进行推论。

步骤212、将答案封装至推导信息中。

步骤213、将推导信息发送至客户端、以将几何习题与推导信息关联显示。

在本实施例中，除了答案之外，使用几何定理逐步进行推论的过程对于用户的学习具有指导意义，因此，可以将答案封装至推导信息中，其中，推导信息为按照迭代强化学习模型的顺序依次显示将当前几何定理应用于当前几何条件推论新的几何条件，直至得到答案的过程。

服务端将推导信息封装至解题响应中，并将解题响应发送至客户端，客户端在接收到解题响应时，从解题响应中解析出推导信息，将几何习题与推导信息关联显示，向用户提示对几何习题按照推导信息进行解答，得到答案。

为使本领域技术人员更好地理解本实施例，以下通过具体的示例来说明本实施例中解答几何的电子习题的方法。

如图4A所示的几何的电子习题，具有题干信息(文本信息)与图例(图像数据)。

使用正则表达式对题干信息(文本信息)进行搜索，得到已知的几何条件为“RtΔABC”(即Triangle(A,B,C))、“AC＝3”(即Equals(Line(A,C),3))、“BC＝4”(即Equals(Line(B,C),4))，待求解的几何问题为“CD的长等于()”。

对图例(图像数据)进行搜索，得到已知的几何条件为“∠ACB＝90°”(即Equals(Angle(A,C,B),90))、“∠CDB＝90°”(即Equals(Angle(C,D,B),90))、“∠CDA＝90°”(即Equals(Angle(C,D,A),90))。

如图4B所示，在时刻t，将如下几何条件s _t输入DQN中学习：

Triangle(A,B,C)

Equals(Line(A,C),3)

Equals(Line(B,C),4)

Equals(Angle(A,C,B),90)

Equals(Angle(C,D,B),90)

Equals(Angle(C,D,A),90)

DQN学习得到几何定理a _t为勾股定理。

将几何定理a _t应用于几何条件s _t进行推理，得到几何信息“AB＝5”(即Equals(Line(A,B),5))。

由于“AB＝5”并非“CD的长等于()”的答案，因此，将“AB＝5”设置为新的已知的几何条件。

在时刻(t+1)，将如下几何条件s _t+1输入DQN中学习：

Triangle(A,B,C)

Equals(Line(A,C),3)

Equals(Line(B,C),4)

Equals(Angle(A,C,B),90)

Equals(Angle(C,D,B),90)

Equals(Angle(C,D,A),90)

Equals(Line(A,B),5)

DQN学习得到几何定理a _t+1为等面积法。

将几何定理a _t+1应用于几何条件s _t+1进行推理，得到新的几何条件“CD＝2.4”(即Equals(Line(C,D),2.4))。

由于“CD＝2.4”为“CD的长等于()”的答案，此时，解题结束。

实施例三

图5为本申请实施例三提供的一种几何解题方法的流程图，本实施例可适用于在构建题库的过程中使用强化学习模型对几何的电子习题进行求解的情况，该方法可以由几何解题装置来执行，该几何解题装置可以采用硬件和/或软件的形式实现，该几何解题装置可配置于电子设备中，该电子设备可以为服务端。如图5所示，该方法包括：

步骤501、从题库中查找学科属于几何的电子习题。

在本实施例中，管理人员可以登录学习平台，选择题库管理的功能，可批量选择导入学科属于几何的电子习题，这些电子习题可以为word、excel、音频数据、视频数据等格式。

在管理人员选择电子习题上传后，在相应界面将看到导入的试题，界面一般可分为输入区与检查区，输入区用于编辑电子习题，检查区为确认无误可导入的电子习题。

对于学习平台而言，可以智能检测可成功识别的电子习题的数量，对于未成功识别的电子习题，可根据系统给出的提示进行查看对比，重新编辑模板导入(可在输入区直接编辑)。

若导入的电子习题中与已有的电子习题重复，则可以展示重复的电子习题，用户可以选择去掉重复的电子习题，也可以选择依然导入重复的试题。

以上步骤操作无误后，即可成功导入电子习题到学习平台的题库中，等待以课后练习、试卷等形式使用。

步骤502、若电子习题缺乏答案和/或推导过程，则从电子习题中提取已知的几何条件与待解答的几何问题。

由于收录电子习题的过程中可能存在缺失，使得电子习题缺乏答案和/或推导过程，即在题库中未录入电子习题的答案和/或推导过程，服务端可以定时检测题库中的电子习题是否缺失答案和/或推导过程，在电子习题缺失答案和/或推导过程时，自动对电子习题进行解答，得到电子习题的答案和/或推导过程，当然，管理人员也可以在浏览到某个电子习题缺失答案和/或推导过程时，主动请求服务端对电子习题进行解答，得到电子习题的答案和/或推导过程。

在一种提取几何条件、几何问题的方式中，电子习题具有第一文本信息，那么，在本方式中，确定正则表达式，正则表达式用于描述已知的几何条件或待解答的几何问题的匹配模式；将正则表达式与第一文本信息进行匹配；确定匹配成功的第一文本信息为已知的几何条件或待解答的几何问题。

在另一种提取几何条件、几何问题的方式中，电子习题具有图像数据，则在方式中，可以以符号、数字、字母中的至少一者作为目标，在图像数据中进行检测；若检测到符号数字、字母中的至少一者所处的区域，则对区域进行光学字符识别，得到第二文本信息；在图像数据中识别几何图形；将第二文本信息赋予几何图形，得到已知的几何条件。

步骤503、在每一次迭代强化学习模型时，将当前几何条件输入强化学习模型中进行学习，得到与当前几何条件适配的几何定理。

在具体实现中，在每一次迭代强化学习模型时，分别设定当前几何条件为强化学习模型中环境的状态、设定几何定理为强化学习模型中的动作；执行强化学习模型，学习几何条件应用所有几何定理的价值，作为第一目标价值；按照第一目标价值选择与当前几何条件适配的几何定理。

此外，计算在当前几何条件下，作为时间差分的目标的第二目标价值；计算第一目标价值与第二目标价值之间的差异，作为损失值；按照损失值更新强化学习模型。

在计算在当前几何条件下，作为时间差分的目标的第二目标价值时，可以确定在当前时刻的几何条件下、对几何定理的激励；执行强化学习模型，学习在下一时刻的几何条件下应用所有几何定理的价值，作为第一候选价值；对所有第一候选价值中的最大值进行衰减，获得第二候选价值；计算激励与第二候选价值之间的和值，作为时间差分的目标的第二目标价值。

在确定在当前时刻的几何条件下、对几何定理的激励时，可以在当前时刻的几何条件下，若几何信息为几何问题的答案，则确定对几何定理的激励为第一值；在当前时刻的几何条件下，若几何信息为新的、已知的几何条件，则确定对几何定理的激励为第二值；在当前时刻的几何条件下，若几何信息为除几何问题的答案与新的已知的几何条件之外的其他信息，则确定对几何定理的激励为第三值；其中，第一值大于第二值，第二值大于第三值。

在计算第一目标价值与第二目标价值之间的差异，作为损失值时，可以将第一目标价值减去第二目标价值，获得价值差；将价值差的平方乘以预设的系数，得到损失值。

步骤504、将当前几何定理应用于当前几何条件推论新的几何条件。

在具体实现中，可以查询目标接口，目标接口为用于实现当前几何定理的逻辑代码封装的应用程序编程接口；从当前几何条件中选择适用于几何定理的几何条件，作为目标条件；将目标条件作为打包至推论请求中；将推论请求发送至目标接口，以调用逻辑代码按照几何定理对目标条件进行运算并返回新的几何条件。

步骤505、当迭代强化学习模型结束时，将新的几何条件为几何问题的答案。

在具体实现中，可以判断新的几何条件是否为几何问题的答案；若是，则确定迭代强化学习模型结束，将新的几何条件作为几何问题的答案输出；若否，则返回执行步骤503-步骤504。

步骤506、在题库中存储电子习题与推导信息之间的映射关系。

在本实施例中，可以将答案封装至推导信息中，其中，推导信息为按照迭代强化学习模型的顺序依次显示将当前几何定理应用于当前几何条件推论新的几何条件，直至得到答案的过程。

在题库中存储电子习题与推导信息之间的映射关系，表示对几何习题按照推导信息进行解答，得到答案，该映射关系可提供给管理人员进行校验。

在本实施例中，由于电子习题的推导过程与实施例一、实施例二的应用基本相似，所以描述的比较简单，相关之处参见实施例一、实施例二的部分说明即可，本实施例在此不加以详述。

在本实施例中，服务端从题库中查找学科属于几何的电子习题；若电子习题缺乏答案和/或推导过程，则从电子习题中提取已知的几何条件与待解答的几何问题；在每一次迭代强化学习模型时，将当前几何条件输入强化学习模型中进行学习，得到与当前几何条件适配的几何定理；将当前几何定理应用于当前几何条件推论新的几何条件；当迭代强化学习模型结束时，将新的几何条件为几何问题的答案；在题库中存储电子习题与推导信息之间的映射关系，推导信息为按照迭代强化学习模型的顺序依次显示将当前几何定理应用于当前几何条件推论新的几何条件，直至得到答案的过程。本实施例提出了一种富有推理性的几何解题框架，兼容性强，可扩展性强，在几何解题框架中引入强化学习模型学习几何定理，逻辑清晰，可解析性强，保持了几何定理与几何定理之间的关联性，提高了几何解题的精准度，再者，本实施例可以一步步地预测几何定理进行推论，可推论的过程进行描述，更加符合用户学习的过程，达到知其然，更知其所以然的效果，此外，将几何解题的推导信息记录在题库中供管理人员校验，可以大量减少用户解题、构建题库的操作，大大提高了构建题库的效率。

实施例四

图6为本申请实施例四提供的一种几何解题装置的结构示意图。如图6所示，该装置应用于服务端，包括：

解题请求接收模块601，用于接收客户端针对学科属于几何的电子习题发送的解题请求；

习题信息提取模块602，用于响应于所述解题请求，从所述电子习题中提取已知的几何条件与待解答的几何问题；

几何定理学习模块603，用于在每一次迭代强化学习模型时，将当前所述几何条件输入所述强化学习模型中进行学习，得到与当前所述几何条件适配的几何定理；

几何条件推论模块604，用于将当前所述几何定理应用于当前所述几何条件推论新的几何条件；

答案确定模块605，用于当迭代所述强化学习模型结束时，确定新的所述几何条件为所述几何问题的答案；

答案发送模块606，用于将所述答案发送至所述客户端、以将所述几何习题与所述答案关联显示。

在本申请的一个实施例中，所述解题请求接收模块601包括：

客户端请求接收模块，用于接收到客户端发送的解题请求；

图像数据提取模块，用于从所述解题请求中提取图像数据；

电子习题读取模块，用于在所述图像数据中读取学科属于几何的电子习题。

在本申请的一个实施例中，所述电子习题具有第一文本信息；

所述习题信息提取模块602包括：

正则表达式确定模块，用于确定正则表达式，所述正则表达式用于描述已知的几何条件或待解答的几何问题的匹配模式；

正则表达式匹配模块，用于将所述正则表达式与所述第一文本信息进行匹配；

匹配成功确定模块，用于确定匹配成功的所述第一文本信息为已知的几何条件或待解答的几何问题。

在本申请的另一个实施例中，所述电子习题具有图像数据；

所述习题信息提取模块602包括：

目标检测模块，用于以符号、数字、字母中的至少一者作为目标，在所述图像数据中进行检测；

光学字符识别模块，用于若检测到所述符号所述数字、所述字母中的至少一者所处的区域，则对所述区域进行光学字符识别，得到第二文本信息；

几何图形识别模块，用于在所述图像数据中识别几何图形；

文本赋予模块，用于将所述第二文本信息赋予所述几何图形，得到已知的几何条件。

在本申请的一个实施例中，所述几何定理学习模块603包括：

强化学习模块设定模块，用于在每一次迭代强化学习模型时，分别设定当前所述几何条件为所述强化学习模型中环境的状态、设定所述几何定理为强化学习模型中的动作；

强化学习模块执行模块，用于执行所述强化学习模型，学习所述几何条件应用所有所述几何定理的价值，作为第一目标价值；

几何定理选择模块，用于按照所述第一目标价值选择与当前所述几何条件适配的所述几何定理。

在本申请的一个实施例中，所述几何定理学习模块603还包括：

目标计算模块，用于计算在当前所述几何条件下，作为时间差分的目标的第二目标价值；

损失值计算模块，用于计算所述第一目标价值与所述第二目标价值之间的差异，作为损失值；

强化学习模型更新模块，用于按照所述损失值更新所述强化学习模型。

在本申请的一个实施例中，所述目标计算模块包括：

激励确定模块，用于确定在当前时刻的所述几何条件下、对所述几何定理的激励；

第一候选价值计算模块，用于执行所述强化学习模型，学习在下一时刻的所述几何条件下应用所有所述几何定理的价值，作为第一候选价值；

第二候选价值计算模块，用于对所有所述第一候选价值中的最大值进行衰减，获得第二候选价值；

目标价值计算模块，用于计算所述激励与所述第二候选价值之间的和值，作为时间差分的目标的第二目标价值。

在本申请的一个实施例中，所述激励确定模块包括：

第一值确定模块，用于在当前时刻的所述几何条件下，若所述几何信息为所述几何问题的答案，则确定对所述几何定理的激励为第一值；

第二值确定模块，用于在当前时刻的所述几何条件下，若所述几何信息为新的、已知的几何条件，则确定对所述几何定理的激励为第二值；

第三值确定模块，用于在当前时刻的所述几何条件下，若所述几何信息为除所述几何问题的答案与新的已知的几何条件之外的其他信息，则确定对所述几何定理的激励为第三值；

其中，所述第一值大于所述第二值，所述第二值大于所述第三值。

在本申请的一个实施例中，所述损失值计算模块包括：

价值差计算模块，用于将所述第一目标价值减去所述第二目标价值，获得价值差；

价值差处理模块，用于将所述价值差的平方乘以预设的系数，得到损失值。

在本申请的一个实施例中，所述几何条件推论模块604包括：

接口查询模块，用于查询目标接口，所述目标接口为用于实现当前所述几何定理的逻辑代码封装的应用程序编程接口；

目标条件选择模块，用于从当前所述几何条件中选择适用于所述几何定理的所述几何条件，作为目标条件；

推论请求打包模块，用于将所述目标条件作为打包至推论请求中；

接口调用模块，用于将所述推论请求发送至所述目标接口，以调用所述逻辑代码按照所述几何定理对所述目标条件进行运算并返回新的几何条件。

在本申请的一个实施例中，所述答案确定模块605包括：

答案判断模块，用于判断新的所述几何条件是否为所述几何问题的答案；若是，则调用几何条件输出模块，若否，则返回调用所述几何定理学习模块603与所述几何条件推论模块604；

几何条件输出模块，用于确定迭代所述强化学习模型结束，将新的所述几何条件作为所述几何问题的答案输出。

在本申请的一个实施例中，所述答案发送模块606包括：

推导信息封装模块，用于将所述答案封装至推导信息中，所述推导信息为按照迭代所述强化学习模型的顺序依次显示将当前所述几何定理应用于当前所述几何条件推论新的几何条件，直至得到所述答案的过程；

推导信息发送模块，用于将所述推导信息发送至所述客户端、以将所述几何习题与所述推导信息关联显示。

本申请实施例所提供的几何解题装置可执行本申请任意实施例所提供的几何解题方法，具备执行几何解题方法相应的功能模块和有益效果。

实施例五

图7为本申请实施例五提供的一种几何解题装置的结构示意图。如图7所示，该装置应用于服务端，包括：

电子习题查找模块701，用于从题库中查找学科属于几何的电子习题；

习题信息提取模块702，用于若所述电子习题缺乏答案和/或推导过程，则从所述电子习题中提取已知的几何条件与待解答的几何问题；

几何定理学习模块703，用于在每一次迭代强化学习模型时，将当前所述几何条件输入所述强化学习模型中进行学习，得到与当前所述几何条件适配的几何定理；

几何条件推论模块704，用于将当前所述几何定理应用于当前所述几何条件推论新的几何条件；

答案确定模块705，用于当迭代所述强化学习模型结束时，将新的所述几何条件为所述几何问题的答案；

习题存储模块706，用于在所述题库中存储所述电子习题与推导信息之间的映射关系，所述推导信息为按照迭代所述强化学习模型的顺序依次显示将当前所述几何定理应用于当前所述几何条件推论新的几何条件，直至得到所述答案的过程。

所述习题信息提取模块702包括：

在本申请的另一个实施例中，所述电子习题具有图像数据；

所述习题信息提取模块702包括：

几何图形识别模块，用于在所述图像数据中识别几何图形；

在本申请的一个实施例中，所述几何定理学习模块703包括：

在本申请的一个实施例中，所述几何定理学习模块703还包括：

在本申请的一个实施例中，所述目标计算模块包括：

在本申请的一个实施例中，所述激励确定模块包括：

在本申请的一个实施例中，所述损失值计算模块包括：

在本申请的一个实施例中，所述几何条件推论模块704包括：

在本申请的一个实施例中，所述答案确定模块705包括：

答案判断模块，用于判断新的所述几何条件是否为所述几何问题的答案；若是，则调用几何条件输出模块，若否，则返回调用所述几何定理学习模块703与所述几何条件推论模块704；

实施例六

图8示出了可以用来实施本申请的实施例的电子设备10的结构示意图。电子设备旨在表示各种形式的数字计算机，诸如，膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置，诸如，个人数字处理、蜂窝电话、智能电话、可穿戴设备(如头盔、眼镜、手表等)和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例，并且不意在限制本文中描述的和/或者要求的本申请的实现。

如图8所示，电子设备10包括至少一个处理器11，以及与至少一个处理器11通信连接的存储器，如只读存储器(ROM)12、随机访问存储器(RAM) 13等，其中，存储器存储有可被至少一个处理器执行的计算机程序，处理器11可以根据存储在只读存储器(ROM)12中的计算机程序或者从存储单元18加载到随机访问存储器(RAM)13中的计算机程序，来执行各种适当的动作和处理。在RAM 13中，还可存储电子设备10操作所需的各种程序和数据。处理器11、ROM 12以及RAM 13通过总线14彼此相连。输入/输出(I/O)接口15也连接至总线14。

电子设备10中的多个部件连接至I/O接口15，包括：输入单元16，例如键盘、鼠标等；输出单元17，例如各种类型的显示器、扬声器等；存储单元18，例如磁盘、光盘等；以及通信单元19，例如网卡、调制解调器、无线通信收发机等。通信单元19允许电子设备10通过诸如因特网的计算机网络和/或各种电信网络与其他设备交换信息/数据。

处理器11可以是各种具有处理和计算能力的通用和/或专用处理组件。处理器11的一些示例包括但不限于中央处理单元(CPU)、图形处理单元(GPU)、各种专用的人工智能(AI)计算芯片、各种运行机器学习模型算法的处理器、数字信号处理器(DSP)、以及任何适当的处理器、控制器、微控制器等。处理器11执行上文所描述的各个方法和处理，例如几何解题方法。

在一些实施例中，几何解题方法可被实现为计算机程序，其被有形地包含于计算机可读存储介质，例如存储单元18。在一些实施例中，计算机程序的部分或者全部可以经由ROM 12和/或通信单元19而被载入和/或安装到电子设备10上。当计算机程序加载到RAM 13并由处理器11执行时，可以执行上文描述的几何解题方法的一个或多个步骤。备选地，在其他实施例中，处理器11可以通过其他任何适当的方式(例如，借助于固件)而被配置为执行几何解题方法。

本文中以上描述的系统和技术的各种实施方式可以在数字电子电路系统、集成电路系统、场可编程门阵列(FPGA)、专用集成电路(ASIC)、专用标准产品(ASSP)、芯片上系统的系统(SOC)、负载可编程逻辑设备(CPLD)、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括：实施在一个或者多个计算机程序中，该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程系统上执行和/或解释，该可编程处理器可以是专用或者通用可编程处理器，可以从存储系统、至少一个输入装置、和至少一个输出装置接收数据和指令，并且将数据和指令传输至该存储系统、该至少一个输入装置、和该至少一个输出装置。

用于实施本申请的方法的计算机程序可以采用一个或多个编程语言的任何组合来编写。这些计算机程序可以提供给通用计算机、专用计算机或其他可编程数据处理装置的处理器，使得计算机程序当由处理器执行时使流程图和/或框图中所规定的功能/操作被实施。计算机程序可以完全在机器上执行、部分地在机器上执行，作为独立软件包部分地在机器上执行且部分地在远程机器上执行或完全在远程机器或服务器上执行。

在本申请的上下文中，计算机可读存储介质可以是有形的介质，其可以包含或存储以供指令执行系统、装置或设备使用或与指令执行系统、装置或设备结合地使用的计算机程序。计算机可读存储介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体系统、装置或设备，或者上述内容的任何合适组合。备选地，计算机可读存储介质可以是机器可读信号介质。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦除可编程只读存储器(EPROM或快闪存储器)、光纤、便捷式紧凑盘只读存储器(CD-ROM)、光学储存设备、磁储存设备、或上述内容的任何合适组合。

为了提供与用户的交互，可以在电子设备上实施此处描述的系统和技术，该电子设备具有：用于向用户显示信息的显示装置(例如，CRT(阴极射线管)或者LCD(液晶显示器)监视器)；以及键盘和指向装置(例如，鼠标或者轨迹球)，用户可以通过该键盘和该指向装置来将输入提供给电子设备。其它种类的装置还可以用于提供与用户的交互；例如，提供给用户的反馈可以是任何形式的传感反馈(例如，视觉反馈、听觉反馈、或者触觉反馈)；并且可以用任何形式(包括声输入、语音输入或者、触觉输入)来接收来自用户的输入。

可以将此处描述的系统和技术实施在包括后台部件的计算系统(例如，作为数据服务器)、或者包括中间件部件的计算系统(例如，应用服务器)、或者包括前端部件的计算系统(例如，具有图形用户界面或者网络浏览器的用户计算机，用户可以通过该图形用户界面或者该网络浏览器来与此处描述的系统和技术的实施方式交互)、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算系统中。可以通过任何形式或者介质的数字数据通信(例如，通信网络)来将系统的部件相互连接。通信网络的示例包括：局域网(LAN)、广域网(WAN)、区块链网络和互联网。

计算系统可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。服务器可以是云服务器，又称为云计算服务器或云主机，是云计算服务体系中的一项主机产品，以解决了传统物理主机与VPS服务中，存在的管理难度大，业务扩展性弱的缺陷。

实施例七

本申请实施例还提供了一种计算机程序产品，该计算机程序产品包括计算机程序，该计算机程序在被处理器执行时实现如本申请任一实施例所提供的几何解题方法。

计算机程序产品在实现的过程中，可以以一种或多种程序设计语言或其组合来编写用于执行本申请操作的计算机程序代码，程序设计语言包括面向对象的程序设计语言，诸如Java、Smalltalk、C++，还包括常规的过程式程序设计语言，诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中，远程计算机可以通过任意种类的网络——包括局域网(LAN)或广域网(WAN)—连接到用户计算机，或者，可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。

应该理解，可以使用上面所示的各种形式的流程，重新排序、增加或删除步骤。例如，本申请中记载的各步骤可以并行地执行也可以顺序地执行也可以不同的次序执行，只要能够实现本申请的技术方案所期望的结果，本文在此不进行限制。

Claims

一种几何解题方法，应用于服务端，包括：

接收客户端针对学科属于几何的电子习题发送的解题请求；

响应于所述解题请求，从所述电子习题中提取已知的几何条件与待解答的几何问题；

在每一次迭代强化学习模型时，将当前所述几何条件输入所述强化学习模型中进行学习，得到与当前所述几何条件适配的几何定理；

将当前所述几何定理应用于当前所述几何条件推论新的几何条件；

当迭代所述强化学习模型结束时，确定新的所述几何条件为所述几何问题的答案；

将所述答案发送至所述客户端、以将所述几何习题与所述答案关联显示。
根据权利要求1所述的方法，其中，所述接收到客户端针对学科属于几何的电子习题发送的解题请求，包括：

接收到客户端发送的解题请求；

从所述解题请求中提取图像数据；

在所述图像数据中读取学科属于几何的电子习题。
根据权利要求1所述的方法，其中，所述电子习题具有第一文本信息；

所述从所述电子习题中提取已知的几何条件与待解答的几何问题，包括：

确定正则表达式，所述正则表达式用于描述已知的几何条件或待解答的几何问题的匹配模式；

将所述正则表达式与所述第一文本信息进行匹配；

确定匹配成功的所述第一文本信息为已知的几何条件或待解答的几何问题。
根据权利要求1所述的方法，其中，所述电子习题具有图像数据；

所述从所述电子习题中提取已知的几何条件与待解答的几何问题，包括：

以符号、数字、字母中的至少一者作为目标，在所述图像数据中进行检测；

若检测到所述符号所述数字、所述字母中的至少一者所处的区域，则对所述区域进行光学字符识别，得到第二文本信息；

在所述图像数据中识别几何图形；

将所述第二文本信息赋予所述几何图形，得到已知的几何条件。
根据权利要求1所述的方法，其中，所述在每一次迭代强化学习模型时，将当前所述几何条件输入所述强化学习模型中进行学习，得到与当前所述几何条件适配的几何定理，包括：

在每一次迭代强化学习模型时，分别设定当前所述几何条件为所述强化学习模型中环境的状态、设定所述几何定理为强化学习模型中的动作；

执行所述强化学习模型，学习所述几何条件应用所有所述几何定理的价值，作为第一目标价值；

按照所述第一目标价值选择与当前所述几何条件适配的所述几何定理。
根据权利要求5所述的方法，其中，所述在每一次迭代强化学习模型时，将当前所述几何条件输入所述强化学习模型中进行学习，得到与当前所述几何条件适配的几何定理，还包括：

计算在当前所述几何条件下，作为时间差分的目标的第二目标价值；

计算所述第一目标价值与所述第二目标价值之间的差异，作为损失值；

按照所述损失值更新所述强化学习模型。
根据权利要求6所述的方法，其中，所述计算在当前所述几何条件下，作为时间差分的目标的第二目标价值，包括：

确定在当前时刻的所述几何条件下、对所述几何定理的激励；

执行所述强化学习模型，学习在下一时刻的所述几何条件下应用所有所述几何定理的价值，作为第一候选价值；

对所有所述第一候选价值中的最大值进行衰减，获得第二候选价值；

计算所述激励与所述第二候选价值之间的和值，作为时间差分的目标的第二目标价值。
根据权利要求7所述的方法，其中，所述确定在当前时刻的所述几何条件下、对所述几何定理的激励，包括：

在当前时刻的所述几何条件下，若所述几何信息为所述几何问题的答案，则确定对所述几何定理的激励为第一值；

在当前时刻的所述几何条件下，若所述几何信息为新的、已知的几何条件，则确定对所述几何定理的激励为第二值；

在当前时刻的所述几何条件下，若所述几何信息为除所述几何问题的答案与新的已知的几何条件之外的其他信息，则确定对所述几何定理的激励为第三值；

其中，所述第一值大于所述第二值，所述第二值大于所述第三值。
根据权利要求6所述的方法，其中，所述计算所述第一目标价值与所述第二目标价值之间的差异，作为损失值，包括：

将所述第一目标价值减去所述第二目标价值，获得价值差；

将所述价值差的平方乘以预设的系数，得到损失值。
根据权利要求1-9中任一项所述的方法，其中，所述将当前所述几何定理应用于当前所述几何条件推论新的几何条件，包括：

查询目标接口，所述目标接口为用于实现当前所述几何定理的逻辑代码封装的应用程序编程接口；

从当前所述几何条件中选择适用于所述几何定理的所述几何条件，作为目标条件；

将所述目标条件作为打包至推论请求中；

将所述推论请求发送至所述目标接口，以调用所述逻辑代码按照所述几何定理对所述目标条件进行运算并返回新的几何条件。
根据权利要求1-9中任一项所述的方法，其中，所述当迭代所述强化学习模型结束时，确定新的所述几何信息为所述几何问题的答案，包括：

判断新的所述几何条件是否为所述几何问题的答案；

若是，则确定迭代所述强化学习模型结束，将新的所述几何条件作为所述几何问题的答案输出；

若否，则返回执行所述在每一次迭代强化学习模型时，将当前所述几何条件输入所述强化学习模型中进行学习，得到与当前所述几何条件适配的几何定理、所述将当前所述几何定理应用于当前所述几何条件推论新的几何条件。
根据权利要求1-9中任一项所述的方法，其中，所述将所述答案发送至所述客户端、以将所述几何习题与所述答案关联显示，包括：

将所述答案封装至推导信息中，所述推导信息为按照迭代所述强化学习模型的顺序依次显示将当前所述几何定理应用于当前所述几何条件推论新的几何条件，直至得到所述答案的过程；

将所述推导信息发送至所述客户端、以将所述几何习题与所述推导信息关联显示。
一种几何解题方法，应用于服务端，包括：

从题库中查找学科属于几何的电子习题；

若所述电子习题缺乏答案和/或推导过程，则从所述电子习题中提取已知的几何条件与待解答的几何问题；

在每一次迭代强化学习模型时，将当前所述几何条件输入所述强化学习模型中进行学习，得到与当前所述几何条件适配的几何定理；

将当前所述几何定理应用于当前所述几何条件推论新的几何条件；

当迭代所述强化学习模型结束时，将新的所述几何条件为所述几何问题的答案；

在所述题库中存储所述电子习题与推导信息之间的映射关系，所述推导信息为按照迭代所述强化学习模型的顺序依次显示将当前所述几何定理应用于当前所述几何条件推论新的几何条件，直至得到所述答案的过程。
一种几何解题装置，应用于服务端，包括：

解题请求接收模块，用于接收客户端针对学科属于几何的电子习题发送的解题请求；

习题信息提取模块，用于响应于所述解题请求，从所述电子习题中提取已知的几何条件与待解答的几何问题；

几何定理学习模块，用于在每一次迭代强化学习模型时，将当前所述几何条件输入所述强化学习模型中进行学习，得到与当前所述几何条件适配的几何定理；

几何条件推论模块，用于将当前所述几何定理应用于当前所述几何条件推论新的几何条件；

答案确定模块，用于当迭代所述强化学习模型结束时，确定新的所述几何条件为所述几何问题的答案；

答案发送模块，用于将所述答案发送至所述客户端、以将所述几何习题与所述答案关联显示。
一种几何解题装置，应用于服务端，包括：

电子习题查找模块，用于从题库中查找学科属于几何的电子习题；

习题信息提取模块，用于若所述电子习题缺乏答案和/或推导过程，则从所述电子习题中提取已知的几何条件与待解答的几何问题；

几何定理学习模块，用于在每一次迭代强化学习模型时，将当前所述几何条件输入所述强化学习模型中进行学习，得到与当前所述几何条件适配的几何定理；

几何条件推论模块，用于将当前所述几何定理应用于当前所述几何条件推论新的几何条件；

答案确定模块，用于当迭代所述强化学习模型结束时，将新的所述几何条件为所述几何问题的答案；

习题存储模块，用于在所述题库中存储所述电子习题与推导信息之间的映射关系，所述推导信息为按照迭代所述强化学习模型的顺序依次显示将当前所述几何定理应用于当前所述几何条件推论新的几何条件，直至得到所述答案的过程。
一种电子设备，包括：

至少一个处理器；以及

与所述至少一个处理器通信连接的存储器；其中，

所述存储器存储有可被所述至少一个处理器执行的计算机程序，所述计算机程序被所述至少一个处理器执行，以使所述至少一个处理器能够执行权利要求1-13中任一项所述的几何解题方法。
一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，所述计算机程序用于使处理器执行时实现权利要求1-13中任一项所述的几何解题方法。